Поиск
Расписание курсов
Поиск
Почта

edu@fors.ru

Основы Hadoop

  • Код курса: F.HADOOP
  • Длительность: 3 д.
  • Цена: 54 000 Р
Записаться Добавить в корзину

Аудитория:

Системные администраторы, системные архитекторы, разработчики Hadoop, желающие получить теоретические знания и практические навыки по установке, настройке и использованию кластера Hadoop с использованием дистрибутивов Cloudera и HortonWorks.

Предварительная подготовка:

o     Начальный опыт работы в Unix.

o     Опыт работы с текстовым редактором vi, nano

Аннотация:

Курс Основы Hadoop содержит базовые сведения по установке и настройке кластера Hadoop, выполнению основных операций в файловой системе HDFS, запуска задач MapReduce, основам управления ресурсами Hadoop с помощью планировщика задач YARN и знакомит слушателей с концепциями использования Hadoop и компонент экосистемы Hadoop (MapReduce, Apache Hive, Apache Pig, ApacheFlume, Apache Sqoop и Apache Spark) для организации хранения больших данных и процессинга.

Курс построен на сквозных практических примерах с тренировочными наборами данных, для запуска batch и потоковых (streaming) задач в Hadoop кластере. Индивидуальные кластера Hadoop для каждого слушателя в облачной инфраструктуре Amazon Web Services, что позволяет закрепить все концепции и понятия на практических заданиях с использованием выбранного слушателем дистрибутива (Cloudera Distributed Hadoop, HortonWorks HDP или ArenaData Hadoop) и познакомиться с выбранным программным обеспечением по управлению кластером Cloudera Manager или Apache Ambari на выбор.

Программа курса

1.     Основы Hadoop и Big Data

o     Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake.

2.     Архитектура Apache Hadoop

o     Hadoop сервисы и основные компоненты: Name node, Data Node, YARN, HDFS.

o     Отказоустойчивость и высокая доступность.

o     Batch процессинг.

o     Потоковая обработка

3.     Распределенная файловая система HDFS

o     Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты.

o     Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS.

o     Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы.

o     Влияние компрессии на производительность. Кодеки компрессии.

o     Импорт(загрузка) данных на HDFS

4.     MapReduce

o     Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce.

5.     Установка кластера Hadoop

o     Установка Hadoop кластера.

o     Выбор начальной конфигурации.

o     Оптимизация уровня ядра для узлов.

o     Оптимизация Java, JVM, Heap size, Garbage Collection

o     Начальная конфигурация HDFS и MapReduce.

o     Файлы логов и конфигураций.

o     Настройка подключений Hadoop клиентов.

o     Установка кластера Hadoop в облаке.

o     Особенности настройки кластера Hadoop на физическом сервере (on-premises)

o     Топология кластера Hadoop

o     Tiering — многоуровневое хранение данных (Cold, Warm,Hot, RAM disk). Storage policy — полтиики хранения. Метки конфигураций узлов. RACK awareness.

6.     Архитектура YARN — планировщик и менеджер ресурсов

o     Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность.

o     FIFO scheduler

o     Capacity scheduler (Планировщик по мощности)

o     Fair scheduler (Гранулярное управление ресурсами)

o     Защита очередей и доминантное управление ресурсами DRF

7.     Инструментарий Hadoop экосистемы

o     Графический интерфейс сервиса HUE/Zeppelin

o     Базовые операции в Apache Pig

o     Использование Apache Hive для доступа к данным на HDFS по SQL интерфейсу, понятие Hive таблицы, HiveQL — базовый синтаксис.

o     Импорт и экспорт SQL таблиц с применением Apache sqoop

o     Настройка агентов для управления потоковыми операциями с Apache Flume

o     Базовые операции в Apache Spark

Примерный список практических занятий для курса «Основы Hadoop»:

o     Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari

o     Базовые операции обслуживания кластера Hadoop и файловые операции HDFS

o     Управление ресурсами и запуском задач с использованием YARN и MapReduce

o     ETL операции преобразования с использованием Apache Pig

o     Знакомство с SQL интерфейсом доступа Apache Hive

o     Выполнение базовых операций импорта/экспорта с применением Apache sqoop

o     Настройка агента потоковой обработки Apache Flume(опционально)

o     Применение веб-интерфейса HUE/Zeppelin (опционально)

Записаться на курс: Основы Hadoop


Поделиться
Отправьте другу или начальнику ссылку на почту
Заявка на обучение

Заявка на обучение

Записаться на курс:

Город:

Дата: