Администрирование Hadoop-кластера
- Код курса: F.BDHADM
- Длительность: 5 д.
- Цена: 90 000 Р
Расписание курса
Описание курса
Системные администраторы, системные архитекторы, разработчики Hadoop.
Предварительная подготовка:
- Начальный опыт работы в Unix.
Аннотация:
Hadoop является наиболее популярной открытой платформой для распределенных вычислений. Курс содержит расширенную информацию по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройкам безопасности системы на базе Hadoop. Данный курс включает необходимую теоретическую подготовку и наглядные практические примеры развертывания и администрирования Hadoop-кластера, в том числе в облачной инфраструктуре. Практические занятия выполняются в кластерной среде AWS с использованием программного обеспечения Cloudera Manager и подготавливают слушателей к сдаче сертификационного экзамена Cloudera Certified Administrator for Apache Hadoop (CCAH).
Программа курса:
- Введение в Big Data
- Что такое Big Data
- Понимание проблемы Big Data
- Hadoop Distributed File System
- Блоки HDFS
- Основные команды работы с HDFS
- Операции чтения и записи, назначения HDFS
- Архитектура HDFS
- Архитектура Apache Hadoop
- Отказоустойчивость Hadoop
- Name node
- YARN
- Map reduce framework
- Hadoop daemons
- Дизайн кластера Hadoop
- Дистрибутивы и версии Hadoop: различия и ограничения
- Требования программного и аппаратного обеспечения
- Вопросы масштабирования
- Планирование кластера
- Оптимизация уровня ядра.
- Hadoop в облаке.
- Установка кластера
- Установка Hadoop кластера
- Выбор начальной конфигурации
- Начальная конфигурация HDFS и MapReduce
- Файлы логов
- Установка Hadoop клиентов
- Установка Hadoop кластера в облаке
- Выбор вендора и хостинга
- Установка с использованием виртуального образа
- Amazon EMR
- MapReduce
- Введение в MapReduce
- Компоненты MapReduce
- Работа программы MapReduce
- YARN MapReduce v2
- Восстановление после сбоя
- Операции обслуживания кластера Hadoop
- Дисковая подсистема
- Квоты
- Остановка, запуск, перезапуск
- Управление узлами
- Сетевая топология
- Настройка высокой доступности кластера и обновлений
- Импорт(загрузка) данных на HDFS
- Управление кластером Hadoop с использованием Cloudera Manager
- Установка Cloudera Manager
- Основные операции и задачи Cloudera Manager
- Мониторинг с Cloudera Manager
- Диагностика и разрешение проблем с Cloudera Manager
- Безопасность при работе с Big Data
- Многопользовательский режим
- Аутентификация и авторизация
- Kerberos, keytabs, principals
- Установка и конфигурирование Kerberos в Hadoop
- Мониторинг
- Ganglia
- JMX
- Logging
- Clustering
- Оптимизация и управление ресурсами
- Поиск узких мест
- Производительность
- Файловая система
- Worker Node
- Сетевая производительность
- FIFO scheduler
- Планировщик емкости (Capacity scheduler)
- Гранулярное управление ресурсами (Fair scheduler)
- Защита очередей и доминантное управление ресурсами
- Troubleshooting
- Data Node
- Task Tracker
- Job Tracker
- Name Node
- Резервное копирование (Backup)
- Репликация данных
- Резервное копирование и аварийное восстановление
- Best practices
- Импорт данных.
- Анализ логов
- Потоковая обработка
- Batch процессинг
- Импорт данных из социальных сетей
- Инструментарий Hadoop экосистемы
- Apache Pig - установка и функционал
- Apache Hive, понятие Hive таблицы, установка Hive
- Apache Scoop - установка и функционал
- Apache Flume - установка и функционал
- Apache Spark-установка и функционал
- Apache HBase- установка функционал