0

Python для Hadoop и Spark

  • Код курса: F.Py4AHS
  • Длительность: 5 д.
  • Цена: 60 000 Р

Расписание курса

26.10.2020 10:00
60 000 Р
Москва
Программа курса Py4AHS
 
Python для Hadoop и Spark.
 
Продолжительность курса — 5 дней (40 академических часов).
 
Аудитория.
 
Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по анализу данных, планирующих использовать Python для решения задач, связанных с обработкой больших объемов данных с помощью Apache Hadoop и Apache Spark.
 
Необходимая предварительная подготовка.
 
Необходимы базовые навыки программирования на языке Python и знакомство с пакетами NumPy и Pandas в объеме курса "Python для анализа данных".
 
Результат курса.
 
В результате прослушивания курса слушатели: 
  • Освоят взаимодействие с Hadoop средствами Python;
  • Ознакомятся с архитектурой и возможностями Apache Spark;
  • Практически изучат работу с библиотекой Machine Learning Library (MLlib);
  • Узнают, как работать с Resilient Distributed Datasets (RDDs);
  • Практически освоят популярные методы ML (Machine Learning) и DS (Data Science).
Программа курса:
 
 1 Архитектура Apache Hadoop.
 1.1 Распределенная файловая система HDFS.
 1.2 Алгоритм MapReduce.
 1.3 Менеджер ресурсов YARN.
 1.4 Важнейшие проекты экосистемы Hadoop.
 2 Взаимодействие Python и HDFS.
 2.1 Протоколы Hadoop для доступа к HDFS.
 2.2 Доступ посредством WebHDFS.
 2.3 Прямой RPC доступ.
 2.4 Интерфейсы libhdfs и libhdfs3.
 2.5 Пакет pyarrow.
 3 MapReduce с Python.
 3.1 Интерфейс Hadoop streaming.
 3.2 Реализация MapReduce с помощью Python.
 3.3 Запуск задания MapReduce.
 4 Pig и Python.
 4.1 Основы Pig Latin.
 4.2 Запуск Pig.
 4.3 Расширение Pig с помощью Python.
 5 Архитектура Apache Spark.
 5.1 Возможности Apache Spark.
 5.2 Компоненты Spark.
 5.3 Библиотека Machine Learning Library (MLlib).
 5.4 Взаимодействие и сферы применения Hadoop и Spark.
 5.5 Пакет PySpark.
 6 Управление потоком исполнения.
 6.1 Оркестратор Apache Oozie.
 6.2 Python и Oozie.
 6.3 Конвейеризация пакетной обработки Spotify Luigi.
 7 Работа с Resilient Distributed Dataset.
 7.1 Создание RDD (Resilient Distributed Dataset).
 7.2 Операции Spark.
 7.3 Объекты DataFrame в Pandas и PySpark.
 7.4 Работа с DataFrame.
 8 Статистический анализ.
 8.1 Методы одномерного статистического анализа.
 8.2 Методы многомерного статистического анализа.
 9 Регрессия.
 9.1 Линейная регерессия.
 9.2 Обобщенная линейная регрессия.
 9.3 Деревья принятия решений.
 9.4 Алгоритм случайного леса.
 9.5 Метод градиентного спуска.
 10 Регуляризация.
 10.1 Метод наименьших квадратов.
 10.2 Гребневая регрессия (Ridge regression).
 10.3 Метод LASSO.
 10.4 Метод Эластичной Сети (ElasticNet).
 11 Классификация.
 11.1 Наивная байесовская классификация.
 11.2 Логистическая регрессия.
 11.3 Деревья принятия решений.
 11.4 Классификация случайным лесом.
 11.5 Градиентный бустинг.
 12 Кластеризация.
 12.1 Применение кластеризации.
 12.2 Метод k-средних.
 13 RFM анализ.
 13.1 Методология и терминология RFM.
 13.2 Стадии RFM.
 14 Интеллектуальный анализ текстов (Text Mining).
 14.1 Извлечение текста из образов.
 14.2 Предварительная обработка текста.
 14.3 Классификация текста.
 14.4 Анализ намерений (Sentiment/Opinion Mining).
 14.5 Модель LDA (Latent Dirichlet Allocation).
 15 Анализ социальных сетей.
 15.1 Методология.
 15.2 Построение сети связей (Co-occurrence Network).
 16 Метод Монте-Карло.
 16.1 Симуляция выигрыша.
 16.2 Симуляция случайных процессов.
 16.3 Применения метода Монте-Карло.
 16.4 Марковские цепи Монте-Карло.
 16.5 Алгоритм Метрополис.
 17 Введение в нейронные сети.
Записаться на курс: Python для Hadoop и Spark

Город проведения

* - обязательные поля


Поделиться
Отправьте другу или начальнику ссылку на почту
Заявка на обучение

* - обязательные поля

Заявка на обучение

Записаться на курс:

Город:

Дата:

Город проведения

* - обязательные поля