Введение в Apache Spark
- Код курса: F.ApSprk
- Длительность: 5 д.
- Цена: 60 000 Р
- Часы в неделю: 40 ак. часов.
Описание курса
Программа курса ApSprk
Введение в Apache Spark.
Продолжительность курса — 5 дней (40 академических часов).
Аудитория.
Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по машинному обучению (Machine Learning), анализу данных (Interactive Analytics), связанных с обработкой больших объемов данных с помощью Apache Spark.
Необходимая предварительная подготовка.
Необходимы базовые навыки программирования на языке Python в объеме курса "Python для анализа данных".
Результат курса.
В результате прослушивания курса слушатели:
- Ознакомятся с архитектурой и возможностями Apache Spark;
- Освоят взаимодействие со Spark средствами Python;
- Практически изучат работу с библиотекой Machine Learning Library (MLlib);
- Узнают, как работать с Resilient Distributed Datasets (RDDs);
- Практически освоят популярные методы ML (Machine Learning) и DS (Data Science).
Программа курса:
1 Обзор и архитектура Apache Spark.
1.1 Простейшая установка Spark.
1.2 Поддерживаемые языки программирования.
1.3 Способы развертывания.
1.4 Варианты хранилищ данных для Spark.
1.5 Состав Spark.
1.6 Устойчивые наборы данных (Resilient Distributed Datasets - RDD).
1.7 Конвейеры обработки данных (Data Pipelines).
1.8 Apache Spark и Hadoop.
2 Начало работы со Spark.
2.1 Интерактивная оболочка Spark Shell.
2.2 Обработка табличных данных.
2.3 Язык Spark SQL.
2.4 Загрузка данных в Spark DataFrames.
2.5 Запросы к Spark DataFrames.
3 Spark для машинного обучения.
3.1 Типы моделей машинного обучения.
3.2 Типичный цикл машинного обучения.
3.3 Контентные рекомендательные системы (Content-based filtering).
3.4 Коллаборативная фильтрация (Collaborative filtering).
3.5 Метод Alternating Least Squares.
3.6 Обучение рекомендательной модели.
3.7 Использование рекомендательной модели.
3.8 Оценка рекомендательной модели.
4 Модели для классификации.
4.1 Типы моделей для классификации.
4.2 Подготовка данных для классификации.
4.3 Обучение классифицирующей модели.
4.4 Использование классифицирующей модели.
4.5 Оценка классифицирующей модели.
5 Регрессионные модели.
5.1 Типы регрессий.
5.2 Подготовка данных для регрессионных моделей.
5.3 Обучение регрессионных моделей.
5.4 Использование регрессионных моделей.
5.5 Оценка регрессий.
6 Модели для кластеризации.
6.1 Типы моделей для кластеризации.
6.2 Подготовка данных для кластеризации.
6.3 Обучение моделей для кластеризации.
6.4 Использование кластеризации.
6.5 Оценка моделей для кластеризации.
7 Понижение размерности.
7.1 Типы моделей.
7.2 Подготовка данных.
7.3 Использование понижения размерности.
8 Потоковая обработка в Spark.
8.1 Реализация потоковой обработки в Spark.
8.2 Модели обработки.
8.3 Потоковая регрессионная модель.
Записаться на курс: Введение в Apache Spark