Аналитика с MADlib в PostgreSQL и Greenplum
- Код курса: PF.MDL
- Длительность: 3 д.
- Цена: 42 000 Р
Описание курса
Аннотация:
Библиотека MADlib предоставляет инструментарий Data Science и Machine Learning, который можно использовать для выполнения аналитических задач в СУБД PostgreSQL или Greenplum. Этот курс позволяет изучить архитектуру и возможности MADlib.
Получаемые знания и навыки
Слушатели:
· Узнают как устанавливать MADlib и использовать его в средах ipython и Jupyter.
· Познакомятся с возможностями MADlib по работе с массивами и матрицами.
· Исследуют инструменты MADlib для подготовки данных.
· Изучат средства MADlib для построения статистических моделей.
· Научатся использовать методы обучения с учителем и без.
· Освоят анализ временных рядов и графов средствами MADlib.
· Познакомятся с инструментами оценки модели.
· Получат знания о средствах глубокого обучения в MADlib.
Целевая аудитория:
Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по анализу данных, планирующих использовать PostgreSQL или Greenplum для решения задач, связанных с обработкой больших объемов данных.
Предварительные требования к слушателям:
Минимальное знакомство с ОС Linux, опыт использования любой СУБД, знание SQL на базовом уровне.
Программа курса.
1 Установка MADlib.
1.1 Из скомпилированных пакетов.
1.2 С помощью PGXN.
1.3 Из исходного кода.
1.4 Пакет ipython-sql.
2 Обзор возможностей MADlib.
2.1 Линейная алгебра.
2.2 Матричная факторизация.
2.3 Описательная статистика.
2.4 Индуктивная статистика.
2.5 Обобщенные линейные модели.
2.6 Машинное обучение.
2.7 Временные последовательности.
2.8 Графы.
2.9 Вспомогательные утилиты MADlib.
3 Массивы и матрицы.
3.1 Операции с массивами.
3.2 Операции с матрицами.
3.3 Матричная факторизация.
3.4 Нормы и функции расстояния.
3.5 Разряженные векторы.
4 Обработка и подготовка данных.
4.1 Подготовка категорийных данных.
4.2 Функция path - работа с регулярными выражениями.
4.3 Функция pivot - суммаризация.
4.4 Реконструкция последовательностей событий - sessionize.
4.5 Выделение словоформ - stemming.
5 Статистика.
5.1 Описательная статистика.
5.2 Индуктивная статистика.
5.3 Вероятностные функции.
6 Выборки.
6.1 Балансированные выборки.
6.2 Стратифицированные выборки.
7 Обучение с учителем.
7.1 Регрессионные модели.
7.2 Поиск ближайших соседей KNN.
7.3 Метод условных случайных полей CRF.
7.4 Метод опорных векторов SVM.
7.5 Деревья принятия решений.
7.6 Случайные леса.
8 Обучение без учителя.
8.1 Ассоциативные правила.
8.2 Кластеризация.
8.3 Понижение размерности.
8.4 Латентное размещение Дирихле LDA.
9 Анализ временных рядов.
9.1 Интегрированная модель авторегрессии ARIMA.
9.2 Использование ARIMA.
10 Анализ графов.
10.1 Метрики для графов.
10.2 Поиск слабо связанных компонент.
10.3 Поиск кратчайших путей Single Source Shortest Paths.
10.4 Кратчайшие пути между парами вершин All Pairs Shortest Path.
10.5 Обход графа в ширину BFS.
10.6 Алгоритм Hyperlink-Induced Topic Search.
10.7 Ссылочное ранжирование PageRank.
11 Выбор и оценка модели.
11.1 Перекрестная проверка Cross Validation.
11.2 Функции предсказательных метрик.
11.3 Разделение обучающей и проверочных выборок.
12 Глубокое обучение.
12.1 Подготовка модели.
12.2 Обучение модели.
12.3 Множественное обучение моделей.
12.4 Утилита проверки GPU.