Введение в Airflow
Предварительные требования к слушателям:
Минимальные владение Python и ОС Linux.
Длительность
Доступ к курсу
Документы
Кому подойдет этот курс
Слушатели:
Познакомятся с принципами ациклических направленных графов DAG и их применением для создания и управления конвейеров обработки данных.
Научатся настраивать и использовать календарное планирование задач в Airflow.
Познакомятся с шаблонами заданий с использованием контекста
Поймут суть определения зависимостей.
Научатся запускать рабочие процессы.
Ознакомятся с принципами создания потоков обработки.
Узнают основы разработки пользовательских компонент.
Освоят подходы к тестированию.
Научатся использовать контейнеры Docker с Airflow.
Познакомятся с лучшими практиками использования Airflow.
Освоят базовые подходы обеспечения безопасности Airflow.
Программа курса
Airflow - средство построения конвейеров.
Применение Airflow.
Процесс сборки и обработки данных.
Создание Airflow DAG.
Выполнение Airflow DAG в среде Python.
Выполнение Airflow DAG в контейнере Docker.
Запуск по календарю на регулярной основе.
Обработка отказов заданий.
Инкрементальная обработка данных.
Даты выполнения Airflow.
Запуск DAG для данных из прошлых периодов - backfilling.
Дизайн заданий.
Контекст задания и шаблоны Jinja.
Взаимодействие операторов с внешними системами - hooks.
Ветвление.
Условные задания.
Триггерные правила.
Обобществление данных между задачами.
Связывание в цепь задач Python.
Запуск внешних DAG.
Запуск потоков обработки с помощью REST/CLI.
Написание собственного оператора hook.
Написание собственного сенсора.
Пакетирование компонент.
Работа с DAG и контекстом в тестах.
Использование тестов в разработке.
Использование Whirl.
Создание DTAP сред.
Использование конвейеров.
Запуск задач в Docker.
Запуск задач в Kubernetes.
Разработка воспроизводимых повторно задач.
Эффективная обработка данных.
Управление ресурсами.
Установка исполнителей.
Сборка отчетов о выполнении процессов Airflow.
Визуализация и мониторинг метрик Airflow.
Нотификация о невыполненных заданиях.
Шифрование хранимых данных.
Подключение к LDAP.
Шифрование трафика.