Программа курса Py4DS
Python для анализа данных.
Продолжительность курса — 5 дней (40 академических часов).
Аудитория:
Базовый курс разработан в качестве введения в исследование данных с помощью Python. Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по анализу данных, нуждающихся в удобном инструменте для решения задач, связанных с обработкой больших объемов данных.
Необходимая предварительная подготовка:
Приветствуется базовый опыт работы с операционными системами GNU/Linux и/или UNIX, хотя он не является обязательным, и минимальные знания в области программирования. Опыт программирования на языке Python не обязателен, но поможет в изучении материалов курса.
Результат курса.
На этом курсе слушатели изучают важнейшие библиотеки и инструменты Python для анализа данных (Data science). Также на курсе рассматриваются средства Python для визуализации данных, извлечения данных из всемирной паутины, основы работы с СУБД PostgreSQL, машинного обучения и обработки текстовых документов и произведений на обычных языках.
В результате прослушивания курса слушатели:
- Изучат базовый инструментарий Conda, Jupyter и Ipython, способы его установки и альтернативны;
- Получат общее понимание процесса анализа, извлечения и визуализации данных, построения гипотез и тестирования;
- Освоят работу с окружением Python и основными требуемыми инструментами, и библиотеками;
- Изучат работу с базовыми концепциями, понятиями, принципами и возможностями Python: типами данных, базовыми структурами данных, функциями и основами ООП;
- Изучат высокоуровневый математический инструментарий, предоставляемый пакетом NumPy;
- Освоят вычисления с помощью пакета SciPy;
- Смогут производить анализ и манипулирование данными с помощью пакета Pandas;
- Получат навыки машинного обучения с использованием Scikit-Learn;
- Освоят визуализацию с помощью средств Mathplotlib;
- Познакомятся с базовыми принципами машинного обучения с учителем и без него;
- Изучат использование Scikit-Learn для обработки текстов на обычных языках;
- Освоят автоматизированное получение данных из WEB;
- Изучат основы работы с СУБД на примере ORDBMS PostgreSQL;
- Познакомятся с запуском заданий MapReduce на кластере HADOOP.
Программа курса:
1 Настройка рабочей среды.
1.1 Варианты установки рабочей среды.
1.2 Установка с помощью pip.
1.3 Установка Docker контейнера Linux.
1.4 Установка Conda.
1.5 Создание виртуального окружения Python.
1.6 Установка IPython.
1.7 Установка и настройка Jupyter Notebooks.
2 Основы Python.
2.1 Типы данных и объекты.
2.2 Загрузка пакетов, пространства имен.
2.3 Чтение и запись данных.
2.4 Простое рисование графиков.
2.5 Управление потоком выполнение и ветвление.
2.6 Отладка.
2.7 Профилирование кода.
3 Подготовка и доступ к данным.
3.1 Загрузка CSV.
3.2 Подключение к СУБД на примере PostgreSQL.
3.3 Устранение излишней и избыточной информации.
3.4 Нормализация данных.
3.5 Форматирование данных.
4 Анализ, исследование и визуализация данных.
4.1 Работа с NumPy.
4.2 Массивы в NumPy.
4.3 Файлы, отображаемые в память.
4.4 Визуализация с помощью Mathplotlib.
5 Извлечение и манипулирование данными Pandas.
5.1 Манипулирование данными в Pandas.
5.2 Статистический анализ.
5.3 Анализ временных серий.
6 Введение в машинное обучение.
6.1 Организация входных данных.
6.2 Интерфейсы оценки, предсказания и трансформации.
6.3 Препроцессинг.
6.4 Регрессия.
6.5 Классификация.
6.6 Кластеризация.
7 Введение в работу с Apache HADOOP.
7.1 Основы Apache Hadoop.
7.2 Алгоритм MapReduce.
7.3 Пример задачи MapReduce на Python.
7.4 Возможности Spark MLlib.
Рекомендуемая схема обучения
Python для анализа данных текущий курс