Python для анализа данных
Базовый курс разработан в качестве введения в исследование данных с помощью Python. Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по анализу данных, нуждающихся в удобном инструменте для решения задач, связанных с обработкой больших объемов данных.
Необходимая предварительная подготовка:
Приветствуется базовый опыт работы с операционными системами GNU/Linux и/или UNIX, хотя он не является обязательным, и минимальные знания в области программирования. Опыт программирования на языке Python не обязателен, но поможет в изучении материалов курса.
Длительность
Доступ к курсу
Документы
Расписание
Кому подойдет этот курс
В результате прослушивания курса слушатели:
Получат общее понимание процесса анализа, извлечения и визуализации данных, построения гипотез и тестирования;
Освоят работу с окружением Python и основными требуемыми инструментами, и библиотеками;
Изучат работу с базовыми концепциями, понятиями, принципами и возможностями Python: типами данных, базовыми структурами данных, функциями и основами ООП;
Изучат высокоуровневый математический инструментарий, предоставляемый пакетом NumPy;
Освоят вычисления с помощью пакета SciPy;
Смогут производить анализ и манипулирование данными с помощью пакета Pandas;
Получат навыки машинного обучения с использованием Scikit-Learn;
Освоят визуализацию с помощью средств Mathplotlib;
Познакомятся с базовыми принципами машинного обучения с учителем и без него;
Изучат использование Scikit-Learn для обработки текстов на обычных языках;
Освоят автоматизированное получение данных из WEB;
Изучат основы работы с СУБД на примере ORDBMS PostgreSQL;
Познакомятся с запуском заданий MapReduce на кластере HADOOP.
Программа курса
Установка с помощью pip.
Установка Docker контейнера Linux.
Установка Conda.
Создание виртуального окружения Python.
Установка IPython.
Установка и настройка Jupyter Notebooks.
Загрузка пакетов, пространства имен.
Чтение и запись данных.
Простое рисование графиков.
Управление потоком выполнение и ветвление.
Отладка.
Профилирование кода.
Подключение к СУБД на примере PostgreSQL.
Устранение излишней и избыточной информации.
Нормализация данных.
Форматирование данных.
Массивы в NumPy.
Файлы, отображаемые в память.
Визуализация с помощью Mathplotlib.
Статистический анализ.
Анализ временных серий.
Интерфейсы оценки, предсказания и трансформации.
Препроцессинг.
Регрессия.
Классификация.
Кластеризация.
Алгоритм MapReduce.
Пример задачи MapReduce на Python.
Возможности Spark MLlib.