F.PY4DS
Python для анализа данных
На этом курсе слушатели изучают важнейшие библиотеки и инструменты Python для анализа данных (Data science). Также на курсе рассматриваются средства Python для визуализации данных, извлечения данных из всемирной паутины, основы работы с СУБД PostgreSQL, машинного обучения и обработки текстовых документов и произведений на обычных языках.
Базовый курс разработан в качестве введения в исследование данных с помощью Python. Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по анализу данных, нуждающихся в удобном инструменте для решения задач, связанных с обработкой больших объемов данных.
Необходимая предварительная подготовка:
Приветствуется базовый опыт работы с операционными системами GNU/Linux и/или UNIX, хотя он не является обязательным, и минимальные знания в области программирования. Опыт программирования на языке Python не обязателен, но поможет в изучении материалов курса.
Базовый курс разработан в качестве введения в исследование данных с помощью Python. Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по анализу данных, нуждающихся в удобном инструменте для решения задач, связанных с обработкой больших объемов данных.
Необходимая предварительная подготовка:
Приветствуется базовый опыт работы с операционными системами GNU/Linux и/или UNIX, хотя он не является обязательным, и минимальные знания в области программирования. Опыт программирования на языке Python не обязателен, но поможет в изучении материалов курса.
Длительность
5 дней (40ч в неделю)
Доступ к курсу
Навсегда в личном кабинете
Документы
Удостоверение о повышении квалификации
Расписание
Кому подойдет этот курс
Аналитики
Разработчики
В результате прослушивания курса слушатели:
Изучат базовый инструментарий Conda, Jupyter и Ipython, способы его установки и альтернативны;
Получат общее понимание процесса анализа, извлечения и визуализации данных, построения гипотез и тестирования;
Освоят работу с окружением Python и основными требуемыми инструментами, и библиотеками;
Изучат работу с базовыми концепциями, понятиями, принципами и возможностями Python: типами данных, базовыми структурами данных, функциями и основами ООП;
Изучат высокоуровневый математический инструментарий, предоставляемый пакетом NumPy;
Освоят вычисления с помощью пакета SciPy;
Смогут производить анализ и манипулирование данными с помощью пакета Pandas;
Получат навыки машинного обучения с использованием Scikit-Learn;
Освоят визуализацию с помощью средств Mathplotlib;
Познакомятся с базовыми принципами машинного обучения с учителем и без него;
Изучат использование Scikit-Learn для обработки текстов на обычных языках;
Освоят автоматизированное получение данных из WEB;
Изучат основы работы с СУБД на примере ORDBMS PostgreSQL;
Познакомятся с запуском заданий MapReduce на кластере HADOOP.
Получат общее понимание процесса анализа, извлечения и визуализации данных, построения гипотез и тестирования;
Освоят работу с окружением Python и основными требуемыми инструментами, и библиотеками;
Изучат работу с базовыми концепциями, понятиями, принципами и возможностями Python: типами данных, базовыми структурами данных, функциями и основами ООП;
Изучат высокоуровневый математический инструментарий, предоставляемый пакетом NumPy;
Освоят вычисления с помощью пакета SciPy;
Смогут производить анализ и манипулирование данными с помощью пакета Pandas;
Получат навыки машинного обучения с использованием Scikit-Learn;
Освоят визуализацию с помощью средств Mathplotlib;
Познакомятся с базовыми принципами машинного обучения с учителем и без него;
Изучат использование Scikit-Learn для обработки текстов на обычных языках;
Освоят автоматизированное получение данных из WEB;
Изучат основы работы с СУБД на примере ORDBMS PostgreSQL;
Познакомятся с запуском заданий MapReduce на кластере HADOOP.
Программа курса
7 модулей
Настройка рабочей среды.
Варианты установки рабочей среды.
Установка с помощью pip.
Установка Docker контейнера Linux.
Установка Conda.
Создание виртуального окружения Python.
Установка IPython.
Установка и настройка Jupyter Notebooks.
Установка с помощью pip.
Установка Docker контейнера Linux.
Установка Conda.
Создание виртуального окружения Python.
Установка IPython.
Установка и настройка Jupyter Notebooks.
Основы Python.
Типы данных и объекты.
Загрузка пакетов, пространства имен.
Чтение и запись данных.
Простое рисование графиков.
Управление потоком выполнение и ветвление.
Отладка.
Профилирование кода.
Загрузка пакетов, пространства имен.
Чтение и запись данных.
Простое рисование графиков.
Управление потоком выполнение и ветвление.
Отладка.
Профилирование кода.
Подготовка и доступ к данным.
Загрузка CSV.
Подключение к СУБД на примере PostgreSQL.
Устранение излишней и избыточной информации.
Нормализация данных.
Форматирование данных.
Подключение к СУБД на примере PostgreSQL.
Устранение излишней и избыточной информации.
Нормализация данных.
Форматирование данных.
Анализ, исследование и визуализация данных.
Работа с NumPy.
Массивы в NumPy.
Файлы, отображаемые в память.
Визуализация с помощью Mathplotlib.
Массивы в NumPy.
Файлы, отображаемые в память.
Визуализация с помощью Mathplotlib.
Извлечение и манипулирование данными Pandas.
Манипулирование данными в Pandas.
Статистический анализ.
Анализ временных серий.
Статистический анализ.
Анализ временных серий.
Введение в машинное обучение.
Организация входных данных.
Интерфейсы оценки, предсказания и трансформации.
Препроцессинг.
Регрессия.
Классификация.
Кластеризация.
Интерфейсы оценки, предсказания и трансформации.
Препроцессинг.
Регрессия.
Классификация.
Кластеризация.
Введение в работу с Apache HADOOP.
Основы Apache Hadoop.
Алгоритм MapReduce.
Пример задачи MapReduce на Python.
Возможности Spark MLlib.
Алгоритм MapReduce.
Пример задачи MapReduce на Python.
Возможности Spark MLlib.