F.PY4DS
Python для анализа данных
На этом курсе слушатели изучают важнейшие библиотеки и инструменты Python для анализа данных (Data science). Также на курсе рассматриваются средства Python для визуализации данных, извлечения данных из всемирной паутины, основы работы с СУБД PostgreSQL, машинного обучения и обработки текстовых документов и произведений на обычных языках.
Базовый курс разработан в качестве введения в исследование данных с помощью Python. Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по анализу данных, нуждающихся в удобном инструменте для решения задач, связанных с обработкой больших объемов данных.
Необходимая предварительная подготовка:
Приветствуется базовый опыт работы с операционными системами GNU/Linux и/или UNIX, хотя он не является обязательным, и минимальные знания в области программирования. Опыт программирования на языке Python не обязателен, но поможет в изучении материалов курса.
Базовый курс разработан в качестве введения в исследование данных с помощью Python. Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по анализу данных, нуждающихся в удобном инструменте для решения задач, связанных с обработкой больших объемов данных.
Необходимая предварительная подготовка:
Приветствуется базовый опыт работы с операционными системами GNU/Linux и/или UNIX, хотя он не является обязательным, и минимальные знания в области программирования. Опыт программирования на языке Python не обязателен, но поможет в изучении материалов курса.
Длительность
5 дней (40ч в неделю)
Доступ к курсу
Навсегда в личном кабинете
Документы
Удостоверение о повышении квалификации
Расписание
Кому подойдет этот курс
Аналитики
Разработчики
В результате прослушивания курса слушатели:
Изучат базовый инструментарий Conda, Jupyter и Ipython, способы его установки и альтернативны;
Получат общее понимание процесса анализа, извлечения и визуализации данных, построения гипотез и тестирования;
Освоят работу с окружением Python и основными требуемыми инструментами, и библиотеками;
Изучат работу с базовыми концепциями, понятиями, принципами и возможностями Python: типами данных, базовыми структурами данных, функциями и основами ООП;
Изучат высокоуровневый математический инструментарий, предоставляемый пакетом NumPy;
Освоят вычисления с помощью пакета SciPy;
Смогут производить анализ и манипулирование данными с помощью пакета Pandas;
Получат навыки машинного обучения с использованием Scikit-Learn;
Освоят визуализацию с помощью средств Mathplotlib;
Познакомятся с базовыми принципами машинного обучения с учителем и без него;
Изучат использование Scikit-Learn для обработки текстов на обычных языках;
Освоят автоматизированное получение данных из WEB;
Изучат основы работы с СУБД на примере ORDBMS PostgreSQL;
Познакомятся с запуском заданий MapReduce на кластере HADOOP.
Получат общее понимание процесса анализа, извлечения и визуализации данных, построения гипотез и тестирования;
Освоят работу с окружением Python и основными требуемыми инструментами, и библиотеками;
Изучат работу с базовыми концепциями, понятиями, принципами и возможностями Python: типами данных, базовыми структурами данных, функциями и основами ООП;
Изучат высокоуровневый математический инструментарий, предоставляемый пакетом NumPy;
Освоят вычисления с помощью пакета SciPy;
Смогут производить анализ и манипулирование данными с помощью пакета Pandas;
Получат навыки машинного обучения с использованием Scikit-Learn;
Освоят визуализацию с помощью средств Mathplotlib;
Познакомятся с базовыми принципами машинного обучения с учителем и без него;
Изучат использование Scikit-Learn для обработки текстов на обычных языках;
Освоят автоматизированное получение данных из WEB;
Изучат основы работы с СУБД на примере ORDBMS PostgreSQL;
Познакомятся с запуском заданий MapReduce на кластере HADOOP.
Программа курса
7 модулей
Настройка рабочей среды.
Варианты установки рабочей среды.
Установка с помощью pip.
Установка Docker контейнера Linux.
Установка Conda.
Создание виртуального окружения Python.
Установка IPython.
Установка и настройка Jupyter Notebooks.
Установка с помощью pip.
Установка Docker контейнера Linux.
Установка Conda.
Создание виртуального окружения Python.
Установка IPython.
Установка и настройка Jupyter Notebooks.
Основы Python.
Типы данных и объекты.
Загрузка пакетов, пространства имен.
Чтение и запись данных.
Простое рисование графиков.
Управление потоком выполнение и ветвление.
Отладка.
Профилирование кода.
Загрузка пакетов, пространства имен.
Чтение и запись данных.
Простое рисование графиков.
Управление потоком выполнение и ветвление.
Отладка.
Профилирование кода.
Подготовка и доступ к данным.
Загрузка CSV.
Подключение к СУБД на примере PostgreSQL.
Устранение излишней и избыточной информации.
Нормализация данных.
Форматирование данных.
Подключение к СУБД на примере PostgreSQL.
Устранение излишней и избыточной информации.
Нормализация данных.
Форматирование данных.
Анализ, исследование и визуализация данных.
Работа с NumPy.
Массивы в NumPy.
Файлы, отображаемые в память.
Визуализация с помощью Mathplotlib.
Массивы в NumPy.
Файлы, отображаемые в память.
Визуализация с помощью Mathplotlib.
Извлечение и манипулирование данными Pandas.
Манипулирование данными в Pandas.
Статистический анализ.
Анализ временных серий.
Статистический анализ.
Анализ временных серий.
Введение в машинное обучение.
Организация входных данных.
Интерфейсы оценки, предсказания и трансформации.
Препроцессинг.
Регрессия.
Классификация.
Кластеризация.
Интерфейсы оценки, предсказания и трансформации.
Препроцессинг.
Регрессия.
Классификация.
Кластеризация.
Введение в работу с Apache HADOOP.
Основы Apache Hadoop.
Алгоритм MapReduce.
Пример задачи MapReduce на Python.
Возможности Spark MLlib.
Алгоритм MapReduce.
Пример задачи MapReduce на Python.
Возможности Spark MLlib.
Отзывы учеников
Как проходит обучение на платформе ФОРС
