Обработка больших объемов структурированной и неструктурированной информации из различных источников (Big Data)
Получение знаний о технологиях и инструментарии Big Data.
Приобретение компетенций по формированию информационных ресурсов с большим объемом данных и использованию инструментария Big Data в прикладных целях.
Совершенствование компетенций использования современных методов накопления, хранения, обработки, анализа и представления данных и результатов расчета на их основе неструктурированной и структурированной информации.
Повышение эффективности работы: сокращение времени выполнения заданий, уменьшение риска ошибок.
Длительность
Доступ к курсу
Документы
Основные вопросы:
Методы машинного обучения (задача классификации и кластеризации, в частности задача формирования статистических выборок).
Области применения технологий Big Data.
Основные характеристики больших данных и их влияние на сбор, хранение, обработку и анализ данных.
Критерии аналитических задач, решение которых предпочтительно с использованием технологий Big Datа.
Обзор методов бизнес-аналитики.
Введение в бизнес-аналитику с использованием методов класса machine learning.
Языки и модели программирования, используемые в технологиях Big Data.
Средства визуализации в стеке Big Data.
Верхнеуровневая архитектура Big Data решений.
Ограничения текущих технологий Big Data.
Организационные аспекты внедрения бизнес-аналитики на Big Data.
Программа курса
- Цели и содержание курса
- Домашняя страница виртуальной машины Oracle Big Data Lite используемая в данном курсе
- Старт виртуальной машины Oracle Big Data Lite
- Обзор
- Big Data
- Характеристики Big Data
- Значение Big Data
- Возможности Big Data: Примеры
- «Вызовы» Big Data
- Расширение границ управления информацией
- Простая функциональная модель для Big Data
- Концептуальная архитектура логики управления информацией от Oracle
- Шаблон разработки архитектуры управления данными
- Лаборатория данных
- Шаблон разработки архитектуры управления данными: информационная платформа
- Шаблон разработки архитектуры управления данными: применение данных
- Шаблон разработки архитектуры управления данными : информационное решение
- Шаблон разработки архитектуры управления данными: события в реальном времени
- Шаблоны проектирования и карта использования компонент
- Адаптация Big Data и шаблоны внедрения
- Подходы к архитектуре управления данными: Схема на запись и Схема на чтение
- Цели
- Компьютерные кластеры
- Распределенные вычисления
- Apache Hadoop
- Виды аналитики, используемые в Hadoop
- Экосистема Apache Hadoop
- Основные компоненты Apache Hadoop
- Ключевые определения HDFS
- NameNode (NN)
- DataNodes (DN)
- Платформа MapRedu
- Преимущества MapReduce
- MapReduce Job
- MapReduce пример: простой счетчик слов в тексте MapReduce различия версий
- Apache Spark
- Введение в Spark - Spark: компоненты для распределенной работы
- Resilient
- Distributed Dataset (RDD)
- Операции RDD - Свойства RDD - Система обработки Directed Acyclic Graph –
- Поставка дистрибутива Cloudera,включающая Apache Hadoop(CDH)
- CDH Архитектура - CDH Компоненты - CDH Архитектура - CDH компоненты
- Унификация данных: типичные требования
- Интеграция данных по разным шаблонам
- Введение в опции унификации данных
- Унификация данных:
- Пакетная загрузка Sqoop
- Oracle Loader для Hadoop (OLH) Copy to BDA
- Унификация данных: Пакетная и динамическая загрузка
- Oracle SQL Connector для Hadoop
- Унификация данных: ETL и синхронизация
- Oracle Data Integrator for Big Data
- Oracle GoldenGate for Big Data
- Унификация данных:
- Динамический доступ
- Барьеры на пути эффективного внедрения технологий Big Data
- Преодоление барьеров перед началом использования Big Data
- Oracle Big Data SQL
- Цели и преимущества
- Oracle Big Data SQL
- Когда использовать какие технологии Oracle?
- Цели
- Oracle Advanced Analytics (OAA)
- OAA: Oracle Data Mining
- Что такое Data Mining?
- Возможности применения Data Mining
- Определение основных свойств Data Mining
- Контролируемые (Supervised) методы Data Mining
- Контролируемые алгоритмы Data Mining
- Неконтролируемые (Unsupervised) методы Data Mining
- Oracle Data Mining: Обзор
- OAA: Oracle R Enterprise
- Что такое R?
- Кто использует R?
- Почему статистики, аналитики, ученые по данным используют R?
- Ограничения R
- Стратегия Oracle для R-сообщества
- Oracle R Enterprise
- ORE: Возможности программы
- ORE: Целевая среда
- ORE: Источники данных
- ORE и Hadoop
- ORAAH:
- Архитектура
- Обзор
- Big Data Discovery
- Поиск данных
- Просмотр данных
- Преобразование и обогащение данные
- Поиск информации
- Обмен мнениями
- BDD: Технические инновации в Hadoop