План на курса

Въведение в Data Analysis и Big Data

  • Какво прави Big Data „голям“?
    • Скорост, обем, разнообразие, достоверност (VVVV)
  • Ограничения на традиционната обработка на данни
  • Разпределена обработка
  • Статистически анализ
  • Видове Machine Learning анализи
  • Data Visualization

Big Data Роли и отговорности

  • Администратори
  • Разработчици
  • Анализатори на данни

Languages Използва се за Data Analysis

  • R Language
    • Защо R за Data Analysis?
    • Манипулиране на данни, изчисление и графично показване
  • Python
    • Защо Python за Data Analysis?
    • Манипулиране, обработка, почистване и обработка на данни

Подходи до Data Analysis

  • Статистически анализ
    • Анализ на времеви редове
    • Forecasting с корелационни и регресионни модели
    • Извод Statistics (оценка)
    • Описателни Statistics в Big Data комплекта (напр. изчисляване на средната стойност)
  • Machine Learning
    • Контролирано срещу неконтролирано обучение
    • Класификация и групиране
    • Оценяване на разходите за конкретни методи
    • Филтриране
  • Обработка на естествен език
    • Обработка на текст
    • Разбиране на смисъла на текста
    • Автоматично генериране на текст
    • Анализ на настроението / анализ на темата
  • Computer Vision
    • Придобиване, обработка, анализиране и разбиране на изображения
    • Реконструиране, интерпретиране и разбиране на 3D сцени
    • Използване на данни за изображения за вземане на решения

Big Data Инфраструктура

  • Съхранение на данни
    • Релационни бази данни (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Нерелационни бази данни (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Разбиране на нюансите
      • Йерархични бази данни
      • Обектно-ориентирани бази данни
      • Бази данни, ориентирани към документи
      • Граф-ориентирани бази данни
      • други
  • Разпределена обработка
    • Hadoop
      • HDFS като разпределена файлова система
      • MapReduce за разпределена обработка
    • искра
      • Всичко-в-едно клъстерна изчислителна рамка в паметта за широкомащабна обработка на данни
      • Структуриран стрийминг
      • искра SQL
      • Machine Learning библиотеки: MLlib
      • Обработка на графика с GraphX
  • Scalaспособност
    • Обществен облак
      • AWS, Google, Aliyun и др.
    • Частен облак
      • OpenStack, Cloud Foundry и др.
    • Автоматично мащабиране

Избор на правилното решение на проблема

Бъдещето на Big Data

Обобщение и следващи стъпки

Изисквания

  • Общо разбиране на математиката
  • Общо разбиране на програмирането
  • Общо разбиране за бази данни

Публика

  • Разработчици / програмисти
  • IT консултанти
 35 Часа

Брой участници


Цена за участник

Oтзиви от потребители (7)

Предстоящи Курсове

Свързани Kатегории