План на курса

spark.mllib: типове данни, алгоритми и помощни програми

  • Типове данни
  • Основна статистика
    • обобщена статистика
    • корелации
    • стратифицирано вземане на проби
    • проверка на хипотези
    • тестване на значимостта на стрийминг
    • произволно генериране на данни
  • Класификация и регресия
    • линейни модели (SVM, логистична регресия, линейна регресия)
    • наивен Байес
    • дървета на решенията
    • ансамбли от дървета (Random Forests и градиентно подсилени дървета)
    • изотонична регресия
  • Съвместно филтриране
    • алтернативни най-малки квадрати (ALS)
  • Клъстеризиране
    • k-означава
    • Гаусова смес
    • групиране на мощност итерация (PIC)
    • латентно разпределение на Дирихле (LDA)
    • разполовяващи k-средни
    • стрийминг k-средства
  • Намаляване на размерността
    • разлагане на единична стойност (SVD)
    • анализ на главните компоненти (PCA)
  • Извличане и трансформиране на характеристики
  • Често копаене на модели
    • FP-растеж
    • правила на асоцииране
    • PrefixSpan
  • Метрики за оценка
  • Експортиране на PMML модел
  • Оптимизация (разработчик)
    • стохастичен градиент на спускане
    • BFGS с ограничена памет (L-BFGS)

spark.ml: API на високо ниво за тръбопроводи на ML

  • Преглед: оценители, трансформатори и тръбопроводи
  • Извличане, трансформиране и избор на функции
  • Класификация и регресия
  • Клъстеризиране
  • Теми за напреднали

Изисквания

Познаване на едно от следните:

  • Java
  • Scala
  • Python
  • SparkR.
 35 Часа

Брой участници


Цена за участник

Oтзиви от потребители (1)

Предстоящи Курсове

Свързани Kатегории