Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Въведение в Data Science for Big Data Analytics
- Data Science Общ преглед Преглед на големи данни Структури на данни Двигатели и сложности на екосистемата на големи данни Големи данни и нов подход към анализите Ключови технологии в процеса и проблемите на извличане на големи данни на данни Модел на асоцииране Клъстериране на данни Откриване на извънредни стойности Класификация на данни
Въведение в жизнения цикъл на Data Analytics
- Откриване Подготовка на данни Планиране на модел Изграждане на модел Представяне/Communication на резултатите Операционализация Упражнение: Казус от практиката
От този момент по-голямата част от времето за обучение (80%) ще бъде изразходвано за примери и упражнения в R и свързаната технология за големи данни.
Първи стъпки с R
- Инсталиране на R и Rstudio Характеристики на езика R Обекти в R Данни в R Манипулиране на данни Проблеми с големи данни Упражнения
Първи стъпки с Hadoop
- Инсталиране Hadoop Разбиране на Hadoop режими HDFS MapReduce архитектура Hadoop преглед на свързани проекти Писане на програми в Hadoop MapReduce Упражнения
Интегриране на R и Hadoop с RHadoop
- Компоненти на RHadoop Инсталиране на RHadoop и свързване с Hadoop Архитектурата на RHadoop Hadoop поточно предаване с R Разрешаване на проблеми с анализа на данни с RHadoop Упражнения
Предварителна обработка и подготовка на данни
- Стъпки за подготовка на данни Извличане на характеристики Почистване на данни Интегриране и трансформиране на данни Намаляване на данни – вземане на проби, избор на поднабор на характеристики, намаляване на размерността Дискретизация и групиране Упражнения и казус
Проучвателни методи за анализ на данни в R
- Описателна статистика Проучвателен анализ на данни Визуализация – предварителни стъпки Визуализация на единична променлива Изследване на множество променливи Статистически методи за оценка Тестване на хипотези Упражнения и казус
Data Visualizations
- Основни визуализации в R Пакети за визуализация на данни ggplot2, lattice, plotly, lattice Форматиране на графики в R Разширени графики Упражнения
Регресия (Оценка на бъдещи стойности)
- Линейна регресия Случаи на използване Описание на модела Диагностика Проблеми с линейна регресия Методи на свиване, ръбова регресия, ласото Обобщения и нелинейност Регресионни сплайнове Локална полиномиална регресия Обобщени адитивни модели Регресия с RHadoop Упражнения и казус
Класификация
- Проблеми, свързани с класификацията Байесово опресняване Наивен Байес Логистична регресия K-най-близки съседи Алгоритъм за дървета на решения Невронни мрежи Поддържащи векторни машини Диагностика на класификатори Сравнение на класификационните методи Scala ble класификационни алгоритми Упражнения и казус
Оценка на ефективността на модела и избор
- Пристрастия, дисперсия и сложност на модела Точност срещу интерпретируемост Оценяване на класификатори Мерки за производителност на модел/алгоритъм Задържащ метод на валидиране Кръстосано валидиране Настройка на алгоритми за машинно обучение с caret пакет Визуализиране на производителността на модела с Profit ROC и Lift криви
Ансамбълни методи
- Bagging Random Forests Увеличаване Градиентно усилване Упражнения и казус
Поддържащи векторни машини за класификация и регресия
- Класификатори за максимален марж Поддържат векторни класификатори Поддържат векторни машини SVM за проблеми с класификацията SVM за проблеми с регресия
Избор на характеристики за клъстериране Базирани на представителни алгоритми: k-средни, k-medoids Йерархични алгоритми: агломеративни и разделящи методи Вероятностни базови алгоритми: EM Алгоритми, базирани на плътност: DBSCAN, DENCLUE Валидиране на клъстер Разширени концепции за клъстериране Клъстериране с RHadoop Упражнения и казус
- Откриване на връзки с Link Analysis
Концепции за анализ на връзки Метрики за анализиране на мрежи Алгоритъмът за Pagerank Индуцирана от хипервръзка Тема Search Упражнения за прогнозиране на връзки и казус
- Извличане на асоциирани модели
Често срещан модел за извличане на модели Scala Проблеми с възможността при често извличане на шаблони Brute Force алгоритми Apriori алгоритъм Подходът за растеж на FP Оценка на правилата за кандидати Приложения на правила за асоцииране Валидиране и тестване Диагностика Правила за асоцииране с R и Hadoop Упражнения и казус
- Конструиране на двигатели за препоръки
Разбиране на препоръчителните системи Техники за извличане на данни, използвани в препоръчителните системи Системи за препоръчване с пакет recommenderlab Оценяване на препоръчителните системи Препоръки с RHadoop Упражнение: Изграждане на двигател за препоръки
- Анализ на текст
Стъпки за анализ на текст Събиране на необработен текст Торба с думи Термин Честота – Обратна честота на документа Определяне на чувствата Упражнения и казус
35 Часа
Oтзиви от потребители (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Курс - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.