Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Всяка сесия е от 2 часа
Ден-1: Сесия -1: Бизнес преглед за Big Data интелигентност в държавата
- Кейси от NIH, DoE
- Темпото на адаптация към Big Data в държавните агенции и как те се подготвят за бъдещата операция с бази данни
- Широкомащабна приложимост в DoD, NSA, IRS, USDA и др.
- Интерфейс със старите данни
- Основно разбиране на технологиите за прогнозен анализ
- Интегриране на данни и визуализация със табло
- Маневрите с фалшификация
- Генериране на бизнес правила за откриване на фалшификации
- Откриване и профилиране на заплахи
- Анализ на стойността при имплементация на Big Data
Ден-1: Сесия-2 : Въведение в Big Data-1
- Основните характеристики на Big Data — обем, разнообразие, брзина и достоверност. Марка за обем.
- Датови складове — статична схема, бавно развиващ се набор данни
- Маркировани бази данни като Greenplum, Exadata, Teradata, Netezza, Vertica и др.
- Решения базирани на Hadoop — без условия за структура на набора данни
- Типичен шаблон: HDFS, MapReduce (обработка), извличане от HDFS
- Батч — подхожда за аналитично/нелинейно
- Обем: поток с данни CEP
- Типичен избор — продукти CEP (например Infostreams, Apama, MarkLogic и др.)
- Малко готови за производство — Storm/S4
- NoSQL бази данни — (колонна и ключ-стойност): най-подхождащи като аналитично допълнение към датовия склад/база данни
Ден-1 : Сесия -3 : Въведение в Big Data-2
NoSQL решения
- KV Store — Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (иерархично) — GT.m, Cache
- KV Store (пореден) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache — Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store — Gigaspaces, Coord, Apache River
- Обектна база данни — ZopeDB, DB40, Shoal
- Документарен склад — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-бази данни, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Широкостолбова база данни — BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Разновидности на данни: Въведение в проблемите с чистенето на данни при Big Data
- РДБС — статична структура/схема, не насърчава гъвкава, изследователска среда.
- NoSQL — полуструктурирано, достатъчно структурирано за съхраняване на данни без точна схема преди запазването
- Проблемите с чистенето на данните
Ден-1 : Сесия-4 : Въведение в Big Data-3: Hadoop
- Кога да изберете Hadoop?
- СТРУКТУРИРАНО — Предприемен датов склад/база данни може да съхранява огромни обеми данни (за цена), но налагат структура (не подхожда за активно изследване)
- ПОЛУСТРУКТУРИРАНИ данни — трудно се постига с традиционните решения (склад/база)
- Съхраняването на данни = голям усилия и статично дори след имплементацията
- За разнообразие и обем на данните, обработени в товарителна хардуер — HADOOP
- Компактен Х/У се изисква за създаването на кластера Hadoop
Въведение в Map Reduce/HDFS
- MapReduce — дистрибуирано изчисление над множество сървъри
- HDFS — прави данните налични локално за процеса на изчисления (с резерви)
- Данни — могат да бъдат неструктурирани/без схема (в противоположност на РДБС)
- Отговорността на разработчика е да даде смисъл на данните
- Програмирането с MapReduce = работа с Java (за и против), ръчен зареждане на данни в HDFS
Ден-2: Сесия-1: Екосистема Big Data — Построение на Big Data ETL: светът на инструменти за Big Data — кой да използваме и кога?
- Hadoop vs. други NoSQL решения
- За интерактивен, случаен достъп до данни
- Hbase (колонна ориентирана база данни) върху Hadoop
- Случаен достъп до данни, но с наложени ограничения (до 1 PB)
- Не подхожда за анализа ad-hoc, добра за логиране, броене, времеви ред
- Sqoop — Импортиране от бази данни в Hive или HDFS (JDBC/ODBC достъп)
- Flume — Стримерене на данни (например лог файлове) в HDFS
Ден-2: Сесия-2: Система за управление Big Data
- Преместване на части, стартиране/събивания на изчислителни възли: ZooKeeper — За конфигуриране/координация/именуване на услуги
- Сложна pipeline/workflow: Oozie — Управление на workflow, зависимости, последователност
- Деплойране, конфигуриране, управление на кластери, апгрейд и др. (админ на системи): Ambari
- В облак: Whirr
Ден-2: Сесия-3: Прогнозен анализ в бизнес интелигентност — 1: Основни техники и машиноспособности за BI:
- Въведение в машинно обучение
- Учене на класификационни техники
- Байесовски прогноза — подготовка на трениращ файл
- Подкрепена машина (SVM)
- KNN p-Tree Алгебра и вертикално миниране
- Невронни мрежи
- Проблем с голям брой променливи в Big Data — Случайна гора (RF)
- Проблем на автоматизация при Big Data — Много-моделен ансамбъл RF
- Автоматизация чрез Soft10-M
- Инструмент за анализа на текст — Treeminer
- Гъвкаво обучение
- Обучение с агенти
- Разпределено обучение
- Въведение в отворен код за прогнозен анализ: R, Rapidminer, Mahut
Ден-2: Сесия-4 Прогнозна екосистема — 2: Общи прогнозни аналитични проблеми в държавата
- Аналитика на проникване
- Визуализираща аналитика
- Структуриран прогнозен анализ
- Неструктуриран прогнозен анализ
- Профилиране на заплахи/фалшификации/поставчици
- Механизъм за препоръки
- Откриване на модели
- Откриване на правила/сценарии — провал, фалшификация, оптимизация
- Откриване на коренна причина
- Анализ на мнение
- CRM аналитика
- Мрежова аналитика
- Анализ на текст
- Технологически подкрепен преглед
- Аналитика за фалшификации
- Реално-временна аналитика
Ден-3 : Сесия-1 : Реално и масштабируемо анализиране върху Hadoop
- Защо обикновените алгоритми за анализ не работят в Hadoop/HDFS
- Apache Hama — за групово синхронно разпределено изчисление
- Apache SPARK — за кластерно изчисление за реално-временна аналитика
- Графични лаборатории на CMU2 — графично асинхронен подход към разпределено изчисление
- KNN p-Алгебра на Treeminer за намалено хардверно разходи
Ден-3: Сесия-2: Инструменти за eDiscovery и forensics
- eDiscovery върху Big Data vs. Стара данна — сравнение по цена и перформанси
- Прогнозно кодиране и технологически подкрепен преглед (TAR)
- Живо демонстрация на продукт TAR (vMiner) за разбираемост как работи TAR за по-бърз преглед
- По-бързо индексиране чрез HDFS — брзина на данните
- NLP или обработка на естествен език — различни техники и продукти с отворен код
- eDiscovery в чужди езици — технологии за обработка на данни на чужд език
Ден-3 : Сесия 3: Big Data BI за киберсигурност — Разбиране на цялостните 360 градуса от бързото събирание на данни до идентификацията на заплахи
- Разбиране на основи за сигурностен анализ — атакуващата повърхност, неправилна конфигурация на сигурността, защита на хостовете
- Мрежова инфраструктура/голяма датапайп/Разговорен ETL за реално-временна аналитика
- Прескриптивно vs. прогностично — Фиксирано правилно базирано vs. автоматично откриване на правила от метаданни
Ден-3: Сесия 4: Big Data в USDA: Приложение в земеделието
- Въведение в IoT (Интернет на нещата) за земеделие — сензорно базирана Big Data и контрол
- Въведение в спътниковото изображаване и неговото приложение в земеделието
- Интегриране на сензорни и спътниково данни за плодородието на почвата, препоръки за култивация и прогноза
- Страховка в земеделието и Big Data
- Прогнозиране на загубите от сеч
Ден-4 : Сесия-1: Профил за предотвратяване на фалшификации BI от Big Data в държавата — Аналитика на фалшификации:
- Основна класификация на аналитиката на фалшификации — правилно базирано vs. прогностично
- Надзирани vs. недзирани машинни изучавания за откриване на модели на фалшификации
- Фалшификация на поставчици/намаляване на проекти
- Medicare и Medicaid фалшификации — техники за откриване на фалшификации при обработка на заявки
- Фалшификации при компенсации за пътни разходи
- IRS фалшификации при връщане на данъци
- Кейси и живи демонстрации ще бъдат дадени там, където са налични данни.
Ден-4 : Сесия-2: Аналитика на социалните мрежи — Извличане и анализ на разузнаване
- API за ETL Big Data за извличане на данни от социални мрежи
- Текст, изображения, метаданни и видео
- Аналитика за мнение от фидовете на социалните мрежи
- Контекстно и неконтекстно филтриране на фидовете на социалните мрежи
- Социална мрежа табло за интегрира на разнообразни социални мрежи
- Автоматизирано профилиране на профилите в социалните мрежи
- Живи демонстрации за всеки анализ ще бъдат дадени чрез инструмента Treeminer.
Ден-4 : Сесия-3: Аналитика на Big Data в изображения и видео потоци
- Техники за съхраняване на изображения в Big Data — решения за съхранение на данни, превишуващи петабайтове
- LTFS и LTO
- GPFS-LTFS (Слоисто решение за съхранение на големи изображения)
- Основи на аналитиката на изображения
- Познаване на обекти
- Сегментация на изображения
- Отслежване на движение
- 3-D реконструкция на изображения
Ден-4: Сесия-4: Приложения на Big Data в NIH:
- Изпълзващи области на биоинформатиката
- Метагеномика и проблемите с анализа на Big Data
- Прогнозни анализа с Big Data за фармакогеномика, метаболомика и протеомика
- Big Data в процесса на геномика надолу
- Приложение на прогнозната анализа с Big Data в общественото здравеопазване
Табло за Big Data за бърз достъп до разнообразни данни и ниво на показване:
- Интеграция на съществуващи приложни платформи с табло за Big Data
- Управление на Big Data
- Кейс студия на таблото за Big Data: Tableau и Pentaho
- Използване на приложение за Big data за подпомагане на услугите с локация в държавата
- Система за отслежване и управление
Ден-5 : Сесия-1: Как да обосновате имплементацията на Big Data BI в организация:
- Дефиниране на ROI за имплементация на Big Data
- Кейс студии за спестяване на времето на аналитиките за събиране и приготвяне на данни — увеличаване на продуктивността
- Кейс студии за приход от спестяване на цената на лицензираните бази данни
- Приход от услуги с локация
- Спестяване от предотвратяването на фалшификации
- Интегриран подход с изчислителна таблица за приблизително разходи и приход или спестявания от имплементацията на Big Data.
Ден-5 : Сесия-2: Поетапен метод за замяна на старата датова система с Big Data система:
- Разбиране на практическа Roadmap за миграция към Big Data
- Какво информация е важна преди архитектурирането на имплементацията на Big Data
- Различните начини за изчисляване на обем, брзина, разнообразие и достоверност на данните
- Как да оценете растежа на данните
- Кейс студии
Ден-5: Сесия 4: Обзор на доставчиците на Big Data и обзор на техните продукти. Вопросно-отговорна сесия:
- Accenture
- APTEAN (бивш CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (бивш 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (част от EMC)
Изисквания
- Основно познаване на бизнес операции и датови системи в държавата в техния домейн
- Основни знания за SQL/Oracle или релационни бази данни
- Основно разбиране на статистиката (на ниво таблица)
35 часове
Отзиви от потребители (1)
Способността на тренера да съобрази курса с изискванията на организацията, а не просто да го предоставя заради самия факт на предаването му.
Masilonyane - Revenue Services Lesotho
Курс - Big Data Business Intelligence for Govt. Agencies
Машинен превод