План на курса
Ден 01
Преглед на Big Data Business Intelligence за анализ на криминално разузнаване
- Казуси от правоприлагащите органи - предсказуема полиция
- Big Data процент на осиновяване в правоприлагащите агенции и как те привеждат бъдещата си дейност в съответствие с Big Data Predictive Analytics
- Нововъзникващи технологични решения като сензори за изстрел, видео за наблюдение и социални медии
- Използване на Big Data технология за смекчаване на информационното претоварване
- Взаимодействие Big Data с наследени данни
- Основно разбиране на позволяващите технологии в прогнозния анализ
- Data Integration & Визуализация на таблото
- Управление на измамите
- Business Rules и откриване на измами
- Откриване и профилиране на заплахи
- Анализ на разходите и ползите за Big Data внедряване
Въведение в Big Data
- Основни характеристики на Big Data -- обем, разнообразие, скорост и достоверност.
- MPP (Massively Parallel Processing) архитектура
- Data Warehouses – статична схема, бавно развиващ се набор от данни
- MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica и др.
- Hadoop Базирани решения – няма условия за структурата на набора от данни.
- Типичен модел: HDFS, MapReduce (счупване), извличане от HDFS
- Apache Spark за поточна обработка
- Пакетно подходящ за аналитични/неинтерактивни
- Обем: CEP поточно предаване на данни
- Типични избори – CEP продукти (напр. Infostreams, Apama, MarkLogic и др.)
- По-малко готови за производство – Storm/S4
- NoSQL Databases – (колона и ключ-стойност): Най-подходящ като аналитична добавка към хранилище/база данни
Няма SQL решения
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Йерархичен) - GT.m, Кеш
- KV Store (поръчан) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Обект Database - ZopeDB, DB40, Шол
- Магазин за документи - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Разновидности на данните: Въведение в Data Cleaning проблеми в Big Data
- RDBMS – статична структура/схема, не насърчава гъвкава, изследователска среда.
- NoSQL – полуструктуриран, достатъчно структура за съхраняване на данни без точна схема преди съхраняване на данни
- Проблеми с почистването на данни
Hadoop
- Кога да изберете Hadoop?
- СТРУКТУРИРАН – Корпоративните хранилища/бази данни могат да съхраняват масивни данни (на цена), но налагат структура (не е добра за активно проучване)
- ПОЛУСТРУКТУРИРАНИ данни – трудни за изпълнение с помощта на традиционни решения (DW/DB)
- Данни за складиране = ОГРОМНИ усилия и статика дори след внедряването
- За разнообразие и обем от данни, обработени със стандартен хардуер – HADOOP
- Стока H/W, необходима за създаване на Hadoop клъстер
Въведение в Map Reduce /HDFS
- MapReduce – разпределете изчисленията върху множество сървъри
- HDFS – направете данните достъпни локално за изчислителния процес (с излишък)
- Данни – могат да бъдат неструктурирани/без схема (за разлика от RDBMS)
- Отговорност на разработчиците да осмислят данните
- Programming MapReduce = работа с Java (за/против), ръчно зареждане на данни в HDFS
Ден 02
Big Data Екосистема -- Изграждане Big Data ETL (извличане, трансформиране, зареждане) -- Кои Big Data инструменти да използвате и кога?
- Hadoop срещу други NoSQL решения
- За интерактивен произволен достъп до данни
- Hbase (база данни, ориентирана към колони) върху Hadoop
- Произволен достъп до данни, но с наложени ограничения (макс. 1 PB)
- Не е добър за ad-hoc анализ, добър за регистриране, броене, времеви серии
- Sqoop - Импортиране от бази данни към Hive или HDFS (JDBC/ODBC достъп)
- Flume – Поточно предаване на данни (напр. регистрационни данни) в HDFS
Big Data Management Система
- Движещи се части, изчислителни възли стартират/отказват: ZooKeeper - За услуги за конфигуриране/координиране/именуване
- Сложен тръбопровод/работен процес: Oozie – управление на работния процес, зависимости, последователна верига
- Внедряване, конфигуриране, управление на клъстери, надграждане и т.н. (системен администратор) : Ambari
- В облака: Whirr
Predictive Analytics -- Фундаментални техники и базирано на машинно обучение бизнес разузнаване
- Въведение в Machine Learning
- Изучаване на техники за класификация
- Bayesian Prediction -- подготовка на файл за обучение
- Поддържаща векторна машина
- KNN p-Tree алгебра и вертикално копаене
- Neural Networks
- Big Data проблем с голяма променлива -- Случайна гора (RF)
- Big Data Проблем с автоматизацията – Многомоделен ансамбъл RF
- Автоматизация чрез Soft10-M
- Инструмент за анализ на текст-Treeminer
- Agile учене
- Агент базирано обучение
- Разпределено обучение
- Въведение в инструментите с отворен код за прогнозен анализ: R, Python, Rapidminer, Mahut
Predictive Analytics Екосистема и нейното приложение в анализа на криминално разузнаване
- Технология и процес на разследване
- Анализ на прозрението
- Анализ на визуализацията
- Структуриран прогнозен анализ
- Неструктуриран прогнозен анализ
- Профилиране на заплахи/фраудстар/доставчици
- Двигател за препоръка
- Откриване на шаблони
- Откриване на правило/сценарий – провал, измама, оптимизация
- Откриване на първопричината
- Анализ на настроението
- CRM анализи
- Мрежови анализи
- Текстови анализи за получаване на прозрения от преписи, показания на свидетели, интернет разговори и др.
- Технологично подпомогнат преглед
- Анализ на измами
- Анализ в реално време
Ден 03
Анализ в реално време и Scalable над Hadoop
- Защо общите аналитични алгоритми се провалят в Hadoop/HDFS
- Apache Hama - за масово синхронно разпределено изчисление
- Apache SPARK - за клъстерни изчисления и анализи в реално време
- CMU Graphics Lab2 - Базиран на графики асинхронен подход към разпределени изчисления
- KNN p -- Базиран на алгебра подход от Treeminer за намалени хардуерни разходи за работа
Инструменти за електронно откриване и криминалистика
- eDiscovery над Big Data спрямо наследени данни – сравнение на цена и производителност
- Предсказуемо кодиране и технологично подпомаган преглед (TAR)
- Демонстрация на живо на vMiner за разбиране как TAR позволява по-бързо откриване
- По-бързо индексиране чрез HDFS – скорост на данните
- NLP (обработка на естествен език) – продукти и техники с отворен код
- eDiscovery на чужди езици -- технология за обработка на чужд език
Big Data BI за Cyber Security – Получаване на 360-градусов изглед, бързо събиране на данни и идентифициране на заплахи
- Разбиране на основите на анализа на сигурността - повърхност за атака, неправилна конфигурация на сигурността, защита на хоста
- Мрежова инфраструктура / Голям канал за данни / ETL за отговор за анализ в реално време
- Предписващи срещу предсказуеми – Базирани на фиксирани правила срещу автоматично откриване на правила за заплахи от метаданни
Събиране на различни данни за анализ на криминално разузнаване
- Използване на IoT (Интернет на нещата) като сензори за улавяне на данни
- Използване на сателитни изображения за домашно наблюдение
- Използване на данни от наблюдение и изображения за идентифициране на престъпници
- Други технологии за събиране на данни - дронове, телекамери, GPS системи за маркиране и технология за термично изображение
- Комбиниране на автоматизирано извличане на данни с данни, получени от информатори, разпити и изследвания
- Forecasting престъпна дейност
Ден 04
BI за предотвратяване на измами от Big Data в Fraud Analytics
- Основна класификация на анализа на измами - базиран на правила срещу прогнозен анализ
- Контролирано срещу неконтролирано машинно обучение за откриване на модели на измами
- Business за бизнес измами, измами с медицински искове, застрахователни измами, укриване на данъци и пране на пари
Social Media Анализ -- Събиране и анализ на разузнавателна информация
- Как Social Media се използва от престъпниците за организиране, набиране и планиране
- Big Data ETL API за извличане на данни от социални медии
- Текст, изображение, метаданни и видео
- Анализ на настроението от емисията на социалните медии
- Контекстуално и неконтекстуално филтриране на емисията в социалните медии
- Social Media Табло за управление за интегриране на различни социални медии
- Автоматизирано профилиране на профил в социални медии
- Демонстрация на живо на всеки анализ ще бъде предоставена чрез Treeminer Tool
Big Data Анализ при обработка на изображения и видео емисии
- Техники за съхранение на изображения в Big Data -- Решение за съхранение на данни, надхвърлящи петабайти
- LTFS (Linear Tape File System) и LTO (Linear Tape Open)
- GPFS-LTFS (обща паралелна файлова система - линейна лентова файлова система) -- многослойно решение за съхранение на големи данни за изображения
- Основи на анализа на изображения
- Разпознаване на обекти
- Сегментиране на изображението
- Проследяване на движение
- Реконструкция на 3-D изображение
Bioметрики, ДНК и програми за идентификация от следващо поколение
- Отвъд пръстовите отпечатъци и разпознаването на лица
- Разпознаване на реч, натискане на клавиш (анализ на потребителски модел на въвеждане) и CODIS (комбинирана система за индексиране на ДНК)
- Отвъд съвпадението на ДНК: използване на съдебно ДНК фенотипиране за конструиране на лице от ДНК проби
Big Data Табло за бърз достъп до различни данни и дисплей:
- Интегриране на съществуваща платформа за приложения с Big Data Табло за управление
- Big Data управление
- Казус от Big Data Табло: Tableau и Pentaho
- Използвайте приложението Big Data, за да прокарате базирани на местоположение услуги в Govt.
- Система за проследяване и управление
Ден 05
Как да обосновем Big Data внедряването на BI в организация:
- Определяне на ROI (възвръщаемост на Investment) за внедряване на Big Data
- Казуси за спестяване на време на анализатора при събиране и подготовка на данни – повишаване на производителността
- Увеличаване на приходите от по-ниски разходи за лицензиране на бази данни
- Печалба от приходи от базирани на местоположение услуги
- Спестяване на разходи от предотвратяване на измами
- Интегриран подход с електронни таблици за изчисляване на приблизителни разходи спрямо печалба/спестяване на приходи от Big Data внедряване.
Процедура стъпка по стъпка за подмяна на наследена система за данни с Big Data система
- Big Data Пътна карта за миграцията
- Каква критична информация е необходима, преди да се създаде Big Data система?
- Какви са различните начини за изчисляване на обема, скоростта, разнообразието и достоверността на данните
- Как да оцените растежа на данните
- Казуси
Преглед на Big Data доставчици и преглед на техните продукти.
- Accenture
- APTEAN (по-рано CDC софтуер)
- Cisco Системи
- Клаудера
- Dell
- EMC
- GoodData Corporation
- Гуавус
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Информатика
- Intel
- Jaspersoft
- Microsoft
- MongoDB (по-рано 10-то поколение)
- MU Сигма
- Netapp
- Решения за Opera
- Oracle
- Pentaho
- Платформа
- Qliktech
- Квантов
- Rackspace
- Анализ на революцията
- Salesforce
- SAP
- SAS Институт
- Сисенс
- Software AG/Terracotta
- Soft10 Автоматизация
- Splunk
- Sqrrl
- Супермикро
- Tableau Софтуер
- Teradata
- Think Big Analytics
- Системи Tidemark
- Treeminer
- VMware (част от EMC)
Q/A сесия
Изисквания
- Познаване на процесите на правоприлагане и системите за данни
- Основно разбиране на SQL/Oracle или релационна база данни
- Основно разбиране на статистиката (на ниво електронна таблица)
Публика
- Специалисти по правоприлагане с технически опит
Oтзиви от потребители (1)
Deepthi беше супер настроена към моите нужди, тя можеше да каже кога да добавя слоеве на сложност и кога да се въздържа и да възприеме по-структуриран подход. Deepthi наистина работеше с моето темпо и се увери, че мога сам да използвам новите функции/инструменти, като първо ми показа, а след това ми позволи да пресъздам елементите сам, което наистина помогна за вграждането на обучението. Не мога да бъда по-доволен от резултатите от това обучение и от нивото на експертиза на Deepthi!
Deepthi - Invest Northern Ireland
Курс - IBM Cognos Analytics
Машинен превод