План на курса

Ден 01

Преглед на Big Data Business Intelligence за анализ на криминално разузнаване

  • Казуси от правоприлагащите органи - предсказуема полиция
  • Big Data процент на осиновяване в правоприлагащите агенции и как те привеждат бъдещата си дейност в съответствие с Big Data Predictive Analytics
  • Нововъзникващи технологични решения като сензори за изстрел, видео за наблюдение и социални медии
  • Използване на Big Data технология за смекчаване на информационното претоварване
  • Взаимодействие Big Data с наследени данни
  • Основно разбиране на позволяващите технологии в прогнозния анализ
  • Data Integration & Визуализация на таблото
  • Управление на измамите
  • Business Rules и откриване на измами
  • Откриване и профилиране на заплахи
  • Анализ на разходите и ползите за Big Data внедряване

Въведение в Big Data

  • Основни характеристики на Big Data -- обем, разнообразие, скорост и достоверност.
  • MPP (Massively Parallel Processing) архитектура
  • Data Warehouses – статична схема, бавно развиващ се набор от данни
  • MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica и др.
  • Hadoop Базирани решения – няма условия за структурата на набора от данни.
  • Типичен модел: HDFS, MapReduce (счупване), извличане от HDFS
  • Apache Spark за поточна обработка
  • Пакетно подходящ за аналитични/неинтерактивни
  • Обем: CEP поточно предаване на данни
  • Типични избори – CEP продукти (напр. Infostreams, Apama, MarkLogic и др.)
  • По-малко готови за производство – Storm/S4
  • NoSQL Databases – (колона и ключ-стойност): Най-подходящ като аналитична добавка към хранилище/база данни

Няма SQL решения

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Йерархичен) - GT.m, Кеш
  • KV Store (поръчан) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Обект Database - ZopeDB, DB40, Шол
  • Магазин за документи - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Разновидности на данните: Въведение в Data Cleaning проблеми в Big Data

  • RDBMS – статична структура/схема, не насърчава гъвкава, изследователска среда.
  • NoSQL – полуструктуриран, достатъчно структура за съхраняване на данни без точна схема преди съхраняване на данни
  • Проблеми с почистването на данни

Hadoop

  • Кога да изберете Hadoop?
  • СТРУКТУРИРАН – Корпоративните хранилища/бази данни могат да съхраняват масивни данни (на цена), но налагат структура (не е добра за активно проучване)
  • ПОЛУСТРУКТУРИРАНИ данни – трудни за изпълнение с помощта на традиционни решения (DW/DB)
  • Данни за складиране = ОГРОМНИ усилия и статика дори след внедряването
  • За разнообразие и обем от данни, обработени със стандартен хардуер – HADOOP
  • Стока H/W, необходима за създаване на Hadoop клъстер

Въведение в Map Reduce /HDFS

  • MapReduce – разпределете изчисленията върху множество сървъри
  • HDFS – направете данните достъпни локално за изчислителния процес (с излишък)
  • Данни – могат да бъдат неструктурирани/без схема (за разлика от RDBMS)
  • Отговорност на разработчиците да осмислят данните
  • Programming MapReduce = работа с Java (за/против), ръчно зареждане на данни в HDFS

Ден 02

Big Data Екосистема -- Изграждане Big Data ETL (извличане, трансформиране, зареждане) -- Кои Big Data инструменти да използвате и кога?

  • Hadoop срещу други NoSQL решения
  • За интерактивен произволен достъп до данни
  • Hbase (база данни, ориентирана към колони) върху Hadoop
  • Произволен достъп до данни, но с наложени ограничения (макс. 1 PB)
  • Не е добър за ad-hoc анализ, добър за регистриране, броене, времеви серии
  • Sqoop - Импортиране от бази данни към Hive или HDFS (JDBC/ODBC достъп)
  • Flume – Поточно предаване на данни (напр. регистрационни данни) в HDFS

Big Data Management Система

  • Движещи се части, изчислителни възли стартират/отказват: ZooKeeper - За услуги за конфигуриране/координиране/именуване
  • Сложен тръбопровод/работен процес: Oozie – управление на работния процес, зависимости, последователна верига
  • Внедряване, конфигуриране, управление на клъстери, надграждане и т.н. (системен администратор) : Ambari
  • В облака: Whirr

Predictive Analytics -- Фундаментални техники и базирано на машинно обучение бизнес разузнаване

  • Въведение в Machine Learning
  • Изучаване на техники за класификация
  • Bayesian Prediction -- подготовка на файл за обучение
  • Поддържаща векторна машина
  • KNN p-Tree алгебра и вертикално копаене
  • Neural Networks
  • Big Data проблем с голяма променлива -- Случайна гора (RF)
  • Big Data Проблем с автоматизацията – Многомоделен ансамбъл RF
  • Автоматизация чрез Soft10-M
  • Инструмент за анализ на текст-Treeminer
  • Agile учене
  • Агент базирано обучение
  • Разпределено обучение
  • Въведение в инструментите с отворен код за прогнозен анализ: R, Python, Rapidminer, Mahut

Predictive Analytics Екосистема и нейното приложение в анализа на криминално разузнаване

  • Технология и процес на разследване
  • Анализ на прозрението
  • Анализ на визуализацията
  • Структуриран прогнозен анализ
  • Неструктуриран прогнозен анализ
  • Профилиране на заплахи/фраудстар/доставчици
  • Двигател за препоръка
  • Откриване на шаблони
  • Откриване на правило/сценарий – провал, измама, оптимизация
  • Откриване на първопричината
  • Анализ на настроението
  • CRM анализи
  • Мрежови анализи
  • Текстови анализи за получаване на прозрения от преписи, показания на свидетели, интернет разговори и др.
  • Технологично подпомогнат преглед
  • Анализ на измами
  • Анализ в реално време

Ден 03

Анализ в реално време и Scalable над Hadoop

  • Защо общите аналитични алгоритми се провалят в Hadoop/HDFS
  • Apache Hama - за масово синхронно разпределено изчисление
  • Apache SPARK - за клъстерни изчисления и анализи в реално време
  • CMU Graphics Lab2 - Базиран на графики асинхронен подход към разпределени изчисления
  • KNN p -- Базиран на алгебра подход от Treeminer за намалени хардуерни разходи за работа

Инструменти за електронно откриване и криминалистика

  • eDiscovery над Big Data спрямо наследени данни – сравнение на цена и производителност
  • Предсказуемо кодиране и технологично подпомаган преглед (TAR)
  • Демонстрация на живо на vMiner за разбиране как TAR позволява по-бързо откриване
  • По-бързо индексиране чрез HDFS – скорост на данните
  • NLP (обработка на естествен език) – продукти и техники с отворен код
  • eDiscovery на чужди езици -- технология за обработка на чужд език

Big Data BI за Cyber Security – Получаване на 360-градусов изглед, бързо събиране на данни и идентифициране на заплахи

  • Разбиране на основите на анализа на сигурността - повърхност за атака, неправилна конфигурация на сигурността, защита на хоста
  • Мрежова инфраструктура / Голям канал за данни / ETL за отговор за анализ в реално време
  • Предписващи срещу предсказуеми – Базирани на фиксирани правила срещу автоматично откриване на правила за заплахи от метаданни

Събиране на различни данни за анализ на криминално разузнаване

  • Използване на IoT (Интернет на нещата) като сензори за улавяне на данни
  • Използване на сателитни изображения за домашно наблюдение
  • Използване на данни от наблюдение и изображения за идентифициране на престъпници
  • Други технологии за събиране на данни - дронове, телекамери, GPS системи за маркиране и технология за термично изображение
  • Комбиниране на автоматизирано извличане на данни с данни, получени от информатори, разпити и изследвания
  • Forecasting престъпна дейност

Ден 04

BI за предотвратяване на измами от Big Data в Fraud Analytics

  • Основна класификация на анализа на измами - базиран на правила срещу прогнозен анализ
  • Контролирано срещу неконтролирано машинно обучение за откриване на модели на измами
  • Business за бизнес измами, измами с медицински искове, застрахователни измами, укриване на данъци и пране на пари

Social Media Анализ -- Събиране и анализ на разузнавателна информация

  • Как Social Media се използва от престъпниците за организиране, набиране и планиране
  • Big Data ETL API за извличане на данни от социални медии
  • Текст, изображение, метаданни и видео
  • Анализ на настроението от емисията на социалните медии
  • Контекстуално и неконтекстуално филтриране на емисията в социалните медии
  • Social Media Табло за управление за интегриране на различни социални медии
  • Автоматизирано профилиране на профил в социални медии
  • Демонстрация на живо на всеки анализ ще бъде предоставена чрез Treeminer Tool

Big Data Анализ при обработка на изображения и видео емисии

  • Техники за съхранение на изображения в Big Data -- Решение за съхранение на данни, надхвърлящи петабайти
  • LTFS (Linear Tape File System) и LTO (Linear Tape Open)
  • GPFS-LTFS (обща паралелна файлова система - линейна лентова файлова система) -- многослойно решение за съхранение на големи данни за изображения
  • Основи на анализа на изображения
  • Разпознаване на обекти
  • Сегментиране на изображението
  • Проследяване на движение
  • Реконструкция на 3-D изображение

Bioметрики, ДНК и програми за идентификация от следващо поколение

  • Отвъд пръстовите отпечатъци и разпознаването на лица
  • Разпознаване на реч, натискане на клавиш (анализ на потребителски модел на въвеждане) и CODIS (комбинирана система за индексиране на ДНК)
  • Отвъд съвпадението на ДНК: използване на съдебно ДНК фенотипиране за конструиране на лице от ДНК проби

Big Data Табло за бърз достъп до различни данни и дисплей:

  • Интегриране на съществуваща платформа за приложения с Big Data Табло за управление
  • Big Data управление
  • Казус от Big Data Табло: Tableau и Pentaho
  • Използвайте приложението Big Data, за да прокарате базирани на местоположение услуги в Govt.
  • Система за проследяване и управление

Ден 05

Как да обосновем Big Data внедряването на BI в организация:

  • Определяне на ROI (възвръщаемост на Investment) за внедряване на Big Data
  • Казуси за спестяване на време на анализатора при събиране и подготовка на данни – повишаване на производителността
  • Увеличаване на приходите от по-ниски разходи за лицензиране на бази данни
  • Печалба от приходи от базирани на местоположение услуги
  • Спестяване на разходи от предотвратяване на измами
  • Интегриран подход с електронни таблици за изчисляване на приблизителни разходи спрямо печалба/спестяване на приходи от Big Data внедряване.

Процедура стъпка по стъпка за подмяна на наследена система за данни с Big Data система

  • Big Data Пътна карта за миграцията
  • Каква критична информация е необходима, преди да се създаде Big Data система?
  • Какви са различните начини за изчисляване на обема, скоростта, разнообразието и достоверността на данните
  • Как да оцените растежа на данните
  • Казуси

Преглед на Big Data доставчици и преглед на техните продукти.

  • Accenture
  • APTEAN (по-рано CDC софтуер)
  • Cisco Системи
  • Клаудера
  • Dell
  • EMC
  • GoodData Corporation
  • Гуавус
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Информатика
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (по-рано 10-то поколение)
  • MU Сигма
  • Netapp
  • Решения за Opera
  • Oracle
  • Pentaho
  • Платформа
  • Qliktech
  • Квантов
  • Rackspace
  • Анализ на революцията
  • Salesforce
  • SAP
  • SAS Институт
  • Сисенс
  • Software AG/Terracotta
  • Soft10 Автоматизация
  • Splunk
  • Sqrrl
  • Супермикро
  • Tableau Софтуер
  • Teradata
  • Think Big Analytics
  • Системи Tidemark
  • Treeminer
  • VMware (част от EMC)

Q/A сесия

Изисквания

  • Познаване на процесите на правоприлагане и системите за данни
  • Основно разбиране на SQL/Oracle или релационна база данни
  • Основно разбиране на статистиката (на ниво електронна таблица)

Публика

  • Специалисти по правоприлагане с технически опит
 35 Часа

Брой участници


Цена за участник

Oтзиви от потребители (1)

Предстоящи Курсове

Свързани Kатегории