План на курса
- Въведение
- Hadoop история, концепции
- Екосистема
- Разпределения
- Архитектура на високо ниво
- Hadoop митове
- Hadoop предизвикателства (хардуер / софтуер)
- Лаборатория: обсъдете вашите Big Data проекти и проблеми
- Планиране и монтаж
- Избор на софтуер, Hadoop дистрибуции
- Оразмеряване на клъстера, планиране на растеж
- Избор на хардуер и мрежа
- Топология на стелажа
- Монтаж
- Много наемане
- Структура на директорията, регистрационни файлове
- Бенчмаркинг
- Лабораторни упражнения: инсталиране на клъстер, изпълнение на тестове за ефективност
- HDFS операции
- Концепции (хоризонтално мащабиране, репликация, локализация на данните, информираност за стелажи)
- Възли и демони (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Мониторинг на здравето
- Администриране чрез команден ред и браузър
- Добавяне на памет, подмяна на дефектни дискове
- Лабораторни упражнения: запознаване с командните редове на HDFS
- Поглъщане на данни
- Flume за поглъщане на регистрационни файлове и други данни в HDFS
- Sqoop за импортиране от SQL бази данни към HDFS, както и експортиране обратно към SQL
- Hadoop съхранение на данни с Hive
- Копиране на данни между клъстери (distcp)
- Използване на S3 като допълнение към HDFS
- Най-добри практики и архитектури за поглъщане на данни
- Лаборатория: настройка и използване на Flume, същото за Sqoop
- Операции и администриране на MapReduce
- Паралелно изчисление преди mapreduce: сравнете HPC срещу Hadoop администрация
- MapReduce натоварва клъстера
- Възли и демони (JobTracker, TaskTracker)
- MapReduce UI преминава през
- Конфигурация на Mapreduce
- Конфигурация на работа
- Оптимизиране на MapReduce
- Защита от глупаци MR: какво да кажете на вашите програмисти
- Лаборатория: изпълнение на примери за MapReduce
- YARN: нова архитектура и нови възможности
- Цели на дизайна на YARN и архитектура за изпълнение
- Нови участници: ResourceManager, NodeManager, Application Master
- Инсталиране на YARN
- График на работа под YARN
- Лаборатория: проучете графика на работата
- Теми за напреднали
- Мониторинг на хардуера
- Мониторинг на клъстери
- Добавяне и премахване на сървъри, надграждане Hadoop
- Архивиране, възстановяване и планиране на непрекъснатостта на бизнеса
- Работни процеси на Oozie
- Hadoop висока наличност (HA)
- Hadoop Федерация
- Защита на вашия клъстер с Kerberos
- Лаборатория: настройка на мониторинг
- Незадължителни песни
- Cloudera Manager за администриране на клъстери, наблюдение и рутинни задачи; монтаж, използване. В тази песен всички упражнения и лабораторни упражнения се изпълняват в средата за разпространение на Cloudera (CDH5)
- Ambari за администриране на клъстери, наблюдение и рутинни задачи; монтаж, използване. В тази песен всички упражнения и лабораторни упражнения се изпълняват в рамките на Ambari cluster manager и Hortonworks Data Platform (HDP 2.0)
Изисквания
- удобни с основно Linux системно администриране
- основни умения за писане на скриптове
Не се изискват познания по Hadoop и разпределени изчисления, но ще бъдат въведени и обяснени в курса.
Лабораторна среда
Нулева инсталация: Няма нужда да инсталирате софтуер hadoop на машините на учениците! За студентите ще бъде осигурен работещ hadoop клъстер.
Студентите ще имат нужда от следното
- SSH клиент (Linux и Mac вече имат ssh клиенти, за Windows се препоръчва Putty)
- браузър за достъп до клъстера. Препоръчваме браузър Firefox с инсталирано разширение FoxyProxy
Oтзиви от потребители (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Курс - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Курс - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Курс - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay