План на курса
Въведение
- Въведение в облачните изчисления и решенията за големи данни Преглед на функциите и архитектурата на Apache Hadoop
Настройка Hadoop
- Планиране на Hadoop клъстер (локален, облак и т.н.) Избор на ОС и Hadoop дистрибуция Предоставяне на ресурси (хардуер, мрежа и т.н.) Изтегляне и инсталиране на софтуера Оразмеряване на клъстера за гъвкавост
Работа с HDFS
- Разбиране на Hadoop Разпределена файлова система (HDFS) Общ преглед на HDFS Command Reference Достъп до HDFS Извършване на основни файлови операции на HDFS Използване на S3 като допълнение към HDFS
Преглед на MapReduce
- Разбиране на потока от данни в MapReduce Framework Демонстрация на карта, разбъркване, сортиране и намаляване: Изчисляване на най-добрите заплати
Работа с YARN
- Разбиране на управлението на ресурсите в Hadoop Работа с ResourceManager, NodeManager, Application Master Scheduling задания под YARN Scheduling за голям брой възли и клъстери Демо: График на задания
Интегриране Hadoop със Spark
- Настройване на хранилище за Spark (HDFS, Amazon, S3, NoSQL и др.) Разбиране на устойчиви разпределени набори от данни (RDD) Създаване на RDD Внедряване на RDD трансформации Демо: Внедряване на програма за търсене на текст за заглавия на филми
Управление на Hadoop клъстер
- Мониторинг Hadoop Защита на Hadoop клъстер Добавяне и премахване на възли Изпълнение на бенчмарк за производителност Настройване на Hadoop клъстер за оптимизиране на производителността Архивиране, възстановяване и планиране на непрекъснатост на бизнеса Осигуряване на висока достъпност (HA)
Надграждане и мигриране на Hadoop клъстер
- Оценка на изискванията за работно натоварване Надграждане Hadoop Преминаване от локално към облак и обратно Възстановяване от повреди
Отстраняване на неизправности
Обобщение и заключение
Изисквания
- Опит в системната администрация
- Опит с Linux команден ред
- Разбиране на концепциите за големи данни
Публика
- Системни администратори
- DBA
Oтзиви от потребители (5)
Много практически примери, различни начини за подход към един и същ проблем и понякога не толкова очевидни трикове как да се подобри текущото решение
Rafal - Nordea
Курс - Apache Spark MLlib
Машинен превод
very interactive...
Richard Langford
Курс - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Курс - A Practical Introduction to Stream Processing
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Курс - Impala for Business Intelligence
Get to learn spark streaming , databricks and aws redshift