План на курса
Въведение в Apache Spark
- Ролята на Spark в обработката на големи данни
- Spark архитектура и нейните компоненти
Настройка Apache Spark
- Хардуерни и софтуерни изисквания
- Инсталационни процедури за самостоятелни и клъстерни режими
- Най-добри практики за конфигуриране за системни администратори
Администриране на Spark клъстери
- Инструменти и техники за управление на клъстери
- Мониторинг на Spark приложения и клъстерни ресурси
- Конфигурации за сигурност и управление на потребителите
Настройка и оптимизиране на производителността
- Разпределение на ресурсите и планиране
- Tuning Spark за оптимална производителност
- Идентифициране и разрешаване на често срещани тесни места
Отстраняване на неизправности и решаване на проблеми
- Често срещани предизвикателства при администрирането на Spark
- Диагностични инструменти и техники за отстраняване на проблеми
- Подход стъпка по стъпка за разрешаване на често срещани проблеми
- Най-добри практики за поддържане на здравословна среда на Spark
Теми за разширено администриране
- Интеграция с други инструменти за големи данни
- Осигуряване на висока наличност и възстановяване след бедствие
- Надграждане и мащабиране на клъстери на Spark
Обобщение и следващи стъпки
Изисквания
- Основни познания за мрежова конфигурация и управление
- Познаване на операционната система Linux и интерфейса на командния ред
- Интерес към изучаване на разпределени изчислителни системи и управление на големи данни
Публика
- Системни администратори
Oтзиви от потребители (5)
Много практически примери, различни начини за подход към един и същ проблем и понякога не толкова очевидни трикове как да се подобри текущото решение
Rafal - Nordea
Курс - Apache Spark MLlib
Машинен превод
The live examples
Ahmet Bolat - Accenture Industrial SS
Курс - Python, Spark, and Hadoop for Big Data
very interactive...
Richard Langford
Курс - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Курс - A Practical Introduction to Stream Processing
Get to learn spark streaming , databricks and aws redshift