План на курса

  • Въведение
    • Hadoop история, концепции
    • Екосистема
    • Разпределения
    • Архитектура на високо ниво
    • Hadoop митове
    • Hadoop предизвикателства (хардуер / софтуер)
    • Лаборатория: обсъдете вашите Big Data проекти и проблеми
  • Планиране и монтаж
    • Избор на софтуер, Hadoop дистрибуции
    • Оразмеряване на клъстера, планиране на растеж
    • Избор на хардуер и мрежа
    • Топология на стелажа
    • Монтаж
    • Много наемане
    • Структура на директорията, регистрационни файлове
    • Бенчмаркинг
    • Лабораторни упражнения: инсталиране на клъстер, изпълнение на тестове за ефективност
  • HDFS операции
    • Концепции (хоризонтално мащабиране, репликация, локализация на данните, информираност за стелажи)
    • Възли и демони (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Мониторинг на здравето
    • Администриране чрез команден ред и браузър
    • Добавяне на памет, подмяна на дефектни дискове
    • Лабораторни упражнения: запознаване с командните редове на HDFS
  • Поглъщане на данни
    • Flume за поглъщане на регистрационни файлове и други данни в HDFS
    • Sqoop за импортиране от SQL бази данни към HDFS, както и експортиране обратно към SQL
    • Hadoop съхранение на данни с Hive
    • Копиране на данни между клъстери (distcp)
    • Използване на S3 като допълнение към HDFS
    • Най-добри практики и архитектури за поглъщане на данни
    • Лаборатория: настройка и използване на Flume, същото за Sqoop
  • Операции и администриране на MapReduce
    • Паралелно изчисление преди mapreduce: сравнете HPC срещу Hadoop администрация
    • MapReduce натоварва клъстера
    • Възли и демони (JobTracker, TaskTracker)
    • MapReduce UI преминава през
    • Конфигурация на Mapreduce
    • Конфигурация на работа
    • Оптимизиране на MapReduce
    • Защита от глупаци MR: какво да кажете на вашите програмисти
    • Лаборатория: изпълнение на примери за MapReduce
  • YARN: нова архитектура и нови възможности
    • Цели на дизайна на YARN и архитектура за изпълнение
    • Нови участници: ResourceManager, NodeManager, Application Master
    • Инсталиране на YARN
    • График на работа под YARN
    • Лаборатория: проучете графика на работата
  • Теми за напреднали
    • Мониторинг на хардуера
    • Мониторинг на клъстери
    • Добавяне и премахване на сървъри, надграждане Hadoop
    • Архивиране, възстановяване и планиране на непрекъснатостта на бизнеса
    • Работни процеси на Oozie
    • Hadoop висока наличност (HA)
    • Hadoop Федерация
    • Защита на вашия клъстер с Kerberos
    • Лаборатория: настройка на мониторинг
  • Незадължителни песни
    • Cloudera Manager за администриране на клъстери, наблюдение и рутинни задачи; монтаж, използване. В тази песен всички упражнения и лабораторни упражнения се изпълняват в средата за разпространение на Cloudera (CDH5)
    • Ambari за администриране на клъстери, наблюдение и рутинни задачи; монтаж, използване. В тази песен всички упражнения и лабораторни упражнения се изпълняват в рамките на Ambari cluster manager и Hortonworks Data Platform (HDP 2.0)

Изисквания

  • удобни с основно Linux системно администриране
  • основни умения за писане на скриптове

Не се изискват познания по Hadoop и разпределени изчисления, но ще бъдат въведени и обяснени в курса.

Лабораторна среда

Нулева инсталация: Няма нужда да инсталирате софтуер hadoop на машините на учениците! За студентите ще бъде осигурен работещ hadoop клъстер.

Студентите ще имат нужда от следното

  • SSH клиент (Linux и Mac вече имат ssh клиенти, за Windows се препоръчва Putty)
  • браузър за достъп до клъстера. Препоръчваме браузър Firefox с инсталирано разширение FoxyProxy
 21 Часа

Брой участници


Цена за участник

Oтзиви от потребители (5)

Предстоящи Курсове

Свързани Kатегории