План на курса

Въведение:

    Apache Spark в Hadoop екосистема Кратко въведение за python, scala

Основи (теория):

    Архитектура RDD Трансформация и Етап на действия, Задача, Зависимости

Използвайки Databricks среда, разберете основите (практическа работилница):

    Упражнения с използване на RDD API Основни функции за действие и трансформация PairRDD Стратегии за кеширане на присъединяване Упражнения с използване на DataFrame API SparkSQL DataFrame: избиране, филтриране, групиране, сортиране на UDF (дефинирана от потребителя функция) Търсене в DataSet API Streaming

Използване на AWS среда разбиране на внедряването (практически семинар):

    Основи на AWS Glue Разберете разликите между AWS EMR и AWS Glue Примерни задачи в двете среди Разберете плюсовете и минусите

Екстра:

    Въведение в Apache Airflow оркестрацията

Изисквания

Умения за програмиране (за предпочитане python, scala)

SQL основи

 21 Часа

Брой участници


Цена за участник

Oтзиви от потребители (3)

Предстоящи Курсове

Свързани Kатегории