План на курса

Въведение в Multimodal AI

  • Преглед на мултимодални AI и приложения от реалния свят
  • Предизвикателства при интегрирането на текст, изображение и аудио данни
  • Най-съвременни изследвания и постижения

Обработка на данни и проектиране на функции

  • Работа с текст, изображения и набори от аудио данни
  • Техники за предварителна обработка за мултимодално обучение
  • Стратегии за извличане на характеристики и обединяване на данни

Изграждане на мултимодални модели с PyTorch и Hugging Face

  • Въведение в PyTorch за мултимодално обучение
  • Използване на Hugging Face трансформатори за НЛП и визуални задачи
  • Комбиниране на различни модалности в единен AI модел

Внедряване на синтез на реч, визия и текст

  • Интегриране на OpenAI Whisper за разпознаване на реч
  • Прилагане на DeepSeek-Vision за обработка на изображения
  • Фюжън техники за кръстосано обучение

Модели за обучение и оптимизиране Multimodal AI.

  • Модел на стратегии за обучение за мултимодален AI
  • Техники за оптимизация и хиперпараметрична настройка
  • Справяне с пристрастията и подобряване на обобщаването на модела

Внедряване Multimodal AI в приложения от реалния свят

  • Експортиране на модели за производствена употреба
  • Внедряване на AI модели на облачни платформи
  • Мониторинг на производителността и поддръжка на модела

Теми за напреднали и бъдещи тенденции

  • Обучение с нулев и няколко изстрела в мултимодален AI
  • Етични съображения и отговорно развитие на ИИ
  • Нововъзникващи тенденции в мултимодалните изследвания на ИИ

Обобщение и следващи стъпки

Изисквания

  • Силно разбиране на концепциите за машинно обучение и дълбоко обучение
  • Опит с AI рамки като PyTorch или TensorFlow
  • Познаване на обработката на текст, изображения и аудио данни

Публика

  • AI разработчици
  • Инженери за машинно обучение
  • Изследователи
 21 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории