План на курса

Въведение в мултимодалния AI

  • Какво е мултимодален AI?
  • Основни предизвикателства и приложения
  • Преглед на водещи мултимодални модели

Обработка на текст и разбиране на естествен език

  • Използване на LLMs за базирани на текст AI агенти
  • Разбиране на бързото инженерство за мултимодални задачи
  • Фина настройка на текстови модели за специфични за домейн приложения

Разпознаване и генериране на изображения

  • Обработка на изображения с AI: класификация, надписи и откриване на обекти
  • Генериране на изображения с дифузионни модели (Stable Diffusion, DALLE)
  • Интегриране на данни за изображения с текстови модели

Обработка на реч и аудио

  • Разпознаване на реч с Whisper ASR
  • Техники за синтез на текст към реч (TTS).
  • Подобряване на потребителското взаимодействие с гласово базиран AI

Интегриране на мултимодални входове

  • Изграждане на AI тръбопроводи за обработка на множество типове вход
  • Техники за синтез за комбиниране на текст, изображение и речеви данни
  • Приложения в реалния свят на мултимодални AI агенти

Внедряване на мултимодален AI Agents

  • Изграждане на управлявани от API мултимодални AI решения
  • Оптимизиране на модели за производителност и мащабируемост
  • Най-добри практики за внедряване на мултимодален AI в производството

Етични съображения и бъдещи тенденции

  • Пристрастност и справедливост в мултимодалния AI
  • Проблеми с поверителността при мултимодални данни
  • Бъдещи разработки в мултимодалния AI

Обобщение и следващи стъпки

Изисквания

  • Разбиране на основите на машинното обучение
  • Опит с Python програмиране
  • Познаване на рамки за дълбоко обучение (напр. TensorFlow, PyTorch)

Публика

  • AI разработчици
  • Изследователи
  • Мултимедийни инженери
 21 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории