Благодарим ви, че изпратихте вашето запитване! Един от членовете на нашия екип ще се свърже с вас скоро.
Благодарим ви, че направихте своята резервация! Един от членовете на нашия екип ще се свърже с вас скоро.
План на курса
Въведение
- Учене чрез положително подсилване
Elements от Reinforcement Learning
Важни условия (действия, състояния, награди, политика, стойност, Q-стойност и т.н.)
Преглед на методите за таблични решения
Създаване на софтуерен агент
Разбиране на подходи, базирани на стойности, политики и модели
Работа с процеса на вземане на решения по Марков (MDP)
Как политиките определят начина на поведение на агента
Използване на методите на Монте Карло
Времево-разликово обучение
n-стъпка Bootstrapпинг
Методи за приблизително решение
Прогноза в съответствие с правилата с приближение
Контрол на правилата с приближение
Методи извън политиката с приближение
Разбиране на следите за допустимост
Използване на методи за градиент на политиката
Обобщение и заключение
Изисквания
- Опит с машинно обучение
- Programming опит
Публика
- Учени по данни
21 Часа