План на курса

Въведение

  • Учене чрез положително подсилване

Elements от Reinforcement Learning

Важни условия (действия, състояния, награди, политика, стойност, Q-стойност и т.н.)

Преглед на методите за таблични решения

Създаване на софтуерен агент

Разбиране на подходи, базирани на стойности, политики и модели

Работа с процеса на вземане на решения по Марков (MDP)

Как политиките определят начина на поведение на агента

Използване на методите на Монте Карло

Времево-разликово обучение

n-стъпка Bootstrapпинг

Методи за приблизително решение

Прогноза в съответствие с правилата с приближение

Контрол на правилата с приближение

Методи извън политиката с приближение

Разбиране на следите за допустимост

Използване на методи за градиент на политиката

Обобщение и заключение

Изисквания

  • Опит с машинно обучение
  • Programming опит

Публика

  • Учени по данни
 21 Часа

Брой участници


Цена за участник

Предстоящи Курсове

Свързани Kатегории