ru en

Новости

31.10.2022

Миникурс «Обучение с подкреплением: алгоритмы и оценки упущенной выгоды»

14 и 15 ноября Алексей Наумов (заведующий Международной лабораторией стохастических алгоритмов и анализа многомерных данных Высшей Школы Экономики) прочтет две лекции в рамках миникурса «Обучение с подкреплением: алгоритмы и оценки упущенной выгоды».

Анонс

Обучение с подкреплением — один из наиболее актуальных видов машинного обучения. Ключевая особенность этого метода, в отличие от классического машинного обучения, — постоянное взаимодействие агента (алгоритма) со средой, от которой он получает обратную связь в виде поощрений и наказаний. Цель агента — максимизировать сумму наград, которые среда дает ему за «правильное» взаимодействие. Агент должен не просто пытаться понять, какие действия правильные, базируясь на текущих представлениях о среде. Он также должен исследовать эту среду: искать новые возможности, чтобы получить еще большую награду. Таким образом, появляется дилемма: дальнейшее исследование среды или использование известных данных ради получения немедленной выгоды. Вопрос выбора между исследованием среды и использованием уже имеющихся знаний — один из главных для построения эффективных алгоритмов обучения с подкреплением. В рамках настоящего курса мы познакомимся с основными понятиями теории обучения с подкреплением, поговорим про исследование среды, парадигму оптимизма, а также разберем алгоритмы, для которых можно получить оптимальные минимаксные оценки упущенной выгоды.

Часть курса будет основана на недавних работах D. Tiapkin, D.
Belomestny, E. Moulines, A. Naumov, S. Samsonov, Y. Tang, M. Valko, P. Menard, From
Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses, ICML 2022.D. Tiapkin, D.
Belomestny, D. Calandriello, E. Moulines, R. Munos, A. Naumov, M. Rowland, M. Valko, P.
Ménard, Optimistic Posterior Sampling for Reinforcement Learning with Few Samples and
Tight Guarantees, NeurIPS 2022.


Обращаем Ваше внимание, что мероприятие пройдет в новой локации:

Менделеев Холл,
Невский пр., д.1, 5 этаж, офис 502. Вход в здание: с угла Невского и
Адмиралтейского пр., со стороны Дворцовой площади.
Дата и время: 14 и 15 ноября, 18:15-20:15.