Токийские ученые показали, как свет может изменить правила игры.
Как азартный игрок максимизирует выигрыши от ряда игровых автоматов? Этот вопрос лег в основу "проблемы многорукого бандита", распространенной задачи в обучении с подкреплением, где "агенты" принимают решения для получения наград. Недавно международная исследовательская группа под руководством Хироаки Шинкава из Токийского университета представила расширенную схему фотонного обучения с подкреплением, переходя от статической проблемы бандита к более сложной динамической среде. Результаты исследования были опубликованы в журнале Intelligent Computing.
Ключевым элементом новой схемы является сочетание фотонной системы, направленной на улучшение качества обучения, и вспомогательного алгоритма. Исследователи разработали модифицированный алгоритм Q-обучения и проверили его эффективность с помощью численных симуляций.
Особенностью примененного алгоритма является использование параллельной архитектуры: множество агентов действует одновременно. Главное условие для ускорения процесса параллельного обучения — избежание противоречивых решений, используя квантовое вмешательство фотонов.
Хотя применение квантового вмешательства фотонов в этой области не ново, исследователи считают, что их работа — первая, сочетающая фотонное кооперативное принятие решений с Q-обучением в динамической среде.
В рамках этого исследования рассматривается "мировая сетка" — коллекция ячеек с различными наградами. В такой среде следующий ход агента полностью зависит от его текущего хода и местоположения.
В симуляциях использовалась сетка размером 5×5 ячеек. Важным аспектом является баланс между "эксплуатацией" известных пар с высокими значениями для более быстрого обучения и "исследованием" редко посещаемых пар в поисках потенциально более высоких наград. Для этого используется алгоритм softmax.
В дальнейшем авторы планируют разработать фотонную систему, поддерживающую принятие решений без конфликтов для трех и более агентов, а также развивать алгоритмы, позволяющие агентам действовать непрерывно.
Источник: securitylab