От азартных игр к ИИ: алгоритм "Бандита" на стыке с фотонной революци

Токийские ученые показали, как свет может изменить правила игры.

Как азартный игрок максимизирует выигрыши от ряда игровых автоматов? Этот вопрос лег в основу "проблемы многорукого бандита", распространенной задачи в обучении с подкреплением, где "агенты" принимают решения для получения наград. Недавно международная исследовательская группа под руководством Хироаки Шинкава из Токийского университета представила расширенную схему фотонного обучения с подкреплением, переходя от статической проблемы бандита к более сложной динамической среде. Результаты исследования были опубликованы в журнале Intelligent Computing.

Ключевым элементом новой схемы является сочетание фотонной системы, направленной на улучшение качества обучения, и вспомогательного алгоритма. Исследователи разработали модифицированный алгоритм Q-обучения и проверили его эффективность с помощью численных симуляций.

Особенностью примененного алгоритма является использование параллельной архитектуры: множество агентов действует одновременно. Главное условие для ускорения процесса параллельного обучения — избежание противоречивых решений, используя квантовое вмешательство фотонов.

Хотя применение квантового вмешательства фотонов в этой области не ново, исследователи считают, что их работа — первая, сочетающая фотонное кооперативное принятие решений с Q-обучением в динамической среде.

В рамках этого исследования рассматривается "мировая сетка" — коллекция ячеек с различными наградами. В такой среде следующий ход агента полностью зависит от его текущего хода и местоположения.

В симуляциях использовалась сетка размером 5×5 ячеек. Важным аспектом является баланс между "эксплуатацией" известных пар с высокими значениями для более быстрого обучения и "исследованием" редко посещаемых пар в поисках потенциально более высоких наград. Для этого используется алгоритм softmax.

В дальнейшем авторы планируют разработать фотонную систему, поддерживающую принятие решений без конфликтов для трех и более агентов, а также развивать алгоритмы, позволяющие агентам действовать непрерывно.

Источник: securitylab

От азартных игр к ИИ: алгоритм "Бандита" на стыке с фотонной революци

Как защитить свои почтовые сервера?

Шифровальщики как масштабная угроза

Современные аспекты кибербезопасности

BEC атаки

Хакерская жатва в Сингапуре: даркнет ломится от обилия похищенных данн

Утечка Sphero: робототехника стала источником утечки данн

От азартных игр к ИИ: алгоритм "Бандита" на стыке с фотонной революци

От азартных игр к ИИ: алгоритм "Бандита" на стыке с фотонной революци

Умные лампочки TP-Link позволяют вытащить пароль от вашего W

Течёт время, утекают данные: Seiko против хакерской группы Blac