[Резюме статьи] Глубокое рекуррентное Q-обучение для частично наблюдаемых MDP

Я думаю, что исследователи начали исследование, задаваясь вопросом

Что, если мы добавим рекуррентность в глубокую Q-сеть (DQN), заменив первый постконволюционный полносвязный слой рекуррентным LSTM?

И хотя он может видеть только один кадр на каждом временном шаге, он успешно работает как DQN.

1. Введение

DQN имеет ограничение, которое может запоминать только последние четыре экрана в прошлом.

Игры, требующие более четырех кадров, не являются марковскими, потому что они зависят не только от текущего ввода DQN.

Реальные задачи в основном представляют собой частично наблюдаемый марковский процесс принятия решений (POMDP).

с текущим экраном он может наблюдать только расположение ракеток и мяча, а не скорость мяча.

Они придумали Глубокую Рекуррентную Q-сеть. для обработки частичной наблюдаемости.

2. Глубокое Q-обучение

Q-значения изучаются итеративно путем обновления текущей оценки Q-значения в сторону наблюдаемого вознаграждения плюс максимальное Q-значение для всех действий a’ в результирующем состоянии s’

обновляются параметры сети, чтобы минимизировать дифференцируемую функцию потерь.

DQN

переживания (s, a, r, s’) записываются и отбираются
параметры целевой сети обновляются для соответствия основным параметрам сети каждые 10 000 итераций.

основная сеть обновляется, а целевая сеть обновляется каждые 10 000 итераций.

3. Частичная наблюдаемость

Свойство Маркова редко выполняется в реальных условиях.

Частично наблюдаемый марковский процесс принятия решений лучше отражает динамику многих реальных сред.

POMDP можно описать как кортеж из 6: состояния, действия, переходы, вознаграждения и наблюдения, а не истинное состояние системы.

В общем случае оценка Q-значения по наблюдению может быть сколь угодно плохой, поскольку

добавление повторения в Deep Q-Learning позволяет Q-сети лучше оценивать состояние.

Они заменили полносвязный слой в конце на LSTM.

4. Стабильные периодические обновления

Может ли кто-нибудь помочь объяснить эту часть легко?

Почему делают обнуление скрытого состояния при старте каждого обновления?

Загрузочные последовательные обновления:

обновление в начале эпизода, а скрытое состояние RNN переносится на протяжении всего эпизода.

Случайные обновления с начальной загрузкой:

обновление в случайных точках эпизода, а начальное состояние RNN обнуляется в начале обновления.

Хорошая вещь в последовательном обновлении — это перенос скрытого состояния LSTM с начала эпизода. Однако при последовательной выборке опыта для полного эпизода они нарушают политику случайной выборки DQN.

5. Atrai Games: MDP или POMDP?

DQN выводит полное состояние игры Atrai, расширяя представление состояния, чтобы охватить последние четыре игровых экрана.

6. Мерцающие игры Atrari

10 кадровых фильтров DQN определяют скорость объекта

Как работает DRQN

Conv1 — обнаружить только весло
Conv2 — обнаруживает движение мяча в определенных направлениях и отслеживает мяч и ракетку.
Conv3 — отклонения, скорость мяча, направление движения.
Единицы LSTM — обнаруживают события высокого уровня, такие как отсутствие мяча, отражение мяча от ракеток и отражение мяча от стен.

** С помощью устройств LSTM он может обнаруживать события высокого уровня Pong, такие как отсутствие мяча у игрока, отражение мяча от ракетки или отражение мяча от стены.

**Неповторяющиеся 10-кадровые DQN и 1-frema DRQN имеют доступ к одной и той же истории игровых экранов.

**Рекуррентные сети могут интегрировать информацию во времени и служить жизнеспособной альтернативой штабелированию кадров на входном уровне конв.

7. Заключение

DRQN может интегрировать информацию по кадрам для обнаружения таких событий, как скорость объектов на экране. и я уважаю их усилия и стараюсь работать лучше в частично наблюдаемой ситуации. Однако он показывает хороший результат только в игре Pong. и это не сильно отличается от суммирования наблюдений во входном слое сверточной сети.

https://arxiv.org/pdf/1507.06527.pdf

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Finance Data Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer NLP Computer Science