Я думаю, что исследователи начали исследование, задаваясь вопросом

Что, если мы добавим рекуррентность в глубокую Q-сеть (DQN), заменив первый постконволюционный полносвязный слой рекуррентным LSTM?

И хотя он может видеть только один кадр на каждом временном шаге, он успешно работает как DQN.

1. Введение

DQN имеет ограничение, которое может запоминать только последние четыре экрана в прошлом.

Игры, требующие более четырех кадров, не являются марковскими, потому что они зависят не только от текущего ввода DQN.

Реальные задачи в основном представляют собой частично наблюдаемый марковский процесс принятия решений (POMDP).

с текущим экраном он может наблюдать только расположение ракеток и мяча, а не скорость мяча.

Они придумали Глубокую Рекуррентную Q-сеть. для обработки частичной наблюдаемости.

2. Глубокое Q-обучение

Q-значения изучаются итеративно путем обновления текущей оценки Q-значения в сторону наблюдаемого вознаграждения плюс максимальное Q-значение для всех действий a’ в результирующем состоянии s’

обновляются параметры сети, чтобы минимизировать дифференцируемую функцию потерь.

DQN

  1. переживания (s, a, r, s’) записываются и отбираются
  2. параметры целевой сети обновляются для соответствия основным параметрам сети каждые 10 000 итераций.

основная сеть обновляется, а целевая сеть обновляется каждые 10 000 итераций.

3. Частичная наблюдаемость

Свойство Маркова редко выполняется в реальных условиях.

Частично наблюдаемый марковский процесс принятия решений лучше отражает динамику многих реальных сред.

POMDP можно описать как кортеж из 6: состояния, действия, переходы, вознаграждения и наблюдения, а не истинное состояние системы.

В общем случае оценка Q-значения по наблюдению может быть сколь угодно плохой, поскольку

добавление повторения в Deep Q-Learning позволяет Q-сети лучше оценивать состояние.

Они заменили полносвязный слой в конце на LSTM.

4. Стабильные периодические обновления

Может ли кто-нибудь помочь объяснить эту часть легко?

Почему делают обнуление скрытого состояния при старте каждого обновления?

Загрузочные последовательные обновления:

обновление в начале эпизода, а скрытое состояние RNN переносится на протяжении всего эпизода.

Случайные обновления с начальной загрузкой:

обновление в случайных точках эпизода, а начальное состояние RNN обнуляется в начале обновления.

Хорошая вещь в последовательном обновлении — это перенос скрытого состояния LSTM с начала эпизода. Однако при последовательной выборке опыта для полного эпизода они нарушают политику случайной выборки DQN.

5. Atrai Games: MDP или POMDP?

DQN выводит полное состояние игры Atrai, расширяя представление состояния, чтобы охватить последние четыре игровых экрана.

6. Мерцающие игры Atrari

10 кадровых фильтров DQN определяют скорость объекта

Как работает DRQN

  1. Conv1 — обнаружить только весло
  2. Conv2 — обнаруживает движение мяча в определенных направлениях и отслеживает мяч и ракетку.
  3. Conv3 — отклонения, скорость мяча, направление движения.
  4. Единицы LSTM — обнаруживают события высокого уровня, такие как отсутствие мяча, отражение мяча от ракеток и отражение мяча от стен.

** С помощью устройств LSTM он может обнаруживать события высокого уровня Pong, такие как отсутствие мяча у игрока, отражение мяча от ракетки или отражение мяча от стены.

**Неповторяющиеся 10-кадровые DQN и 1-frema DRQN ​​имеют доступ к одной и той же истории игровых экранов.

**Рекуррентные сети могут интегрировать информацию во времени и служить жизнеспособной альтернативой штабелированию кадров на входном уровне конв.

7. Заключение

DRQN может интегрировать информацию по кадрам для обнаружения таких событий, как скорость объектов на экране. и я уважаю их усилия и стараюсь работать лучше в частично наблюдаемой ситуации. Однако он показывает хороший результат только в игре Pong. и это не сильно отличается от суммирования наблюдений во входном слое сверточной сети.

https://arxiv.org/pdf/1507.06527.pdf