Обучение с подкреплением - это то, как совершать действия, чтобы максимизировать вознаграждение, которое мы получим в зависимости от ситуации (окружающей среды). Это точно так же, как пользователь реагирует на систему рекомендаций.

Вы также можете проверить публикации из этой серии:

В среде подкрепления учащийся должен выяснить, каким способом достичь наивысшего вознаграждения, пробуя действия без указания того, что делать. Это действие может повлиять не только на немедленную награду, но и на ситуацию, тогда оно изменит способ выбора действия для нашего следующего выбора.

Мы легко можем представить себе, что обучение с подкреплением похоже на попытку ребенка начать ходить. Если он сможет шаг за шагом идти к своим родителям, он получит комплименты или подарок, который называется положительной наградой. Напротив, если он упадет, он почувствует боль и заплачет, что называется отрицательной наградой. Однако из-за того, что его соблазнили родительские дары, ребенок пытается снова и снова, пока не достигнет цели и не продолжит идти дальше. Это также цель системы обучения с подкреплением: попытки ложны, пока она не сможет максимизировать свою награду и продолжить дальнейшее развитие. На примере ребенка мы можем смоделировать процесс обучения с подкреплением следующим образом:

Этот процесс включает:

  • Агент: как ребенок, агент выдаст действие окружающей среде, а затем наблюдает за состоянием из окружающей среды и получает вознаграждение за свое действие.
  • Среда: где агент взаимодействует и возвращает награду и состояние.
  • Действие: например, как ребенок хочет ходить (короткий или длинный шаг, шаг вправо или шаг влево), это решение агента взаимодействовать с окружающей средой.
  • Награда: результат, полученный агентом от Окружающей среды, может быть отрицательным или положительным.
  • Состояние: агент будет наблюдать за его состоянием после взаимодействия с окружающей средой, точно так же, как младенец наблюдает за своим положением, если оно еще далеко от его родителей.

Но помимо агента и среды, мы можем выделить четыре основных подэлемента RL.

  • Политика: ядро ​​агента, которое само по себе является достаточным для определения поведения, сопоставления состояний среды с действиями, которые должны быть предприняты в этих состояниях.
  • Награда: на каждом временном шаге среда отправляет агенту одно число, называемое наградой. Цель агента - максимизировать общее вознаграждение, которое он получает в долгосрочной перспективе. Таким образом, сигнал вознаграждения определяет, какие сигналы для агента являются хорошими и плохими.
  • Функция значения: указывает, что значение состояния - это общая сумма вознаграждения, которую агент может ожидать накопить в будущем, начиная с этого состояния.
  • Модель среды: имитирует поведение среды, что позволяет делать выводы о том, как среда будет себя вести.

Таксономии подкрепления

Алгоритмы обучения с подкреплением делятся на две группы: Model-Free и Model-Based.

  • RL на основе моделей использует опыт для построения внутренней модели переходов и непосредственных результатов в окружающей среде. Затем выбираются соответствующие действия путем поиска или планирования в этой модели мира.
  • Безмодельный RL использует опыт для непосредственного изучения одной или обеих из двух более простых величин (значений состояния / действия или политики), которые могут достичь того же оптимального поведения, но без оценки или использования модели мира. Учитывая политику, состояние имеет значение, определяемое в терминах будущей полезности, которая, как ожидается, будет накапливаться, начиная с этого состояния.

На рисунке выше представлена ​​сводка таксономии алгоритмов RL. В части, свободной от моделей, у нас есть два типа алгоритмов: оптимизация политики (PO) и Q-Learning. Некоторые алгоритмы первого - это Policy Gradient, Advanced-Actor-Critic (A2C), Asynchronous Advanced Actor-Critic (A3C), Proximal Policy Optimization (PPO) и Оптимизация политики области доверия (TRPO). С последним у нас есть Deep Q-Learning (Q-Learning с глубоким обучением) и некоторые варианты DQN. Однако у нас также есть три алгоритма, которые мешают PO и Q-Learning: Deep Deterministic Policy Gradient (DDPG), Soft Actor-Critic (SAC) и Twin Delay DDPG (TD3). Что касается RL на основе моделей, теперь у нас есть некоторая модель из Deep Mind, такая как AlphaZero, и некоторая идеальная модель, такая как World Model (на основе автокодировщика дисперсии), агенты с расширенным воображением (I2A, с использованием LTSM с кодировщиком)… и т. Д. .

Полезные ресурсы:

Введение в обучение с подкреплением

Наш старый пост в блоге об обучении с подкреплением

Читайте оригинальную и последнюю статью по адресу:

Https://www.neurond.com/blogs/how-will-reinforcement-learning-based-recommendation-system-be-in-the-future-part-2

NeurondAI - это бизнес по трансформации. Свяжитесь с нами по:

Веб-сайт: https://www.neurond.com/