Каким будет система рекомендаций на основе обучения с подкреплением в будущем - Часть 2…

Обучение с подкреплением - это то, как совершать действия, чтобы максимизировать вознаграждение, которое мы получим в зависимости от ситуации (окружающей среды). Это точно так же, как пользователь реагирует на систему рекомендаций.

Вы также можете проверить публикации из этой серии:

В среде подкрепления учащийся должен выяснить, каким способом достичь наивысшего вознаграждения, пробуя действия без указания того, что делать. Это действие может повлиять не только на немедленную награду, но и на ситуацию, тогда оно изменит способ выбора действия для нашего следующего выбора.

Мы легко можем представить себе, что обучение с подкреплением похоже на попытку ребенка начать ходить. Если он сможет шаг за шагом идти к своим родителям, он получит комплименты или подарок, который называется положительной наградой. Напротив, если он упадет, он почувствует боль и заплачет, что называется отрицательной наградой. Однако из-за того, что его соблазнили родительские дары, ребенок пытается снова и снова, пока не достигнет цели и не продолжит идти дальше. Это также цель системы обучения с подкреплением: попытки ложны, пока она не сможет максимизировать свою награду и продолжить дальнейшее развитие. На примере ребенка мы можем смоделировать процесс обучения с подкреплением следующим образом:

Этот процесс включает:

Агент: как ребенок, агент выдаст действие окружающей среде, а затем наблюдает за состоянием из окружающей среды и получает вознаграждение за свое действие.
Среда: где агент взаимодействует и возвращает награду и состояние.
Действие: например, как ребенок хочет ходить (короткий или длинный шаг, шаг вправо или шаг влево), это решение агента взаимодействовать с окружающей средой.
Награда: результат, полученный агентом от Окружающей среды, может быть отрицательным или положительным.
Состояние: агент будет наблюдать за его состоянием после взаимодействия с окружающей средой, точно так же, как младенец наблюдает за своим положением, если оно еще далеко от его родителей.

Но помимо агента и среды, мы можем выделить четыре основных подэлемента RL.

Политика: ядро агента, которое само по себе является достаточным для определения поведения, сопоставления состояний среды с действиями, которые должны быть предприняты в этих состояниях.
Награда: на каждом временном шаге среда отправляет агенту одно число, называемое наградой. Цель агента - максимизировать общее вознаграждение, которое он получает в долгосрочной перспективе. Таким образом, сигнал вознаграждения определяет, какие сигналы для агента являются хорошими и плохими.
Функция значения: указывает, что значение состояния - это общая сумма вознаграждения, которую агент может ожидать накопить в будущем, начиная с этого состояния.
Модель среды: имитирует поведение среды, что позволяет делать выводы о том, как среда будет себя вести.

Таксономии подкрепления

Алгоритмы обучения с подкреплением делятся на две группы: Model-Free и Model-Based.

RL на основе моделей использует опыт для построения внутренней модели переходов и непосредственных результатов в окружающей среде. Затем выбираются соответствующие действия путем поиска или планирования в этой модели мира.
Безмодельный RL использует опыт для непосредственного изучения одной или обеих из двух более простых величин (значений состояния / действия или политики), которые могут достичь того же оптимального поведения, но без оценки или использования модели мира. Учитывая политику, состояние имеет значение, определяемое в терминах будущей полезности, которая, как ожидается, будет накапливаться, начиная с этого состояния.

На рисунке выше представлена сводка таксономии алгоритмов RL. В части, свободной от моделей, у нас есть два типа алгоритмов: оптимизация политики (PO) и Q-Learning. Некоторые алгоритмы первого - это Policy Gradient, Advanced-Actor-Critic (A2C), Asynchronous Advanced Actor-Critic (A3C), Proximal Policy Optimization (PPO) и Оптимизация политики области доверия (TRPO). С последним у нас есть Deep Q-Learning (Q-Learning с глубоким обучением) и некоторые варианты DQN. Однако у нас также есть три алгоритма, которые мешают PO и Q-Learning: Deep Deterministic Policy Gradient (DDPG), Soft Actor-Critic (SAC) и Twin Delay DDPG (TD3). Что касается RL на основе моделей, теперь у нас есть некоторая модель из Deep Mind, такая как AlphaZero, и некоторая идеальная модель, такая как World Model (на основе автокодировщика дисперсии), агенты с расширенным воображением (I2A, с использованием LTSM с кодировщиком)… и т. Д. .

Полезные ресурсы:

Введение в обучение с подкреплением

Наш старый пост в блоге об обучении с подкреплением

Читайте оригинальную и последнюю статью по адресу:

Https://www.neurond.com/blogs/how-will-reinforcement-learning-based-recommendation-system-be-in-the-future-part-2

NeurondAI - это бизнес по трансформации. Свяжитесь с нами по:

Веб-сайт: https://www.neurond.com/

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP