Ресторан

Представьте себе, вам было 10 лет, и ваша семья решила отвести вас в этот удивительный ресторан. Вы скептически отнеслись к вкусу блюда, но отбросили все свои предчувствия и доверились отцу вопреки здравому смыслу. Он зорко просматривает меню, время от времени поглядывая на вас с насмешливым взглядом (почти как будто пытаясь понять, что именно) и, наконец, заказывает жареного цыпленка. Блюдо прибывает, и вы вгрызаетесь в свой первый укус…. а потом вуаля, вы понимаете, что его выбор был на самом деле очень хорош!

Оцените папу за знание вашего вкуса

На следующий день вы рассказываете об этом своему другу. Вы говорите ей: «У меня был этот жареный цыпленок в том замечательном ресторане, куда меня водил мой отец». И ваша подруга внимательно слушает то, что вы ей говорите. Она начинает делать мысленные пометки у себя в голове, что-то вроде заметок в своей воображаемой оперативной памяти. Потратив несколько секунд, она тащит вас в центр города и ведет в другой ресторан. Затем она просматривает меню и заказывает жареную индейку, надеясь, что у нее есть идеальная кухня для вас. Вы вгрызаетесь в этот первый кусочек… и вуаля! Это было также хорошо.

Похоже, ваш друг хорошо вас знает!

Теперь по какой-то странной причине ваша подруга в ударе и решила еще раз попытать счастья. Но на этот раз она решила сменить жанр. Она отводит вас в свой любимый ресторан морепродуктов в надежде, что она сможет поразить вас еще одним блестящим выбором. Вы входите в ресторан, и вы сразу же чувствуете урчание в животе. знак, он попадет в точку, и ваш друг получит высокую оценку. Еда заказана и доставлена ​​к вашему столу, ваш рот наполняется слюной, и вы не можете дождаться первого кусочка. Ваша подруга, будучи религиозным человеком, начала молиться. Ты не закрывала глаза (Глаза на приз). Как только она сказала аминь, ты вгрызаешься в свой первый укус..ААААААААА это было ужасно.

К сожалению :/

Вы, наверное, задаетесь вопросом: «Зачем я потратил 5 минут своего драгоценного времени на чтение этой абсурдной истории, которая не имеет абсолютно никакого отношения к названию». Держитесь за своих лошадей, у этого есть контекст, я скоро перейду к нему

Поиск по дереву Монте-Карло

Внимательно посмотрите на изображение. Если вы пропустили историю, потому что она показалась вам скучной, попробуйте прочитать ее еще раз и вернитесь сюда.

Хороший? Хорошо. Теперь давайте изучим алгоритм поиска по дереву Монте-Карло.

Эксплуатация

Когда твой отец привел тебя в твой первый ресторан, он начал первый отбор. Он не был уверен, что это сработает, он заранее знал, что вам может понравиться и не понравиться, и пошел вперед и заказал для вас жареного цыпленка. В вашем случае это сработало блестяще! .Может быть, он заметил, как вы всегда любили, когда мама готовила для вас курицу. Отбор был сделан по параметрам, которые у него были над вами.

Использование в обучении с подкреплением включает в себя принятие решений на основе известной информации или прошлого опыта, чтобы максимизировать немедленное вознаграждение.

В первом ресторане твой папа заметил, как ты наслаждаешься курицей, когда твоя мама готовит ее для тебя. Он, вероятно, сделал вывод, что жареная курица будет для вас безопасным и удовлетворительным выбором, основываясь на вашей прошлой реакции на куриные блюда. Это решение было принято на основе имеющихся у него знаний о ваших вкусовых предпочтениях.

Исследование

Теперь, подойдя к вашей подруге, у нее была кое-какая информация о вас, но она не была с вами все ваше детство. У нее было некоторое представление о том, что вам может понравиться и что может не понравиться. И, основываясь на информации, которую вы ей дали, она решила сделать что-то другое. Небольшая вариация вашего первого блюда из жареной курицы, а точнее ее родственницы: Жареная индейка.

Исследование включает в себя действия, которые менее предсказуемы или не основаны исключительно на прошлых знаниях. Хотя ваша подруга имела некоторое представление о ваших симпатиях и антипатиях из информации, которую вы ей предоставили, она решила попробовать что-то другое, отойдя от известного выбора жареной курицы.

Разведка против эксплуатации

В третьей попытке, когда она пыталась заставить вас попробовать морепродукты, у вас был инстинкт, который подсказывал вам, что вам это понравится (основываясь только на запахе). Как это связано с МССТ? В обучении с подкреплением MCST агент (в данном случае вы) сталкивается с проблемой балансирования между эксплуатацией, которая включает в себя выбор действий, которые, как известно, приносят высокие вознаграждения на основе предыдущего опыта, и исследованием, которое включает в себя опробование новых действий, чтобы собрать больше. информацию об их потенциальном вознаграждении.

Когда ваш двоюродный брат привел вас в ресторан морепродуктов, у вас было чутье или предчувствие, что вам понравится, основываясь на вашем предыдущем хорошем опыте с вашим отцом и предыдущим выбором ресторана друга. Это соответствует аспекту эксплуатации, когда вы решили использовать знания из своих прошлых успехов и выбрали ресторан морепродуктов, ожидая хорошего вознаграждения (вкусной еды) в краткосрочной перспективе. К сожалению, это не обернулось для вас благом.

Это был не тот результат, на который вы рассчитывали, и блюдо оказалось ужасным.

Это подчеркивает важность исследования в обучении с подкреплением. Несмотря на то, что у вас уже был положительный опыт, по-прежнему важно исследовать новые варианты (новые рестораны), чтобы не застрять с ограниченным набором вариантов и не рисковать проиграть в долгосрочной перспективе (в итоге получить плохой опыт).

Заключение

Алгоритм поиска по дереву Монте-Карло является одним из основных принципов обучения с подкреплением. Многие алгоритмы работают на основе этой концепции, понимая, что она имеет ключевое значение, и я надеюсь, что эта статья помогла вам получить базовое представление о его внутренней работе. На самом деле реализация намного более строгая, но базовое понимание займет у вас много времени.

Если вам понравилась эта статья, то обязательно подпишитесь на меня! Свяжитесь со мной по адресу https://www.linkedin.com/in/amos-eda-839870185/. Как всегда, если у вас есть конструктивная критика. Я хотел бы услышать все об этом!

В бесконечность и дальше…