Масштабирование Платта:

В машинном обучении «масштабирование Платта» — это метод, используемый для калибровки выходных вероятностей бинарного классификатора, что означает, что он корректирует оценки вероятности, чтобы они были более точными и лучше представляли истинную вероятность определенного класса. Масштабирование Платта часто используется в ситуациях, когда выходные вероятности классификатора плохо откалиброваны, что означает, что они не точно отражают истинную вероятность положительного или отрицательного результата.

Основная идея масштабирования Платта состоит в том, чтобы подогнать модель логистической регрессии к выходным вероятностям, сгенерированным бинарным классификатором. Модель логистической регрессии обучается на наборе калибровочных данных, который обычно представляет собой подмножество обучающих данных, предназначенных специально для этой цели. Затем модель логистической регрессии учится сопоставлять выходные вероятности из бинарного классификатора с более точной шкалой.

Функция масштабирования Платта может быть выражена математически как:

P(y=1|x) = 1 / (1 + exp(A * f(x) + B))

=› где P(y=1|x) — калиброванная вероятность положительного класса при заданном входе x, f(x) — результат бинарного классификатора для входа x, A и B — параметры модели логистической регрессии, а exp() — экспоненциальная функция.

Чтобы соответствовать модели логистической регрессии, мы можем использовать оценку максимального правдоподобия (MLE), чтобы найти значения A и B, которые максимизируют вероятность набора данных калибровки. После того, как мы обучили модель логистической регрессии, мы можем использовать ее для калибровки выходных вероятностей бинарного классификатора на новых данных.

Масштабирование Платта может быть полезным методом для повышения точности бинарных классификаторов, особенно в ситуациях, когда важны точные оценки вероятности, например, при медицинской диагностике или обнаружении мошенничества.

Чтобы применить масштабирование Платта к двоичному классификатору, мы обычно выполняем следующие шаги:

  1. Обучите бинарный классификатор на обучающих данных.
  2. Сгенерируйте выходные вероятности для проверки или тестовых данных с помощью двоичного классификатора.
  3. Подбирайте модель логистической регрессии к выходным вероятностям в наборе данных калибровки.
  4. Используйте модель логистической регрессии для преобразования выходных вероятностей данных проверки или тестирования в калиброванные вероятности.
  5. Оцените производительность калиброванного классификатора на проверочных или тестовых данных.

Масштабирование Platt можно реализовать с помощью различных библиотек на Python, таких как Scikit-Learn или TensorFlow.

Проблема:

Одна потенциальная проблема с масштабированием Платта заключается в том, что для него требуется отдельный набор калибровочных данных, который не всегда может быть доступен или может быть дорогим. В таких случаях для калибровки выходных вероятностей можно использовать альтернативные методы, такие как изотоническая регрессия или температурное масштабирование, без необходимости в отдельном наборе калибровочных данных.

Заключение:

Таким образом, масштабирование Платта — это метод, используемый для повышения точности двоичных классификаторов путем калибровки их выходных вероятностей с использованием модели логистической регрессии. Это простой, но эффективный метод, который можно использовать во многих приложениях, где важны точные оценки вероятности.

Ссылка на изображение:

НСС. (2016, 7 июля). Использование масштабирования Platt и изотонической регрессии для минимизации ошибки LogLoss в R. Аналитика Видья. https://www.analyticsvidhya.com/blog/2016/07/platt-scaling-isotonic-regression-minimize-logloss-error/