После подгонки данных к алгоритму машинного обучения у вас есть прогнозы независимой переменной. Теперь вам нужно оценить, насколько хороша ваша модель. Кроме того, нам необходимо установить правильные пороги принятия решений для модели, которая соответствует варианту использования. В этом блоге мы рассмотрим матрицу путаницы. Как быть понятым и истолкованным.

Во-первых, предположим, что проблема классификации, которая у нас есть, является двоичной, что означает, что прогноз модели равен 1 или 0. Принадлежит ли прогнозируемый результат этому классу или нет. Это можно проиллюстрировать на следующей диаграмме.

Фактические значения представлены в столбцах, а прогнозируемые значения - в строках. Теперь у нас есть четыре возможности.

1 - Истинно положительное значение. Прогнозируемое значение является положительным и правильным.

2- Истинно отрицательное значение. Предполагаемое значение является отрицательным и правильным.

3- Ложно-положительный результат (ошибка типа I): прогнозируемое значение является положительным и неверным (прогнозируется неверно).

4- Ложноотрицательное значение (ошибка типа II): прогнозируемое значение является отрицательным и неверным (прогнозируется неверно).

Всегда имейте в виду, что нам нужно максимально увеличить диагональ TP, TN и минимизировать диагональ FN, FP в максимально возможной степени, поскольку это правильно спрогнозированные значения.

Чувствительность и специфичность:

Чувствительность (истинно положительный коэффициент - TPR): это количество правильных положительных результатов (TP) из фактических положительных результатов. Этот показатель определяет, насколько чувствительна наша модель для предсказания истинно положительных значений. Это также называется Отзыв.

Специфичность (истинно отрицательный коэффициент - TNR): это количество правильных отрицательных значений из прогнозируемых отрицательных значений. Он измеряет, насколько конкретна модель.

Предположим, наша модель машинного обучения предназначена для обнаружения мошенничества с транзакциями по кредитным картам. В этом случае мне нужно классифицировать каждую мошенническую транзакцию, даже если это обычная операция. Следовательно, мне нужно построить модель с высокой чувствительностью, так как получение всех TP более важно (FN должно быть минимальным).

С другой стороны, если наша модель машинного обучения предназначена для обнаружения спама в электронных письмах. В этом случае, если пользователь получил электронное письмо, которое не является спамом, но модель классифицирует его как спам, пользователь может пропустить важное письмо. Таким образом, требуется модель с высокой специфичностью, поскольку FP должно быть минимальным, чтобы снизить вероятность классификации письма как спама, а не спама (FP).

Тщательность и точность:

Точность: это процент всех правильно предсказанных значений из всех сделанных предсказаний. Это говорит нам, насколько точна наша модель.

Точность: это процент истинно положительных прогнозов от общего числа предсказанных положительных значений. Это также называется положительное значение прогноза.

Ценность отрицательного прогноза. Это процент истинно отрицательных прогнозов среди всех отрицательных прогнозов.

Подсказка: чтобы запомнить все формулы, представьте себе матрицу путаницы и примените следующие правила.

1- Чувствительность (отзыв), Специфичность → Вертикальные столбцы, Истинные значения в номинаторе.

2- Точность, отрицательное значение прогноза → Горизонтальные строки, истинные значения в номинаторе.

3- Точность → Все истинные значения / Всего.

Спасибо за чтение.

Вы можете связаться со мной по

«Https://www.linkedin.com/in/bassem настоящие женщины