Вы должны хотя бы раз услышать о предвзятости, если вас интересует статистика или любые другие области, имеющие схожие точки со статистикой. Это был первый класс университета, когда я когда-либо слышал об этом. На лекции по статистике я видел много разных метрик, таких как медиана, среднее и т. д. Одной из этих метрик, которая привлекла мое внимание, был расчет дисперсии населения. При расчете этой метрики вам необходимо использовать N как количество экземпляров в популяции. Но иногда вам нужно использовать N-1 вместо N иногда. Когда я спросил профессора о причине использования N-1, она ответила, что он используется для снижения эффекта предвзятости.

Что такое предвзятость?

Смещение — это поведение модели, которое делает предвзятые прогнозы, приводящие к ошибкам. Это одно предложение означает предвзятость. Но, конечно, мы можем обобщить аффект и найти примеры из разных областей, связанных со статистикой или нет. Даже мы предвзяты как люди. Всякий раз, когда вы обсуждаете что-то, вы, как правило, говорите вокруг своего пространства знаний. Вы устанавливаете связи между каждой частью информации по теме, делаете выводы из этих связей и передаете результат человеку рядом с вами.

Могу сказать, что любая статистическая модель мало чем отличается от нас. Он склонен делать прогнозы вокруг своего пространства знаний. Вы можете легко добраться до этого пространства знаний модели, в отличие от людей. Это так конкретно. Сотни, тысячи или миллионы строк данных на листе Excel, в таблице базы данных или любых других источниках. Модели должны использовать это ограниченное озеро данных (в некоторых экосистемах, таких как Hadoop, оно называется озеро данных), чтобы делать предположения по какой-либо конкретной теме. Таким образом, ограничение источника данных в какой-то момент более или менее убивает обобщение. Но это вызвано не только из-за предела. Также другие факторы, такие как качество входного набора, разделение целевых классов (см. также несбалансированный набор данных), порядок записей данных в обучающей части модели для некоторого алгоритма (и т. д.) может увеличивать или уменьшать смещение модели.

Где используется предвзятость (меры предосторожности)?

В статистике существует множество методов уменьшения влияния систематической ошибки. Некоторые из методов направлены на вычисление систематической ошибки в шкале, а некоторые делают предположения, которые, как считается, снижают влияние систематической ошибки. Я хочу еще раз упомянуть об использовании N-1 вместо N при расчете дисперсии. При расчете дисперсии всей совокупности (всех возможных членов кластера) необходимо использовать N. Но N-1 для расчета дисперсии выборки из этой совокупности. Поскольку вы используете не все экземпляры, а их часть, вы начинаете делать выводы вокруг этих экземпляров. Вы принимаете этот подкластер как окончательное представление и принимаете выборки как саму совокупность. Таким образом, вы получаете ошибки в своих расчетах для каждого отличающегося поведения выборки от совокупности. Соответственно, вам нужно знать, что вы начали производить расчеты вокруг выборки и склонны считать метрики вокруг выборки. Чтобы снизить влияние смещения, используется N-1. Вы можете использовать эту ссылку для деталей и неясных моментов.

В регрессионных моделях есть математическая формула, представляющая окончательную модель, и модели обучаются настраивать параметры этой формулы. В соответствии с формулой есть значения признаков, которые извлекаются из столбцов листа таблицы Excel, и есть значения веса, соответствующие каждому значению признака, которое формирует окончательную формулу. Во время обучающей части модели она может увеличивать или уменьшать значения веса из-за ошибки прогнозирования модели. Интересным моментом является то, что для завершения формулы используется еще один параметр, который называется bias. Он используется для настройки выходных данных модели, поскольку известно, что модель имеет тенденцию делать ошибки в прогнозе. Вы также можете проверить эту ссылку.