Предвзятость

Вы должны хотя бы раз услышать о предвзятости, если вас интересует статистика или любые другие области, имеющие схожие точки со статистикой. Это был первый класс университета, когда я когда-либо слышал об этом. На лекции по статистике я видел много разных метрик, таких как медиана, среднее и т. д. Одной из этих метрик, которая привлекла мое внимание, был расчет дисперсии населения. При расчете этой метрики вам необходимо использовать N как количество экземпляров в популяции. Но иногда вам нужно использовать N-1 вместо N иногда. Когда я спросил профессора о причине использования N-1, она ответила, что он используется для снижения эффекта предвзятости.

Что такое предвзятость?

Смещение — это поведение модели, которое делает предвзятые прогнозы, приводящие к ошибкам. Это одно предложение означает предвзятость. Но, конечно, мы можем обобщить аффект и найти примеры из разных областей, связанных со статистикой или нет. Даже мы предвзяты как люди. Всякий раз, когда вы обсуждаете что-то, вы, как правило, говорите вокруг своего пространства знаний. Вы устанавливаете связи между каждой частью информации по теме, делаете выводы из этих связей и передаете результат человеку рядом с вами.

Могу сказать, что любая статистическая модель мало чем отличается от нас. Он склонен делать прогнозы вокруг своего пространства знаний. Вы можете легко добраться до этого пространства знаний модели, в отличие от людей. Это так конкретно. Сотни, тысячи или миллионы строк данных на листе Excel, в таблице базы данных или любых других источниках. Модели должны использовать это ограниченное озеро данных (в некоторых экосистемах, таких как Hadoop, оно называется озеро данных), чтобы делать предположения по какой-либо конкретной теме. Таким образом, ограничение источника данных в какой-то момент более или менее убивает обобщение. Но это вызвано не только из-за предела. Также другие факторы, такие как качество входного набора, разделение целевых классов (см. также несбалансированный набор данных), порядок записей данных в обучающей части модели для некоторого алгоритма (и т. д.) может увеличивать или уменьшать смещение модели.

Где используется предвзятость (меры предосторожности)?

В статистике существует множество методов уменьшения влияния систематической ошибки. Некоторые из методов направлены на вычисление систематической ошибки в шкале, а некоторые делают предположения, которые, как считается, снижают влияние систематической ошибки. Я хочу еще раз упомянуть об использовании N-1 вместо N при расчете дисперсии. При расчете дисперсии всей совокупности (всех возможных членов кластера) необходимо использовать N. Но N-1 для расчета дисперсии выборки из этой совокупности. Поскольку вы используете не все экземпляры, а их часть, вы начинаете делать выводы вокруг этих экземпляров. Вы принимаете этот подкластер как окончательное представление и принимаете выборки как саму совокупность. Таким образом, вы получаете ошибки в своих расчетах для каждого отличающегося поведения выборки от совокупности. Соответственно, вам нужно знать, что вы начали производить расчеты вокруг выборки и склонны считать метрики вокруг выборки. Чтобы снизить влияние смещения, используется N-1. Вы можете использовать эту ссылку для деталей и неясных моментов.

В регрессионных моделях есть математическая формула, представляющая окончательную модель, и модели обучаются настраивать параметры этой формулы. В соответствии с формулой есть значения признаков, которые извлекаются из столбцов листа таблицы Excel, и есть значения веса, соответствующие каждому значению признака, которое формирует окончательную формулу. Во время обучающей части модели она может увеличивать или уменьшать значения веса из-за ошибки прогнозирования модели. Интересным моментом является то, что для завершения формулы используется еще один параметр, который называется bias. Он используется для настройки выходных данных модели, поскольку известно, что модель имеет тенденцию делать ошибки в прогнозе. Вы также можете проверить эту ссылку.

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP