Избегайте самой опасной ловушки гистограмм
Смещение биннинга, самый большой недостаток гистограмм
Гистограммы, вероятно, являются первым графиком, который вы, возможно, используете, когда начинаете свой путь в качестве специалиста по данным. Это интуитивно понятные и простые графики, позволяющие понять форму распределений.
Однако по мере вашего продвижения вы обнаружите, что гистограммы не такие уж и хорошие. Гистограммы группируют значения в интервалы, называемые интервалами, а высота каждого интервала гистограммы указывает количество точек в этом интервале. Рассмотрим этот пример:
Из этой гистограммы мы сразу видим, что большинство оценок находится в диапазоне от 60 до 80. Давайте посмотрим, что произойдет, если мы изменим количество интервалов с 10 на 20:
Тем не менее, предыдущая тенденция очевидна. Давайте продолжим менять, на этот раз с 20 на 40:
Теперь мы видим, что распределение не такое гладкое, как кажется. Вы можете заметить небольшие пики около 40, 62, 68 и 80 с 40 интервалами. Таким образом, количество ячеек может фактически скрыть важную информацию о нашем распределении.
Однако слишком сильное изменение количества интервалов может просто внести случайный шум и сделать это важным открытием. Это подводит нас к смещению группировки, которое является самым большим недостатком гистограмм.
Смещение группировки — это ловушка гистограмм, из-за которой вы получаете разные представления одних и тех же данных при изменении количества ячеек для построения.
В последующих разделах мы увидим три альтернативы гистограммы, которые позволяют избежать систематической ошибки группировки и дают лучшие результаты для сравнения распределений.