Избегайте самой опасной ловушки гистограмм

Смещение биннинга, самый большой недостаток гистограмм

Гистограммы, вероятно, являются первым графиком, который вы, возможно, используете, когда начинаете свой путь в качестве специалиста по данным. Это интуитивно понятные и простые графики, позволяющие понять форму распределений.

Однако по мере вашего продвижения вы обнаружите, что гистограммы не такие уж и хорошие. Гистограммы группируют значения в интервалы, называемые интервалами, а высота каждого интервала гистограммы указывает количество точек в этом интервале. Рассмотрим этот пример:

Из этой гистограммы мы сразу видим, что большинство оценок находится в диапазоне от 60 до 80. Давайте посмотрим, что произойдет, если мы изменим количество интервалов с 10 на 20:

Тем не менее, предыдущая тенденция очевидна. Давайте продолжим менять, на этот раз с 20 на 40:

Теперь мы видим, что распределение не такое гладкое, как кажется. Вы можете заметить небольшие пики около 40, 62, 68 и 80 с 40 интервалами. Таким образом, количество ячеек может фактически скрыть важную информацию о нашем распределении.

Однако слишком сильное изменение количества интервалов может просто внести случайный шум и сделать это важным открытием. Это подводит нас к смещению группировки, которое является самым большим недостатком гистограмм.

Смещение группировки — это ловушка гистограмм, из-за которой вы получаете разные представления одних и тех же данных при изменении количества ячеек для построения.

В последующих разделах мы увидим три альтернативы гистограммы, которые позволяют избежать систематической ошибки группировки и дают лучшие результаты для сравнения распределений.

Курс повышения квалификации по дискретным и непрерывным данным