EDA (исследовательский анализ данных) — это одна из задач, выполняемых аналитиком данных или специалистом по данным для сбора информации из данных в виде графиков и диаграмм, которые не могут быть идентифицированы только путем просмотра фактического набора данных.

Этот шаг выполняется после шага под названием «Очистка данных». Очистка данных гарантирует, что в наборе данных не будет ненулевых значений/столбцов и в наборе данных не будет выбросов, которые могут исказить результаты.

Итак, теперь данные чистые, и мы применим к ним EDA. Существуют различные шаги и методы, используемые в Data Analytics для выполнения EDA.

Примените статистический анализ к набору данных, используя некоторые команды, такие как .describe(), .corr() и т. д., которые показывают максимальное, минимальное, среднее значение, дисперсию и стандартное отклонение набора данных, а метод .corr() указывает тип корреляции. между колоннами.

Метод describe() возвращает описание данных в DataFrame.

Если DataFrame содержит числовые данные, описание содержит следующую информацию для каждого столбца:

count — Количество непустых значений.
mean — Среднее (среднее) значение.
std — Стандартное отклонение.
min — минимальное значение.
25% — 25%-й процентиль
50% — 50%-й процентиль
75% — 75%-й процентиль
max — максимальное значение.

После статистического анализа мы делаем диаграммы и графики, потому что некоторые выбросы, потому что некоторый анализ выполняется только с помощью некоторых графиков, таких как блочная диаграмма

Этот блок-график описывает выбросы и много полезной информации.

Полезное вроде — Статистика в питоне

БЫЛО ТРИ ВИДА АНАЛИЗА

  • Одномерный
  • Byvariate
  • Многовариантный

Посмотрим в следующем блоге спасибо