EDA (исследовательский анализ данных) — это одна из задач, выполняемых аналитиком данных или специалистом по данным для сбора информации из данных в виде графиков и диаграмм, которые не могут быть идентифицированы только путем просмотра фактического набора данных.
Этот шаг выполняется после шага под названием «Очистка данных». Очистка данных гарантирует, что в наборе данных не будет ненулевых значений/столбцов и в наборе данных не будет выбросов, которые могут исказить результаты.
Итак, теперь данные чистые, и мы применим к ним EDA. Существуют различные шаги и методы, используемые в Data Analytics для выполнения EDA.
Примените статистический анализ к набору данных, используя некоторые команды, такие как .describe(), .corr() и т. д., которые показывают максимальное, минимальное, среднее значение, дисперсию и стандартное отклонение набора данных, а метод .corr() указывает тип корреляции. между колоннами.
Метод describe()
возвращает описание данных в DataFrame.
Если DataFrame содержит числовые данные, описание содержит следующую информацию для каждого столбца:
count — Количество непустых значений.
mean — Среднее (среднее) значение.
std — Стандартное отклонение.
min — минимальное значение.
25% — 25%-й процентиль
50% — 50%-й процентиль
75% — 75%-й процентиль
max — максимальное значение.
После статистического анализа мы делаем диаграммы и графики, потому что некоторые выбросы, потому что некоторый анализ выполняется только с помощью некоторых графиков, таких как блочная диаграмма
Этот блок-график описывает выбросы и много полезной информации.
Полезное вроде — Статистика в питоне
БЫЛО ТРИ ВИДА АНАЛИЗА
- Одномерный
- Byvariate
- Многовариантный
Посмотрим в следующем блоге спасибо