Введение

Бюро переписи населения США опубликовало общедоступный файл данных для Ежегодного социально-экономического приложения к текущему обследованию населения (ASEC), собранный в период с 1998 года по настоящее время. Ежегодное социально-экономическое приложение (CPS-ASEC) проводится ежегодно в феврале, марте и апреле. В дополнение к обычным ежемесячным данным о рабочей силе в этом дополнении содержится информация об опыте работы, доходах, неденежных пособиях и миграции лиц в возрасте 15 лет и старше. Полная информация об опыте работы о статусе занятости, роде занятий и отрасли деятельности лиц старше 15 лет, военнослужащих, проживающих в домохозяйстве, в состав которого входит как минимум одно гражданское лицо, и дополнительных испаноязычных домохозяйств, не включенных в ежемесячные оценки рабочей силы. Имеются дополнительные данные о рабочих неделях, отработанных часах в неделю, причинах неполного рабочего дня, общем доходе и компонентах дохода. Этот набор данных имеет обширный охват, и различные аналитические методы могут быть использованы для получения потрясающих сведений.

В этом исследовании мы будем использовать набор данных Годовые социальные и экономические приложения за 2020 год (hhpub20.csv), мы сосредоточимся на конкретной потребности бизнеса, которую мы можем найти в документации набора данных, и сосредоточим наш анализ на этом направлении. Мы опишем процесс, используемый для планирования анализа, мы постараемся объяснить процесс и обоснование, используемые для выполнения процессов исследовательского анализа данных для выбранных переменных с обоснованием выбранных методов, и, наконец, детализируем выводы, полученные в процессе путем вычислений. меры изменчивости и центральной тенденции, частоты, дисперсии, стандартного отклонения, обнаружения выбросов и модальности распределения с помощью методов одномерного анализа, кластерного анализа и группировки данных.

Процесс планирования анализа.

Этот предварительный анализ данных будет сосредоточен на девяти из 134 переменных в наборе данных Ежегодных социальных и экономических приложений (ASEC) за 2020 год. Цель исследования состоит в том, чтобы выполнить однофакторный и кластерный анализ количественных переменных, присутствующих в выбранных переменных, и выполнить одномерный анализ данных качественных переменных, присутствующих в наших выбранных переменных, выбранных из географического положения получателя ASEC 2020 года, типа домохозяйства, домохозяйства. доход и переменные типа собственности. Чтобы измерить местонахождение участников ASEC 2020, мы выбрали три переменные, которые лучше всего описывают местонахождение участников. Эти переменные перечислены ниже и записаны в словаре данных.

Словарь данных

Выбраны переменные местоположения.

GEDIV: Эта переменная представляет собой географическое разделение текущего места жительства по данным переписи со значениями: 1 = Новая Англия 2 = Средняя Атлантика 3 = Восток Северо-Центр 4 = Запад Северо-Центр 5 = Южная Атлантика 6 = Восток Юг Центрально-Центральная 7 = Запад Юг Центрально-Центральная 8 = Гора 9 = Тихий океан

GEREG: представляет регион со значениями: 1 = северо-восток 2 = средний запад 3 = юг 4 = запад

GESTFIPS = представляет код штата FIPS, значения: 01–56 код штата.

Выбраны переменные типа домохозяйства

HRHTYPE: представляет тип домохозяйства со значениями: 00 = домохозяйство без опроса.

01 = Основная семья супружеской пары (ни один из супругов в вооруженных силах),

02 = Основная семья супружеской пары (один супруг в вооруженных силах)

03 = Неженатый гражданский мужчина, домовладелец основной семьи

04 = незамужняя гражданская женщина, домохозяин основной семьи

05 = Основное семейное домашнее хозяйство — эталонное лицо в вооруженных силах и не состоящее в браке

06 = гражданский мужчина, несемейный домохозяин

07 = Гражданская женщина, несемейная домохозяйка

08 = Несемейное домохозяйство — основное лицо в вооруженных силах

09 = Групповые помещения с настоящими семьями (новинка 1994 г.)

10 = Групповые кварталы только с второстепенными лицами

H_TENURE: представляет тип жилья со значениями: 0 = не во вселенной 1 = в собственности или покупается 2 = в аренде 3 = без денежной арендной платы.

H_LIVQRT: представляет тип жилого помещения (перекодировать) со значениями: Единица жилья 01 = Дом, квартира, квартира 02 = HU в непереходной гостинице и т. д. 03 = HU, пермь, в пер. отель, мотель и т. д. 04 = HU в ночлежном доме 05 = Передвижной дом или трейлер без добавленной постоянной комнаты 06 = Передвижной дом или трейлер с одной или несколькими добавленными комнатами для постоянного проживания 07 = HU, не указанный выше Другая единица 08 = Qtrs not hu in общежитие или пансионат 09 = Единица не перм. в пер. отель, мотель и т. д. 10 = место для палатки или трейлера 11 = студенческие помещения в общежитии колледжа 12 = другое, не относящееся к HU

HPRES_MORT: представляет наличие ипотечного кредита (респондент ответил да на hmort_yn или hsmort_yn) 1 338 (0:2) Значения: 0 = нет 1 = да 2 = нет

Выбраны переменные дохода

HHINC: общий доход домохозяйства в тысячах ($) со значениями:

1 = МЕНЬШЕ 2500 долларов, 2 = от 2500 до 4999 долларов, 3 = от 5000 до 7499 долларов, 40 = от 97 500 до 99 999 долларов и, наконец, 41 = от 100 000 долларов.

HPROP_VAL: оценка текущей стоимости недвижимости со значениями: 0 = нет/ni -renter 1: 9999999- в долларах. Новый фрейм данных будет сформирован с выбранными переменными фокуса и назван данными в анализе.

Одномерный анализ данных

Одномерный анализ данных — это один из типов исследования, который используется для одной переменной за раз. Этот метод направлен на обобщение данных и определение степени, в которой в данных обнаружена закономерность. В исследовательском анализе данных цель одномерного анализа изначально носит описательный характер, а затем логический вывод, если переменная требует дальнейшего изучения. Понимая распределение одной переменной в наборе данных, можно задать дополнительные вопросы об остальном наборе данных.

Кластерный анализ

Кластеризация — это процесс разделения различных частей данных на основе общих характеристик. Многие отрасли, включая розничную торговлю, финансы и здравоохранение, используют методы кластеризации для решения различных аналитических задач. В розничной торговле кластеризация может помочь идентифицировать отдельные группы потребителей, позволяя компании создавать целевую рекламу на основе демографических данных потребителей, которые могут быть слишком сложными для проверки вручную. Цели кластерного анализа заключаются в том, чтобы определить, какие группы выходят, проанализировать сходство внутри каждой группы, создать или проверить гипотезы и описать взаимосвязь между точками данных и их группой.

Этапы исследовательского анализа данных (EDA)

Исследовательский анализ данных (EDA) — это метод, используемый для понимания различных аспектов данных. Он включает в себя изучение доступного набора данных для поиска закономерностей, выявления аномалий, проверки гипотез и проверки предположений с использованием статистических показателей. (Вишешарора, 2021). Существуют этапы, необходимые для проведения первоклассного исследовательского анализа данных, и некоторые базы данных с открытым исходным кодом могут помочь нам в этом процессе (Mukhiya et al., 2020). Пять шагов процесса для EDA — это шаги, которые разумно выполняются ниже с использованием блокнота Python Jupyter.

Шаг 1. Определите переменные и типы данных в заданном фрейме данных.

Чтобы обнаружить переменные фрейма данных, мы должны открыть блокнот Jupyter, импортировать все необходимые библиотеки для этого одномерного исследовательского анализа данных, а затем загрузить загруженный CSV-файл с компьютера, используя приведенный ниже код:

Таблица 1. База исходных данных Ежегодных социальных и экономических приложений за 2020 г.

В таблице 1 представлены необработанные данные базы данных «Ежегодные социальные и экономические приложения» за 2020 год.

Таблица 2: Отдельные переменные для базы данных «Ежегодные социальные и экономические приложения» за 2020 г.

В таблице 2 показан необработанный набор данных для базы необработанных данных Ежегодных социальных и экономических приложений за 2020 год. Данные состоят как из количественных, так и из качественных переменных.

Таблица 3: отдельные переменные в Ежегодных социально-экономических приложениях за 2020 г.

Из выходных данных выбранные переменные во фрейме данных Ежегодных социальных и экономических приложений за 2020 год имеют девять столбцов и 91 500 строк. Все эти выбранные переменные имеют целочисленный тип, но в реальном смысле 2 из этих переменных являются количественными (общий доход домохозяйства (HHINC) и текущая стоимость имущества (HPROP_VAL)), а 7 переменных являются качественными (географическое подразделение переписи населения). текущее место жительства (GEDIV), регион (GEREG), код штата FIPS (GESTFIPS), тип домохозяйства (HRHTYPE), тип жилья (H_TENURE), тип жилого помещения (H_LIVQRT), наличие ипотечного кредита (HPRES_MORT)).

Шаг 2. Определяем форму фрейма данных.

Чтобы определить форму набора данных, мы запускаем этот код Python.

На выходе набор данных содержит 91 500 строк и девять столбцов.

Шаг 3. Проверка отсутствия данных и аномалий.

Для этого мы запустим приведенный ниже код Python, который выдает отсутствующие данные, равные нулю.

Таблица 4:

После запуска кодов мы обнаружили, что в выбранном наборе данных нет отсутствующих точек данных.

График распределения общего дохода домохозяйства (HHINC) в тысячах долларов ($) и оценка текущей стоимости имущества (HPROP_VAL) получателей ASEC 2020 года в США.

Рисунок 1. График распределения общего дохода домохозяйства (HHINC) в тысячах долларов ($) и оценка текущей стоимости имущества (HPROP_VAL) получателей ASEC 2020 года.

Глядя на распределение общего дохода домохозяйства (HHINC) получателя ASEC 2020 года, становится очевидным, что эта переменная является несимметричной (асимметричной) и бимодальной, поскольку на графике распределения присутствуют две «насыпи». Оценка текущего значения свойства (HPROP_VAL) имеет положительную асимметрию, о чем свидетельствуют хвосты, указывающие вправо, то есть выбросы смещены вправо, а данные складываются слева. Это означает, что доходы домохозяйств и текущие оценки имущества получателей ASEC в 2020 году обычно не распределяются в США.

Шаг 4. Определите значимые корреляции и взаимосвязи между переменными дохода в наборе данных с помощью диаграммы интенсивности.

Корреляция — это мера связанности переменных. Мы вычисляем коэффициент корреляции и точечную диаграмму, чтобы увидеть взаимосвязь между всеми количественными переменными, присутствующими во фрейме данных, и строим матрицу корреляции тепловой карты, чтобы визуализировать коэффициент корреляции и точечную диаграмму, чтобы увидеть взаимосвязь. Эта матрица строится при запуске этого кода.

Фигура 2:

Из приведенного выше графика корреляционной матрицы мы можем видеть слабую положительную корреляцию между общим доходом домохозяйства (HHINC) получателя ASEC 2020 года и текущей стоимостью имущества (HPROP_VAL), как видно из коэффициента корреляции 0,43. Диаграмма рассеяния показывает слабые линейные отношения между этими двумя переменными.

Шаг 5: Определите степень выбросов

Выбросы — это необычные точки данных, которые сильно отличаются от остальных наблюдений, лежащих за пределами общего распределения набора данных. Это может оказать значительное влияние на стандартное отклонение и может указывать на ошибку при сборе данных и необычное отклонение от остальной точки данных. Его можно обнаружить графически, построив диаграмму рассеяния и диаграмму разброса, и его можно удалить с помощью фильтрации межквартильного диапазона (IQR); это используется, когда распределение данных асимметрично, и если набор данных нормально или приблизительно нормально распределен, уместно использовать фильтрацию выбросов z-показателя. Чтобы проверить выбросы в общем доходе домохозяйства (HHINC) и текущей стоимости имущества (HPROP_VAL) получателей ASEC 2020 года, мы запустим этот код Python:

Рисунок 3: График доходов домохозяйств и текущей стоимости недвижимости

Что касается первого графика, у нас нет выбросов в переменной дохода домохозяйства получателя ASEC 2020 года. Также очевидно, что в текущей стоимости имущества получателей ASEC 2020 года присутствуют выбросы. Перед вычислением базовая статистика позволяет исправить выбросы во второй переменной.

Устранение выбросов

Важно избавиться от этих выбросов, прежде чем вычислять описательную статистику этих двух переменных. Мы будем использовать фильтрацию на основе IQR, чтобы исправить выбросы, поскольку наше распределение данных для двух переменных искажено. Мы вычислим межквартильный диапазон переменных, а также верхний и нижний пределы, необходимые для ограничения набора данных.

Вывод для текущего значения свойства:

iqr = 200 000, верхний предел: 500 000, нижний предел: 300 000

Ограничение

Ограничение означает изменение значений выбросов до значения верхнего предела, если точка данных больше, чем значение верхнего предела, или до значений нижнего предела, если значение данных ниже, чем значение нижнего предела.

В методе ограничения мы ограничиваем данные нашего выброса и делаем предел выше определенного значения или меньше этого значения, все значения будут рассматриваться как выбросы, а количество выбросов в наборе данных дает это укупорочный номер. Это не сильно уменьшает количество точек данных по сравнению с методом обрезки. Теперь мы готовы ограничить набор данных и сохраним новый набор данных как clean_income_cap. Это вычисляется с помощью приведенного ниже кода.

Сравнение графиков до и после ограничения, чтобы увидеть, полностью ли мы позаботились обо всех выбросах

Это делается с помощью приведенного ниже кода:

Рисунок 4: Блок-схема, показывающая до и после укупорки

Из приведенного выше рисунка 4 мы полностью удалили выбросы в нашем наборе данных с помощью ограничения. Пришло время рассчитать базовую статистику как для переменной дохода домохозяйства, так и для стоимости имущества для получателей ASEC 2020 года.

Вычисление базовой статистики для исследуемых переменных.

Чтобы вычислить базовую статистику как для переменной дохода домохозяйства, так и для стоимости имущества для получателей ASEC 2020 года, мы запускаем код ниже:

Таблица 5:Вычисленная статистика для двух переменных

Средний доход домохозяйства для получателей ASEC на 2020 год в США составляет 14 000 долларов США, в то время как средний доход домохозяйства составляет 17 660 долларов США, при этом стандартное отклонение от рассчитанного среднего значения составляет 16 770 долларов США. Максимальный доход семьи составляет 41 000 долларов США, в то время как минимальный доход семьи среди этих получателей ASEC 2020 не является доходом. Средняя текущая стоимость недвижимости для получателей ASEC на 2020 год в США составляет 113 698 долларов США, при этом стандартное отклонение от рассчитанного среднего значения составляет 162 217 долларов США. Максимальная текущая стоимость недвижимости составляет 500 000 долларов.

Кластерный анализ переменной дохода домохозяйства (HHINC) и текущей стоимости имущества (HPROP_VAL) для получателей ASEC за 2020 год.

Кластеризация означает группировку элементов, которые похожи друг на друга. Группировка похожих продуктов, группировка похожих статей или документов и группировка похожих клиентов для сегментации рынка — все это примеры кластеризации (Avinash et al., 2021). Цель кластерного анализа — определить, какие группы существуют, и посмотреть, можем ли мы использовать этот кластер для принятия решений или классификации. Мы продемонстрируем методы кластерного анализа с переменной дохода домохозяйства (HHINC) и текущей стоимостью имущества (HPROP_VAL) для получателей ASEC на 2020 год. Первым шагом является выполнение исследовательского анализа данных по выбранным переменным, что было сделано ранее.

Определение проблемы.

Наш кластерный анализ будет направлен на создание уникальных групп текущей стоимости имущества (HPROP_VAL) для получателей ASEC на 2020 год вокруг дохода домохозяйства (HHINC) и посмотреть, какую классификацию или решение мы можем принять с помощью этой группировки. Для этого мы будем использовать технику кластеризации K-средних, запустив код ниже:

Определите количество кластеров с помощью метода локтя.

Затем нам нужно определить количество кластеров, которые мы будем использовать в методах кластеризации локтевого сустава. Мы будем использовать метод локтя, который строит график суммы квадратов внутри кластера (WCSS) в зависимости от количества кластеров. Нам нужно определить цикл for, содержащий экземпляры класса K-средних. Этот цикл for будет перебирать кластеры с номерами от одного до десяти. Мы также инициализируем список, который будем использовать для добавления значений WCSS: Затем мы добавляем значения WCSS в наш список. Мы получаем доступ к этим значениям через атрибут инерции объекта K-средних: наконец, мы можем построить график зависимости WCSS от количества кластеров. Во-первых, давайте импортируем Matplotlib и Seaborn, что позволит нам создавать и форматировать визуализации данных:

Рисунок 6: Количество кластеров, определенных в переменной дохода домохозяйства (HHINC) и текущей стоимости имущества (HPROP_VAL) для получателей ASEC на 2020 год. по сравнению с рядом кластеров.

Из приведенного выше графика метода выбора кластера локтя мы видим, что наш кластер для этих переменных будет равен четырем, потому что изгиб кривой равен 4. Это означает, что мы рассмотрим 4 кластера в нашем анализе K-кластера.

Построение точечной диаграммы, отображающей кластеры и центроиды каждого кластера.

Пришло время построить графики рассеяния k-средних. На этом графике показан центр каждого кластера, известного как центроид в рассматриваемом наборе данных, и это будет сделано с помощью кода Python ниже:

Выход:

[90641, 70471, 55200, 13892]

Вывод:

[88.71135062, 87.65350231, 86.08209464, 83.33937181]

Рисунок 7: Кластеры K-средних, показывающие центроиды переменных

Модель гауссовой смеси (GMM) для идентификации кластеров.

Смешанные модели Гаусса, как правило, более надежны и гибки, чем кластеризация K-средних. Опять же, это связано с тем, что GMM фиксирует сложные формы кластеров, а K-средние — нет. Это выполняется с помощью кода ниже:

Рисунок 8:

Рис. 9. График сравнения моделей.

В заключение, мы сгруппировали две переменные в кластеры, используя k-means и смешанную модель Гаусса.

Изучение оставшихся семи качественных переменных: географическая единица текущего места жительства (GEDIV), регион (GEREG), код FIPS штата (GESTFIPS), тип домохозяйства (HRHTYPE), тип жилья (H_TENURE), тип жилого помещения (H_LIVQRT). ), Наличие ипотечного кредита (HPRES_MORT) посредством подсчета частоты.

Одномерный EDA будет выполняться для этих семи качественных переменных с использованием таблиц частот для получателей ASEC 2020 года в Соединенных Штатах с использованием приведенного ниже кода:

Частотный подсчет, круговая диаграмма и гистограмма для получателей ASEC за 2020 год в США по географическому району текущего проживания (GEDIV) переписи.

рисунок 10:

Рассматривая круговую диаграмму и гистограмму выше, становится очевидным, что жители географического подразделения Южно-Атлантической переписи являются самыми высокими получателями ASEC за 2020 год с частотным подсчетом 18 113, за которыми следует место жительства географического подразделения Тихоокеанской переписи с количество частот 12 812. Географическое подразделение горной переписи имеет частотность 11 265, за ним следует географическое подразделение западно-южно-центральной переписи с частотностью 10787. Географическое подразделение среднеатлантической переписи имеет частотность 8047, а восточно-северо-центральная подсчет частоты 9133. Наименьшим получателем ASIC в 2020 году было географическое подразделение восточно-южно-центральной переписи с подсчетом частоты 6519, за которым следует Новая Англия с подсчетом частоты 6964.

Частотный подсчет, круговая диаграмма и гистограмма для получателей ASEC за 2020 год в США по регионам (GEREG).

рисунок 11:

Учитывая круговую диаграмму и гистограмму выше, становится очевидным, что Южный регион является самым большим получателем ASEC в 2020 году с частотой 35 419, за ним следует Западный регион с частотой 24 077, а затем «Регион Среднего Запада». с частотой 16 993, а наименьшим получателем ASEC за год является «Северо-восточный» регион с частотой 15 011.

Создание гистограммы получателей ASEC 2020 года в США по коду штата

Рисунок 12:

Из приведенной выше гистограммы видно, что штатом с наибольшим количеством получателей ASEC в 2020 году была Калифорния (с кодом FIP штата 6), затем Техас (с кодом FIP штата 48), а затем Флорида (с кодом FIP штата 12). ), за которым следует Нью-Йорк, а штатом с наименьшим количеством получателей ASEC на 2020 год является Род-Айленд (с кодом штата 44).

Таблица частоты и гистограмма для получателей ASEC 2020 года в США по типу домохозяйства

Рисунок 13: Тип домохозяйства ASEC 2020 г. Частотная таблица и столбчатая диаграмма

На рисунке 13 мы увидели, что типом домохозяйства (HRHTYPE) с наибольшим количеством получателей ASEC в 2020 году были не опрошенные домохозяйства (кодированные как 00) с подсчетом частоты 31 040, за которыми следует домохозяйство с основной семьей, состоящей из супружеской пары ( ни один из супругов в вооруженных силах) (кодируется как 01) с частотой 30 462. Следующим был несемейный тип домохозяйства гражданского женского пола (кодируется как 7) с частотностью 9931, за которым следовал несемейный тип домохозяйства гражданского мужчины (кодируемый как 6) с частотностью 8944.

Следующим типом домохозяйства после них был тип домохозяйства основной семьи, не состоящий в браке, гражданская женщина (код 4) с частотой 7 444, за которым следовал тип домохозяйства первичной семьи, не состоящий в браке, гражданский мужчина (код 03) с частотой 3 159, и наконец, наименьшим получателем домохозяйства для ASEC 2020 года были групповые кварталы с фактическими семьями (это было впервые в 1994 г.), кодированные как 09 с частотой 9, за которой следует тип несемейного домохозяйства с эталонным лицом в вооруженных силах (код 08) с тип частоты 10.

Таблица частот для получателей ASEC на 2020 год в США по типам жилья (H_TENURE) с закодированными значениями: 0 = не во вселенной 1 = в собственности или покупается 2 = в аренде 3 = без денежной арендной платы.

Рис. 14

Из круговой диаграммы и гистограммы выше видно, что самый высокий получатель ASEC на 2020 год имеет тип жилья, которое находится в собственности или покупается с частотой 46 106, за которыми следуют получатели ASEC с типом арендованного жилья с количество частот 22 917. Получатели ASEC, отнесенные к категории жилья «Не во вселенной», имеют частотность 21 548, а наименьший получатель ASEC на 2020 год с типом жилья «без денежной арендной платы» составляет 929.

Таблица частоты получателей ASEC за 2020 год в США по жилым помещениям

Рисунок 15

Круговая и гистограмма выше показали, что самый высокий получатель ASEC на 2020 год проживает в доме, квартире или квартире с частотой 86 333, за которыми следуют получатели ASEC, которые живут в передвижном доме или трейлере без постоянной комнаты. добавлен тип частоты 3884. Получатели ASEC, которые живут в передвижном доме или трейлере с одной или несколькими добавленными комнатами для перманентной помощи, были подсчитаны как 495. Наименьший получатель ASEC на 2020 год, проживающий в студенческих кварталах в общежитии колледжа, был подсчитан как 3.

Таблица частот получателей ASEC в 2020 году в США по жилищной ипотеке (HPRES_MORT)

На круговой диаграмме и гистограмме выше показано количество ответов получателя ASEC за 2020 год с помощью ипотечного кредита. 23 037 респондентов ответили утвердительно, что у них есть ипотечный кредит, 18 070 респондентов ответили отрицательно, а 50 393 респондента не ответили на этот вопрос.

Sстатистические результаты и выводы из анализа и последующие действия, которые следует предпринять с набором данных.

EDA предлагает несколько графических представлений для лучшего понимания данных и генерирует статистику для числовых данных, присутствующих в наборе данных. Сашиканта и др. (2022). Этот анализ позволил проанализировать год Ежегодные социальные и экономические приложения за 2020 год, сосредоточив внимание на девяти из 134 переменных, представленных в наборе данных Ежегодных социальных и экономических приложений за 2020 год (ASEC). Цель исследования была достигнута путем проведения одномерного и кластерного анализа количественных переменных, присутствующих в выбранных нами переменных, и мы выполнили одномерный анализ данных качественных переменных, присутствующих в наших выбранных переменных, выбранных из географического положения получателя ASEC 2020 года. Переменные типа домохозяйства, дохода домохозяйства и типа собственности, присутствующие в наборе данных ASEC.

В ходе исследовательского анализа данных стало очевидным, что доходы домохозяйств участников ASEC несимметричны (асимметричны) и бимодальны, поскольку на графике распределения присутствуют две «бугорки». Оценка текущей стоимости недвижимости была положительно смещена, что показано хвостами, указывающими вправо, что означает, что выбросы смещены вправо, а данные сложены слева. Это означает, что доходы домохозяйств и текущие оценки имущества получателей ASEC 2020 года обычно не распределяются в Соединенных Штатах.

Мы рассчитали график корреляционной матрицы и обнаружили слабую положительную корреляцию между общим доходом домохозяйства получателя ASEC 2020 года и текущей стоимостью имущества, как видно из коэффициента корреляции 0,43. Диаграмма рассеяния также выявила слабые линейные связи между этими двумя переменными. Переменная дохода домохозяйства получателя ASEC 2020 года не имеет выбросов. После построения диаграммы в текущем значении свойства получателей ASEC 2020 присутствуют выбросы. С помощью основных статистических вычислений мы также обнаруживаем, что средний доход домохозяйства получателей ASEC на 2020 год в Соединенных Штатах составил 14 000 долларов США, в то время как средний доход домохозяйства составил 17 660 долларов США со стандартным отклонением от рассчитанного среднего значения. 16 770 долларов. Максимальный доход семьи составляет 41 000 долларов США, в то время как минимальный доход семьи среди этих получателей ASEC 2020 не является доходом. Средняя текущая стоимость имущества для получателей ASEC на 2020 год в Соединенных Штатах рассчитывается как 113 698 долларов США, при этом стандартное отклонение от рассчитанного среднего значения составляет 162 217 долларов США. Максимальная текущая стоимость недвижимости была рассчитана в размере 500 000 долларов. Кластерный анализ был проведен для группировки двух переменных в кластеры с использованием k-средних и смешанной модели Гаусса, и, наконец, был проведен одномерный анализ всех семи качественных переменных с их соответствующими выходными данными.

Рекомендация

Государственные учреждения и частный сектор, а также компании, занимающиеся недвижимостью, должны изучить этот анализ, чтобы обеспечить лучшее жилье и создать больше возможностей для бизнеса в соответствии с географическим положением получателя ежегодной социально-экономической доплаты (ASEC), типом домохозяйства, доходом домохозяйства и типом собственности для создания лучшие условия жизни для всех американцев.

Ссылки

Вишешарора (2021). Исследовательский анализ данных (EDA) — пошаговое руководство. Опубликовано в Интернете: май 2021 г. https://www.analyticsvidhya.com/blog/2021/05/exploratory-data-analysis-eda-a-step-by-step-guide/

Авинаш, Н. и Армандо, Ф. (2021). Анализ данных Python — третье издание. Packt Publishing

Мухия, С.К., и Ахмед, У. (2020). Практический исследовательский анализ данных с помощью Python. Издательство Пакет.

Мутусами (2022). Исследовательский анализ вакцинации против COVID-19:Получено: 18 октября 2021 г. / Принято: 1 февраля 2022 г. / Опубликовано в Интернете: 8 февраля 2022 г. © Индийская национальная академия наук, 2022 г.

Сашиканта и др. (2022). Исследовательский анализ данных о вариантах SARS-CoV-2 в Индии: особенноOmicron. Опубликовано в IEEE:Международная конференция 2022 года по науке и приложениям, помогающим принимать решения (DASA)