Абстрактный

Рост проблем с психическим здоровьем и спрос на высококачественную медицинскую помощь стимулировали исследования по использованию машинного обучения в решении проблем с психическим здоровьем. Используя данные опроса психического здоровья osmi, был применен другой алгоритм машинного обучения для прогнозирования пациентов, у которых может быть депрессия, на основе информации, которую обычно можно найти в медицинской карте. Эти прогнозы можно использовать для более быстрой и простой связи пациентов с квалифицированными специалистами в области психического здоровья. В этом исследовании были определены пять методов машинного обучения и оценена их точность в выявлении проблем с психическим здоровьем с использованием нескольких критериев точности. Пять методов машинного обучения — это логистическая регрессия, классификатор K-NN, классификатор дерева решений, случайный лес и суммирование. Мы сравнили эти методы и внедрили их, а также получили наиболее точный метод стекирования, основанный на точности предсказания 82,01%.

1. Введение

Психические расстройства являются серьезной проблемой общественного здравоохранения, от которой страдают миллионы людей во всем мире. Каждый четвертый человек в мире в какой-то момент своей жизни страдает от психических расстройств.[1] Эти проблемы продемонстрировали, что психические заболевания имеют серьезные социальные последствия и требуют новых профилактических и терапевтических мер. Раннее выявление психического здоровья является важным методом для реализации этой тактики. Цель машинного обучения — создать системы, которые могут учиться на собственном опыте, используя сложные статистические и вероятностные методы. Считается, что это очень полезный инструмент для прогнозирования психического здоровья. Это позволяет ряду исследователей собирать важные данные и создавать индивидуальный опыт, автоматизированные интеллектуальные системы и системы, которые могут учиться на данных.

Во многих различных формах исследований, расследований и экспериментов обучение с учителем в машинном обучении является наиболее часто используемым подходом, особенно в медицинской отрасли, когда пытаются предсказать болезнь.[2] В контролируемом обучении в этом тематическом исследовании используются алгоритмы классификации, такие как логистическая регрессия, классификатор K-NN, классификатор дерева решений, случайный лес и суммирование. В частности, контролируемое обучение — это метод классификации, в котором используются структурированные обучающие данные. Исследователи очень редко и редко применяют неконтролируемые методы обучения в области медицины. Цель этого проекта — определить лучший алгоритм машинного обучения для прогнозирования психических расстройств на основе данных опроса психического здоровья osmi. Набор данных, использованный в этом проекте, был получен из психиатрической клиники и содержал информацию о возрасте пациентов, поле, семейной истории психических заболеваний, привычках образа жизни и клиническом диагнозе. Проект разделен на несколько этапов, включая очистку и предварительную обработку данных, исследовательский анализ данных, выбор признаков, выбор модели и оценку.

Результаты этого проекта имеют важное значение для специалистов в области психического здоровья и политиков при разработке стратегий раннего вмешательства и профилактики психических расстройств. Выявляя лиц с риском развития психических расстройств, поставщики медицинских услуг могут предложить своевременные и эффективные меры для предотвращения развития психических расстройств или уменьшения их тяжести.[3] Для этого необходимы алгоритмы машинного обучения с максимальной точностью, которые также могут дать представление о факторах, способствующих психическим расстройствам, что приведет к лучшему пониманию сложной природы этих расстройств.

Производительность используемых алгоритмов или методов машинного обучения оценивается путем определения точности и площади под кривой ROC. Таким образом, разделы настоящего исследования организованы следующим образом. После введения в разделе методологии будет обсуждаться набор данных и процесс набора данных для алгоритма. В разделе «Результаты» будут рассмотрены алгоритмы прогнозирования психического здоровья. Наконец, раздел заключения завершит эту статью эффективным алгоритмом прогнозирования.

2. Методология

Технологические достижения, такие как смартфоны, социальные сети, нейровизуализация и носимые устройства, позволили исследователям психического здоровья и врачам быстро собирать огромное количество информации. Машинное обучение превратилось в надежный инструмент для анализа этих данных. Машинное обучение — это применение передовых вероятностных и статистических методов для создания компьютеров, которые могут самостоятельно учиться на данных. [4] Это позволяет более легко и правильно обнаруживать шаблоны данных, а также получать более точные прогнозы из источников данных. Данные о психическом здоровье также изучаются с использованием аналогичных аналитических инструментов, которые могут улучшить результаты лечения пациентов, а также улучшить понимание психологических заболеваний и их лечения. Данные для этого проекта взяты из исследования психического здоровья osmi. Эти данные включают в себя обширный массив данных о здоровье, сделанных для выборки 58% людей из нас, 12% из Великобритании, 6% из Канады, 4% из Германии и остальных из многих других стран. и состоял из 1570 человек в разных местах.

Из набора данных мы проходим через различные этапы, такие как сбор данных, очистка данных, кодирование данных, поиск ковариационной матрицы, масштабирование и подгонка, настройка, модели оценки, определение точности, прогнозирование данных и результатов. мы разделяем набор данных на набор данных для обучения и тестирования. Следующий шаг – это важность. Выбор функций имеет решающее значение в машинном обучении, поскольку это фундаментальная стратегия для направления использования переменных на то, что является наиболее эффективным и действенным для определенной системы машинного обучения. Следующий шаг – тюнинг. Настройка — это процесс повышения производительности модели без переобучения или чрезмерной дисперсии. Это выполняется в машинном обучении путем выбора соответствующих гиперпараметров. Затем модели оцениваются с использованием различных методов машинного обучения, таких как суммирование, логистическая регрессия, классификатор K-ближайших соседей, классификатор дерева решений и классификатор случайного леса.

3. Результат

В этом разделе будет оцениваться и анализироваться производительность машинного обучения, т. е. классификатор ближайшего соседа, логистическая регрессия, дерево решений и алгоритмы стекирования, а также алгоритмы случайного леса. И мы оценили их точность в выявлении проблем с психическим здоровьем.

3.1. Логистическая регрессия

Логистическая регрессия — это известный алгоритм машинного обучения, который подпадает под подход обучения с учителем, результатом которого должно быть категориальное или дискретное значение. Это может быть 0 или 1, да или нет, правда или ложь и так далее. Логистическая регрессия используется для описания данных и связи между одной зависимой переменной и одной или несколькими независимыми переменными. Независимые переменные могут быть номинальными, порядковыми или интервальными.

3.2. K Классификатор ближайших соседей

KNN — это простой контролируемый алгоритм машинного обучения, который можно использовать для задач классификации или регрессии, а также часто используемый для вменения пропущенных значений. Он основан на идее, что наблюдения, ближайшие к данной точке данных, являются наиболее «похожими» наблюдениями в наборе данных, и поэтому мы можем классифицировать непредвиденные точки на основе значений ближайших существующих точек. Выбрав K, пользователь может выбрать количество ближайших наблюдений для использования в алгоритме.

3.3. Классификатор дерева решений

Дерево решений — это широко используемый метод машинного обучения с учителем, который используется в машинном обучении, статистике и интеллектуальном анализе данных. Дерево решений — это диаграмма, которую люди используют для иллюстрации статистической вероятности или для определения последовательности событий, действий или результатов. Это один из наиболее широко используемых и практичных методов обучения с учителем. Деревья решений — это непараметрический контролируемый метод обучения, используемый как для задач классификации, так и для задач регрессии.

3.4. Классификатор случайного леса

Случайный лес — это метод машинного обучения, который используется для решения задач регрессии и классификации. Он использует ансамблевое обучение, которое представляет собой метод, который объединяет множество классификаторов для решения сложных задач[5]. Алгоритм случайного леса состоит из множества деревьев решений. «Лес», сгенерированный алгоритмом случайного леса, обучается с помощью агрегирования в пакеты или начальной загрузки. Этот алгоритм устанавливает результат на основе предсказаний деревьев решений. Он прогнозирует, взяв среднее или среднее значение выходных данных различных деревьев.

3.5. Стекирование

Стекирование — это ансамблевые методы машинного обучения, используемые для прогнозирования нескольких узлов для построения новой модели и повышения ее производительности. Этот метод ансамбля работает, применяя ввод комбинированных прогнозов нескольких слабых учеников и мета-обучающихся, чтобы можно было достичь лучшей выходной модели прогнозирования.

4. Сравнение

Точность данного набора тестов для классификатора — это процент экземпляров набора тестов, которые правильно классифицированы с помощью классификатора. Точность любого классификатора будет зависеть от того, насколько хорошо классификатор будет классифицировать тестируемый набор данных. Мы измерили это, используя площадь под рабочей кривой приемника. В области ROC идеальный тест будет представлять площадь 1, а бесполезный тест будет представлять площадь 0,5.

5. Вывод

Было введено и предложено множество различных методов и алгоритмов для проверки и решения проблем психического здоровья. Несколько решений еще можно улучшить. Однако в машинном обучении в области психического здоровья все еще остается много проблем, которые необходимо выявить и протестировать в различных ситуациях. Сравнение этих стратегий имеет решающее значение для выбора той, которая лучше всего подходит для интересующей целевой области. В настоящее время у нас есть много специальных программ в области медицины, которые очень точно предсказывают болезнь заранее, чтобы лечение можно было проводить эффективно и результативно. В этой предлагаемой работе мы сравнили пять различных методов машинного обучения, которые используются для классификации набора данных по различным проблемам психического здоровья. Из результатов очень ясно, что все пять методов машинного обучения дают более точные результаты. Рисунок 2 иллюстрирует график пяти классификаторов на основе процента точности, где точность всех классификаторов выше 79%. Психическое здоровье можно предсказать с помощью алгоритма суммирования, поскольку он дает большую точность, чем другие алгоритмы.

Ссылка

[1] Всемирная организация здравоохранения. Психическое здоровье: новое понимание, новая надежда. Доклад о состоянии здравоохранения в мире, 2001 г., Всемирная организация здравоохранения, Женева, Швейцария, 2001 г., www.who.int/whr/2001/en/whr01_en.pdf.

[2] Карими, Амирхоссейн, Мохаммадреза Дусти и Мохсен Мохаммади. Машинное обучение в медицине: приложения и возможности. Coursera, 2023 г., www.coursera.org/articles/machine-learning-in-health-care

[3] Смит, Дж. Х., ван Стратен, А., Куиджперс, П., и Пеннинкс, Б. В. Дж. Х. (2013). Укрепление и профилактика психического здоровья: обзор доказательств. Обзор клинической психологии, 33 (1), 1–22. doi:10.1016/j.cpr.2012.09.003

[4] Мерфи, Кевин П. Машинное обучение: вероятностная перспектива. MIT Press, 2012, с. 1.

[5] Random Forest® — мощный алгоритм обучения ансамблю. KDnuggets. 20 января 2020 г. https://www.kdnuggets.com/2020/01/random-forest-powerful-ensemble-learning-algorithm.html