Активность интернет-пользователей увеличивается из года в год и оказывает влияние на поведение самих пользователей. Оценка поведения пользователя часто основывается только на взаимодействии через Интернет, не зная о каких-либо других действиях. Журнал активности можно использовать как еще один способ изучения поведения пользователя. Журнал интернет-активности является одним из типов больших данных, поэтому использование интеллектуального анализа данных с помощью метода K-средних можно использовать в качестве решения для анализа поведения пользователей. В этом исследовании был проведен процесс кластеризации с использованием алгоритма K-Means, разделенный на три кластера, а именно высокий, средний и низкий. Результаты вуза показывают, что каждый из этих кластеров создает веб-сайты, которые посещаются в следующей последовательности: поисковая система веб-сайта, социальные сети, новости и информация. Это исследование также показало, что на киберпрофилирование сильно повлияли факторы окружающей среды и повседневная деятельность.

Что такое кластеризация K-средних?

K-means — это алгоритм на основе центроида или алгоритм на основе расстояния, в котором мы вычисляем расстояния, чтобы назначить точку кластеру. В K-Means каждый кластер связан с центроидом.

Основная цель алгоритма K-средних состоит в том, чтобы минимизировать сумму расстояний между центроидами кластеров и их соответствующими центрами.

Давайте теперь возьмем пример, чтобы понять, как на самом деле работает K-Means:

У нас есть эти несколько точек, и мы хотим применить метод k-средних для создания кластеров для этих точек. Вот как мы можем это сделать.

Шаг 1: Выберите количество кластеров k

Первым шагом в k-средних является выбор количества кластеров, k.

Шаг 2: Выберите k случайных точек из данных в качестве центроидов.

Затем мы случайным образом выбираем центроид для каждого кластера. Допустим, мы хотим иметь 2 кластера, поэтому здесь k равно 2. Затем мы случайным образом выбираем центр тяжести:

Здесь синяя и оранжевая рамки представляют собой центр тяжести этих кластеров.

Шаг 3: Назначьте все точки ближайшему центроиду кластера.

После того, как мы инициализировали центроиды, мы назначаем каждую точку ближайшему центроиду кластера:

Здесь вы можете видеть, что точки, которые ближе к синей точке, относятся к синему кластеру, а точки, которые ближе к оранжевой точке, относятся к оранжевому кластеру.

Шаг 4: Пересчитайте центроиды вновь образованных кластеров.

Поскольку нам нужно найти ближайший кластер, мы повторим процесс, выбрав новый центроид. Чтобы выбрать новые центроиды, мы вычислим центр тяжести этих центроидов и найдем новые центроиды, как показано ниже:

Шаг 5: Далее мы переназначим каждую точку данных новому центроиду.

Для этого повторим тот же процесс поиска срединной линии. Медиана будет такой, как на изображении ниже:

На изображении выше мы видим, что одна желтая точка находится слева от линии, а две синие точки справа от линии. Итак, эти три точки будут присвоены новым центроидам.

Шаг 6: Поскольку переназначение произошло, мы снова перейдем к шагу 4, который заключается в поиске новых центроидов или K-точек.

Мы повторим процесс, найдя центр тяжести центроидов, поэтому новые центроиды будут такими, как показано на изображении ниже:

Поскольку мы получили новые центроиды, мы снова нарисуем срединную линию и переназначим точки данных. Итак, изображение будет:

Мы можем видеть на изображении выше; по обе стороны от линии нет непохожих точек данных, что означает, что наша модель сформирована. Рассмотрим изображение ниже:

Поскольку наша модель готова, теперь мы можем удалить предполагаемые центроиды, и два последних кластера будут такими, как показано на изображении ниже:

Как выбрать значение «Количество кластеров K» в кластеризации K-средних?

Производительность алгоритма кластеризации K-средних зависит от высокоэффективных кластеров, которые он формирует. Но выбор оптимального количества кластеров — большая задача. Есть несколько разных способов найти оптимальное количество кластеров, но здесь мы обсуждаем наиболее подходящий метод для определения количества кластеров или значения K. Метод приведен ниже:

Метод локтя

Метод локтя — один из самых популярных способов нахождения оптимального количества кластеров. Этот метод использует концепцию значения WCSS. WCSS расшифровывается как Сумма квадратов внутри кластера, которая определяет общее количество вариаций внутри кластера. Формула для расчета значения WCSS (для 3 кластеров) приведена ниже:

WCSS= ∑Pi на расстоянии Cluster1(Pi C1)2 +∑Pi на расстоянии Cluster2(Pi C2)2+∑Pi на расстоянии Cluster3(Pi C3)2

В приведенной выше формуле WCSS

∑Pi в Cluster1 Distance(Pi C1)2: это сумма квадратов расстояний между каждой точкой данных и ее центром тяжести в кластере1 и то же самое для двух других членов.

Чтобы измерить расстояние между точками данных и центроидом, мы можем использовать любой метод, такой как евклидово расстояние или манхэттенское расстояние.

Чтобы найти оптимальное значение кластеров, метод локтя следует следующим шагам:

  • Он выполняет кластеризацию K-средних для заданного набора данных для разных значений K (в диапазоне от 1 до 10).
  • Для каждого значения K вычисляется значение WCSS.
  • Строит кривую между рассчитанными значениями WCSS и количеством кластеров K.
  • Острая точка изгиба или точка графика выглядит как плечо, тогда эта точка считается лучшим значением К.

Поскольку на графике показан резкий изгиб, который выглядит как локоть, этот метод известен как метод локтя. График для метода локтя выглядит следующим образом:

Анализ преступности с использованием кластеризации K-средних

Этапы анализа модели преступности

  • Определить геопространственный сюжет преступлений в городе: Первым шагом является сбор информации о преступлениях в данном городе. Обычно их можно получить из нескольких источников, таких как отчеты правоохранительных органов, статистические обзоры виктимизации, сопоставление газетных статей и т. д. Эти данные можно нанести на географическую карту, например, показанную выше.
  • Использование подхода интеллектуального анализа данных K-средних помогает нам выявлять закономерности, поскольку людям очень сложно обрабатывать большие объемы данных, особенно если отсутствует информация для обнаружения закономерностей.
  • Кластеры полезны для выявления серии преступлений, совершенных одной или одной и той же группой подозреваемых. Затем эти кластеры представляются детективам, которые углубляются, используя свой опыт в предметной области, для раскрытия дел.

Выполните следующие шаги для кластерного анализа:

  • Сортировка записей — первая сортировка будет производиться по наиболее важным характеристикам, исходя из опыта детектива.
  • Затем интеллектуальный анализ данных используется для обнаружения более сложных шаблонов, поскольку в реальной жизни существует множество атрибутов, связанных с преступлением, и у нас часто есть частичная доступная информация.
  • Идентификация значимых атрибутов для кластеризации.
  • Динамическое присвоение разного веса различным атрибутам в зависимости от группируемых типов преступлений.
  • Кластеризируйте набор данных для шаблонов преступлений и представьте результаты детективу или эксперту в предметной области вместе со статистикой важных атрибутов.
  • Детектив смотрит на кластеры и дает рекомендации.
  • Нераскрытые преступления группируются по существенным признакам, и результат передается детективу для проверки.
  • В этой статье мы будем использовать подход K-средних для создания кластеров. Алгоритм K-средних состоит из следующих шагов:
  • Определите количество кластеров, K. Кластерный анализ K-средних требует, чтобы вы знали, сколько кластеров нужно сгенерировать до запуска алгоритма.
  • Инициализируйте кластеры K или сгенерируйте их случайным образом. Различные начальные точки для кластеров могут давать разные результаты.
  • Назначьте каждое наблюдение ближайшему центру кластера. Это итеративный метод, который строит кластеры по мере нашего продвижения.
  • Пересчитайте новые центры кластеров. Обратите внимание, что вам необходимо указать алгоритмы определения расстояния между кластерами.
  • Повторяйте процесс до тех пор, пока ни одно из наблюдений не изменит свое членство в последней итерации.
  • Пример кластерного анализа K-средних показан на рисунке ниже. В этом примере мы показываем создание 3 кластеров (каждый разного цвета).

  • Анализ закономерностей и выводы. Это включает в себя анализ каждого сформированного кластера. Компьютер не может понять, что уникально в каждом кластере. Здесь в игру вступает человеческая компетентность. Например, все преступления, выделенные красным цветом, могли быть совершены с использованием аналогичного оружия, или все преступления, выделенные синим цветом, могут быть связаны с кражей драгоценностей, когда люди шли по дороге, а нападавшие передвигались на мотоцикле и т. д. Это помогает находить модели преступности и корреляции тенденций. Как только определенная закономерность обнаружена, сотрудники правоохранительных органов могут задействовать дополнительные и подходящие ресурсы для обнаружения и пресечения преступной деятельности.

Преимущества кластеризации для анализа моделей преступности

Использование этого подхода для анализа моделей преступлений имеет несколько преимуществ:

  • Этот подход помогает нам анализировать уровень преступности в прошлом и повышать уровень раскрытия преступлений в настоящее время.
  • Примите меры для предотвращения будущих инцидентов, используя превентивные механизмы, основанные на наблюдаемых шаблонах.
  • Сократите время обучения офицеров, которые назначены на новое место и не имеют предварительных знаний о преступлениях на конкретном месте.
  • Повысьте эффективность работы за счет оптимального перераспределения ограниченных ресурсов в нужное место в нужное время.

Ограничения обнаружения моделей преступлений

Есть несколько ограничений на использование этого подхода для выявления моделей преступлений:

  • Анализ структуры преступления может только помочь детективам, но не заменить их. Эксперты-люди должны интерпретировать то, что говорят нам кластеры.
  • Интеллектуальный анализ данных чувствителен к качеству входных данных и иногда может быть неточным. Отсутствие информации также может привести к ошибкам.
  • Сопоставление атрибутов интеллектуального анализа данных является сложной задачей и, следовательно, требует наличия квалифицированного интеллектуального анализа данных и аналитика данных о преступлениях с хорошим знанием предметной области.

Конец вопроса

Спасибо, что прочитали.

Ссылка:

https://www.javatpoint.com/k-means-clustering-algorithm-in-machine-learning