Статистические методы обнаружения аномалий

Статистические методы часто являются первой линией обороны при обнаружении аномалий во временных рядах. Они могут включать установление «нормального» поведения с использованием исторических данных, а затем пометку любых отклонений от этого поведения как потенциальных аномалий. Методы могут включать скользящие средние, стандартные отклонения или более сложные модели, такие как ARIMA.

Интуиция: представьте себе дорогу с ограничением скорости. Автомобили, движущиеся значительно быстрее или медленнее, чем средняя скорость, могут считаться «аномалиями». Это сродни статистическим методам обнаружения аномалий — они устанавливают «нормальную» скорость, и все, что от нее значительно отклоняется, помечается как аномалия.

Методы машинного обучения: изолированный лес, автоэнкодеры и т. д.

Машинное обучение также можно применять для обнаружения аномалий во временных рядах. Такие методы, как изолирующие леса или автоэнкодеры, могут обнаруживать более сложные шаблоны, которые невозможно обнаружить с помощью более простых статистических методов.

Интуиция: Isolation Forest похож на игру «Угадай, кто?». Он пытается изолировать наблюдения, случайным образом выбирая функцию, а затем случайным образом выбирая значение разделения между максимальным и минимальным значениями этой выбранной функции. Точки аномалии — это те, которые требуют изоляции меньшего количества случайных разделов, поэтому они менее похожи на большинство данных.

С другой стороны, автоэнкодеры подобны художникам, которые учатся воссоздавать свои объекты. В контексте обнаружения аномалий автоэнкодер обучается воссоздавать нормальные данные. Если он сталкивается с данными, которые не может хорошо воссоздать (т. е. с аномалией), это приведет к высокой ошибке реконструкции.

Оценка моделей обнаружения аномалий

Оценка моделей обнаружения аномалий может быть сложной задачей из-за несбалансированного характера проблемы — аномалии по определению редки. Могут быть полезны такие показатели, как точность, полнота, оценка F1 или кривая площади под рабочей характеристикой приемника (AUROC).

Интуиция. Представьте, что вы нашли иголку в стоге сена. Легко сказать, что иголок нет, если мы их игнорируем, но сложно найти все иголки, не подобрав по ошибке немного сена. Это похоже на проблему оценки моделей обнаружения аномалий.