Но почему ! Давайте выясним

Уменьшение размерности — самый важный инструмент, который должен быть в кармане специалиста по данным. Это удобно, когда вам приходится иметь дело с большим количеством измерений, и вам трудно с ними справляться.

Некоторые варианты использования

Мы можем использовать алгоритмы уменьшения размерности, чтобы лучше суммировать данные. Методы уменьшения данных также будут полезны при обнаружении аномалий, визуализации многомерных данных, сжатии изображений и т. д.

Проблемы с большими размерами

Многомерные данные могут быть проблематичными, поскольку они затрудняют общее понимание данных. Более техническая проблема, вызванная большими размерностями, заключается в том, что они делают данные разреженными. Но что это означает в контексте анализа данных? Таким образом, если мы смотрим на точки данных в больших размерностях, то есть вероятность, что большинство точек лежат вблизи границ, что затрудняет прогнозирование новых точек данных, поскольку модели приходится интерполировать большое расстояние между ними.

Некоторые алгоритмы поиска

  1. Анализ основных компонентов (PCA): этот алгоритм может быть полезен для поиска низкоразмерного ортогонального представителя данных. Это просто линейная комбинация измерений заданных данных. Одной из особенностей PCA является то, что новые измерения, которые мы получаем, свободны от ковариации.
  2. Локально линейное встраивание (LLE): находит низкое измерение заданных данных, в котором сохраняется линейная связь каждого экземпляра с его соседом.
  3. Линейный дискриминантный анализ (LDA): Он используется для сокращения данных, а также для классификации. Он проецирует данные в более низкое измерение, так что разброс между классами максимален, а разброс внутри классов минимален.

Это все на данный момент. Некоторые алгоритмы, которые упоминались ранее, я постараюсь написать о них в будущем, чтобы предоставить вам больше информации о них. Если вы найдете что-то, что стоит исправить, сообщите об этом в комментариях ниже.