Я новичок в науке о данных, и у меня есть более теоретический вопрос об алгоритме кластеризации k-средних (или любом другом). На данный момент я пытаюсь сделать сегментацию клиентов на основе поведенческих данных. Мы разработали несколько атрибутов, таких как: - процент, на который клиент покупает товары по распродаже, - среднее количество товаров за раз, - средняя цена за продукт, - частота покупки товаров в магазине - и некоторые другие.
Мы пытаемся создать группы клиентов, которые ведут себя одинаково, чтобы мы могли общаться с ними на основе их предпочтений. Проблема в том, что я не уверен, дают ли результаты кластеризации правильные сегменты, с которыми мы можем работать. Вероятно, это определит другие кластеры, которые хороши для сопоставимого поведения, но не для практического использования.
Мой вопрос заключается в следующем; было бы лучше использовать алгоритм классификатора, чтобы я мог определить целевую переменную, или мне следует использовать алгоритм кластеризации? И если мне нужно выбрать алгоритм кластеризации, не будет ли лучше уменьшить количество атрибутов, чтобы у меня было немного больше контроля над тем, как будут выглядеть результаты?
Я надеюсь, что вы, ребята, поможете мне с этим концептуальным вопросом.