Ценность для бизнеса

Этот проект направлен на анализ отзывов покупателей о бытовой электронике, продаваемой Amazon. Наше решение для интеллектуального анализа данных позволит Amazon прогнозировать рейтинг этих продуктов на основе отзывов клиентов, что может быть полезно Amazon для улучшения поисковой системы для этих продуктов, увеличения доходов от маркетинга и разработать пользовательский интерфейс поиска. Кроме того, анализ может дать информацию о размещении продукта, проникновении на рынок и помочь Amazon исключить продажу продуктов конкурентов.

Понимание данных

Набор данных «Отзывы потребителей о продуктах Amazon» содержит несколько потенциальных искажений, таких как повторяющиеся отзывы и дисбаланс положительных и отрицательных отзывов, что может исказить результат. Кроме того, набор данных может не отражать всех клиентов Amazon, что ограничивает возможность обобщения результатов. Важно учитывать эти ограничения и принимать соответствующие меры для решения потенциальных проблем.

Подготовка данных

Чтобы подготовить данные для моделирования, мы предприняли несколько шагов для очистки и предварительной обработки данных, включая удаление значений NA, перевод всего текста в нижний регистр, удаление цифр и знаков препинания, удаление стоп-слов и лемматизацию. Мы также визуализировали данные, используя матрицу терминов документа и облака слов, чтобы определить часто встречающиеся термины в отзывах. Однако мы обнаружили, что набор данных был несбалансированным: для оценок 4 и 5 было гораздо больше данных, чем для оценок 1, 2 и 3. Несбалансированность привела к смещенному прогнозу, поэтому мы использовали технику недостаточной выборки. Это гарантировало объективные данные для прогнозов, которым мы уделяли приоритетное внимание, а не высокая точность необъективных данных.

Моделирование

Сначала мы использовали анализ настроений, чтобы понять отношение и мнение клиентов о каждом продукте. Чтобы указать аспект настроения, мы классифицировали отзывы на три части: рейтинг 4, 5 — положительный, 3 — нейтральный, а 1, 2 — отрицательный. Столбчатая диаграмма ниже представляет собой визуализацию полярности отзывов о продуктах. Анализ настроений может дать информацию о демографии клиентов и таргетинге. Продукты с высоким рейтингом могут определять ассортимент продукции и стратегию ценообразования. Высокие рейтинги, вероятно, соответствуют высокому объему продаж, а небольшое повышение цены может привести к значительному росту выручки.

Мы использовали метод занижения выборки, чтобы сбалансировать неравномерное распределение классов. Затем мы разделили наш набор данных на обучающие и тестовые данные и решили использовать логистическую регрессию и случайный лес. Мы решили использовать логистическую регрессию, потому что ее легко реализовать, интерпретировать и эффективно обучать. И мы использовали случайный лес, потому что он обеспечивает высокую точность и предотвращает переоснащение за счет использования нескольких деревьев. Мы не использовали альтернативные алгоритмы, такие как метод опорных векторов (SVM) или K ближайших соседей (KNN), потому что они не подходят для нашей задачи с тремя классами и требуют дополнительных трудоемких шагов.

Оценка

Мы оценили производительность моделей и обнаружили, что модель случайного леса имеет несколько лучшую производительность с оценкой F1 0,75 и точностью теста 75 %. сильный>. Хотя точность не очень высока, модель все же может быть реализована с осторожностью. Чтобы измерить эффективность модели в улучшении поисковой системы и общей удовлетворенности клиентов, Amazon может использовать такие методы, как опросы или индекс удовлетворенности клиентов и Net Promoter Score.

Развертывание

Мы разработали прогностическую модель, используя отзывы клиентов, чтобы предсказать общий рейтинг продуктов в поисковой системе Amazon. Модель имеет точность теста 75%, что не очень высоко, но все же может дать полезную информацию для фирмы. Мы предложили три аспекта в рамках плана продвижения продуктов Amazon в поисковой системе: поисковые позиции продуктов, увеличение доходов от маркетинга и улучшение пользовательского интерфейса поисковой системы.

Во-первых, с помощью отзывов клиентов можно прогнозировать общий рейтинг продуктов, который затем можно использовать для улучшения результатов поиска для клиентов. Продукты с высоким рейтингом будут размещены в верхней части результатов поиска, что может увеличить продажи этих продуктов. Второй момент заключается в том, чтобы увеличить маркетинговый доход для Amazon, взимая с продавцов товары с более низким рейтингом за более высокие позиции в поиске. Последнее — разработать пользовательский интерфейс поисковой системы, предоставив фильтры по ключевым словам, которые позволят клиентам искать продукты на основе определенных качеств.

Ограничение

Однако фирма должна знать об ограничениях модели и использовать результаты с осторожностью. Поскольку с набором данных связаны риски, такие как низкая точность, этические соображения и поддельные отзывы. Чтобы снизить эти риски, фирма должна увеличить размер выборки, провести больше исследований продуктов продавцов и улучшить этап отбора данных, чтобы лучше распознавать и исключать поддельные отзывы.

Источник данных