Иногда это слишком хорошо, чтобы быть правдой.

[ОБНОВЛЕНИЕ: я основал техническую компанию. Вы можете узнать больше здесь]

После прочтения статьи Сьюзен Ли из практики Expedia я захотел узнать, смогу ли я воспроизвести результаты с помощью AuDaS, автоматизированной платформы машинного обучения Mind Foundry. Данные доступны на Kaggle и содержат информацию клиентской веб-аналитики по бронированию отелей (правда и ложь). Цель этого конкурса - предсказать, сделает ли клиент бронирование или нет. Однако после очистки данных и построения моей модели после 3 минут обучения я достиг точности классификации 100%, что сразу вызвало тревогу. Я стал жертвой утечки данных.

В этом посте мы увидим, как AuDaS поднял тревогу и как я вообще мог этого избежать!

Обнаружение утечки

Цель состоит в том, чтобы определить, будет ли клиент бронировать или нет, поэтому я запустил простую задачу классификации в AuDaS и сразу же вызвал модельное предупреждение о вреде для здоровья после достижения 100% точности.

После дальнейшего изучения актуальности функции я понял, что утечка была вызвана столбцом валовых бронирований, который содержит значения $, связанные с бронированием. Затем я вернулся к этапу подготовки данных в AuDaS, чтобы исключить его и, что наиболее важно, посмотреть, есть ли другие столбцы, которые я должен удалить.

Упреждающее обнаружение утечки данных с помощью AuDaS

Я решил использовать страницу автоматической гистограммы AuDaS, чтобы определить точные предикторы бронирований, чтобы затем исключить их из данных обучения. Неудивительно, что валовые бронирования и количество кликов (независимо от того, был ли выбран отель) были сильными предикторами бронирования, потому что для того, чтобы сделать заказ, нам нужно щелкнуть, затем ссылку и затем заплатить!

После исключения валовых бронирований и перезапуска задачи классификации я все еще достигал точности классификации 99%, что заставило меня поближе взглянуть на происходящее.

Фактически, поскольку бронирования были редкими, а AuDaS уравновешивает обучение, а 10% удерживаются для целей проверки, столбец click bool был почти идеальным предиктором бронирований.

Создание надежной модели с помощью AuDaS

Наконец, я решил исключить клик, чтобы определить ключевые функции, которые предсказывают бронирование (и, следовательно, клики), поскольку это основная цель Expedia.

В результате точность классификации снизилась до 72%, но AuDaS смогла определить более тонкое ранжирование соответствующих предикторов бронирований.

Основными особенностями выбранной модели были:

  • Позиция отеля на странице результатов поиска
  • Метод A / B сортировки результатов поиска
  • Оценка местоположения и цена объекта

Ключевые выводы

Утечка данных в Data Science часто может оставаться незамеченной, поэтому важно иметь механизмы для создания предупреждений и обнаружения источников утечек. После выявления утечек важно понимать данные, чтобы объяснить, почему и как они возникают, чтобы решить, как лучше всего их устранить. AuDaS помог нам предотвратить катастрофу.

AuDaS

AuDaS - это платформа автоматизированного анализа данных, разработанная Mind Foundry, которая обеспечивает надежную основу для создания комплексных решений для машинного обучения. Эта структура помогает выявлять утечку данных и реагировать на нее, пока не стало слишком поздно. Вы можете попробовать AuDaS здесь и просмотреть другие демонстрации ниже:

Команда и ресурсы

Mind Foundry - это дочернее предприятие Оксфордского университета, основанное профессорами Стивеном Робертсом и Майклом Осборном, у которых 35 человеко-лет в области анализа данных. Команда Mind Foundry состоит из более чем 30 исследователей машинного обучения мирового уровня и элитных инженеров-программистов, многие из которых в прошлом были докторантами Оксфордского университета. Кроме того, Mind Foundry имеет привилегированный доступ к более чем 30 кандидатам машинного обучения Оксфордского университета благодаря своему статусу отделения. Mind Foundry является портфельной компанией Оксфордского университета, и ее инвесторами являются Oxford Sciences Innovation, Оксфордский фонд технологий и инноваций, Инновационный фонд Оксфордского университета и Parkwalk Advisors.