A / B-тест - вещь достаточно простая для понимания. Покажите свой текущий опыт половине посетителей и предложите альтернативный опыт другой половине; наблюдайте различия в производительности, затем либо продолжайте со старым, либо переключите весь трафик на новый. Между строк здесь есть множество передовых практик и тонкостей, но процесс интуитивно понятен.

Часто упускается из виду причина, почему мы это делаем. Если мы ограничим наши изменения как можно меньшим количеством переменных, мы сможем узнать, что на самом деле вызывает изменения в поведении. «Почему» сложнее, но «что» становится ясным. В сложном многомерном мире машинного обучения поиск причин не является главной задачей. Оптимизация целевой функции есть. Таким образом, для того, чтобы люди учились, создавали новые идеи и строили модели, отражающие идеальный мир, A / B-тестирование играет важную и прочную роль.

Давайте посмотрим на A / B-тестирование, машинное обучение и узнаем о некоторых реальных приложениях каждого из них по отдельности и в сочетании.

Лучше жить с помощью химии (медицины) - это результат тщательного A / B-тестирования

Простой A / B-тест или рандомизированное контролируемое испытание (РКИ) - это основа процесса разработки продукта, и его можно вдумчиво изучить на примере разработки новых лекарств.

Как упоминалось ранее, RCT помогает нам точно понять размер возможностей / эффекта (и, следовательно, рентабельность инвестиций), а также может выявить причинно-следственную связь, область, в которой машинное обучение еще не достигло зрелости. Причинность позволяет нам положить конец аргументу корреляция против причинности и понять, работает ли наше новое лекарство так, как задумано. Давайте посмотрим, как проходит испытание препарата, в самом простом смысле.

В плацебо-контролируемом исследовании субъектов случайным образом распределяют в одну из двух групп; либо они получают препарат, либо получают плацебо. Обе группы принимают таблетки или другое средство доставки в соответствии с инструкциями. Ключевым моментом здесь является то, что группы распределяются случайным образом. Чем больше пользователей в каждой группе, тем меньше вероятность ошибки.

Если наблюдаются различия между тестовой и контрольной группами, и наша выборка была распределена случайным образом, мы можем сделать вывод, что существует причинно-следственная связь между полученным лечением и наблюдаемой разницей. Упрощая наш взгляд на одну переменную, мы можем быть уверены, что это выходит далеко за рамки корреляции. Наблюдаемый эффект не должен подтверждать нашу гипотезу, чтобы быть полезным открытием.

Как машинное обучение способствует разработке лекарственных препаратов?

В развивающейся области персонализированной медицины программное обеспечение используется для сопоставления людей с методами лечения, соответствующими уникальным симптомам и генетическим маркерам. В этом случае оригинальные тесты A / B (RCT) невероятно ценны из-за совпадений, которые мы провели с разными типами пользователей (женщины против мужчин, взрослые против детей) и разработанными лекарствами. Возможно, мы узнали во время как начальных испытаний, так и во время массового внедрения продукта, что лекарство обладает повышенной эффективностью для определенного типа пользователей и положительно взаимодействует при определенных обстоятельствах.

На данный момент мы собираем данные по сотням переменных для разработки моделей, которые позволяют нам адаптировать медицину специально для вас (или таких людей, как вы). Пришло время специалистам по данным, анализировать причинно-следственные связи, чтобы как можно чаще разрабатывать шаблоны, которые соответствуют реальной жизни.

A / B-тестирование помогает специалистам по обработке данных находить ценные рычаги

A / B-тестирование может преподать ученым данные ценные уроки, которые не только улучшают понимание аудитории и базовых наборов данных, но также помогают сосредоточиться на основных сценариях использования посредством методического планирования экспериментов. Давайте посмотрим на оба.

Получение ценных уроков

Одна из основных целей науки о данных - детальное моделирование с помощью программного обеспечения того, что происходит в природе. Под природой мы подразумеваем человеческий разум. Один только обзор больших наборов данных не позволит нам имитировать природу без четких наблюдений. Эти наблюдения, когда они сделаны с одной анализируемой переменной, позволяют нам разложить сложные проблемы на удобоваримые, модельные концепции.

Приближаясь к дискретной аудитории и анализируя модели поведения, мы можем разрабатывать многофункциональные модели, используя набор методов, которые лучше всего соответствуют миру природы. У него также есть дополнительное преимущество, заключающееся в том, что специалисты по обработке данных могут подключаться к реальным проблемам и людям, чтобы стимулировать творческий подход к поиску ответов на человеческие проблемы. Академические задачи также могут быть полезны, но для тех из нас, кто работает над решением стрессовых и часто жизненно важных проблем между людьми и деньгами, жизненно важно иметь практическое заземление.

Методический план экспериментов

Я стараюсь не недооценивать ценность хорошего экспериментального дизайна. Заранее продумайте, что вы хотите узнать, и имея в своем распоряжении основные наблюдения в виде данных, - это прекрасный учебник для специалиста по данным. Изучение областей наибольшего влияния на основе прошлых наблюдений и планирование быстрых экспериментов - ключ к максимальному увеличению числа причин, которые вы можете выявить. A / B-тесты не должны быть сложными, длительными или дорогостоящими для улучшения ваших фреймворков оптимизации машинного обучения.

Вот выдуманный, но распространенный пример мыслительного процесса в действии:

  • Сайт электронной коммерции отслеживает данные о веб-трафике, которые показывают, что огромное количество потенциальных клиентов выпадает на страницу их сезонного продукта. В результате количество заявок сокращается. Вовлеченность в верхней части воронки не изменилась. Показатель отказов в середине последовательности увеличился, а время пребывания на сайте сократилось на 22%. Никаких изменений UX не было сделано, чтобы учесть разницу.
  • Они предполагают, что вкусы меняются во всем мире и что сезонные продукты больше не соответствуют потребностям покупателей. Анализ недавних изменений, вносимых их конкурентами, показывает, что частота сообщений с социальными доказательствами резко возросла, особенно в отношении сезонных продуктов.
  • Они проводят A / B-тест с повышенным присутствием социальных доказательств для 50% сегмента сезонных продуктов и BAU для остальных 50%.
  • Они наблюдают статистически значимое улучшение количества заявок и конверсий, снижение показателя отказов и возврата к предыдущим уровням времени на сайте. Обучение фиксируется, и UX развертывается на 100%.

Как это помогает специалистам по данным? Обладая причиной и следствием, команды могут использовать срезы данных эксперимента, чтобы лучше моделировать поведение микрокогорт или отдельных лиц. Пользователи могут моделировать результаты на основе улучшений основных ключевых показателей эффективности (пожалуйста, подумайте о показателях конечных столбцов здесь). Без A / B-тестирования специалисты по обработке данных окажутся в крайне невыгодном положении, поскольку в моделировании не будет системы стимулов-ответов, а команды не смогут точно оценить размер возможностей и наблюдать за видами лечения, которые могут принести чистую пользу.

Почему бы не использовать как A / B-тестирование, так и машинное обучение?

Примеры использования отличного штата назначения

Великие компании, основанные на данных, проводят A / B-тесты, которые измеряют вовлеченность клиентов (конверсии) в различных типах взаимодействия: все, от копирования изменений до новых изображений или явных изменений в пользовательском опыте, или даже тестирования различных стилей сегментации аудитории.

Когда в эксперименте новое сообщение превосходит старое, мы заменяем старое сообщение новым. Это подход «победитель получает все», потому что больше клиентов конвертируются в новый контент. Поэтому мы определяем новый контент для показа клиентам на основе результатов экспериментов, даже если новый контент может понравиться не всем клиентам.

Давайте рассмотрим выдуманный, но наглядный пример, с которым вы можете столкнуться в реальном мире A / B-тестирования. Компания протестировала новый креатив (Вариант 2, изображение американских горок), сравнив его с существующим креативом (Вариант 1, Люди плавают). Вариант 1 имел коэффициент конверсии 2,5%, а Вариант 2 имел коэффициент конверсии 3,5%. Поэтому экспериментатор решил заменить старое сообщение (Вариант 1) новым сообщением (Вариант 2).

Однако более глубокий анализ показывает, что у Варианта 1 непропорционально больше взаимодействия со стороны посетителей, пришедших из Google, а у Варианта 2 непропорционально больше вовлечения посетителей из Yahoo. Вместо выбора выигрышного варианта было бы полезно использовать оба варианта, чтобы получить более высокие коэффициенты конверсии из обеих популяций.

Один из подходов может заключаться в нацеливании на рефералов Google с Вариантом 1 и рефералов Yahoo с Вариантом 2. Однако более тщательное изучение показывает, что, хотя Вариант 1 имеет более высокий коэффициент конверсии среди пользователей Google, Вариант 2 на самом деле имеет более высокий коэффициент конверсии среди посетителей, которые представляют высокие расходы. Кроме того, хотя наше изображение американских горок (Вариант 2) имеет более высокий коэффициент конверсии среди посетителей Google, люди, плавающие (Вариант 1), на самом деле имеют более высокий коэффициент конверсии среди посетителей Google в категории с низкими затратами.

Обладая этими знаниями, мы меняем свой подход к использованию машинного обучения, запускаем оба варианта и позволяем модели определять, какие клиенты должны видеть, как люди плавают, а какие - американские горки. Механизм оптимизации машинного обучения может определить, какой вариант показать, определяя, насколько клиент похож на других клиентов (совместная фильтрация), которые преобразовались из варианта 1 или варианта 2.

Этот пример представляет собой очень простой вариант использования - варианты сообщений могут понравиться другим подгруппам клиентов и создавать более сложные отношения, поскольку мы разрезаем данные на более тонкие сегменты.

Выводы и ключевые советы

Вот и все. Вы также можете пройти A / B-тестирование и машинное обучение.

Фактически, было бы разумно использовать их оба эффективно для соответствующих целей. Как вы улучшите результаты для доступной аудитории, чтобы достичь максимальной ценности, зависит от вас, но принципы, показанные здесь, могут помочь вам избежать проблем с анализом и моделированием в будущем. Как всегда, наблюдайте, тестируйте и оптимизируйте для победы.

Наконец, большое спасибо Дэну Пику и Скотту Голдеру за ваш опыт в этом вопросе.

РАСКРЫТИЕ ИНФОРМАЦИИ: © 2019 Capital One. Мнения принадлежат отдельному автору. Если в этом посте не указано иное, Capital One не является аффилированным лицом и не поддерживается ни одной из упомянутых компаний. Все используемые или отображаемые товарные знаки и другая интеллектуальная собственность являются собственностью соответствующих владельцев.