Добро пожаловать в наш первый пост в блоге! We’re Genify, стартап из Пекина, создающий мощный механизм рекомендаций по машинному обучению, чтобы помочь банкам предлагать своим клиентам более качественные услуги. Мы недавно прошли сертификацию MVP и хотели поделиться некоторыми вещами, которые мы узнали на этом пути. Это может быть полезно для тех, кто интересуется прикладным машинным обучением, системами рекомендаций или даже просто циклом запуска продукта. Надеемся, вам понравится 😊

Хотя мы считаем, что наша система рекомендаций действительно самая современная для банковской отрасли, базовая технология не нова. «Механизмы рекомендаций» стали повсеместными в последние годы. Мы сталкиваемся с ними в повседневной жизни, например, когда Netflix предлагает новую (программную) серию на основе «совпадения» оценок или когда Amazon рекомендует - до оформления заказа - соответствующие продукты, которые дополняют наш выбор.

Эти механизмы менее распространены в финансовом розничном секторе - хотя некоторые банки опередили остальных - но мы, в Genify, недавно создали систему рекомендаций, основанную на наборе данных, состоящем из более чем 14 миллионов точек данных из одного из лучших. банки Европы и Латинской Америки. Наша система на основе машинного обучения принимает анонимную информацию о пользователях, такую ​​как возраст, средний доход и прошлые покупки банковских продуктов, для выработки индивидуальных рекомендаций.

Когда мы создавали первую версию нашего продукта, мы углубленно исследовали его основные механизмы и были заинтригованы некоторыми открытиями, которые мы обнаружили. Ниже мы поделились некоторыми из этих уроков.

Вывод 1: меньше личной информации, больше прошлых покупок

Банки держат «в руках» ценную информацию о каждом клиенте. Обычно для открытия банковского счета или для любой формы взаимодействия с банком ожидается, что клиент предоставит большой объем личной информации.

Когда Genify получил анонимный набор данных, он включал 40 точек данных на каждого клиента. Сначала мы ожидали, что такие переменные, как «семейный доход», «семейное положение» или «клиентский сегмент», будут содержать наиболее полезную информацию для принятия решения, какой банковский продукт рекомендовать клиенту. Однако, обучив и протестировав нашу модель, мы узнали, что это не так. (См. Рисунок 1).

Ось X соответствует среднему значению (| Значения SHAP |) для каждой характеристики клиента. Ценность SHAP, с точки зрения непрофессионала и в данном конкретном случае, может рассматриваться как вес, который характеристика имеет при принятии окончательного решения по рекомендации. Вес решения может быть положительным, т. Е. Продукт должен быть рекомендован, или отрицательным, т. Е. Продукт нельзя рекомендовать. Мы берем среднее значение абсолютных значений SHAP для каждой характеристики, чтобы оценить общий вес, который характеристика имеет для всех 22 рекомендаций по продуктам, представленных цветами на гистограммах (например, класс 1 соответствует рекомендации «Текущие счета»). График следует понимать следующим образом:

Чем выше среднее (| Значение SHAP |) характеристики, тем выше его влияние на окончательное решение по рекомендации.

Из 10 наиболее полезных данных восемь соответствуют прошлым покупкам банковских продуктов. Мы пришли к выводу, что по крайней мере для этого банка прошлые покупки продуктов имеют гораздо больший вес, чем личная информация о клиенте, например пол или доход.

Это может иметь серьезные последствия для банков: банкам не нужно полагаться на личную информацию о клиентах для выработки рекомендаций. Вместо этого сосредоточения внимания на банковских продуктах, которые клиент покупал в прошлом (например, кредитной карте, ссуде и т. Д.), Достаточно для того, чтобы движок дал убедительные рекомендации. Это не означает, что личная информация о клиенте не играет никакой роли в окончательном решении, а скорее, что в некоторых случаях вес этой информации меньше, чем предполагалось ранее. Genify советует, чтобы личная информация - в основном информация, относящаяся к профилям рисков клиентов - выступала в качестве второго уровня «подтверждения» перед тем, как дать окончательную рекомендацию по продукту.

Возникает вопрос: что делать при отсутствии данных истории покупок? Для банков и финтех, которые только начали свой бизнес, отсутствие данных о прошлых покупках может стать препятствием для обучения модели. В этом случае следует принять другой подход, при котором доступная информация комбинируется с некоторыми эвристиками и «практическими правилами», чтобы начать работу, а затем уточнять рекомендации для этого клиента по мере того, как вы узнаете больше. 👌

Вывод 2: прямой и неограниченный доступ к деньгам говорит о многом

Увеличив масштаб графика выше, мы обнаружили вторую мысль. Среди 10 наиболее важных факторов выделяются три продукта при определении того, какие рекомендации следует сделать: владение клиентом (или его отсутствие) «текущим счетом», «счетом заработной платы» и «прямым дебетом» (т. Е. Финансовой транзакцией). в котором одно лицо - или компания - снимает средства с банковского счета другого лица).

Мы полагаем, что в контексте банковского дела все эти 3 продукта связаны с прямым доступом клиентов к деньгам. Будь то деньги на их собственных счетах (текущих счетах или счетах заработной платы) или деньги, содержащиеся на другом счете (прямой дебет), в совокупности они представляют собой самый важный фактор при определении продуктов, которые следует рекомендовать в следующий раз.

Вывод 3: «ограниченность» функционального пространства для некоторых рекомендаций по продуктам

В некоторых случаях при рекомендации банковских продуктов большинство из 40 точек данных - или «характеристик» - для каждого клиента становятся избыточными. Если мы возьмем пример рекомендаций по «ссуде» [1] (рис. 3 ниже), только несколько точек данных действительно имеют значение для банка: прошлые покупки ценных бумаг, валовой доход домохозяйства, стаж работы клиента, канал приобретения, возраст. Эти данные могут иметь большое значение для составления точных рекомендаций по продукту.

Согласно движку Genify, клиент банка больше всего хочет получить «ссуду», если:

  1. Клиент приобрел некоторые «ценные бумаги» в прошлом (с консультацией банка).
  2. Валовой доход семьи клиента высок
  3. Старшинство, измеряемое продолжительностью контракта между клиентом и банком, является высоким. [2]

Это очень обычное явление в науке о данных и статистике. Фактически, в этом конкретном случае пространство признаков - многомерное пространство, используемое для характеристики каждого покупателя, - можно рассматривать как «разреженное». Проще говоря, пространство считается разреженным, если используется только несколько точек данных о клиентах для того, чтобы оценить определенный результат - в нашем случае вероятность получения «ссуды» клиентом банка. Другим точкам данных присваивается незначительный или нулевой вес.

Следует отметить, что наш движок не выполняет этот «выбор функций» для всех рекомендаций по продуктам; следовательно, пространство признаков не может быть широко и точно обозначено как «разреженное».

Знание об этой потенциальной редкости может иметь значительное влияние на банк. Вместо сложной модели, обученной решать множество проблем и использующей большое количество данных о клиентах, банк часто может развернуть гораздо более простые модели, которые фокусируются на только одной проблеме и используют только несколько характеристик . Это обеспечивает большую прозрачность как для банка, так и для его клиентов при принятии решения о том, следует ли рекомендовать эти продукты. Не говоря уже о том, что требуется меньше вычислительных ресурсов (из-за меньшего размера модели). 🙌

Наши заключительные мысли

Хотя развитие автоматизированных инструментов машинного обучения позволяет практически любому внедрять новые передовые решения, глубокие исследования механики модели могут дать ценные сведения и должны быть проведены до запуска решения. В нашем случае этот анализ был очень полезен для банка и должен позволить ему (1) снизить сложность модели рекомендаций, (2) уменьшить текущие вычислительные затраты, понесенные после развертывания, и (3) предложить действительно персонализированный и прозрачный опыт для клиентов, которые получают рекомендации.

С уважением, команда Genify! 😉

[1] Вероятность дефолта / просрочки не является частью упражнения. В исходном наборе данных не были указаны такие параметры, как оценка FICO или прошлые выплаты по ссуде; таким образом, надлежащая оценка кредитоспособности - важный шаг - не могла быть предпринята с учетом предоставленных данных. Учитывая более обширный набор данных, механизм может дополнительно рекомендовать адекватный размер кредита, процентную ставку и т. Д. В зависимости от характеристик клиента.

[2] Может быть неудовлетворенный спрос на тех, кто хочет получить ссуду, но традиционно не соответствует требованиям, и поэтому движок их не выбирает. Тем не менее, если продукт / услуга может быть лучше структурирована, это может позволить совершить сделку.