Интерпретируйте свою модель машинного обучения «черный ящик» с учетом важности функции перестановки

Вычислить важность глобальной функции для обученного оценщика

Моделирование является важным компонентом конвейера разработки моделей обработки данных. Он соответствует обработанным данным обучения с использованием алгоритма машинного обучения, чтобы делать прогнозы для невидимых точек. Некоторые модели, такие как логистическая регрессия и k-NN, легко представить, но большинство моделей науки о данных печально известны как модели черного ящика, поскольку их трудно понять и объяснить выводы и причины любого прогноза.

Интерпретация моделей машинного обучения относится к объяснению причин любого прогноза. Интерпретация модели облегчает понимание заинтересованными сторонами и бизнес-лидерами факторов, влияющих на любые прогнозы. Некоторые модели машинного обучения легче интерпретировать, но для других алгоритмов существуют различные методы и пакеты с открытым исходным кодом для интерпретации. Некоторые из пакетов включают:

Все эти пакеты включают в себя различные алгоритмы для интерпретации алгоритма. Один из популярных алгоритмов интерпретации моделей основан на важности признаков на основе перестановок. В этой статье мы обсудим, как важность функции перестановки можно использовать для интерпретации модели и чем она лучше, чем стандартная функция важности функции scikit-learn.

Что такое важность функции перестановки?

Важность функции перестановки — это метод проверки/интерпретации модели, который можно использовать для интерпретации любой подходящей модели машинного обучения черного ящика. Он вычисляет глобальную важность признаков набора данных для обученного оценщика и помогает специалисту по обработке и анализу данных понять высокие и низкие важные признаки.

Алгоритм важности признаков перестановки измеряет изменение производительности модели при изменении любого конкретного признака. Существует два алгоритма для вычисления важности признаков с использованием метода перестановки:

Подход 1: удаление функций и переобучение:

Сопоставьте средство оценки с обучающим набором данных и вычислите производительность.
Удалите одну функцию из обучающих данных и повторно вычислите производительность.
Измерьте ухудшение производительности модели с шага 1 и шага 2.
Добавьте удаленную функцию на шаге 2.
Повторите шаги 2, 3 и 4 для всех функций.

Ухудшение производительности, которое произошло при удалении функции, определяет важность этой функции. Этот метод дорог, так как необходимо обучить n-оценщиков для наборов данных с n-признаками.

У нас есть еще один метод интерпретируемости важности функции перестановки, который перемешивает значение функции для тестовых данных и обучает оценщика только единицам.

Подход 2: Перетасовка значений характеристик:

Сопоставьте средство оценки с обучающим набором данных и вычислите производительность.
Используйте подогнанный оценщик из шага 1, чтобы вычислить производительность тестовых данных.
Перемешайте значения признаков определенного признака из тестового набора данных.
Используйте подобранный оценщик из шага 1, чтобы вычислить производительность перетасованного набора тестовых данных из шага 2.
Вычислите ухудшение производительности по результатам шагов 2 и 4.
Отмените перемешанные изменения, выполненные на шаге 3.
Повторите шаги 2, 3, 4 и 5 для объектов в наборе данных.

Используя подход 2, важность функции вычисляется путем измерения ухудшения производительности тестовых данных. Этот метод сравнительно менее затратен, поскольку он подходит к оценке только один раз и делает прогнозы для тестовых данных и перемешанных тестовых данных n+1 раз. Функция, в которой мы видим значительное снижение производительности, может рассматриваться как важная функция, а функция, производительность которой почти не меняется, может быть названа менее важной функцией.

Выполнение:

Библиотеки Scikit-learn и ELI5 предлагают реализацию алгоритма важности признаков перестановки в одной строке кода Python.

Набор данных. Набор данных о раке молочной железы, открытый библиотекой scikit-learn, будет использоваться для демонстрации важности признаков перестановки.

Для реализации алгоритма можно использовать permutation_importance из пакета scikit-learn.

Алгоритм важности признаков перестановки реализован в строке 8. Параметр n_repeats представляет количество раз перестановки признака.

Результат:

Теперь давайте сравним важность функции перестановки с важностью функции на основе примесей классификатора случайного леса. Реализация классификатора случайного леса в scikit-learn связана с важностью признаков на основе примесей, которая вычисляется на основе статистики, полученной из набора обучающих данных.

Заключение:

Важность признаков перестановки — это глобальный метод интерпретации признаков, который можно использовать для интерпретации любой подходящей оценки в табличном наборе данных. Этот метод измеряет ухудшение производительности путем перетасовки значений признаков тестовых данных. Это очень удобный метод интерпретации любой оценки черного ящика, который объясняет, насколько важна эта функция для конкретной модели.

Для мультиколлинеарного набора данных важность признаков перестановки может не интерпретировать коррелированные признаки. Прочитайте документацию scikit-learn, чтобы понять, как справиться с условием мультиколлинеарности при интерпретации модели с использованием важности признаков перестановки.

Использованная литература:

[1] Документация Scikit-learn: https://scikit-learn.org/stable/modules/permutation_importance.html#outline-of-the-permutation-importance-algorithm

Понравилась статья? Станьте участником Medium, чтобы продолжать обучение без ограничений. Я получу небольшую часть вашего членского взноса, если вы перейдете по следующей ссылке, без каких-либо дополнительных затрат с вашей стороны.

Присоединяйтесь к Medium по моей реферальной ссылке — Сатьям Кумар
Как участник Medium, часть вашего членского взноса идет авторам, которых вы читаете, и вы получаете полный доступ ко всем историям… satyam-kumar.medium.com

Спасибо за чтение

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Finance Data Money Java Trading Smart Contracts Typescript Productivity Tech Startup Investing Neural Networks Developer NLP Computer Science