В Metabob, когда мы начали создавать систему тематического моделирования для нашего конвейера данных, мы сначала…

В Metabob, когда мы начали создавать систему моделирования темы для нашего конвейера данных, мы сначала использовали модель темы скрытого распределения Дирихле (LDA). Однако, потратив время на настройку модели с учетом ее лучших возможностей, наша команда продолжила исследования, изучая другие потенциальные тематические модели. Мы начали перебирать Top2Vec и BERTopic и в конце концов решили начать использовать BERTopic для подготовки набора данных для обучения нашей модели обнаружения. В нашем случае BERTopic используется для анализа окружающей документации об изменениях кода и определения причин изменения на основе окружающей документации на естественном языке (подумайте о проблемах GitHub). Мы называем выходы из него нашими проблемными категориями.

В этом блоге мы представим некоторые недостатки LDA для нашего варианта использования, а также преимущества BERTopic, которые привели нас к нашему решению по тематической модели. Кроме того, в конце статьи есть визуализация расстояний вложения проблемных категорий из BERTopic.

ЛДА

Скрытое распределение Дирихле (LDA) — это тематическая модель, но она также является моделью, основанной на статистике.

Вот упрощенное объяснение того, как работает LDA:

Случайное назначение. Каждое слово в каждом документе назначается теме случайным образом. Это случайное распределение дает как тематическое представление всех документов, так и распределение слов по всем темам.
Итеративное уточнение: LDA затем итеративно уточняет эти назначения, просматривая каждое слово и переназначая слово теме. Вероятность отнесения слова к теме зависит от того, насколько преобладает тема в документе и насколько преобладает слово в теме.
Окончательная модель. Алгоритм повторяется снова и снова и в конечном итоге достигает устойчивого состояния, когда назначения становятся более разумными.

LDA имеет несколько недостатков:

Предварительная обработка и настройка параметров: LDA требует тщательной предварительной обработки текстовых данных (например, разметки, удаления стоп-слов и поиска корней), а также настройки нескольких параметров, таких как количество тем. Плохая предварительная обработка и неправильный выбор параметров могут привести к плохим результатам.
Отсутствие учета порядка слов: LDA представляет собой набор слов (документ представлен в виде набора слов без учета грамматики и даже порядка слов, но с сохранением множественности) и не принимает учитывать порядок слов в документе и грамматику.
Фиксированное количество тем: в традиционном LDA количество тем — это гиперпараметр, устанавливаемый пользователем, а не полученный из данных.
Предполагает, что темы не коррелированы: LDA предполагает, что темы не коррелированы, что часто неверно в реальных сценариях.

BERTopic

В отличие от LDA, BERTopic использует модели на основе преобразователя (например, BERT) для встроенной генерации, в то время как LDA использует подход вероятностного моделирования.

Преимущества

Семантика: BERTopic, благодаря архитектуре BERT, может лучше понимать семантику, контексты и нюансы текстовых данных, обеспечивая лучшее качество темы. Это приводит к более значимым и последовательным темам по сравнению с LDA.
Независимость от языка: BERT имеет предварительно обученные модели для многих разных языков, поэтому BERTopic можно эффективно использовать для разных языков. Напротив, LDA потребовала бы обширной предварительной обработки для языков, которые не придерживаются структуры субъект-глагол-объект, например английский.
Репрезентативное обучение: BERTopic использует глубокое обучение и репрезентативное обучение. Эти модели могут фиксировать более сложные шаблоны в тексте, в то время как LDA ограничивается набором слов или представлениями TF-IDF.
Обработка шума: BERTopic часто более устойчив к шуму в данных, потому что он использует встраивание предложений, которые естественным образом обрабатывают шум лучше, чем модели мешка слов.

Оценка

Согласованность тем. Обе модели можно оценить с помощью показателей согласованности тем, таких как c_v, c_p, c_uci и c_npmi. Более высокая оценка согласованности часто предполагает, что слова в теме более семантически связаны.
Оценка вручную. У нас есть оценщики, которые изучают темы и документы, связанные с этими темами. Они могут оценить качество тем по шкале (от 1 до 5). Хотя это трудоемко, это может быть одним из самых надежных методов.

Мы используем найденные категории для обучения нашей модели обнаружения проблем для кода Python. Если вы хотите увидеть наши модели в действии, мы недавно опубликовали Metabob как расширение VSCode для анализа кода Python. Инструмент бесплатный, и если вы в конечном итоге протестируете его, я всегда жду отзывов. Вы можете связаться со мной по электронной почте [email protected].

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Finance Data Money Java Trading Smart Contracts Typescript Productivity Tech Startup Investing Neural Networks Developer NLP Computer Science