Понимание прогнозирования ConvNet при классификации текста

Я пытаюсь отладить модель, которая использует одномерные свертки для классификации текста, который был помечен людьми как подходящий, а не подходящий для размещения на каком-либо веб-сайте. Глядя на ложные срабатывания (ошибочно предсказанные как подходящие), я вижу, что текст в основном содержит нейтрально/положительно звучащие слова, но переданная идея плоха (например, речь об ограничении населения). Чтобы решить подобный случай, я могу придумать, как помочь модели понять, что предмет ограничения населения (в этом примере) не следует классифицировать как подходящий для этой конкретной задачи.

Проблема, с которой я сталкиваюсь, заключается в том, чтобы понять, что заставило модель предсказывать неподходящие сообщения, которые на самом деле подходят. Например, следующее сообщение следует считать уместным:

Вина лежит на лице, совершившем преступление.

Модель считает, что это неуместно, но в соответствии с критериями маркировки набора данных это правильное сообщение.

Вопрос

Учитывая модель со слоем внедрения для каждого слова, за которым следуют несколько одномерных преобразований + плотный слой, какие методы могут помочь мне, что заставляет модель классифицировать это сообщение как таковое, и потенциальные способы помочь модели узнать, что это нормально ?

Обновлять

Оказывается, если я возьму приведенный выше пример фразы и заменю по одному слову, а затем посмотрю, как модель классифицирует полученную фразу, она классифицирует фразу как подходящую, когда я заменяю слово ложь практически любым другим позитивным или нейтральным словом. Похоже, модель поняла, что ложь — это очень, очень плохое слово. Вопрос: как мне создать функцию (ы) или иным образом помочь модели обобщить ее?

07.07.2020

Ответы:

Возможно, в наборе данных, используемом для обучения модели, большинство текстов, содержащих слово «ложь» (и связанные с ним выражения), были помечены как неприемлемые для людей, и было недостаточно примеров подходящего употребления (например, ложь — это плохо, избегайте распространения дезинформации). )

Также может быть так, что многие из примеров были связаны со значением ложного утверждения, и не так много было связано с другими значениями.

Вот несколько причин, которые я могу придумать, чтобы он понял, что тексты, содержащие ложь, скорее всего, неуместны.

05.01.2021

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Finance Data Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer NLP Computer Science