Я пытаюсь отладить модель, которая использует одномерные свертки для классификации текста, который был помечен людьми как подходящий, а не подходящий для размещения на каком-либо веб-сайте. Глядя на ложные срабатывания (ошибочно предсказанные как подходящие), я вижу, что текст в основном содержит нейтрально/положительно звучащие слова, но переданная идея плоха (например, речь об ограничении населения). Чтобы решить подобный случай, я могу придумать, как помочь модели понять, что предмет ограничения населения (в этом примере) не следует классифицировать как подходящий для этой конкретной задачи.
Проблема, с которой я сталкиваюсь, заключается в том, чтобы понять, что заставило модель предсказывать неподходящие сообщения, которые на самом деле подходят. Например, следующее сообщение следует считать уместным:
Вина лежит на лице, совершившем преступление.
Модель считает, что это неуместно, но в соответствии с критериями маркировки набора данных это правильное сообщение.
Вопрос
Учитывая модель со слоем внедрения для каждого слова, за которым следуют несколько одномерных преобразований + плотный слой, какие методы могут помочь мне, что заставляет модель классифицировать это сообщение как таковое, и потенциальные способы помочь модели узнать, что это нормально ?
Обновлять
Оказывается, если я возьму приведенный выше пример фразы и заменю по одному слову, а затем посмотрю, как модель классифицирует полученную фразу, она классифицирует фразу как подходящую, когда я заменяю слово ложь практически любым другим позитивным или нейтральным словом. Похоже, модель поняла, что ложь — это очень, очень плохое слово. Вопрос: как мне создать функцию (ы) или иным образом помочь модели обобщить ее?