Доказано, что модели трансформаторов очень чувствительны к зашумленным реальным данным. Насколько серьезна проблема и что мы можем сделать, чтобы ее решить?
В интересной статье Института искусственного интеллекта Венского медицинского университета, Австрия, изучалась устойчивость моделей нейронного языка к входным возмущениям в НЛП.
В документе говорится, что высокопроизводительные нейронные языковые модели дали самые современные результаты для широкого круга задач обработки естественного языка (NLP), однако результаты для общих наборов эталонных данных часто не отражают надежность и устойчивость модели при применении. к зашумленным, реальным данным.
В рамках исследования проводились комплексные эксперименты по различным задачам НЛП. Они исследовали способность высокопроизводительных языковых моделей, таких как BERT, XLNet, RoBERTa и ELMo, обрабатывать различные типы входных возмущений.
Результаты из приведенной ниже статьи показывают, что языковые модели чувствительны к входным отклонениям, и их производительность может снижаться даже при внесении небольших изменений.
Ключевой вывод
Крайне незначительные изменения ввода текста в обученную модель имеют большое (>0,1) снижение балла F1 во всех изученных задачах.
Ключевые цитаты из статьи:
"Даже хорошо обученный и высокоэффективный дип
языковая модель может быть чувствительна к незначительному
изменения входных данных, которые вызывают модель
ошибочные решения”
И
"может быть слишком упрощенно полагаться только на показатели точности
получено на эталонных наборах данных при оценке
надежность систем НЛП”
Выводы Deeper Insights:
- Модели-трансформеры очень чувствительны к возмущениям.
- Небольшие изменения (опечатки, недостающие/дополнительные слова, изменение порядка) могут привести к другим результатам
- Опечатка (орфографическая ошибка в Лос-Анджелесе) на самом деле улучшает прогнозы в одном из наших тестов (см. изображение ниже).
- «Blah Blah Ltd» извлекается как имя поставщика, а не «Blah Ltd» во втором (см.
Как это исправить?
Из газеты:
- Используйте NLP-Perturbation[github] в тандеме с Checklist [github] и другими инструментами для проверки чувствительности моделей к возмущениям.
Из Deeper Insights:
- Microsoft [бумага] выпустила теоретико-игровой подход к моделированию инвариантного языка, чтобы противодействовать этому [github], который можно напрямую использовать с Робертой и Huggingface.
- Используйте состязательное обучение [бумага и код github], чтобы ограничить влияние этой чувствительности (уменьшить снижение оценки F1 с 11,3 абсолютных процентов до всего лишь 2,4)
- Попробуйте ансамблевый подход: объединение результатов многих моделей в метамодель: [https://hpi.de/fileadmin/user_upload/fachgebiete/naumann/publications/PDFs/2020_risch_bagging.pdf]
Дополнительная литература:
Deeper Insights рекомендует раздел этой статьи 2. Связанная работа для обзора предметной области.
Наш заключительный комментарий:
По мере того, как модели глубокого обучения и преобразования становятся все более распространенными и выраженными, растут и проблемы и подводные камни. Традиционных методов науки о данных и машинного обучения больше недостаточно, обучение и запуск модели — это лишь малая часть создания и обслуживания продуктивного и надежного ИИ-решения. Знание предметной области и предметная экспертиза необходимы для любого жизнеспособного долгосрочного решения.
Deeper Insights — ведущая компания, занимающаяся наукой о данных и машинным обучением. Она помогает организациям из разных отраслей раскрыть преобразующую силу ИИ.
Узнайте больше о наших услугах или напишите нам по адресу [email protected]