Простое объяснение больших языковых моделей в популярной науке состоит в том, что они просто предсказывают, какое следующее слово или токен должно быть на основе того, что уже наблюдалось. Эта модель достаточно гибкая, чтобы выучить грамматику, немного перефразировав обучение. Эта модель может даже в некоторой степени проводить обучение с самоконтролем. В этой статье мы рассмотрим, как эту модель можно расширить для изучения классификации.

Как мы используем условие, чтобы предсказать следующий токен?

Языковая модель может использоваться для прогнозирования (и генерации) токенов путем вычисления вероятности следующих токенов с учетом предыдущих токенов. Для предложения «Я ничего не знаю». мы можем создать гирляндную цепочку вероятностей:

P(I)
P(know | I)
P(nothing | I know)
P(. | I know nothing)

Как мы используем условное обозначение для предсказания классификации?

Добавить классификатор к предыдущей модели тривиально. Мы просто добавляем класс в конце вот так

P(I)
P(know | I)
P(nothing | I know)
P(. | I know nothing)
P([English] | I know nothing.)

Для генерации текста из модели мы могли бы поместить класс впереди, как это

P([English])
P(I | [English])
P(know | [English] I)
P(nothing | [English] I know)
P(. | [English] I know nothing)

Это все на данный момент. Возможно, в следующий раз мы сможем взглянуть на то, как работает перевод.