«Большие языковые модели (LLM), основанные на обширных нейронных сетях и обучении с самоконтролем, революционизируют понимание человеческого языка. LLM основан исключительно на методологиях глубокого обучения. От генерации и перевода текста до создания и кодирования изображений LLM, такие как Chat GPT, Falcon и BERT, стимулируют эволюцию разговорного ИИ и переопределяют будущее обработки естественного языка».

Трансформеры - языковые модели🔥

Архитектура Transformer является фундаментальным строительным блоком всех LLM. Модели-трансформеры используются для решения всевозможных задач НЛП.

Все семейство моделей Transformer, включая GPT, BERT, Falcon, BART и другие, прошли тщательную подготовку в качестве языковых моделей. Это включало в себя предоставление им огромного количества необработанного текста в режиме самоконтроля, при этом модели автоматически вычисляли свои цели обучения на основе входных данных.

Трансформаторная архитектура

Архитектура Transformer изначально была разработана для решения задач перевода. В процессе обучения архитектуры Transformer кодер обрабатывает входные данные (предложения) на определенном языке, а декодер получает те же предложения, но на целевом языке для перевода.

Модели Transformer характеризуются своими замечательными уровнями внимания, и название статьи, представляющей эту архитектуру, точно отражает ее суть: Внимание — это все, что вам нужно! Эти специальные слои позволяют модели сосредоточить внимание на конкретных словах в заданном предложении при обработке представления каждого слова. Этот выборочный фокус позволяет выполнять такие задачи, как перевод, где понимание контекста определенных слов имеет решающее значение для получения точных результатов. Например, при переводе с английского на французский, когда модель встречает ввод "Вам нравится этот курс", она должна обратить внимание на соседнее слово "Вы". чтобы правильно перевести слово нравится, так как французский глагол, означающий нравится, зависит от предмета. Точно так же при переводе этот модель должна обращать внимание на слово курс, чтобы учесть французское гендерное соглашение. Другие слова в предложении могут быть не так важны для этих конкретных переводов. По мере того как предложения становятся более сложными, модели может потребоваться внимание к словам на больших расстояниях, чтобы обеспечить точный перевод для каждого слова.

В кодировщике уровни внимания имеют то преимущество, что учитывают все слова в предложении. Эта возможность проистекает из понимания того, что на перевод конкретного слова могут влиять как предшествующие, так и последующие слова в предложении. Таким образом, кодировщик может получить целостное представление о контексте предложения, чтобы получить исчерпывающие представления.

С другой стороны, декодер работает последовательно и имеет более ограниченную область применения. Он может обращать внимание только на слова в предложении, которое он уже перевел, то есть он может сосредоточиться исключительно на словах, предшествующих тому, которое генерируется в данный момент. Например, после предсказания первых трех слов переведенного вывода декодер принимает эти слова в качестве входных данных и использует весь ввод кодировщика для обоснованного предсказания четвертого слова.

Внедрение входных данных. Входной текст разбивается на более мелкие единицы, такие как слова или подслова, и каждая лексема встраивается в непрерывное векторное представление. На этом этапе внедрения фиксируется семантическая и синтаксическая информация ввода.
Позиционное кодирование: позиционное кодирование добавляется к входным встраиваниям для предоставления информации о позициях токенов, поскольку преобразователи не кодируют естественным образом порядок токенов. Это позволяет модели обрабатывать токены, принимая во внимание их последовательный порядок.
Нормализация уровня. Нормализация уровня применяется после каждого подкомпонента или уровня в архитектуре преобразователя. Это помогает стабилизировать процесс обучения и улучшает способность модели обобщать различные входные данные.
Выходные слои. Выходные слои модели преобразователя могут различаться в зависимости от конкретной задачи. Например, в языковом моделировании линейная проекция с последующей активацией SoftMax обычно используется для создания распределения вероятностей для следующего токена.

Модели кодировщика

Кодировщик (слева): Кодировщик получает ввод и строит его представление (его особенности). Это означает, что модель оптимизирована для получения понимания из входных данных.

Модели энкодера используют только энкодер модели Transformer. На каждом этапе слои внимания могут получить доступ ко всем словам в исходном предложении. Эти модели часто характеризуются двунаправленным вниманием и часто называются моделями автоматического кодирования.

Кодировщики хороши в получении и понимании последовательностей; и отношения/взаимозависимость между словами.

Модели декодера

Декодер (справа): декодер использует представление (функции) кодировщика вместе с другими входными данными для создания целевой последовательности. Это означает, что модель оптимизирована для получения выходных данных.

Модели декодера используют только декодер модели Transformer. На каждом этапе для данного слова слои внимания могут получить доступ только к словам, расположенным перед ним в предложении. Эти модели часто называют моделями авторегрессии.

Декодеры с их однонаправленным контекстом хорошо генерируют слова в заданном контексте.

Для чего используются большие языковые модели?

  1. Генерация кода: Создание точного кода для определенных задач.
  2. Отладка и документация: помощь в отладке кода и создании проектной документации.
  3. Ответ на вопрос: Обработка как причудливых, так и настоящих запросов.
  4. Перенос языка: плавный перевод между более чем 50 языками и улучшение контента с помощью безупречной грамматики.

Ссылки:

  1. Внимание — это все, что вам нужно: https://arxiv.org/abs/1706.03762
  2. https://huggingface.co/learn/nlp-course/chapter1/1
  3. https://www.geeksforgeeks.org/large-language-model-llm/

Рад быть полезным. Поддержите меня.
Подпишитесь на меня в Medium и Linkedin, чтобы увидеть похожие публикации, связанные с искусственным интеллектом и машинным обучением.