Изучение обширных возможностей больших языковых моделей (LLM)

«Большие языковые модели (LLM), основанные на обширных нейронных сетях и обучении с самоконтролем, революционизируют понимание человеческого языка. LLM основан исключительно на методологиях глубокого обучения. От генерации и перевода текста до создания и кодирования изображений LLM, такие как Chat GPT, Falcon и BERT, стимулируют эволюцию разговорного ИИ и переопределяют будущее обработки естественного языка».

Трансформеры - языковые модели🔥

Архитектура Transformer является фундаментальным строительным блоком всех LLM. Модели-трансформеры используются для решения всевозможных задач НЛП.

Все семейство моделей Transformer, включая GPT, BERT, Falcon, BART и другие, прошли тщательную подготовку в качестве языковых моделей. Это включало в себя предоставление им огромного количества необработанного текста в режиме самоконтроля, при этом модели автоматически вычисляли свои цели обучения на основе входных данных.

Трансформаторная архитектура

Архитектура Transformer изначально была разработана для решения задач перевода. В процессе обучения архитектуры Transformer кодер обрабатывает входные данные (предложения) на определенном языке, а декодер получает те же предложения, но на целевом языке для перевода.

Модели Transformer характеризуются своими замечательными уровнями внимания, и название статьи, представляющей эту архитектуру, точно отражает ее суть: Внимание — это все, что вам нужно! Эти специальные слои позволяют модели сосредоточить внимание на конкретных словах в заданном предложении при обработке представления каждого слова. Этот выборочный фокус позволяет выполнять такие задачи, как перевод, где понимание контекста определенных слов имеет решающее значение для получения точных результатов. Например, при переводе с английского на французский, когда модель встречает ввод "Вам нравится этот курс", она должна обратить внимание на соседнее слово "Вы". чтобы правильно перевести слово нравится, так как французский глагол, означающий нравится, зависит от предмета. Точно так же при переводе этот модель должна обращать внимание на слово курс, чтобы учесть французское гендерное соглашение. Другие слова в предложении могут быть не так важны для этих конкретных переводов. По мере того как предложения становятся более сложными, модели может потребоваться внимание к словам на больших расстояниях, чтобы обеспечить точный перевод для каждого слова.

В кодировщике уровни внимания имеют то преимущество, что учитывают все слова в предложении. Эта возможность проистекает из понимания того, что на перевод конкретного слова могут влиять как предшествующие, так и последующие слова в предложении. Таким образом, кодировщик может получить целостное представление о контексте предложения, чтобы получить исчерпывающие представления.

С другой стороны, декодер работает последовательно и имеет более ограниченную область применения. Он может обращать внимание только на слова в предложении, которое он уже перевел, то есть он может сосредоточиться исключительно на словах, предшествующих тому, которое генерируется в данный момент. Например, после предсказания первых трех слов переведенного вывода декодер принимает эти слова в качестве входных данных и использует весь ввод кодировщика для обоснованного предсказания четвертого слова.

Внедрение входных данных. Входной текст разбивается на более мелкие единицы, такие как слова или подслова, и каждая лексема встраивается в непрерывное векторное представление. На этом этапе внедрения фиксируется семантическая и синтаксическая информация ввода.
Позиционное кодирование: позиционное кодирование добавляется к входным встраиваниям для предоставления информации о позициях токенов, поскольку преобразователи не кодируют естественным образом порядок токенов. Это позволяет модели обрабатывать токены, принимая во внимание их последовательный порядок.
Нормализация уровня. Нормализация уровня применяется после каждого подкомпонента или уровня в архитектуре преобразователя. Это помогает стабилизировать процесс обучения и улучшает способность модели обобщать различные входные данные.
Выходные слои. Выходные слои модели преобразователя могут различаться в зависимости от конкретной задачи. Например, в языковом моделировании линейная проекция с последующей активацией SoftMax обычно используется для создания распределения вероятностей для следующего токена.

Модели кодировщика

Кодировщик (слева): Кодировщик получает ввод и строит его представление (его особенности). Это означает, что модель оптимизирована для получения понимания из входных данных.

Модели энкодера используют только энкодер модели Transformer. На каждом этапе слои внимания могут получить доступ ко всем словам в исходном предложении. Эти модели часто характеризуются двунаправленным вниманием и часто называются моделями автоматического кодирования.

Кодировщики хороши в получении и понимании последовательностей; и отношения/взаимозависимость между словами.

Модели декодера

Декодер (справа): декодер использует представление (функции) кодировщика вместе с другими входными данными для создания целевой последовательности. Это означает, что модель оптимизирована для получения выходных данных.

Модели декодера используют только декодер модели Transformer. На каждом этапе для данного слова слои внимания могут получить доступ только к словам, расположенным перед ним в предложении. Эти модели часто называют моделями авторегрессии.

Декодеры с их однонаправленным контекстом хорошо генерируют слова в заданном контексте.

Для чего используются большие языковые модели?

Генерация кода: Создание точного кода для определенных задач.
Отладка и документация: помощь в отладке кода и создании проектной документации.
Ответ на вопрос: Обработка как причудливых, так и настоящих запросов.
Перенос языка: плавный перевод между более чем 50 языками и улучшение контента с помощью безупречной грамматики.

Ссылки:

Внимание — это все, что вам нужно: https://arxiv.org/abs/1706.03762
https://huggingface.co/learn/nlp-course/chapter1/1
https://www.geeksforgeeks.org/large-language-model-llm/

Рад быть полезным. Поддержите меня.
Подпишитесь на меня в Medium и Linkedin, чтобы увидеть похожие публикации, связанные с искусственным интеллектом и машинным обучением.

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Finance Data Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer NLP Computer Science