NLLB-200 — совершенно новый прорыв с открытым исходным кодом в машинном переводе из мета-ИИ, обучение игре в Minecraft путем просмотра видео, путь Яна Лекуна к ИИ человеческого уровня, новый индексатор нейронного корпуса для поиска документов, как Минерва решает задачи количественного мышления, художественный Radiance Fields, диффузионные языковые модели, поиск дополненного компьютерного зрения и многое, многое другое…

С наступлением лета активность в мире ИИ только усилилась. В то время как некоторые были заняты обсуждением разумности чат-бота LaMDA или восхищением выводом, созданным DALL-E mini, этот месяц был удивительно насыщен исследовательскими блокбастерами из крупных лабораторий: Google, Meta, OpenAI… Еще один авторегрессивный преобразование текста в изображение. была опубликована модель поколения от Google под названием Parti, основанная на архитектуре Pathways, чтобы конкурировать с DALL-E 2 и Imagen, но это почти не был замечен. CVPR представил в общей сложности более 2600 работ по компьютерному зрению, включая такие жемчужины, как автоматическое чтение по губам и новые SOTA в области автономного вождения. Новости и код также не были медленными, и в этом месяце мы выделяем:

  • Большая наука — совместная работа с открытым исходным кодом по обучению большой многоязычной языковой модели, возглавляемая HuggingFace — достигла цели итераций тренировочного запуска для своей модели 176 миллиардов параметров (BLOOM) после многих месяцев предварительных исследований и экспериментов. Мы очень рады видеть, какие результаты исследований станут результатом этих усилий.
  • aqlaboratory/openfold: реализация Alpha Fold 2 с открытым исходным кодом, которая позволяет вам обучать модель самостоятельно или делать выводы с помощью собственных предварительно обученных моделей.
  • py-why/dowhy: полноценная библиотека Python для вывода о причинно-следственных связях, которая поддерживает явное моделирование и проверку предположений о причинно-следственных связях.
  • Google T5X с открытым исходным кодом, улучшенная кодовая база T5, включая модели 1,6T param Switch-C и 395B param Switch-XXL.

🔬 Исследования

Каждый месяц мы анализируем самую последнюю исследовательскую литературу и выбираем разнообразный набор из 10 статей, о которых вам следует знать. В этом месяце мы рассмотрим такие темы, как машинный перевод (ML), обучение с подкреплением (RL), модели распространения, поиск информации, поля излучения и многое другое.

1. Ни один язык не останется без внимания: масштабирование машинного перевода, ориентированного на человека | Сообщение в блоге | "Код"

Команда NLLB, Марта Р. Коста-жусса, Джеймс Кросс, Анджела Фан и др.

❓Почему → Единая модель машинного перевода с самым современным качеством для более чем 200 языков, которая улучшает средний балл BLEU на 44 %. Это само по себе большое дело. Добавьте к этому включение многих языков с низким уровнем ресурсов, для которых раньше не был доступен MT, и тот факт, что все это теперь доступно с открытым исходным кодом, и вы получите результат.

💡Ключевые идеи → NLLB удалось обучить одну разреженную модель Mixture of Experts Transformer с 54 миллиардами параметров на автоматически извлеченных двутекстовых данных из более чем 200 языков. Большая часть усилий, подробно описанных в отличной 190-страничной статье, связана с методами извлечения данных, их очистки и проверки того, что модель не вызывает токсичных галлюцинаций.

Обучение модели включало в себя множество изящных приемов, таких как Выпадение слоя, Обучение по учебной программе и Дистилляция модели. Центральную роль во всем этом играет новая многоязычная модель встраивания предложений под названием LASER3. Более подробные технические подробности см. в более ранней статье «Приемы обучения моделей разреженного перевода или в эксклюзивном Интервью Zeta Alpha с Анжелой Фан, одним из ведущих ученых проект.

Бумага или книга NLLB, на самом деле, является отличным чтением, охватывающим все, от технических деталей, лингвистического анализа, этических соображений и анализа воздействия до сравнительного анализа. Улучшение среднего балла BLEU на 44 % в наборе данных FLORES-101 впечатляет…

Но, конечно, всем интересно, как эта модель соотносится с Google Translate. И это тоже было оценено. В среднем качество модели NLLB-200 аналогично с явным преимуществом для языков с низким ресурсом. Он добавляет около 70 языков, для которых раньше не было (хороших) моделей машинного перевода. Самое главное отличие? NLLB-200 имеет полностью открытый исходный код под лицензией MIT.

Среди прочего, это делает доступным: набор данных Flores-200 Evaluation на 204 языках. NLLB-Seed: начальные обучающие данные на 39 языках. LASER3: кодировщики предложений для идентификации выровненного битекста для 148 языков. Воссоздание обучающих данных: сценарии, воссоздающие обучающие данные NLLB. И, наконец, модели MT охватывают 202 языка, в том числе:

  • NLLB-200: 54,5-миллиардная модель смешанных экспертов с разреженным вентилем
  • Модели плотных трансформаторов 3.3B и 1.3B
  • Модели плотных трансформаторов 1.3B и 600M перегоняются из NLLB-200
  • Скрипты обучения и генерации для воспроизведения наших моделей

Аплодисменты Мете за то, что она поделилась этим с миром. Это, безусловно, значительно продвинет дальнейшие исследования МП, глобальный доступ к знаниям и межъязыковое общение. Мы надеемся, что это также поможет улучшить модерацию контента в зонах конфликтов, известную проблему для Facebook, и что природа модели с открытым исходным кодом не будет способствовать увеличению массовой слежки и цензуры в тех же языковых регионах. Ведь благими намерениями вымощена дорога в ад.

2. Эволюция через большие модели

Авторы: Джоэл Леман, Джонатан Гордон, Шон Джейн, Камаль Ндусс, Кэти Йе, Кеннет О. Стэнли.

❓ Зачем →Хотя большие языковые модели (ЯМ) сами по себе являются благодатной почвой для исследований, появляется тенденция, когда ЯМ используются в качестве строительного блока алгоритмов для решения других задач. Например, пополнение набора данных [1]. Теперь они используются в контексте эволюционных вычислений: как оператор мутации.

💡 Ключевые идеи →Эволюционные алгоритмы – это алгоритмы, которые следуют эволюционным принципам для решения задачи: наличие совокупности решений-кандидатов, которые можно рекомбинировать, видоизменять и взаимодействовать с окружающей средой для постепенной адаптации к изменяющимся условиям или оптимизации некоторых цель фитнеса. Точно так же, как появились другие формы жизни на Земле.

Генетическое программирование — это задача создания компьютерных программ (синтез программ) с помощью эволюционных алгоритмов. Одна из самых больших проблем использования эволюционных вычислений для синтеза программ заключается в том, что если вы мутируете программу-кандидата, чтобы получить нового кандидата чисто случайным образом, вы будете очень неэффективно искать в пространстве возможных программ.

Есть ли общедоступный источник различий кода вместе с аннотациями об изменениях, из которых оператор мутатора мог бы извлечь уроки? Бинго. Код GitHub отличается и фиксирует сообщения! Эта работа создает набор данных из них и обучает большого LM изучать человеческие способы улучшения кода, обнаруживая более сложные мутации, чем те, которые следуют правилам, созданным вручную. Кроме того, этот большой LM можно постоянно настраивать в настройках обучения с подкреплением, где положительные мутации вознаграждения снова используются для обучения LM.

Заставить всю эту работу довольно сложно, она требует тщательной обработки обучающих данных и балансировки всех движущихся частей. Авторы демонстрируют, как работает этот алгоритм, на примере игры Sodarace, целью которой является создание двухмерных существ, состоящих из точечных масс и пружин, которые перемещаются в пространстве. Модель должна генерировать необработанные программы Python, которые изобретают этих существ, начиная с базового семени, которое представляет собой программу, создающую базового содараса.

Авторы считают, что эволюционный подход, направляемый экспрессивным LM, приводит к превосходной открытости, основной всеобъемлющей теме всей статьи. Это могло бы возродить интерес к эволюционным алгоритмам, который, возможно, застопорился в последние годы из-за глубокого обучения.

3. Diffusion-LM улучшает управляемую генерацию текста

Сян Лиза Ли, Джон Тикстун, Ишаан Гулраджани, Перси Лян, Тацунори Б. Хашимото.

❓ Почему →Модели распространения продолжают завоевывать области.

💡 Ключевые идеи → Сложно управлять созданием текста из языковой модели, чтобы удовлетворить определенные ограничения, такие как тональность и структура (например, сгенерировать положительное предложение, являющееся дополнением подлежащее-глагол-прилагательное).

Предыдущие работы по диффузии применялись к текстовому языку как к дискретному, применяя процесс диффузии путем итеративного дискретного искажения токенов, которые модель должна была научиться реконструировать (немного похоже на итеративное моделирование маскированного языка). Однако в этой работе они применяют процесс диффузии непосредственно к непрерывным встраиваниям, что ближе к процессу диффузии, к которому мы привыкли в изображениях. Вложения итеративно дрейфуют в многомерном пространстве и дискретизируются в токены только в самом конце процесса.

Одним из основных преимуществ использования модели распространения в качестве языковой модели является то, что она очень легко поддается управлению генерацией на протяжении всего процесса распространения, оценивая, насколько хорошо выполняется ограничение на каждом этапе распространения, и используя градиент этой цели для обновить промежуточные состояния диффузии (см. рисунок выше).

Авторы показывают, как эта установка работает в нескольких задачах моделирования контролируемого языка, контролируя такие аспекты, как семантическое содержание, части речи, синтаксические деревья и синтаксические диапазоны. Эмпирические результаты показывают, насколько этот метод значительно превосходит предыдущие работы по созданию контролируемого текста.

4. Редактирование модели на основе памяти в масштабе

Эрик Митчелл, Чарльз Лин, Антуан Босселют, Кристофер Д. Мэннинг, Челси Финн.

❓ Почему →Одним из основных ограничений текущих GPT-подобных LM является то, что их знания о мире замораживаются после завершения обучения. Как мы можем преодолеть это ограничение?

💡 Ключевые идеи →В предыдущих работах решалась проблема обновления знаний в LM, позволяя им взаимодействовать с какой-то явной базой знаний, которая может меняться. Например, web-GPT [5] может искать документы в Интернете и добавлять к подсказке первые k результатов, чтобы учитывать этот контекст и отвечать на такие вопросы, как «Месси в «Барсе»?» что повышает фактическую точность модели по сравнению с обычными LM.

Метод, предложенный в этой статье, концептуально очень прост: он позволяет пользователям добавлять записи в память редактирования, состоящую из пар вопрос-ответ. Во время логического вывода классификатор области определяет, находится ли подсказка в области действия какого-либо редактирования памяти, и перенаправляет ввод в соответствии с одной из двух моделей: исходной замороженной моделью LM или контрфактической моделью, которая использует соответствующую память редактирования в качестве контекста для подсказка (см. рисунок ниже).

Одним из основных преимуществ этого подхода является то, что он не требует постоянного контроля всего корпуса знаний, в отличие от чего-то вроде веб-GPT, а просто итеративно обновляет добавленные пользователем факты. Более того, его можно добавить к существующим большим замороженным LM «из коробки» без необходимости переобучения с нуля с помощью какой-либо непараметрической системы памяти.

5. Индексатор нейронного корпуса для поиска документов

АвторЮцзин Ван и др..

❓ Почему →Еще в марте мы выделили Индекс дифференциального поиска (DSI): полная параметризация всего корпуса в нейронной сети и выполнение поиска документов с помощью авторегрессионной генерации идентификаторов документов. Эта работа выводит это на новый уровень!

💡 Основные выводы →Индекс дифференцированного поиска [6] — это дикий подход к поиску информации (IR), о котором мы говорили еще в марте. Вместо того, чтобы извлекать документ, выполняя лексическое сопоставление, встраивая поиск ближайшего соседа или переоценивая с помощью кросс-кодирования; модель просто запоминает корпус документов и авторегрессионно генерирует список идентификаторов документов, соответствующих заданному запросу. Это априори невероятно, потому что идентификаторы документов не содержат семантически релевантной информации: если появляется новый документ и ему присваивается новый идентификатор, вы не можете ничего сделать для выводов о его содержании.

Эта парадигма поиска имеет несколько очевидных недостатков, таких как тот факт, что набор документов нельзя легко расширить после завершения обучения, но первоначальные результаты были чрезвычайно обнадеживающими, особенно в условиях нулевого выстрела, когда модель обучается без аннотированного человеком запроса-документа. пары, и он учится на самоконтролируемой цели, которая опирается исключительно на коллекцию документов.

Эта работа в основном выжимает больше производительности из идеи DSI, применяя несколько улучшений дизайна: модель генерации запросов (Doc2Query [6]), которая расширяет охват запросов, используя наиболее эффективные семантические идентификаторы (предложенные в DSI) и специальный вес. декодер.

Они тестируют свою модель на поисковой задаче NQ320k, и их результаты безумно хороши, хотя есть одна загвоздка. Некоторые из моделей, с которыми они себя сравнивают, были обучены только на MS-Marco, а затем протестированы на NQ320k, так что это не совсем корректное сравнение. Тем не менее, по сравнению с исходным DSI, они обеспечивают невероятный прирост производительности (например, отзыв@1 с 40% до 89%). Судя по их абляциям, только модуль генерации запросов оказывает огромное влияние на производительность, тогда как другие предлагаемые методы, такие как их специальный декодер, почти не имеют значения, что является очень важным выводом.

6. Video PreTraining (VPT): учимся действовать, просматривая немаркированные онлайн-видео | Пост в блоге | "Код"

От OpenAI и др.

❓ Почему →Маркировка обходится дорого, а обучение с подкреплением, как правило, очень неэффективно, особенно в открытых играх, таких как Minecraft. В этой статье предлагается метод, позволяющий обойти это путем автоматической надежной маркировки видео геймплея.

💡 Ключевые идеи →Узнать, каким будет следующий ход агента в видеоигре, учитывая предыдущие изображения и ходы (другими словами, авторегрессия), сложно. Однако если вы предоставите модели доступ ко всем прошлым и будущим кадрам видеоигры, угадать действие, выполняемое в данном кадре, станет проще. Они используют этот простой трюк, чтобы быть намного эффективнее, когда требуется человеческая маркировка.

Прежде всего, позвольте мне сказать, что название этой статьи, возможно, вводит в заблуждение: Video PreTraining (VPT) на самом деле делает ярлыки для видео. Но вместо того, чтобы заставить людей делать это, они обучают модель аннотировать необработанные видео действиями. Вместо того, чтобы делать это авторегрессивно (т.е. угадывать, какое действие будет выполнено с учетом прошлых действий/кадров), они позволяют своей модели получать доступ к прошлым и будущим кадрам, что делает задачу аннотирования действий намного более легкой для изучения (т.е. какое действие предпринимается с учетом прошлых и будущих видеокадров).

Они называют модель, которая учится маркировать необработанные видео, моделью обратной динамики (IDM), которая обучается на 2000 часов данных, собранных, когда люди играют в Minecraft, регистрируя все свои действия. Набор видеоданных, который они собирают, состоит из 270 тысяч часов игрового процесса Minecraft из Интернета, которые фильтруются и очищаются до 70 тысяч часов, которые затем автоматически помечаются моделью IDM.

Агент обучается на этом наборе данных с помощью поведенческого клонирования: он предсказывает действие, которое следует предпринять, только видя предыдущие кадры и действия. Один из ключевых результатов заключается в том, насколько полезно заглянуть в будущее для маркировки видео для построения модели IDM.

Помимо клонирования поведения, они также исследуют тонкую настройку с помощью обучения с подкреплением, когда модель имеет возможность исследовать произвольные траектории и получать за это вознаграждение. В то время как случайным образом инициализированный агент RL не может обнаружить важные сложные последовательности действий в игре, тонкая настройка RL работает намного лучше, когда инициализируется из модели VPT, обученной на BC, которая обнаруживает сложные последовательности действий гораздо более последовательно и эффективно.

7. Решение задач количественного мышления с помощью языковых моделей | Демонстрационная страница | "Сообщение блога"

Айтор Левкович, Андерс Андреассен, Дэвид Дохан, Итан Дайер, Хенрик Михалевски, Винай Рамасеш и др.

❓ Почему →Твердая способность к рассуждениям, особенно количественным, часто указывается как одна из слабых сторон больших языковых моделей. Является ли это фундаментальным ограничением больших LM или его можно обойти, просто увеличив масштаб и поумнев в отношении обучающих данных?

💡 Ключевые идеи →Оказывается, обучаясь на правильных данных и применяя правильные приемы, LM могут успешно решать количественные логические задачи, такие как математика или физика. Эта работа основывается на PaLM [8] (с параметрами до 540 B!) и добавляет 118 ГБ данных с математическим текстом из arXiv и математических веб-страниц. Чтобы закодировать математику, они просто оставляют выражения rax LaTeX вместо того, чтобы сглаживать их, как это делалось в предыдущих работах. Все модели, которые они обучают, являются тонкой настройкой базового PaLM.

Они также считают, что использование расширенных подсказок имеет важное значение для производительности: цепочка мыслей и подсказки блокнота; которые состоят из простых стратегий быстрого переформатирования, которые эмпирически показали улучшение общих способностей к рассуждениям предварительно обученных LM.

Наконец, они также обнаружили, что использование мажоритарного голосования также существенно повышает производительность модели, где генерируется пул вариантов решения проблемы, и решение выбирается среди решений, которые имеют наиболее общий результат.

Это, несомненно, все еще далеко от надежного символического рассуждения, оно показывает, насколько далеко может зайти моделирование на простом языке в рассуждениях с правильными приемами и оптимизациями. Если вас интересует область рассуждений с помощью LM, ознакомьтесь с недавним выпуском Открытие трансформеров с помощью LEGO: задача на синтетическое мышление.

8. Путь к автономному машинному интеллекту (JEPA)

Ян ЛеКун.

❓ Почему →После «Приорного сознания» Бенжио [3] и «Мрака» Хинтона [4] Лекун присоединяется к своим со-лауреатам премии Тьюринга, представляя то, что он считает путем к ИИ человеческого уровня.

💡 Основные идеи →В этом длинном документе с изложением позиции Янна ЛеКуна объясняется его видение того, как можно достичь интеллекта на уровне человека, хотя он скромно дает понять, что достижение этого уровня — это совсем другая история, чем простое изложение руки. волнистые принципы. Опираясь на то, что мы знаем о развитии ребенка и функционировании мозга, он фокусируется на необходимости «иерархии моделей мира», с помощью которой модель может постоянно сопоставлять свое восприятие с тем, насколько хорошо она соответствует существующей модели того, как мир работает в разных условиях. широкий диапазон временных и пространственных масштабов, который он называет минимизацией энергии.

В текущих терминах обучения с подкреплением он в основном выступает за парадигму, основанную на моделях, с расширенным обучением с представлением, основанным в основном на самоконтролируемом обучении.

Честно говоря, трудно сказать, насколько полезна такая бумага. С одной стороны, похвально, что главный научный сотрудник крупной частной исследовательской лаборатории открыто поделился своим исследовательским видением. С другой стороны, в этой статье предлагается когнитивная архитектура, которую мы видели сотни раз в прошлом, с некоторым успехом в области нейробиологии, но не столько в инженерной части создания интеллектуальных машин. Приблизит ли этот путь нас к ИИ человеческого уровня, или нам следует искать что-то еще, потому что, как сказал Планк, «наука продвигается вперед по похоронам за раз»?

9. АРФ: Поля художественного сияния | Страница проекта | "Код"

Кай Чжан, Ник Колкин, Сай Би, Фуцзюнь Луань, Цзэсян Сюй, Эли Шехтман, Ной Снейвли.

❓ Почему →Похоже на перенос стиля, но для 3D-рендеринга.

💡 Ключевые идеи →Neural Radiance Fields (NeRF [9]) — это нейронные сети, которые могут синтезировать новые фотореалистичные виды данной сцены. В этой работе представлен NeRF, который позволяет создавать виды сцены с произвольными стилями.

Для этого они добавляют термин стиля к функции потерь, называемой Сопоставление ближайших соседей (NNFM), которая направляет модель для создания выходных данных с аналогичными представлениями изображений (т.е. функциями VGG). Это не так просто, как кажется, для этого требуется множество приемов оптимизации, таких как отложенное обратное распространение, которое позволяет тренироваться на изображениях с полным разрешением, а не только на подмножестве пикселей изображения.

Авторы объясняют, что существующие подходы к 3D-стилизации, которые работают с облаками точек или сетками, чувствительны к ошибкам геометрической реконструкции, чего нельзя сказать о методе, предложенном в этой статье, что является одной из его основных сильных сторон.

Это может быть немного бесполезным, но за этим определенно стоит художественный потенциал, особенно в контексте виртуальной реальности и видеоигр. Результаты слишком крутые, чтобы не включить их сюда! Вы должны разместить их видео на странице проекта, чтобы лучше понять, как выглядят стилизованные 3D-сцены».

10. Поисковая расширенная классификация для визуального распознавания с длинным хвостом

Автор Александр Лонг, Вей Инь, Талайясингам Аджантхан, Ву Нгуен, Пулак Пуркаит, Рави Гарг, Алан Блэр, Чуньхуа Шен, Антон ван ден Хенгель.

❓ Почему →Учиться на данных в длинном хвосте распределения сложно: модель должна учиться на очень небольшом количестве экземпляров таких данных. Дополнение ML явными модулями поиска — это тенденция, которую мы подчеркивали в прошлом, которая уже улучшила такие области, как генерация текста. Теперь это также применяется к классификации изображений.

💡 Ключевые идеи →Входное изображение направляется параллельно через две системы: обычный базовый кодировщик изображений и модуль поиска. Модуль поиска кодирует изображение во вложение и находит его ближайших соседей в базе данных изображений, которые связаны с фрагментами текста, которые могут быть метками или более длинными подписями. Затем список текстовых фрагментов изображений объединяется и передается в BERT-подобный кодировщик текста, который производит одно встраивание текста.

Внедрение из базового кодировщика изображений и кодировщика текста складываются вместе после нормализации, предоставляя классификационному уровню сети дополнительную информацию о классифицируемом изображении, что полезно в режиме с низким объемом данных. Учитывая, что этот процесс является сквозным дифференцируемым, его можно обучать совместно сквозным.

Один из самых интересных выводов заключается в том, что при адекватной сбалансированной цели обучения модуль извлечения учится сосредотачиваться на хвостовых классах, поскольку базовый кодировщик не имеет достаточного количества помеченных образцов для правильного обучения, как показано на рисунке ниже (см. как модуль поиска только для класса повышает точность классификации для классов с небольшим количеством выборок).

Ссылки:

[1] InPars: расширение данных для поиска информации с использованием больших языковых моделей Луиса Бонифачо, Хьюго Абоницио, Марзие Фадаи, Родриго Ногейры; 2022 г.

[2] Языковые модели — это интерфейсы общего назначения Яру Хао, Хаоюй Сонг, Ли Донг, Шаохан Хуанг, Зевен Чи, Вэньхуэй Ван, Шумин Ма, Фуру Вэй; 2022 г.

[3] The Consciousness Prior Джошуа Бенджио, 2019 г.

[4] Как представлять иерархии часть-целое в нейронной сети Джеффри Хинтона, 2022 г.

[5] WebGPT: ответы на вопросы с помощью браузера и человеческая обратная связь, Reiichiro Nakano et al. 2021.

[6] «Память трансформатора как индекс дифференцируемого поиска», автор Yi Tay et al. 2022 г.

[7] Расширение документа с помощью прогнозирования запросов Родриго Ногейра, Вей Ян, Джимми Лин, Кёнхён Чо; 2019 г.

[8] «PaLM: масштабирование языкового моделирования с путями», автор: Aakanksha Chowdhery et al. 2022 г.

[9] NeRF: представление сцен как полей нейронного излучения для синтеза представлений Бена Милденхолла, Пратула П. Сринивасана, Мэтью Танчика, Джонатана Т. Бэррона, Рави Рамамурти, Рен Нг. 2020.