Последние исследования ИИ №1

Если вам понравился этот пост, подпишитесь на рассылку здесь

Документы, представляющие интерес

Анализ моделирования нейронных языков в различных масштабах

В этой статье приводятся новые современные результаты языкового моделирования с моделями для предсказания следующих слов или символов на основе популярных эталонных тестов языкового моделирования. Тщательно оценивая влияние различных параметров модели и то, как они взаимодействуют, они получают интересные улучшения и показывают, что стандартные модели с тщательной настройкой по-прежнему являются лучшим способом получить высокую производительность.

Это исследование важно для таких приложений, как автозаполнение, НЛП и других областей, связанных с прогнозированием на основе последовательностей.

Ссылка на архив

Нормализация группы

Авторы Групповой нормализации предлагают новый способ нормализации нейронов нейронных сетей в качестве альтернативы другим методам нормализации. Методы нормализации помогают как сократить время обучения, так и снизить (тестовую) ошибку.

В настоящее время для обучения нейронных сетей с помощью пакетной нормализации требуется использование пакета большего размера, который используется для оценки среднего значения и дисперсии отдельных нейронов. Это, однако, ограничивает размер моделей, так как требуемая память растет примерно линейно с размером модели.

Групповая нормализация позволяет обучать пакеты меньшего размера (например, размер пакета 2), что позволяет обучать более крупные модели на устройствах с меньшим объемом памяти.

Они показывают, как групповая нормализация связана с другими методами нормализации, такими как нормализация пакетов, нормализация слоев, нормализация экземпляров.

Хотя это и не дает таких хороших результатов, как пакетная нормализация, оно дает еще один инструмент для повышения скорости обучения.

Архив ссылка

Стохастическое усреднение веса

Хорошо известно, что почти в любой модели, обученной с использованием алгоритма обучения, обучение ансамбля из более чем 1 модели и усреднение результатов почти всегда улучшает обобщение модели по сравнению с одной моделью. Однако за это приходится платить: вам нужно обучить n моделей и запустить их все, когда вы используете их для прогнозов.

В разделе «Усреднение весов приводит к более широкой оптимальности и лучшему обобщению» они показывают, что усреднение весов сети в точках во время обучения приводит к повышению производительности в ряде задач. Хорошая вещь в этом заключается в том, что у него почти нет накладных расходов во время обучения и нет накладных расходов во время прогнозирования. Они также показывают, что метод позволяет использовать фиксированную скорость обучения вместо графика скорости обучения, который распространен в глубоком обучении.

Архив ссылка

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением

В этой только что опубликованной статье авторы из OpenAI сравнивают стратегии эволюции с другими (глубокими) алгоритмами обучения с подкреплением. Эволюционные алгоритмы имеют много преимуществ: они более эффективны и легко распараллеливаются по сравнению с обучением на основе градиента и требуют лишь небольшого объема памяти.

Они показывают, что эволюционные алгоритмы хорошо сравниваются и достигают отличных результатов в подмножестве задач передвижения MuJoCo.

Архив ссылка

Синтез программ для изображений с использованием усиленного состязательного обучения

В этой статье авторы реализуют агент, который учится генерировать программы на примерах. Модель, изученная с помощью распределенного обучения с подкреплением, генерирует список команд для изменения ширины, местоположения и цвета, чтобы сформировать изображение, похожее на изображение. В отличие от других методов, этот метод не требует человеческих примеров, а вместо этого обучается с использованием сигнала GAN, генеративно-состязательной сети. Эта модель используется в качестве дискриминатора, т. е. учится определять, является ли изображение входным изображением или изображением, сгенерированным с использованием сгенерированного рисунка. При одновременном обучении дискриминатора и генератора и дискриминатор, и генератор становятся лучше. Кроме того, поскольку модель генерирует «программы» картин, результат гораздо более поддающийся интерпретации, чем модели, непосредственно генерирующие пиксели.

Результаты впечатляют: они показывают, что с помощью этого метода можно создавать цифры, простые рисунки и даже лица, хотя с помощью всего 20 штрихов лица получаются довольно размытыми.

Бумажная ссылка

"Сообщение блога"

Красочный код и изящные наборы данных

YOLO v3

Выпущена третья версия YOLO, системы обнаружения объектов в реальном времени. Он имеет лучший баланс между точностью и вычислениями по сравнению с другими моделями. В забавном техническом отчете они перечисляют методы, которые они пробовали и сработали или не сработали.

Tensorflow 1.7.0rc

Следующая версия Tensorflow получит некоторые интересные функции, такие как активное выполнение из пространства имен contrib, более простой способ определения пользовательских градиентов, плагин отладчика TensorBoard и интеграцию с SQLite.

PersonaChat ConvAI2

ConvAI выпускает версию 2 набора данных PersonaChat. Он содержит 10 981 диалог, каждый из которых содержит 164 356 предложений. Чаты начинаются с персоны, то есть списка интересов, семейного положения и многого другого. Вы можете найти более подробную информацию о наборе данных в этой статье. Вы можете участвовать в конкурсе и выигрывать призы.

Google выпускает улучшенный синтез речи в Google Cloud

Используя модель WaveNet, разработанную исследователями из Google Deepmind, этот выпуск обеспечивает значительно улучшенный синтез речи для пользователей синтеза речи Google Cloud. Перед релизом они перешли на генерацию сигналов 16 бит вместо 8 и значительно улучшили производительность и латентность модели.

Замечательная сеть

Строительные блоки интерпретируемости

В этой интерактивной статье Distill объединено множество различных методов, чтобы сделать нейронные сети более интерпретируемыми. Это показывает, что нейронные сети, будучи так называемой моделью черного ящика с миллионами свободных параметров, могут быть проверены с использованием различных методов.

Беспилотный автомобиль от Uber убил пешехода

Беспилотный автомобиль от Uber сбил пешехода во время тест-драйва. Автомобиль во время фатального столкновения находился в автономном режиме.

Понимание глубокого обучения через удаление нейронов

В этом материале от Deepmind они исследуют, как удаление отдельных единиц влияет на глубокие нейронные сети. Они показывают, как это связано с обобщаемостью и интерпретируемостью.

Если вам понравился этот пост, пожалуйста, подпишитесь на рассылку новостей здесь

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Finance Data Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer NLP Computer Science

Последние исследования ИИ №1

Документы, представляющие интерес

Красочный код и изящные наборы данных

Замечательная сеть

материалы по теме:

Новые материалы

Теги