Если вам понравился этот пост, подпишитесь на рассылку здесь

Документы, представляющие интерес

Анализ моделирования нейронных языков в различных масштабах

В этой статье приводятся новые современные результаты языкового моделирования с моделями для предсказания следующих слов или символов на основе популярных эталонных тестов языкового моделирования. Тщательно оценивая влияние различных параметров модели и то, как они взаимодействуют, они получают интересные улучшения и показывают, что стандартные модели с тщательной настройкой по-прежнему являются лучшим способом получить высокую производительность.

Это исследование важно для таких приложений, как автозаполнение, НЛП и других областей, связанных с прогнозированием на основе последовательностей.

Ссылка на архив

Нормализация группы

Авторы Групповой нормализации предлагают новый способ нормализации нейронов нейронных сетей в качестве альтернативы другим методам нормализации. Методы нормализации помогают как сократить время обучения, так и снизить (тестовую) ошибку.

В настоящее время для обучения нейронных сетей с помощью пакетной нормализации требуется использование пакета большего размера, который используется для оценки среднего значения и дисперсии отдельных нейронов. Это, однако, ограничивает размер моделей, так как требуемая память растет примерно линейно с размером модели.

Групповая нормализация позволяет обучать пакеты меньшего размера (например, размер пакета 2), что позволяет обучать более крупные модели на устройствах с меньшим объемом памяти.

Они показывают, как групповая нормализация связана с другими методами нормализации, такими как нормализация пакетов, нормализация слоев, нормализация экземпляров.

Хотя это и не дает таких хороших результатов, как пакетная нормализация, оно дает еще один инструмент для повышения скорости обучения.

Архив ссылка

Стохастическое усреднение веса

Хорошо известно, что почти в любой модели, обученной с использованием алгоритма обучения, обучение ансамбля из более чем 1 модели и усреднение результатов почти всегда улучшает обобщение модели по сравнению с одной моделью. Однако за это приходится платить: вам нужно обучить n моделей и запустить их все, когда вы используете их для прогнозов.

В разделе «Усреднение весов приводит к более широкой оптимальности и лучшему обобщению» они показывают, что усреднение весов сети в точках во время обучения приводит к повышению производительности в ряде задач. Хорошая вещь в этом заключается в том, что у него почти нет накладных расходов во время обучения и нет накладных расходов во время прогнозирования. Они также показывают, что метод позволяет использовать фиксированную скорость обучения вместо графика скорости обучения, который распространен в глубоком обучении.

Архив ссылка

Эволюционные стратегии как масштабируемая альтернатива обучению с подкреплением

В этой только что опубликованной статье авторы из OpenAI сравнивают стратегии эволюции с другими (глубокими) алгоритмами обучения с подкреплением. Эволюционные алгоритмы имеют много преимуществ: они более эффективны и легко распараллеливаются по сравнению с обучением на основе градиента и требуют лишь небольшого объема памяти.

Они показывают, что эволюционные алгоритмы хорошо сравниваются и достигают отличных результатов в подмножестве задач передвижения MuJoCo.

Архив ссылка

Синтез программ для изображений с использованием усиленного состязательного обучения

В этой статье авторы реализуют агент, который учится генерировать программы на примерах. Модель, изученная с помощью распределенного обучения с подкреплением, генерирует список команд для изменения ширины, местоположения и цвета, чтобы сформировать изображение, похожее на изображение. В отличие от других методов, этот метод не требует человеческих примеров, а вместо этого обучается с использованием сигнала GAN, генеративно-состязательной сети. Эта модель используется в качестве дискриминатора, т. е. учится определять, является ли изображение входным изображением или изображением, сгенерированным с использованием сгенерированного рисунка. При одновременном обучении дискриминатора и генератора и дискриминатор, и генератор становятся лучше. Кроме того, поскольку модель генерирует «программы» картин, результат гораздо более поддающийся интерпретации, чем модели, непосредственно генерирующие пиксели.

Результаты впечатляют: они показывают, что с помощью этого метода можно создавать цифры, простые рисунки и даже лица, хотя с помощью всего 20 штрихов лица получаются довольно размытыми.

Бумажная ссылка

"Сообщение блога"

Красочный код и изящные наборы данных

YOLO v3

Выпущена третья версия YOLO, системы обнаружения объектов в реальном времени. Он имеет лучший баланс между точностью и вычислениями по сравнению с другими моделями. В забавном техническом отчете они перечисляют методы, которые они пробовали и сработали или не сработали.

Tensorflow 1.7.0rc

Следующая версия Tensorflow получит некоторые интересные функции, такие как активное выполнение из пространства имен contrib, более простой способ определения пользовательских градиентов, плагин отладчика TensorBoard и интеграцию с SQLite.

PersonaChat ConvAI2

ConvAI выпускает версию 2 набора данных PersonaChat. Он содержит 10 981 диалог, каждый из которых содержит 164 356 предложений. Чаты начинаются с персоны, то есть списка интересов, семейного положения и многого другого. Вы можете найти более подробную информацию о наборе данных в этой статье. Вы можете участвовать в конкурсе и выигрывать призы.

Google выпускает улучшенный синтез речи в Google Cloud

Используя модель WaveNet, разработанную исследователями из Google Deepmind, этот выпуск обеспечивает значительно улучшенный синтез речи для пользователей синтеза речи Google Cloud. Перед релизом они перешли на генерацию сигналов 16 бит вместо 8 и значительно улучшили производительность и латентность модели.

Замечательная сеть

Строительные блоки интерпретируемости

В этой интерактивной статье Distill объединено множество различных методов, чтобы сделать нейронные сети более интерпретируемыми. Это показывает, что нейронные сети, будучи так называемой моделью черного ящика с миллионами свободных параметров, могут быть проверены с использованием различных методов.

Беспилотный автомобиль от Uber убил пешехода

Беспилотный автомобиль от Uber сбил пешехода во время тест-драйва. Автомобиль во время фатального столкновения находился в автономном режиме.

Понимание глубокого обучения через удаление нейронов

В этом материале от Deepmind они исследуют, как удаление отдельных единиц влияет на глубокие нейронные сети. Они показывают, как это связано с обобщаемостью и интерпретируемостью.

Если вам понравился этот пост, пожалуйста, подпишитесь на рассылку новостей здесь