1. Сильная гипотеза лотерейного билета с ε — возмущение (arXiv)

Автор: Чжэян Сюн, Фаншо Ляо, Анастасиос Кириллидис.

Аннотация: Сильная гипотеза лотерейного билета (LTH) утверждает существование подсети в достаточно большой случайно инициализированной нейронной сети, которая аппроксимирует некоторую целевую нейронную сеть без необходимости обучения. Мы распространяем теоретическую гарантию сильной литературы по LTH на сценарий, более похожий на исходный LTH, путем обобщения изменения веса на этапе предварительной подготовки до некоторого возмущения вокруг инициализации. В частности, мы сосредоточимся на следующих открытых вопросах: допуская возмущение в масштабе ε случайных начальных весов, можем ли мы уменьшить требование чрезмерной параметризации для сети-кандидата в сильном LTH? Кроме того, совпадает ли изменение веса по SGD с хорошим набором таких возмущений? Мы отвечаем на первый вопрос, сначала расширяя теоретический результат о сумме подмножеств, чтобы разрешить возмущение кандидатов. Применяя этот результат к настройке нейронной сети, мы показываем, что такое ε-возмущение снижает требование чрезмерной параметризации сильного LTH. Чтобы ответить на второй вопрос, мы с помощью экспериментов показываем, что возмущенный вес, достигнутый прогнозируемым SGD, показывает лучшую производительность при сильном сокращении LTH.

2. Гипотеза лотерейного билета для самостоятельного внимания в сверточной нейронной сети (arXiv)

Автор: Чжунчжан Хуан, Сэнвэй Лян, Мингфу Лян, Вэй Хэ, Хайчжао Ян, Лян Линь.

Аннотация: В последнее время предлагается множество модулей самообслуживания (SAM) с функцией «включай и работай» для улучшения обобщения модели за счет использования внутренней информации глубоких сверточных нейронных сетей (CNN). Как правило, в предыдущих работах не учитывалось, где подключать SAM, поскольку они подключали SAM по отдельности к каждому блоку всей магистрали CNN как должное, что приводило к дополнительным вычислительным затратам и количеству параметров с ростом глубины сети. Тем не менее, мы эмпирически обнаруживаем и проверяем некоторые противоречащие здравому смыслу явления, которые: (а) подключение SAM ко всем блокам не всегда может дать наибольший прирост производительности, а подключение к частичным блокам было бы еще лучше; (b) Добавление SAM к CNN не всегда может привести к повышению производительности, а вместо этого может даже повредить производительности исходной магистрали CNN. Поэтому мы сформулируем и продемонстрируем гипотезу лотерейного билета для сетей с самостоятельным вниманием: полная сеть с самостоятельным вниманием содержит подсеть с разреженными соединениями с самостоятельным вниманием, которые могут (1) ускорить вывод, (2) уменьшить дополнительное приращение параметра и (3) ) сохранять точность. В дополнение к эмпирическим данным, эта гипотеза также подтверждается нашими теоретическими данными. Кроме того, мы предлагаем простой, но эффективный метод поиска билета, основанный на обучении с подкреплением, т. е. схему подключения, которая удовлетворяет трем вышеупомянутым условиям. Обширные эксперименты с широко используемыми эталонными наборами данных и популярными сетями самоконтроля показывают эффективность нашего метода. Кроме того, наши эксперименты показывают, что наш разыскиваемый билет имеет возможность переноса на некоторые задачи зрения, например, подсчет толпы и сегментацию.