Лучшее исследование гипотезы лотерейных билетов, часть 3 (машинное обучение)

Сильная гипотеза лотерейного билета с ε — возмущение (arXiv)

Автор: Чжэян Сюн, Фаншо Ляо, Анастасиос Кириллидис.

Аннотация: Сильная гипотеза лотерейного билета (LTH) утверждает существование подсети в достаточно большой случайно инициализированной нейронной сети, которая аппроксимирует некоторую целевую нейронную сеть без необходимости обучения. Мы распространяем теоретическую гарантию сильной литературы по LTH на сценарий, более похожий на исходный LTH, путем обобщения изменения веса на этапе предварительной подготовки до некоторого возмущения вокруг инициализации. В частности, мы сосредоточимся на следующих открытых вопросах: допуская возмущение в масштабе ε случайных начальных весов, можем ли мы уменьшить требование чрезмерной параметризации для сети-кандидата в сильном LTH? Кроме того, совпадает ли изменение веса по SGD с хорошим набором таких возмущений? Мы отвечаем на первый вопрос, сначала расширяя теоретический результат о сумме подмножеств, чтобы разрешить возмущение кандидатов. Применяя этот результат к настройке нейронной сети, мы показываем, что такое ε-возмущение снижает требование чрезмерной параметризации сильного LTH. Чтобы ответить на второй вопрос, мы с помощью экспериментов показываем, что возмущенный вес, достигнутый прогнозируемым SGD, показывает лучшую производительность при сильном сокращении LTH.

2. Гипотеза лотерейного билета для самостоятельного внимания в сверточной нейронной сети (arXiv)

Автор: Чжунчжан Хуан, Сэнвэй Лян, Мингфу Лян, Вэй Хэ, Хайчжао Ян, Лян Линь.

Аннотация: В последнее время предлагается множество модулей самообслуживания (SAM) с функцией «включай и работай» для улучшения обобщения модели за счет использования внутренней информации глубоких сверточных нейронных сетей (CNN). Как правило, в предыдущих работах не учитывалось, где подключать SAM, поскольку они подключали SAM по отдельности к каждому блоку всей магистрали CNN как должное, что приводило к дополнительным вычислительным затратам и количеству параметров с ростом глубины сети. Тем не менее, мы эмпирически обнаруживаем и проверяем некоторые противоречащие здравому смыслу явления, которые: (а) подключение SAM ко всем блокам не всегда может дать наибольший прирост производительности, а подключение к частичным блокам было бы еще лучше; (b) Добавление SAM к CNN не всегда может привести к повышению производительности, а вместо этого может даже повредить производительности исходной магистрали CNN. Поэтому мы сформулируем и продемонстрируем гипотезу лотерейного билета для сетей с самостоятельным вниманием: полная сеть с самостоятельным вниманием содержит подсеть с разреженными соединениями с самостоятельным вниманием, которые могут (1) ускорить вывод, (2) уменьшить дополнительное приращение параметра и (3) ) сохранять точность. В дополнение к эмпирическим данным, эта гипотеза также подтверждается нашими теоретическими данными. Кроме того, мы предлагаем простой, но эффективный метод поиска билета, основанный на обучении с подкреплением, т. е. схему подключения, которая удовлетворяет трем вышеупомянутым условиям. Обширные эксперименты с широко используемыми эталонными наборами данных и популярными сетями самоконтроля показывают эффективность нашего метода. Кроме того, наши эксперименты показывают, что наш разыскиваемый билет имеет возможность переноса на некоторые задачи зрения, например, подсчет толпы и сегментацию.

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Finance Data Money Java Trading Smart Contracts Typescript Productivity Tech Startup Investing Neural Networks Developer NLP Computer Science