Новое исследование IEEE предоставляет градиентный спуск угловой информацией для ускорения обучения DNN

Глубокие нейронные сети (DNN) достигли выдающихся результатов в широком спектре актуальных задач компьютерного зрения и обработки естественного языка. Однако эти достижения связаны с высокой стоимостью, поскольку для решения все более сложных задач требуются все более глубокие архитектуры нейронных сетей. Более того, современные углубляющиеся архитектуры не только увеличивают вычислительную нагрузку, но и могут страдать от исчезающих проблем градиента.

В недавних попытках решить проблему исчезающего градиента при обучении DNN были задействованы продвинутые оптимизаторы, такие как оптимизатор оценки адаптивного момента (Adam) при обучении модели, но такие существующие оптимизаторы не могут использовать какую-либо информацию об угле градиента, кроме величины.

Чтобы преодолеть эти ограничения, команда из IEEE (Институт инженеров по электротехнике и электронике) предложила AngularGrad - новый алгоритм оптимизации, который учитывает как направление градиента, так и угловую информацию. Предлагаемый метод успешно снижает эффект зигзага на траектории оптимизации и ускоряет сходимость.

Обучение DNN можно интерпретировать как получение математической функции, которая сопоставляет входные данные с соответствующими выходными, регулируя его параметры (веса и смещения) для оптимизации функции затрат или потерь. Во время этого процесса веса могут быть оптимально достигнуты с помощью итеративной процедуры, которая автоматически регулирует значения весов для достижения минимального значения функции потерь. Таким образом, оптимизатор играет решающую роль в эффективности процесса обучения и окончательной генерализации DNN.

Исследователи IEEE говорят, что их исследование является первым, в котором используется информация о направлении и угле вектора градиента, а также его величина. Такой подход значительно сглаживает флуктуации траектории и позволяет найти более прямой путь к оптимальному решению функции стоимости. Предлагаемый AngularGrad также снижает требуемые вычислительные ресурсы, что приводит к повышению эффективности и производительности обучения.

AngularGrad учитывает угол между двумя последовательными градиентами во время оптимизации. Команда представляет новый угловой коэффициент для динамической регулировки скорости обучения, позволяющий AngularGrad управлять настройками параметров и уменьшая высокую дисперсию градиентов, поскольку он минимизирует направляющие косинусы двух последовательных градиентов на каждом шаге. Команда предлагает две версии оптимизатора, основанные на косинусе и касательном углах от значения углового коэффициента, обозначаемых как AngularGrad ^ cos и AngularGrad ^ tan соответственно.

Чтобы оценить предложенный оптимизатор, команда смоделировала оптимизацию как задачу регрессии по трем одномерным невыпуклым функциям, используя SGDM, Adam, diffGrad, AdaBelief, AngularGrad ^ cos и AngularGrad ^ tan в качестве оптимизаторов, чтобы найти оптимальные решения для этих функций. .

Исследователи говорят, что стабильная производительность обучения AngularGrad в сложных настройках как для изображений, так и для задач мелкозернистой классификации показывает, что он обладает хорошей способностью к генерации, а результаты всесторонних экспериментов над задачами компьютерного зрения с различными оптимизаторами подтверждают способность оптимизатора AngularGrad улучшать эффективность и производительность обучения.

В целом, эмпирические результаты показывают, что оптимизатор AngularGrad генерирует более точный размер шага и обеспечивает более быструю и плавную сходимость.

Команда IEEE сделала исходный код доступным для проекта GitHub. Статья AngularGrad: новый метод оптимизации для угловой сходимости сверточных нейронных сетей находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP