Глубокие нейронные сети (DNN) достигли выдающихся результатов в широком спектре актуальных задач компьютерного зрения и обработки естественного языка. Однако эти достижения связаны с высокой стоимостью, поскольку для решения все более сложных задач требуются все более глубокие архитектуры нейронных сетей. Более того, современные углубляющиеся архитектуры не только увеличивают вычислительную нагрузку, но и могут страдать от исчезающих проблем градиента.

В недавних попытках решить проблему исчезающего градиента при обучении DNN были задействованы продвинутые оптимизаторы, такие как оптимизатор оценки адаптивного момента (Adam) при обучении модели, но такие существующие оптимизаторы не могут использовать какую-либо информацию об угле градиента, кроме величины.

Чтобы преодолеть эти ограничения, команда из IEEE (Институт инженеров по электротехнике и электронике) предложила AngularGrad - новый алгоритм оптимизации, который учитывает как направление градиента, так и угловую информацию. Предлагаемый метод успешно снижает эффект зигзага на траектории оптимизации и ускоряет сходимость.

Обучение DNN можно интерпретировать как получение математической функции, которая сопоставляет входные данные с соответствующими выходными, регулируя его параметры (веса и смещения) для оптимизации функции затрат или потерь. Во время этого процесса веса могут быть оптимально достигнуты с помощью итеративной процедуры, которая автоматически регулирует значения весов для достижения минимального значения функции потерь. Таким образом, оптимизатор играет решающую роль в эффективности процесса обучения и окончательной генерализации DNN.

Исследователи IEEE говорят, что их исследование является первым, в котором используется информация о направлении и угле вектора градиента, а также его величина. Такой подход значительно сглаживает флуктуации траектории и позволяет найти более прямой путь к оптимальному решению функции стоимости. Предлагаемый AngularGrad также снижает требуемые вычислительные ресурсы, что приводит к повышению эффективности и производительности обучения.

AngularGrad учитывает угол между двумя последовательными градиентами во время оптимизации. Команда представляет новый угловой коэффициент для динамической регулировки скорости обучения, позволяющий AngularGrad управлять настройками параметров и уменьшая высокую дисперсию градиентов, поскольку он минимизирует направляющие косинусы двух последовательных градиентов на каждом шаге. Команда предлагает две версии оптимизатора, основанные на косинусе и касательном углах от значения углового коэффициента, обозначаемых как AngularGrad ^ cos и AngularGrad ^ tan соответственно.

Чтобы оценить предложенный оптимизатор, команда смоделировала оптимизацию как задачу регрессии по трем одномерным невыпуклым функциям, используя SGDM, Adam, diffGrad, AdaBelief, AngularGrad ^ cos и AngularGrad ^ tan в качестве оптимизаторов, чтобы найти оптимальные решения для этих функций. .

Исследователи говорят, что стабильная производительность обучения AngularGrad в сложных настройках как для изображений, так и для задач мелкозернистой классификации показывает, что он обладает хорошей способностью к генерации, а результаты всесторонних экспериментов над задачами компьютерного зрения с различными оптимизаторами подтверждают способность оптимизатора AngularGrad улучшать эффективность и производительность обучения.

В целом, эмпирические результаты показывают, что оптимизатор AngularGrad генерирует более точный размер шага и обеспечивает более быструю и плавную сходимость.

Команда IEEE сделала исходный код доступным для проекта GitHub. Статья AngularGrad: новый метод оптимизации для угловой сходимости сверточных нейронных сетей находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.