Во-первых, для количества итераций вы можете выйти из обучения, если ваша потеря перестала улучшаться в партии, т. Е. Если разница между двумя значениями потерь, СРЕДНЯМИ по партиям (для уменьшения колебаний партии), меньше определенного порога.
Но вы, наверное, поняли, что порог — это тоже гиперпараметр! На самом деле существует довольно много попыток полностью автоматизировать машинное обучение, но независимо от того, что вы делаете, вы все равно получаете некоторые гиперпараметры.
Во-вторых, для коэффициента затухания он используется, когда вы чувствуете, что потеря перестала улучшаться, и думаете, что вы находитесь в локальном минимуме и колеблетесь в колодце и из него, но на самом деле не входите (эта метафора работает только тогда, когда у вас есть 2 измерения, но я нахожу это все еще полезно).
Почти каждый раз, когда это делается в литературе, это выглядит очень рукотворно: например, вы тренируетесь в течение 200 эпох, вы видите, что оно достигло плато, поэтому вы уменьшаете свой LR с помощью ступенчатой функции (аргумент лестница = True в TF), а затем снова.
Что обычно используется, так это деление скорости обучения на 10 (экспоненциальное затухание), но, как и раньше, это очень произвольно!
Подробнее о том, как реализовать снижение скорости обучения в TF, вы можете узнать в ответе dga это ТАК вопрос. Это довольно просто!
Что может помочь с графиком и значениями, которые вы используете, так это перекрестная проверка, но часто вы можете просто посмотреть на свои потери и сделать это вручную.
В глубоком обучении нет серебряной пули, есть только пробы и ошибки.
29.09.2016