Название: | Эффективная адаптация скорости машинного обучения на основе иерархического подхода к оптимизации |
Авторы: | Жогаль, С.И. Жогаль, С.П. Алёшин, Н.А. Орлов, В.В. |
Ключевые слова: | глубокое обучение машинное обучение математическая оптимизация deep learning machine learning mathematical optimization |
Дата публикации: | 2022 |
Издательство: | Гомельский государственный университет имени Ф.Скорины |
Библиографическое описание: | Эффективная адаптация скорости машинного обучения на основе иерархического подхода к оптимизации / С.И. Жогаль, С.П. Жогаль, Н.А. Алёшин, В.В. Орлов // Известия Гомельского государственного университета имени Ф. Скорины. Сер.: Естественные науки. - 2022. - № 3 (132). - С. 113-116. |
Краткий осмотр (реферат): | Рассмотрен иерархический подход к адаптации скорости обучения в градиентных методах, называемый оптимизацией скорости обучения (ОСО). ОСО формулирует проблему адаптации скорости обучения как задачу иерархической оптимизации, которая минимизирует функцию потерь по отношению к скорости обучения для текущих параметров и градиентов модели. Затем ОСО оптимизирует скорость обучения на основе метода множителей переменного направления. В процессе этой оптимизации не требуется никакой информации второго порядка и вероятностной модели, поэтому он очень эффективен. Кроме того, ОСО не требует дополнительных гиперпараметров по сравнению с методом градиента с простым экспоненциальным спадом скорости обучения. Если сравнить эффективность оптимизации с современными методами адаптации скорости обучения, а также с наиболее часто используемыми методами адаптивного градиента, то ОСО превосходит другие методы в задачах классификации. A hierarchical approach to adapting the learning rate in gradient methods, called learning rate optimization (LRO), is considered. LRO formulates the learning rate adaptation problem as a hierarchical optimization problem that minimizes the loss function with respect to the learning rate for current model parameters and gradients. LRO then optimizes the learning rate based on the alternating direction multiplier method. In the process of this optimization it does not require any second order information and a probabilistic model, so it is very efficient. In addition, LRO does not require any additional hyperparameters compared to the gradient method with a simple exponential learning rate decay. If we compare the optimization efficiency with modern learning rate adaptation methods, as well as with the most commonly used SGD adaptive gradient methods, then LRO outperforms all competitors in classification tasks. |
URI (Унифицированный идентификатор ресурса): | http://elib.gsu.by/jspui/handle/123456789/44522 |
Располагается в коллекциях: | Известия ГГУ им. Франциска Скорины. Естественные науки |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
Жогаль_Эффективная.pdf | 248.01 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.