Title: Эффективная адаптация скорости машинного обучения на основе иерархического подхода к оптимизации
Authors: Жогаль, С.И.
Жогаль, С.П.
Алёшин, Н.А.
Орлов, В.В.
Keywords: глубокое обучение
машинное обучение
математическая оптимизация
deep learning
machine learning
mathematical optimization
Issue Date: 2022
Publisher: Гомельский государственный университет имени Ф.Скорины
Citation: Эффективная адаптация скорости машинного обучения на основе иерархического подхода к оптимизации / С.И. Жогаль, С.П. Жогаль, Н.А. Алёшин, В.В. Орлов // Известия Гомельского государственного университета имени Ф. Скорины. Сер.: Естественные науки. - 2022. - № 3 (132). - С. 113-116.
Abstract: Рассмотрен иерархический подход к адаптации скорости обучения в градиентных методах, называемый оптимизацией скорости обучения (ОСО). ОСО формулирует проблему адаптации скорости обучения как задачу иерархической оптимизации, которая минимизирует функцию потерь по отношению к скорости обучения для текущих параметров и градиентов модели. Затем ОСО оптимизирует скорость обучения на основе метода множителей переменного направления. В процессе этой оптимизации не требуется никакой информации второго порядка и вероятностной модели, поэтому он очень эффективен. Кроме того, ОСО не требует дополнительных гиперпараметров по сравнению с методом градиента с простым экспоненциальным спадом скорости обучения. Если сравнить эффективность оптимизации с современными методами адаптации скорости обучения, а также с наиболее часто используемыми методами адаптивного градиента, то ОСО превосходит другие методы в задачах классификации. A hierarchical approach to adapting the learning rate in gradient methods, called learning rate optimization (LRO), is considered. LRO formulates the learning rate adaptation problem as a hierarchical optimization problem that minimizes the loss function with respect to the learning rate for current model parameters and gradients. LRO then optimizes the learning rate based on the alternating direction multiplier method. In the process of this optimization it does not require any second order information and a probabilistic model, so it is very efficient. In addition, LRO does not require any additional hyperparameters compared to the gradient method with a simple exponential learning rate decay. If we compare the optimization efficiency with modern learning rate adaptation methods, as well as with the most commonly used SGD adaptive gradient methods, then LRO outperforms all competitors in classification tasks.
URI: http://elib.gsu.by/jspui/handle/123456789/44522
Appears in Collections:Известия ГГУ им. Франциска Скорины. Естественные науки

Files in This Item:
File Description SizeFormat 
Жогаль_Эффективная.pdf248.01 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.