Construction of quantile regression using natural gradient descent
- Authors: Tyurin A.S.1, Saraev P.V.1
- Affiliations:
- Lipetsk State Technical University
- Issue: No 2 (2023)
- Pages: 43-52
- Section: ARTICLES
- URL: https://ered.pstu.ru/index.php/amcs/article/view/3836
- DOI: https://doi.org/10.15593/2499-9873/2023.2.04
- Cite item
Abstract
Building mathematical models is an important part of developing digital products in various industries, medicine, geology, construction, finance and other areas. Modeling allows optimizing production processes, identifying patterns, predicting time series, classifying objects, and constructing regressions. Quantile regression models are a generalization of median regression and can be used to examine data in depth. Quantile analysis involves estimating model parameters and determining quantile values of the dependent variable for given values of the independent variable. This is done by minimizing the loss function based on quantile values. In contrast to the method of least squares, quantile regression allows to predict the values of the dependent variable more accurately when the values of the independent variable change. That is, quantile regression is more robust. It can be used to solve many problems in various fields of science and business, where it is necessary to more accurately predict the values of the dependent variable under changing conditions. The natural gradient descent is an effective method for constructing regression and has a higher rate of convergence than the classical algorithm. However, in practice this method is quite complicated from a computational point of view, since it requires the calculation of the second derivative. This problem is especially acute when training neural networks, where the number of parameters is much higher than when building classical regression models. The study of methods of regression construction and application of numerical methods are of practical and scientific interest. This paper will look at quantile regression, natural gradient descent and their combination to build mathematical models. Gradient descent is one of the most popular optimization methods and is widely used in machine learning. The natural gradient descent is the preferred method because it is more efficient and has a high rate of convergence. In addition, this method is less vulnerable to hitting local minima and provides more accurate estimates of model parameters. In practice, however, this method is computationally difficult, as it requires the calculation of the second derivative. The article presents an algorithm for model building using natural gradient descent. The essence of using quantile regression in a natural gradient descent is to use a quantile estimate of the loss function instead of the usual estimate used in the least squares method. This allows not only the mean value of the dependent variable, but also more extreme values (e.g., median, 25th percentile, 95th percentile, etc.) to be considered when constructing the model. The resulting method has also been compared with other popular quantile regression-supported gradient descent methods on open data sets of different dimensionality, both in terms of the number of factors and the number of observations. In addition, the possibilities of further development and optimization of this method will be discussed.
Full Text
В настоящее время непараметрические методы привлекают к себе все больший интерес ученых и практиков своей высокой устойчивостью к выбросам в данных [1; 2]. Такие параметрические методы, как метод наименьших квадратов, используются для оценки зависимости условного среднего значения зависимой переменной от независимых переменных. Квантильная регрессия используется для оценки зависимости медианы или других квантилей зависимой переменной от факторных переменных. В отличие от параметрических методов, квантильный анализ позволяет работать с нерегулярными данными и не требует выполнения предположения о нормальном распределении данных. Это делает метод квантильной регрессии более предпочтительным во многих случаях.Квантильный анализ также позволяет получить прогнозы более точно, чем использование классических методов [3]. Результаты сравнения различных реализаций построения квантильной регрессии с другими методами машинного обучения приведены на рис. 1.На рис. 1 по оси абсцисс отмечены следующие методы построения модели: QRF – quantile random forests, QKNN – k-nearest neighbors, QGB – quantile gradient boosting, QLR – quantile linear regression, MLP – Multilayer perceptron, NGBOOST – NGBoost, DT – Distributional random forests. Также представлены алгоритмы для прогнозирования полного распределения остатков этой регрессии, которые помечены как QRFL, QKNNL и QGBL соответственно. Как видно на рис. 1, квантильная регрессия в комбинации с градиентным спуском (QGB) показывает наилучшие результаты. Различные оценки параметров квантильной регрессии на разных квантилях могут интерпретироваться как различия в реакции зависимой переменной на изменение независимых переменных уравнения регрессии в различных точках условного распределения зависимой переменной. Показатели возможных колебаний, вычисленные этим методом, позволяют получить матрицу ковариаций распределения оценок параметров квантильной регрессии, что дает представление о диапазоне колебаний показателей. В качестве усложненных и более эффективных методов построения регрессии на практике используется градиентный спуск [4–6]. В результате квантильная регрессия становится все более привлекательным методом для применения в экономических и производственных моделях, нацеленных на ограничение рисков, где важен прогноз с заранее определенной вероятностью (границей риска). Построение квантильной регрессии может быть выполнено различными способами – при помощи дерева решений, случайного леса или градиентного спуска. Однако нет достаточно описанных примеров использования такого инструмента, как натуральный градиентный спуск. Таким образом, построение комбинированного алгоритма построения квантильной регрессии с использованием натурального градиентного спуска может повысить точно¬сть относительно других методов машинного обучения.About the authors
A. S. Tyurin
Lipetsk State Technical University
P. V. Saraev
Lipetsk State Technical University
References
- Mikhov E.D. Piecewise approximation based on nonparametric modeling algorithms // Siberian Journal of Science and Technology. - 2020. - Vol. 21, № 2. - P. 195-200. doi: 10.31772/2587-6066-2020-21-2-195-200.
- Direct Quantile Regression for Nonparametric Probabilistic Forecasting of Wind Power Generation / C. Wan, J. Lin, J. Wang, Y. Song, Z.Y. Dong // IEEE Transactions on Power Systems. - 2017. - Vol. 32, № 4. - P. 2767-2778. doi: 10.1109/TPWRS.2016.2625101.
- Vasseur S.P., Aznarte J.L.Comparing quantile regression methods for probabilistic forecasting of NO2 pollution levels // Scientific Reports. - 2021. - № 11. - Art. 11592.
- Тюрин А.С., Сараев П.В., Блюмин С.Л. Прогнозирование химического состава стали на выпуске из конвертера с использованием градиентного спуска // Вести высших учебных заведений черноземья. - 2022. - № 4. - С. 60-66.
- Tyurin A.S. Predicting the Temperature Decrease of Metal Between the Furnace-Bucket Machine and the SCCP (steel continuous casting plant) // 2nd International Conference on Control Systems, Mathematical Modeling, Automation and Energy Efficiency (SUMMA): proceeding / Lipetsk State Technical University, Lipetsk, Russia. - IEEE, 2020. - P. 413-415. doi: 10.1109/SUMMA50634.2020.9280696.
- Ильичев В.Ю., Жукова Ю.М., Шамов И.В. Использование технологии градиентного бустинга для создания аппроксимационных моделей // Заметки ученого. - 2021. - № 12-1. - С. 62-67.
- Koenker R., Hallock K. Quantile Regression // Journal of Economic Perspectives. - 2001. - Vol. 15. - P. 143-156.
- NGBoost: Natural Gradient Boosting for Probabilistic Prediction / T. Duan, A. Avati, D.Y. Ding, K.K. Thai, S. Basu, A. Ng, A. Schuler // Proceedings of Machine Learning Research [Proceedings of the 37th International Conference on Machine Learning]. - 2020. - Vol. 119. - P. 2690-2700.
- Kingma D.P., Ba J. Adam: A Method for Stochastic Optimization // CoRR. - 2014. - abs/1412.6980.
- Ilboudo W.E.L., Kobayashi T., Matsubara T. AdaTerm: Adaptive T-Distribution Estimated Robust Moments towards Noise-Robust Stochastic Gradient Optimizer // ArXiv. - 2022. - abs/2201.06714.
- Ruder S. An overview of gradient descent optimization algorithms // ArXiv. - 2016. - abs/1609.04747.
- Martens J. New Insights and Perspectives on the Natural Gradient Method // Journal of Machine Learning Research. - 2014. - Vol. 21 (146). - P. 1-76.
- Shrestha R. Natural Gradient Methods: Perspectives, Efficient-Scalable Approximations, and Analysis // ArXiv. - 2023. - abs/2303.05473.
- Fast Approximate Natural Gradient Descent in a Kronecker-factored Eigenbasis. Neural Information Processing Systems: George / T. George, C. Laurent, X. Bouthillier, N. Ballas, P. Vincent // ArXiv. - 2018. - abs/1806.03884.
- TENGraD: Time-Efficient Natural Gradient Descent with Exact Fisher-Block Inversion / S. Soori, C. Bugra, B. Mu, M. Gürbüzbalaban, M. M. Dehnavi // ArXiv. - 2021. - abs/2106.03947.
Statistics
Views
Abstract - 174
PDF (Russian) - 313
Refbacks
- There are currently no refbacks.