Comparison of features elimination methods for geomagnetic data classification
- Authors: Gainetdinova A.A.1, Vorobev A.V.1
- Affiliations:
- Ufa University of Science and Technology
- Issue: No 4 (2023)
- Pages: 46-55
- Section: ARTICLES
- URL: https://ered.pstu.ru/index.php/amcs/article/view/4053
- DOI: https://doi.org/10.15593/2499-9873/2023.4.02
- Cite item
Abstract
The main stages of processing and feature selection methods for their further use in machine learning algorithms for building models that are designed to predict auroras are considered. The aim of this work is to compare the methods of feature selection when constructing a model for diagnosing the presence of auroras based on the intellectual analysis of geomagnetic data. Data from the Lovozero Observatory (LOZ) for nine years (2012–2020) were used as data for processing. A distinctive feature of the data is their heterogeneity: the set contains both categorical (binary and non-binary) and quantitative data. We consider such feature selection methods as principal component analysis, support vector machines, recursive feature elimination, and the Extra-Trees algorithm. The results of the study showed that the use of selected features based on the analysis in the projection of the principal components will overcome the curse of dimensionality, eliminate noise and reduce model overfitting.
Full Text
Обеспечение эффективного прогнозирования и диагностирования полярных сияний является актуальной задачей, так как полноценный мониторинг космической погоды позволяет предотвратить возможные негативные последствия [1–3]. Применение методов интеллектуального анализа данных и моделей машинного обучения в задачах диагностики полярных сияний требует отбора значимых признаков геомагнитных данных в целях устранения мультиколлинеарности переменных модели [4; 5]. Данное свойство негативно влияет на качество обучения модели, так как вносит дополнительные «шумы» и приводит к неустойчивости прогностической модели [6]. Специфика описания геомагнитных данных предполагает использование ряда показателей (подробнее – в следующем разделе), как категориальных (часть которых являются бинарными, а часть – небинарными), так и количественных. Такой набор данных предполагает комбинирование методов отбора признаков, что обусловливает актуальность исследований в данном направлении. Целью работы является сравнение методов отбора признаков при построении модели диагностики наличия полярных сияний на основе интеллектуального анализа геомагнитных данных. Для проведения расчетов использовались библиотеки языка Python (pandas, scikit-learn).About the authors
A. A. Gainetdinova
Ufa University of Science and Technology
A. V. Vorobev
Ufa University of Science and Technology
References
- Пилипенко В.А. Воздействие космической погоды на наземные технологические системы // Солнечно-земная физика. – 2021. – Т. 7, № 3. – С. 73–110. doi: 10.12737/szf73202106
- Влияние космической погоды на надежность функционирования железнодорожного транспорта в арктической зоне России / И.Н. Розенберг, А.Д. Гвишиани, А.А. Соловьев, В.А. Воронин, В.А. Пилипенко // Железнодорожный транспорт. – 2021. – № 12. – С. 48–54.
- Демьянов В.В., Ясюкевич Ю.В. Космическая погода: факторы риска для глобальных навигационных спутниковых систем // Солнечно-земная физика. – 2021. – Т. 7, № 2. – С. 30–52. doi: 10.12737/szf72202104
- Храмов А.Г. Методы и алгоритмы интеллектуального анализа данных. – Самара: Изд-во Самарского университета, 2019. – 176 с.
- Zheng A., Casari A. Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. – O'Reilly Media, Inc., 2018. – 218 p.
- Mitigating the multicollinearity problem and its machine learning approach: a review / J.Y.-L. Chan, S.M.H. Leow, K.T. Bea, W.K. Cheng, S.W. Phoong, Z.-W. Hong, Y.-L. Chen // Mathematics. – 2022. – Vol. 10, iss. 8. – No. 1283. doi: 10.3390/math10081283
- Archive of PGI Geophysical Data [Электронный ресурс] / Федеральное государственное бюджетное научное учреждение «Полярный геофизический институт». – URL: http://pgia.ru/lang/ru/archive_pgi (дата обращения: 08.07.2023).
- Сервис SuperMAG [Электронный ресурс] / John Hopkins Applied Physics Laboratory. – URL: https://supermag.jhuapl.edu/mag (дата обращения: 08.07.2023).
- Gjerloev J.W. The SuperMAG data processing technique // Journal of Geophysical Research: Space Physics. – 2012. – Vol. 117, iss. A9. – P. A09213. doi: 10.1029/2012JA017683
- Pearson K. On lines and planes of closest fit to systems of points in space // Philosophical Magazine. – 1901. – Vol. 2. – P. 559–572.
- Прикладная статистика. Классификация и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. – М.: Финансы и статистика, 1989. – 607 с.
- Nefedov A. Support Vector Machines: A Simple Tutorial [Электронный ресурс]. – 2016. – URL: https://svmtutorial.online/SVM_tutorial.pdf (дата обращения: 08.07.2023).
- Gene Selection for Cancer Classification Using Support Vector Machines / I. Guyon, J. Weston, S. Barnhill, V. Vapnik // Machine Learning. – 2002. – Vol. 46 (1). – P. 389–422. doi: 10.1023/A:1012487302797
- Geurts P., Ernst D., Wehenkel L. Extremely randomized trees // Machine Learning. – 2006. – Vol. 63. – P. 3–42. doi: 10.1007/s10994-006-6226-1
- Moffitt C. Guide to encoding categorical values in Python [Электронный ресурс] / Practical Business Python. – URL: https://pbpython.com/categorical-encoding.html (дата обращения: 08.07.2023).
- Предварительная обработка данных [Электронный ресурс] scikit-learn developers. – URL: https://scikit-learn.ru/6-3-preprocessing-data/ (дата обращения: 08.07.2023).
- Бахрушин В.Е. Методы оценивания характеристик нелинейных статистических связей // Системные технологии. – 2011. – № 2 (73). – С. 9–14.
- Chicco D., Warrens M.J., Jurman G. The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation // PeerJ Computer Science. – 2021. – Vol. 7. – P. e623. doi: 10.7717/peerj-cs.623
- Локальная диагностика наличия полярных сияний на основе интеллектуального анализа геомагнитных данных / А.В. Воробьев, А.А. Соловьев, В.А. Пили-пенко, Г.Р. Воробьева, А.А. Гайнетдинова, А.Н. Лапин, В.Б. Белаховский, А.В. Ролдугин // Солнечно-земная физика. – 2023. – Т. 9, № 2. – С. 26–34. doi: 10.12737/szf-92202303
- Комбинированная схема отбора признаков для разработки банковских моделей / С.В. Афанасьев, Д.М. Котерева, А.А. Мироненков, А.А. Смирнова // Финан-сы: теория и практика. – 2023. – Т. 27, № 1. – С. 103–115. doi: 10.26794/2587-5671-2023-27-1-103-115
Statistics
Views
Abstract - 79
PDF (Russian) - 66
Refbacks
- There are currently no refbacks.