Comparison of features elimination methods for geomagnetic data classification

Abstract


The main stages of processing and feature selection methods for their further use in machine learning algorithms for building models that are designed to predict auroras are considered. The aim of this work is to compare the methods of feature selection when constructing a model for diagnosing the presence of auroras based on the intellectual analysis of geomagnetic data. Data from the Lovozero Observatory (LOZ) for nine years (2012–2020) were used as data for processing. A distinctive feature of the data is their heterogeneity: the set contains both categorical (binary and non-binary) and quantitative data. We consider such feature selection methods as principal component analysis, support vector machines, recursive feature elimination, and the Extra-Trees algorithm. The results of the study showed that the use of selected features based on the analysis in the projection of the principal components will overcome the curse of dimensionality, eliminate noise and reduce model overfitting.

Full Text

Обеспечение эффективного прогнозирования и диагностирования полярных сияний является актуальной задачей, так как полноценный мониторинг космической погоды позволяет предотвратить возможные негативные последствия [1–3]. Применение методов интеллектуального анализа данных и моделей машинного обучения в задачах диагностики полярных сияний требует отбора значимых признаков геомагнитных данных в целях устранения мультиколлинеарности переменных модели [4; 5]. Данное свойство негативно влияет на качество обучения модели, так как вносит дополнительные «шумы» и приводит к неустойчивости прогностической модели [6]. Специфика описания геомагнитных данных предполагает использование ряда показателей (подробнее – в следующем разделе), как категориальных (часть которых являются бинарными, а часть – небинарными), так и количественных. Такой набор данных предполагает комбинирование методов отбора признаков, что обусловливает актуальность исследований в данном направлении. Целью работы является сравнение методов отбора признаков при построении модели диагностики наличия полярных сияний на основе интеллектуального анализа геомагнитных данных. Для проведения расчетов использовались библиотеки языка Python (pandas, scikit-learn).

About the authors

A. A. Gainetdinova

Ufa University of Science and Technology

A. V. Vorobev

Ufa University of Science and Technology

References

  1. Пилипенко В.А. Воздействие космической погоды на наземные технологические системы // Солнечно-земная физика. – 2021. – Т. 7, № 3. – С. 73–110. doi: 10.12737/szf73202106
  2. Влияние космической погоды на надежность функционирования железнодорожного транспорта в арктической зоне России / И.Н. Розенберг, А.Д. Гвишиани, А.А. Соловьев, В.А. Воронин, В.А. Пилипенко // Железнодорожный транспорт. – 2021. – № 12. – С. 48–54.
  3. Демьянов В.В., Ясюкевич Ю.В. Космическая погода: факторы риска для глобальных навигационных спутниковых систем // Солнечно-земная физика. – 2021. – Т. 7, № 2. – С. 30–52. doi: 10.12737/szf72202104
  4. Храмов А.Г. Методы и алгоритмы интеллектуального анализа данных. – Самара: Изд-во Самарского университета, 2019. – 176 с.
  5. Zheng A., Casari A. Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. – O'Reilly Media, Inc., 2018. – 218 p.
  6. Mitigating the multicollinearity problem and its machine learning approach: a review / J.Y.-L. Chan, S.M.H. Leow, K.T. Bea, W.K. Cheng, S.W. Phoong, Z.-W. Hong, Y.-L. Chen // Mathematics. – 2022. – Vol. 10, iss. 8. – No. 1283. doi: 10.3390/math10081283
  7. Archive of PGI Geophysical Data [Электронный ресурс] / Федеральное государственное бюджетное научное учреждение «Полярный геофизический институт». – URL: http://pgia.ru/lang/ru/archive_pgi (дата обращения: 08.07.2023).
  8. Сервис SuperMAG [Электронный ресурс] / John Hopkins Applied Physics Laboratory. – URL: https://supermag.jhuapl.edu/mag (дата обращения: 08.07.2023).
  9. Gjerloev J.W. The SuperMAG data processing technique // Journal of Geophysical Research: Space Physics. – 2012. – Vol. 117, iss. A9. – P. A09213. doi: 10.1029/2012JA017683
  10. Pearson K. On lines and planes of closest fit to systems of points in space // Philosophical Magazine. – 1901. – Vol. 2. – P. 559–572.
  11. Прикладная статистика. Классификация и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. – М.: Финансы и статистика, 1989. – 607 с.
  12. Nefedov A. Support Vector Machines: A Simple Tutorial [Электронный ресурс]. – 2016. – URL: https://svmtutorial.online/SVM_tutorial.pdf (дата обращения: 08.07.2023).
  13. Gene Selection for Cancer Classification Using Support Vector Machines / I. Guyon, J. Weston, S. Barnhill, V. Vapnik // Machine Learning. – 2002. – Vol. 46 (1). – P. 389–422. doi: 10.1023/A:1012487302797
  14. Geurts P., Ernst D., Wehenkel L. Extremely randomized trees // Machine Learning. – 2006. – Vol. 63. – P. 3–42. doi: 10.1007/s10994-006-6226-1
  15. Moffitt C. Guide to encoding categorical values in Python [Электронный ресурс] / Practical Business Python. – URL: https://pbpython.com/categorical-encoding.html (дата обращения: 08.07.2023).
  16. Предварительная обработка данных [Электронный ресурс] scikit-learn developers. – URL: https://scikit-learn.ru/6-3-preprocessing-data/ (дата обращения: 08.07.2023).
  17. Бахрушин В.Е. Методы оценивания характеристик нелинейных статистических связей // Системные технологии. – 2011. – № 2 (73). – С. 9–14.
  18. Chicco D., Warrens M.J., Jurman G. The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation // PeerJ Computer Science. – 2021. – Vol. 7. – P. e623. doi: 10.7717/peerj-cs.623
  19. Локальная диагностика наличия полярных сияний на основе интеллектуального анализа геомагнитных данных / А.В. Воробьев, А.А. Соловьев, В.А. Пили-пенко, Г.Р. Воробьева, А.А. Гайнетдинова, А.Н. Лапин, В.Б. Белаховский, А.В. Ролдугин // Солнечно-земная физика. – 2023. – Т. 9, № 2. – С. 26–34. doi: 10.12737/szf-92202303
  20. Комбинированная схема отбора признаков для разработки банковских моделей / С.В. Афанасьев, Д.М. Котерева, А.А. Мироненков, А.А. Смирнова // Финан-сы: теория и практика. – 2023. – Т. 27, № 1. – С. 103–115. doi: 10.26794/2587-5671-2023-27-1-103-115

Statistics

Views

Abstract - 34

PDF (Russian) - 26

Refbacks

  • There are currently no refbacks.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies