Сравнение методов отбора значимых признаков для классификации геомагнитных данных

Аннотация


Рассматриваются основные этапы обработки и методы отбора признаков для их дальнейшего использования в алгоритмах машинного обучения для построения моделей, которые предназначены для прогнозирования полярных сияний. Целью работы является сравнение методов отбора признаков при построении модели диагностики наличия полярных сияний на основе интеллектуального анализа геомагнитных данных. В качестве исходных данных для настоящей работы использовались данные обсерватории «Ловозеро» (LOZ) за девять лет (2012–2020 гг.). Отличительной особенностью данных является их разнородность: в наборе содержатся как категориальные (часть которых являются бинарными, а часть – небинарными), так и количественные. Рассмотрены такие способы отбора признаков, как анализ главных компонент, метод опорных векторов, рекурсивное исключение признаков, алгоритм Extra-Trees. Результаты исследования показали, что использование отобранных признаков наоснове анализа в проекции главных компонент позволит преодолеть «проклятье размерности», устранить «шумы» и снизить переобучение модели.

Полный текст

Обеспечение эффективного прогнозирования и диагностирования полярных сияний является актуальной задачей, так как полноценный мониторинг космической погоды позволяет предотвратить возможные негативные последствия [1–3]. Применение методов интеллектуального анализа данных и моделей машинного обучения в задачах диагностики полярных сияний требует отбора значимых признаков геомагнитных данных в целях устранения мультиколлинеарности переменных модели [4; 5]. Данное свойство негативно влияет на качество обучения модели, так как вносит дополнительные «шумы» и приводит к неустойчивости прогностической модели [6]. Специфика описания геомагнитных данных предполагает использование ряда показателей (подробнее – в следующем разделе), как категориальных (часть которых являются бинарными, а часть – небинарными), так и количественных. Такой набор данных предполагает комбинирование методов отбора признаков, что обусловливает актуальность исследований в данном направлении. Целью работы является сравнение методов отбора признаков при построении модели диагностики наличия полярных сияний на основе интеллектуального анализа геомагнитных данных. Для проведения расчетов использовались библиотеки языка Python (pandas, scikit-learn).

Об авторах

А. А. Гайнетдинова

Уфимский университет науки и технологий

А. В. Воробьев

Уфимский университет науки и технологий

Список литературы

  1. Пилипенко В.А. Воздействие космической погоды на наземные технологические системы // Солнечно-земная физика. – 2021. – Т. 7, № 3. – С. 73–110. doi: 10.12737/szf73202106
  2. Влияние космической погоды на надежность функционирования железнодорожного транспорта в арктической зоне России / И.Н. Розенберг, А.Д. Гвишиани, А.А. Соловьев, В.А. Воронин, В.А. Пилипенко // Железнодорожный транспорт. – 2021. – № 12. – С. 48–54.
  3. Демьянов В.В., Ясюкевич Ю.В. Космическая погода: факторы риска для глобальных навигационных спутниковых систем // Солнечно-земная физика. – 2021. – Т. 7, № 2. – С. 30–52. doi: 10.12737/szf72202104
  4. Храмов А.Г. Методы и алгоритмы интеллектуального анализа данных. – Самара: Изд-во Самарского университета, 2019. – 176 с.
  5. Zheng A., Casari A. Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists. – O'Reilly Media, Inc., 2018. – 218 p.
  6. Mitigating the multicollinearity problem and its machine learning approach: a review / J.Y.-L. Chan, S.M.H. Leow, K.T. Bea, W.K. Cheng, S.W. Phoong, Z.-W. Hong, Y.-L. Chen // Mathematics. – 2022. – Vol. 10, iss. 8. – No. 1283. doi: 10.3390/math10081283
  7. Archive of PGI Geophysical Data [Электронный ресурс] / Федеральное государственное бюджетное научное учреждение «Полярный геофизический институт». – URL: http://pgia.ru/lang/ru/archive_pgi (дата обращения: 08.07.2023).
  8. Сервис SuperMAG [Электронный ресурс] / John Hopkins Applied Physics Laboratory. – URL: https://supermag.jhuapl.edu/mag (дата обращения: 08.07.2023).
  9. Gjerloev J.W. The SuperMAG data processing technique // Journal of Geophysical Research: Space Physics. – 2012. – Vol. 117, iss. A9. – P. A09213. doi: 10.1029/2012JA017683
  10. Pearson K. On lines and planes of closest fit to systems of points in space // Philosophical Magazine. – 1901. – Vol. 2. – P. 559–572.
  11. Прикладная статистика. Классификация и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин. – М.: Финансы и статистика, 1989. – 607 с.
  12. Nefedov A. Support Vector Machines: A Simple Tutorial [Электронный ресурс]. – 2016. – URL: https://svmtutorial.online/SVM_tutorial.pdf (дата обращения: 08.07.2023).
  13. Gene Selection for Cancer Classification Using Support Vector Machines / I. Guyon, J. Weston, S. Barnhill, V. Vapnik // Machine Learning. – 2002. – Vol. 46 (1). – P. 389–422. doi: 10.1023/A:1012487302797
  14. Geurts P., Ernst D., Wehenkel L. Extremely randomized trees // Machine Learning. – 2006. – Vol. 63. – P. 3–42. doi: 10.1007/s10994-006-6226-1
  15. Moffitt C. Guide to encoding categorical values in Python [Электронный ресурс] / Practical Business Python. – URL: https://pbpython.com/categorical-encoding.html (дата обращения: 08.07.2023).
  16. Предварительная обработка данных [Электронный ресурс] scikit-learn developers. – URL: https://scikit-learn.ru/6-3-preprocessing-data/ (дата обращения: 08.07.2023).
  17. Бахрушин В.Е. Методы оценивания характеристик нелинейных статистических связей // Системные технологии. – 2011. – № 2 (73). – С. 9–14.
  18. Chicco D., Warrens M.J., Jurman G. The coefficient of determination R-squared is more informative than SMAPE, MAE, MAPE, MSE and RMSE in regression analysis evaluation // PeerJ Computer Science. – 2021. – Vol. 7. – P. e623. doi: 10.7717/peerj-cs.623
  19. Локальная диагностика наличия полярных сияний на основе интеллектуального анализа геомагнитных данных / А.В. Воробьев, А.А. Соловьев, В.А. Пили-пенко, Г.Р. Воробьева, А.А. Гайнетдинова, А.Н. Лапин, В.Б. Белаховский, А.В. Ролдугин // Солнечно-земная физика. – 2023. – Т. 9, № 2. – С. 26–34. doi: 10.12737/szf-92202303
  20. Комбинированная схема отбора признаков для разработки банковских моделей / С.В. Афанасьев, Д.М. Котерева, А.А. Мироненков, А.А. Смирнова // Финан-сы: теория и практика. – 2023. – Т. 27, № 1. – С. 103–115. doi: 10.26794/2587-5671-2023-27-1-103-115

Статистика

Просмотры

Аннотация - 55

PDF (Russian) - 44

Ссылки

  • Ссылки не определены.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах