Cluster analysis of internal migration processes between federal districts of the Russian Federation

Abstract


In this article, the author investigated migration processes between the federal districts of the Russian Federation for the period from 2012 to 2016 using the method of cluster analysis and presented the result of the analysis. An open data source was used for the study - the website of the Federal State Statistics Service. Socio-economic indicators of the federal districts of the Russian Federation were selected. A set of selected factors was investigated using correlation analysis to remove multicolliner factors. The processed set was then used for cluster analysis. The class analysis was carried out using machine learning methods using the Python programming language in the Jupyter Notebook development environment. The KMeans algorithm (k-means method) was used for the analysis. To understand how many clusters should be indicated, hierarchical clustering was carried out using the Ward method, in which the distances between clusters are an increase in the sum of the squares of the distances of objects to the cluster centers obtained as a result of their union.It was found that the original set is divided into three clusters. These results were used in the work of the KMeans algorithm, which divided the entire data set into three clusters and assigned a label to each row of data. Next, the average value of each socio-economic indicator in each cluster was calculated. Then, using the RandomForestClassifier classification algorithm, the significance of each factor was evaluated. As a result of cluster analysis, a set of features was obtained - socio-economic indicators of the region that affect the inclusion of the district in one or another migration class. Thus, we have obtained a set of controlling factors that can help to adjust migration flows in the Russian Federation. It was also found that there is a third type of regions, in addition to receiving and "donor" regions.

Full Text

В современном мире человек является важной частью социальной и экономической жизни. Его переезд начинает влиять на развитие социальной среды, экономику, демографическую ситуацию в регионе пребывания. В качестве примера можно привести Центральный федеральный округ, который имеет лидерство в привлекательности для миграции, однако имеет отрицательный естественный прирост. Убыль населения компенсируется потоками мигрантов из других регионов страны. Происходит замещение мигрантами «коренного» населения округа. Миграция играет важную роль в формировании структуры населения, трудовых ресурсов, социально-экономическом развитии региона и страны в целом. Государство, понимая важность этого явления, пытается им управлять, создавая федеральные службы, государственные программы, развивая миграционную политику. Но пока без ощутимых результатов. Прежде всего, нужно определить понятие миграции. Под миграцией населения будем понимать территориальную подвижность населения, связанную с его перемещением по территории страны или между государствами, обусловленную влиянием разнообразных условий и факторов: социально-экономических, военно-политических, религиозных, природных, экологических. Различают внешние (межгосударственные) и внутренние (внутри страны - между регионами, городами, сельской местностью и т.п.) потоки миграции. К проблеме миграции в России обращались многие отечественные ученые. Но большинство научных трудов посвящено проблемам иммиграции соотечественников за рубеж или эмиграции в Россию. Также во многих работах рассматриваются проблемы этнических конфликтов мигрантов из других стран, в основном из стран ближнего зарубежья, с коренным населением российских регионов. В данной статье рассматривается внутренняя миграция между федеральными округами Российской Федерации, примером которой может служить следующий процесс: в Пермском крае наблюдается отток населения в основном в Центральный, Северо-Западный, Южный и Уральский федеральные округа. А столица региона - Пермь - является центром притяжения мигрантов из районов Прикамья. На первом этапе исследования миграционных потоков между федеральными округами Российской Федерации были выбраны факторы, которые могут оказывать влияние на привлекательность региона для миграции. Источник численных данных для показателей - сайт Федеральной службы государственной статистики [1]. Период исследования - с 2012 по 2016 г. Выбор периода обусловлен полнотой данных по всем рассматриваемым социально-экономическим показателям именно за это время. Были рассмотрены тридцать девять социально-экономических показателей федеральных округов. Показатели были разделены на следующие группы: «Экономика», «Здоровье», «Социальная сфера», «Экология», «Жилищные условия», «Безопасность», «Цифровая сфера». Затем для каждого федерального округа был посчитан коэффициент миграции за каждый год выбранного периода. Под коэффициентом миграции в данной статье понимается разница между прибывшими в данный федеральный округ и выбывшими из него (так называемое сальдо миграции, отнесенное к 10 тыс. человек населения). После предварительной обработки данных было проведено исследование взаимосвязи социально-экономических показателей федеральных округов между собой и с коэффициентом миграции. Для этого использовался корреляционный анализ, который позволяет сделать вывод о наличии взаимосвязи факторов, но не о природе такой связи. Проведенный корреляционный анализ социально-экономический показателей позволил избавиться от мультиколлинеарности в данных. В целях поиска оптимального набора показателей, которые влияют на миграционные потоки в России, был проведен кластерный анализ социально-экономических показателей [1-5]. В результате получился набор факторов, который определяет принадлежность региона к тому или иному миграционному кластеру. Для анализа был использован ранее обработанный набор данных. Данный набор показателей уже не обладает мультиколлинеарными факторами. Для кластеризации использовался алгоритм KMeans (метод k-средних), в котором число кластеров задается заранее. Для того, чтобы понять, на сколько кластеров следует указывать, можно воспользоваться так называемой иерархической кластеризацией. Для исследуемых данных был выбран метод Варда, в котором расстояния между кластерами - это прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения [6-23]. Были исследованы и другие методы, но метод Варда дал лучший результат. Перед началом кластеризации весь набор данных был стандартизирован. Это необходимо, чтобы все признаки имели один масштаб. Алгоритм стандартизации преобразует входные данные таким образом, что их распределение имеет среднее значение «0», а стандартное отклонение «1». Каждое значение в наборе данных вычитается из среднего значения выборки и делится на стандартное отклонение всего набора данных. После процедуры стандартизации была проведена иерархическая кластеризация. В результате строится дендрограмма, которая используется для визуализации результатов иерархической кластеризации. На рис. 1 ниже приведен результат. Рис. 1. Дендрограмма Количество цветов, используемых в дендрограмме, указывает на количество кластеров. Таким образом, в алгоритме KMeans следует использовать три кластера. После запуска алгоритма KMean весь набор данных был разделен на три кластера, и каждой строке данных была присвоена метка - labels (табл. 1). Таблица 1 Фрагмент данных после кластеризации Регион Заболеваемость туберкулезом Инвестиции в основной капитал Среднегод. Амплитуда температуры Смертность от новообразований Смертность от болезней системы кровообращения Младенческая смертность Объем привлеченных внебюджетных средств Число абонентских устройств сотовой связи на 1000 населения Доля органов власти с Интернетом не менее 2 Мбит/с Коэффициент изобретательской активности Количество введенных жилых помещений Общая площадь жилых помещений на одного человека Коэф. миграции Метка ЦФО 45,0 2689,6 28,0 222,2 811,2 7,8 672,7 2045,8 48,1 3,7 5,7 24,8 37,8 2 ЦФО 38,2 3287,4 27,2 222,7 752,1 7,6 706,5 2206,0 53,3 3,8 6,8 24,3 36,8 1 ЦФО 36,5 3436,0 30,0 219,6 705,2 6,5 735,2 2158,8 56,9 3,0 8,5 25,1 30,7 1 ЦФО 35,9 3673,0 24,1 218,0 664,8 6,0 709,3 2219,7 58,7 4,3 8,8 26,1 32,5 1 ЦФО 32,6 3796,0 35,6 218,6 655,4 5,6 744,7 2295,0 61,9 3,6 8,5 26,5 21,8 1 СЗФО 43,5 1449,2 26,9 230,0 799,1 6,2 661,9 2177,7 53,1 1,7 6,4 25,4 21,5 0 Затем было подсчитано среднее значение каждого социально-экономического показателя в каждом кластере (табл. 2), а также было получено количество строк данных в каждом кластере (табл. 3). Таблица 2 Фрагмент таблицы средних значений для каждого кластера Метка Заболеваемость туберкулезом Инвестиции в основной капитал Среднегод. амплитуда температуры Смертность от новообразований Смертность от болезней системы кровообращения Младенческая смертность 0 65,95 1062,14 33,12 190,52 619,87 8,37 1 35,80 3548,10 29,22 219,72 694,38 6,43 2 57,66 2288,32 33,95 202,02 666,84 6,62 Таблица 3 Соотношение данных в классах Класс Количество данных 0 24 1 4 2 12 Таким образом, самый многочисленный кластер - нулевой. В алгоритме KMeans не представляется возможным выяснить значимость каждого показателя на попадание в тот или иной кластер. Для этого был использован алгоритм классификации RandomForestClassifier [2]. Он позволяет оценить значимость каждого фактора. Наш набор данных был дополнен столбцом с полученными в результате кластеризации метками - labels. Затем была выполнена классификация и оценка значимости показателей. В итоге получены следующие результаты. Для нулевого класса значимыми оказались следующие показатели, приведенные в табл. 4. Таблица 4 Значимость показателей в нулевом классе Показатель Значимость «Инвестиции в основной капитал» -0,221823 «Заболеваемость туберкулезом» 0,010423 «Доля органов власти, имеющих доступ в сеть Интернет со скоростью не менее 2 Мбит/с, в общем числе органов власти федерального, регионального и местного уровней» -0,012533 «Количество введенных жилых помещений» -0,012521 «Коэффициент изобретательской активности» -0,030083 «Младенческая смертность» 0,016643322 «Общая площадь жилых помещений, приходящаяся в среднем на одного жителя» -0,029711969 «Объем привлеченных внебюджетных средств» -0,076817202 «Смертность от болезней системы кровообращения» -0,017175873 «Смертность от новообразований» -0,016308046 Чем выше значение в столбце «Значимость», тем больший вклад вносит фактор. Например, значение -0,22183 для показателя «Инвестиции в основной капитал» говорит о том, что увеличение значения данного фактора приведет к уменьшению вероятности попадания региона в данный кластер. А увеличение значения показателя «Младенческая смертность», наоборот, увеличивает вероятность включения региона в нулевой класс, так как его значимость 0,0166. В данный кластер попали следующие федеральные округа: Северо-Западный, Южный, Северо-Кавказский, Сибирский, Дальневосточный. Это самый многочисленный кластер. Учитывая наличие как регионов с положительной миграцией, так и с отрицательной, данный кластер можно назвать кластером стабильности. Попадание в данный кластер говорит о постоянности миграционного коэффициента. Например, Южный ФО демонстрирует только положительный прирост миграции, в то время как Сибирский регион - стабильно отрицательный прирост. Для первого класса значимость показателей приведена в табл. 5. Таблица 5 Значимость показателей в первом классе Показатель Значимость «Инвестиции в основной капитал» 0,672725302 «Среднегодовая амплитуда температуры воздуха» -0,026601412 «Заболеваемость туберкулезом» -0,04667741 «Доля органов власти, имеющих доступ в сеть Интернет со скоростью не менее 2 Мбит/с, в общем числе органов власти федерального, регионального и местного уровней» 0,031866929 «Количество введенных жилых помещений» 0,02276763 «Коэффициент изобретательской активности» 0,19492117 «Младенческая смертность» -0,02829172 «Общая площадь жилых помещений, приходящаяся в среднем на одного жителя» 0,076003031 «Объем привлеченных внебюджетных средств» 0,164094675 «Смертность от болезней системы кровообращения» 0,042229163 «Смертность от новообразований» 0,058477182 «Число абонентских устройств подвижной радиотелефонной (сотовой) связи на 1000 человек населения» 0,033573645 В данный кластер попал только Центральный федеральный округ. Регион отличается повышенной привлекательностью для мигрантов со всех округов России. Поэтому логично, что он представляет собой отдельный класс. Однако по записи данных за 2012 г. для ЦФО попал во второй кластер. Этот факт согласуется с результатами, полученными в предыдущем исследовании: тогда в 2012 г. была обнаружена резкая перемена в миграции для Центрального округа (рис. 2). Для второго класса получились результаты, приведенные в табл. 6. Рис. 2. Графики внешней миграции Таблица 6 Значимость показателей во втором классе Показатель Значимость «Инвестиции в основной капитал» 0,219404312 «Доля органов власти, имеющих доступ в сеть Интернет со скоростью не менее 2 Мбит/с, в общем числе органов власти федерального, регионального и местного уровней» 0,014442931 «Количество введенных жилых помещений» 0,017453734 «Младенческая смертность» -0,023856072 «Общая площадь жилых помещений, приходящаяся в среднем на одного жителя» 0,034089595 «Объем привлеченных внебюджетных средств» 0,098936179 «Смертность от болезней системы кровообращения» 0,020275359 «Смертность от новообразований» 0,013123698 В данный кластер попали Центральный ФО (запись за 2012 г.), Приволжский и Уральский федеральный округа. Данный кластер можно назвать переходным, так как данные Приволжский и Уральский регионы находятся на пути миграции с Дальнего Востока и Сибири в центральные регионы Европейской части России. Попадание в данный класс говорит о стабильности в миграционных потоках. Коренное население перемещается в Центральный, Северо-Западный или Южный ФО, а на их место прибывают мигранты из Сибирского и Дальневосточного регионов. На рис. 3 приведена результрующая таблица, в которой представлены исследуемые социально-экономические показатели, кластеры и указано, значим данный фактор для группы или нет («плюс» в ячейке означает значимость фактора). В итоге кластерного анализа получилось, что весь набор данных был разделен на три кластера. Для каждого кластера были получены значимые показатели, влияющие на попадание в данный кластер. Также были получены средние значения факторов в каждом из кластеров. Это дает возможность в будущем каждый новый набор данных отнести к тому или иному кластеру, а также позволяет сократить количество необходимых к рассмотрению социально-экономических показателей федерального округа для прогнозирования коэффициента миграции и управления миграционными потоками. Рис. 3. Результирующая таблица кластерного анализа Например, зная, что на миграцию в Дальневосточный федеральный округ влияет объем инвестиций в основной капитал и смертность от новообразований и болезней крови, можно, увеличивая поток инвестиций в регион и развивая здравоохранение, повысить миграционную привлекательность Дальнего Востока. Таким образом, кластерный анализ помог оставить только те признаки региона, которые влияют на попадание округа в тот или иной класс миграции. В результате получился набор управляющих факторов, которые позволяют корректировать миграционные потоки в Российской Федерации. Также можно отметить, что данные разделились на три группы, а не на две. Считается, что есть только принимающие регионы и регионы-«доноры», однако получено, что есть еще третий тип регионов, составляющих отдельный кластер.

About the authors

M. V. Immis

Perm State University

References

  1. Федеральная служба государственной статистики [Электронный ресурс]. - 2018 г. - URL: http://www.gks.ru (дата обращения: 20.04.2023).
  2. 2.4.3.1. sklearn.ensemble.RandomForestClassifier scikit-learn Machine learning in Python [Электронный ресурс]. - URL: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html?highlight=randomforest#sklearn.ensemble.RandomForestClassifier (дата обращения: 20.04.2023).
  3. видов регрессии и их свойства [Электронный ресурс]. - URL: https://zen.yandex.ru/media/nuancesprog/5-vidov-regressii-i-ih-svoistva-5e31b62355 61a65d78dee6c5 (дата обращения: 20.04.2023).
  4. Harris J.R. Todaro M.P. Migration, Unemployment and Development: A Two-Sector Analysis // The American Economic Review. - American Economic Association, 1970. - P. 126-142.
  5. k-means clustering Wikipedia [Электронный ресурс]. - URL: https://en.wikipedia.org/wiki/K-means_clustering (дата обращения: 20.04.2023).
  6. Random Forest Wikipedia [Электронный ресурс]. - URL: https://ru.wikipedia.org/wiki/Random_forest(дата обращения: 20.04.2023).
  7. scikit-learn Machine learning in Python [Электронный ресурс]. - URL: https://scikit-learn.org/stable/index.html (дата обращения: 20.04.2023).
  8. sklearn.preprocessing.StandardScaler scikit-learn Machine learning in Python [Электронный ресурс]. - URL: https://scikit-learn.org/stable/index.html (дата обращения: 20.04.2023).
  9. Кулеба А. Урбанизация населения: понятие, урбанизация в мире, в России [Электронный ресурс] // Файловый архив студентов. StubFiles. - 2012 г. - URL: https://studfiles.net/preview/2549094/(дата обращения: 20.04.2023).
  10. Алтайский край продолжает стремительно терять население из-за резкого спада рождаемости [Электронный ресурс] // Банкфакс. - 28 сентябрь 2018 г. - 12 нобяря 2019 г. - URL: https://www.bankfax.ru/news/123343 (дата обращения: 20.04.2023).
  11. Анализ миграции в России. - [б.м.]: Всемирный Банк, 2006.
  12. Белянин В.А. Пермский край в цифрах. 2017: краткий статистический сборник [Книга]. - Пермь: [б.н.], 2018.
  13. Витрина статистических данных [Электронный ресурс] // ФСГС РФ. - URL: https://showdata.gks.ru/finder/(дата обращения: 20.04.2023).
  14. Батищева Г.А. Исследование факторов миграционного обмена между федеральными округами России // Региональная экономика: теория и практика. - Ростов: Изд. дом "Финансы и кредит", 2009. - С. 65-73.
  15. Плисецкий Е.Л. Современные миграционные процессы в России // География / ред. Митрофанов Алексей. - [б.м.]: Издательский дом "Первое сентября", 2003. - 37 с.
  16. Гусенко М. Где рубль длиннее [Электронный ресурс] // Российская Газета. - 17 апреля 2019 г. - 12 ноябрь 2019 г. - URL: https://rg.ru/2019/04/17/reg-cfo/tri-milliona-rossiian-uezzhaiut-na-zarabotki-za-predely-rodnogo-regiona.html (дата обращения: 20.04.2023).
  17. Миграционная модель Тодаро [Электронный ресурс]. - 2017. - URL: https://ru.wikipedia.org/wiki/Миграционная_модель_Тодаро (дата обращения: 20.04.2023).
  18. Миграционные процессы в Пермском крае // Современное общество: вопросы теории, методологии, методы социальных исследований. - 2018.
  19. Мкртчян Н.В Карачурина Л.Б. Миграция в Пермском крае: опыт анализа на // Институт народнохозяйственного прогнозирования РАН. - М., 2009.
  20. Н.В. Мкртчян Миграция в России: потоки и центры притяжения Демоскоп. - 2014 г. - 12 ноябрь 2019 г. [Электронный ресурс]. - URL: http://www.demoscope.ru/weekly/2014/0595/tema03.php (дата обращения: 20.04.2023).
  21. Тихомирова Н.Е. Статистическое исследование миграции населения в регионах Российской Федерации. - Самара, 2008.
  22. Наталья Калюжная Из-за миграции число жителей Прикамья уменьшилось на 6 тысяч Новости Пермского края [Электронный ресурс] // РБК. - 21 февраль 2019 г. - 13 ноябрь 2019 г. - URL: https://perm.rbc.ru/perm/freenews/5c6e959c9a79473838c81507 (дата обращения: 20.04.2023).
  23. НОУ ИНТУИТ: лекция. Методы кластерного анализа. Иерархические методы НОУ ИНТУИТ [Электронный ресурс]. - URL: https://www.intuit.ru/studies/courses/6/6/lecture/182?page=4 (дата обращения: 20.04.2023).
  24. Пряжникова О.Н. Внутрироссийская миграция: миграционная ситуация в регионах России (обзор) // Социальные и экономические проблемы России. - М.: Институт научной информации по общественным наукам РАН, 2007.
  25. Президент РФ подписал Концепцию миграционной политики в новой редакции Интерфакс. - 31 октябрь 2018 г. - 12 ноябрь 2019 г. [Электронный ресурс]. - URL: https://www.interfax.ru/russia/635924 (дата обращения: 20.04.2023).
  26. Российский статистический ежегодник Федеральная служба государственной статистики. - 2018 г. [Электронный ресурс]. - URL: http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/statistics/publications/catalog/doc_1135087342078 (дата обращения: 20.04.2023).
  27. Россия: Массовая внутренняя миграция угрожает будущему страны ИноСМИ.ру. - EurasiaNet, 16 ноябрь 2017 г. - 12 ноябрь 2019 г. [Электронный ресурс]. - URL: https://inosmi.ru/social/20171016/240526196.html (дата обращения: 20.04.2023).
  28. Слободян Елена Карта внутрироссийской миграции. Инфографика Аргументы и Факты. - 13 ноябрь 2018 г. - 12 ноябрь 2019 г. [Электронный ресурс]. - URL: https://aif.ru/politics/russia/karta_vnutrirossiyskoy_migracii_infografika (дата обращения: 20.04.2023).
  29. Социально-экономическое положение федеральных округов Федеральная служба государственной статистики. - 2018 г. [Электронный ресурс]. - URL: http://www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/statistics/publications/catalog/doc_1140086420641 (дата обращения: 20.04.2023).
  30. Флоринская Ю.Ф. Миграция и рынок труда. - М.: Дело РАНХиГС, 2015.

Statistics

Views

Abstract - 98

PDF (Russian) - 58

Refbacks

  • There are currently no refbacks.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies