INTELLECTUAL ANALYSIS OF INFORMATION ABOUT USERS OF SOCIAL NETWORKS

T. A Shestakov; Шестаков Т. А; Ju. A Leonov; Леонов Ю. А; A. A Kuzmenko; Кузьменко А. А; A. S Sazonova; Сазонова А. С; R. A Filippov; Филиппов Р. А

doi:10.15593/2499-9873/2021.4.05

INTELLECTUAL ANALYSIS OF INFORMATION ABOUT USERS OF SOCIAL NETWORKS

Authors: Shestakov T.A¹, Leonov J.A¹, Kuzmenko A.A¹, Sazonova A.S¹, Filippov R.A¹
Affiliations:
1. Bryansk State Technical University
Issue: No 4 (2021)
Pages: 72-91
Section: ARTICLES
URL: https://ered.pstu.ru/index.php/amcs/article/view/2062
DOI: https://doi.org/10.15593/2499-9873/2021.4.05
Cite item

Abstract
Full Text
About the authors
References
Statistics

Abstract

Social networks began to play an important role in the informatization of society. Experts from all over the world are researching social network data to solve various tasks, such as creating popular content, conducting advertising campaigns, meeting the information needs of society, ensuring state security, etc. The analysis of social networks is understood as the solution of such tasks as determining the tonality of the text, determining the target portrait of the audience, searching for associative rules, calculating community performance indicators and data visualization. The article considers the relevance of solving the problem, analyzes the results of previous work, examines the audience's reaction to content, builds a target portrait of subscribers of various communities, examines the relationship between user interests. The initial data of the study are social networks, or rather informational messages, opinions, subnets and communities, individual users, external nodes.The paper considers the classification of social network analysis systems (such as Brand Analytics, IQBuzz, Agorapulse, Semantic Force, Talkwalker) according to the following criteria: users, analysis methods, objects of analysis, data sources, features.To determine the audience's reaction to the content, the method of determining the tonality of the text was applied by analyzing comments to the content. The cluster analysis method was used to determine the target profile of users in a particular community. To find patterns between the user's interests in the work, the frequency analysis of sets of elements was considered. The search for associative rules was carried out using the Apriori algorithm. As a result, the works are presented in the form of graphs and diagrams. In the course of the work, an integrated approach to solving problems was used, which made it possible to create an automated information and analytical system that can be used as analytical tools in this area.

Keywords

data, data analysis methods, social network analysis, target portrait of a social network user, dependencies between the interests of social network users, audience reaction to content, social network analytics systems, analysis of sets of elements, key performance indicators, associative rules.

Full Text

Введение Благодаря бурному развитию социальных сетей стали публично доступны большие объемы персональных данных пользователей, такие как комментарии, фото, видео, аудиоинформация, геотеги и др. Это открывает большие возможности для решения исследовательских и бизнес-задач, которые сложно эффективно решать без большого объема данных. Специалисты со всего мира используют данные социальных сетей для создания и моделирования социальных, экономических и других процессов, направленных на решение государственных задач с целью создания инструментов воздействия на данные системы, а также создания аналитических систем и бизнес-приложений. Создание таких систем имеет ряд особенностей и проблем, которые необходимо решать. Первая сложность создания таких систем - это большие объемы данных, что является как достоинством, так и недостатком. Большие объемы позволяют получить более точные результаты исследований, но требуют построения сложной распределенной архитектуры системы, позволяющей увеличивать эффективность системы пропорционально добавляемой вычислительной мощности. Вторая проблема - обработка и хранение данных социальных сетей требует разработки специальных алгоритмов, позволяющих учитывать специфику предметной области, а также инфраструктурные решения. Имеются и другие проблемы, связанные с приватностью данных, ограничением доступа к данным, слабой структурированностью данных. Под анализом социальных сетей понимается решение таких задач, как определение тональности текста, целевого портрета аудитории, поиск ассоциативных правил, расчет показателей эффективности деятельности сообщества и визуализация данных. Цель научного исследования - получение аналитической информации для проведения эффективной рекламной компании в социальных сетях. Задачи системы интеллектуального анализа данных - сбор, мониторинг и актуализация данных социальных сетей, а также проведение оперативного и интеллектуального анализа. 1. Теория Существуют различные зарубежные и отечественные системы мониторинга и анализа данных в социальных сетях. Системы анализа социальных сетей можно классифицировать по следующим признакам: 1. Методы анализа данных. В основном выделяют два класса методов, используемых в анализе социальных сетей: метод статистического анализа (СА) и метод анализа графов. Для проведения семантического анализа текста и анализа тональности текста (АТТ) используются методы классификации, для определения целевой аудитории - статистические методы и методы кластеризации. Визуальный анализ (ВА) используется для демонстрации полученных данных и зависимостей. Также часто имеется возможность поиска по ключевым словам (ППКС) для последующего анализа связанного контента. Наличие ретроспективного анализа (РА) позволяет рассматривать динамику изменения объектов. 2. Объекты анализа. Система может анализировать различные объекты социальной сети: информационные сообщения, мнения, подсети и сообщества, отдельных пользователей, внешние узлы. 3. Набор источников данных. Чем больше источников данных имеет система, тем более точными могут быть результаты исследований с помощью таких технологий, как Big Data и глубинные нейронные сети. 4. Пользователи системы. В зависимости от целевой аудитории системы могут отличаться методы и объекты анализа. Также для коммерческих организаций (КО) важным является наличие API-системы, возможность выгрузки отчетов. Для использования систем в государственных организациях (ГО) необходимо соответствовать определенным стандартам и быть включенным в единый реестр российского программного обеспечения. Для научных и образовательных учреждений (ОУ) важным фактором является возможность использования систем в научных целях, наличие хорошей документации и ценообразовательная политика компании. 5. Особенности. Каждая система имеет дополнительные характеристики, которые отличают их от конкурентов [1, 2]. Из наиболее популярных систем можно выделить: Brand Analytics, IQBuzz, Agorapulse, SemanticForce, Talkwalker. Каждая система имеет свои особенности и работает в определенной области аналитики и сбора данных (таблица). Сравнительная таблица систем аналитики социальных сетей Признак Brand Analytics IQBuzz Agorapulse Semantic Force Talkwalker Пользователи КО, ГО КО КО КО, ГО, ОУ КО Методы анализа АТТ, СА, ППКС АТТ, СА, ППКС, РА, ВА СА, ВА АТТ, СА, ВА АТТ, СА, ВА, РА Объекты анализа Информационные сообщения Информационные сообщения, мнения, сообщества, пользователи, внешние узлы Информационные сообщения, мнения, сообщества Информационные сообщения, мнения, сообщества Информационные сообщения, мнения, сообщества, изображения Источники данных VK, Facebook, OK, Instagram, YouTube, Telegram, СМИ LiveJournal, VK, YouTube, Instagram, Twitter Facebook, Twitter, LinkedIn, Google+, Instagram Facebook, Twitter, VK, OK, YouTube Facebook, Twitter, LinkedIn, Google+, Instagram Особенности Поддержка 67 языков, выгрузка отчетов API, ретроспектива до 10 лет, выгрузка отчетов CRM для сегментации аудитории, отложенный постинг API, интеграция с Google Analytics, рубрикации текста Поддержка 187 языков, выгрузка отчетов Как видно из таблицы, в основном системы разрабатываются для работы с коммерческими организациями. Системы, состоящие в Едином реестре российского ПО, работают также с государственными организациями и научными учреждениями. В рассмотренных системах часто применяются следующие методы анализа: анализ тональности текста, статистический и визуальный анализ. Инновационные системы внедряют методы анализа с помощью поиска по ключевым словам, ретроспективного анализа, анализа изображения. Наиболее популярными объектами анализа являются информационные сообщения, мнения и сообщества [3]. Выбор источников данных зависит от регионального расположения целевой аудитории компании и сферы аналитической деятельности. Так, системы, предназначенные для Америки и Европы, анализируют данные из Facebook, Twitter, Instagram, Google+, в то время как отечественные системы уделяют особое внимание VK, OK, YouTube, Instagram и СМИ. 2. Данные и методы Материалом исследования являются социальные сети, а точнее информационные сообщения, мнения, подсети и сообщества, отдельные пользователи, внешние узлы. Данные о сообществах (Community): (1) где СCM (count of community members) - количество участников в сообществе, CC (community category) - категория сообщества, CD (community description) - описание группы, CP (community posts) - список записей, CS (community subscribers) - список подписчиков. Пользователей (User) описывает следующий набор данных: (2) где UA (user age) - возраст, US (user sex) - пол, UCo (user country) - страна, UCi (user city) - город, UCF (count of friends) - количество друзей, UI (user interests) - интересы пользователя, UE (user education) - образование. Данные о записях (Post): (3) где PD (post description) - подпись, PV (post views) - количество просмотров, PL (post likes) - количество лайков, PC (post comments) - количество комментариев, PR (post reposts) - количество репостов. Данные о комментариях (Comment): (4) где CT (comment text) - текст комментария, CL (comment likes) - количество лайков комментария, CV (comment views) - количество просмотров комментария. Анализ данных выполняется с помощью следующих методов: Data Mining, статистический анализ, визуальный анализ и ретроспективный анализ. Data mining - это процесс обнаружения в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности [4]. Для решения задач определения реакции аудитории на контент, целевого портрета подписчиков и зависимостей между интересами пользователей использовались методы Data Mining. Определение реакции аудитории на контент Одной из задач интеллектуального анализа данных в социальных сетях является определение реакции аудитории на контент. Данную задачу можно решить с помощью методов определения тональности текста посредством анализа комментариев к контенту. Решение данной задачи поможет определить настроение аудитории и будет полезно при выборе группы для рекламы товаров или услуг [5]. Данная задача может быть решена с помощью двух классов методов: методы, основанные на определении тональности в тексте по заранее составленным тональным словарям, и методы машинного обучения, такие как байесовский классификатор, метод k-ближайших соседей, метод опорных векторов. 1. Тональные словари. В методе с использованием тональных словарей по совокупности найденной эмотивной лексики текст может быть оценен по шкале, содержащей количество негативной и позитивной лексики. 2. Байесовский классификатор (Naive Bayes) - широкий класс алгоритмов классификации, основанных на принципе максимума апостериорной вероятности. 3. Метод k-ближайших соседей (KNN) - метрический алгоритм для автоматической классификации объектов или регрессии. 4. Метод опорных векторов (SVM) - набор схожих алгоритмов обучения с учителем, использующихся для задач классификации и регрессионного анализа [6]. В ходе исследования выбран наиболее точный метод для определения тональности текста. 3. Модель Определение целевого портрета подписчиков сообщества Для определения целевого портрета пользователей в конкретном сообществе был применен метод кластерного анализа. Для кластеризации был использован метод k-средних. Это метод кластерного анализа, целью которого является разделение n наблюдений (из пространства) на k кластеров. Алгоритм k-means разбивает набор x на k наборов S1, S2, ..., Sk таким образом, чтобы минимизировать сумму квадратов расстояний от каждой точки кластера до его центра (центр кластера). Введем обозначение - S = {S1, S2, ..., Sk}. Тогда действие алгоритма k-means равносильно минимизации суммарного квадратичного отклонения точек кластеров от центров этих кластеров: (5) где - центр i кластера, - функция расстояния между x и . В качестве функции расстояния может выступать евклидово расстояние: (6) где , - размерность вектора X. Преимуществами алгоритма являются: сравнительно высокая эффективность при простоте реализации, высокое качество кластеризации, возможность распараллеливания алгоритма [7]. Аналитик вводит количество кластеров, на которые необходимо разбить аудиторию сообщества, далее в каждом кластере определяются наиболее встречаемые характеристики пользователей, такие как возраст, пол, город, интересы и др. Определение зависимостей между интересами пользователей Частотный анализ наборов элементов и изучение ассоциативных правил могут быть использованы для поиска закономерностей между интересами пользователей [8]. Одним из наиболее популярных алгоритмов поиска ассоциативных правил является Apriori. Apriori - это алгоритм для частотного анализа наборов элементов и изучения правил ассоциации в реляционных базах данных. Пусть дано I - множество характеристик пользователя, называемых элементами, , - множество транзакций, где каждая транзакция имеет уникальный идентификатор и . Ассоциативным правилом является импликация вида (7) Чтобы выбрать правило из множества всех возможных правил, используются ограничения на различные меры значимости. Наиболее известными ограничениями являются минимальный порог поддержки и минимальный порог достоверности. Поддержка правила показывает частоту, с которой набор встречается в множестве транзакций [9]. Поддержка набора X по отношению к D определяется как отношение числа транзакций t в базе данных, содержащих набор X, к общему числу транзакций: (8) Достоверность правила показывает частоту, с которой в совокупности данных соблюдается X Y [10]. Значение достоверности правила по отношению к набору транзакций D является отношением числа транзакций, которые содержат как набор X, так и набор Y, к числу транзакций, содержащих набор X: (9) Эффективность маркетинга в социальных сетях зависит от значений ключевых показателей эффективности (KPI) в группах рекламодателей. Все метрики можно разделить на несколько категорий. Метрики для оценки динамики подписчиков 1. Количество подписок за период (Follows). 2. Количество отписок за период (Unfollows). 3. Количество просмотров (Views) - как правило, используется суммарный показатель по всем записям сообщества за период: (10) где n - количество записей, PVi - количество просмотров i-й записи, CPP - множество записей за определенный период. 4. Охват (Reach) показывает количество пользователей, которые хотя бы раз контактировали с записями сообщества: (11) где n - количество записей, PLi - количество лайков в i-й записи, PRi - количество репостов i-й записи, PCi - количество комментариев к i-й записи. Метрики для оценки обратной связи от аудитории Метрики, отражающие реакцию пользователей на контент. Наиболее известными метриками являются лайки, комментарии и репосты. 1. Уровень привлекательности (Love Rate, LR) - среднее количество лайков в пересчете на размер аудитории: (12) где n - количество записей, PLi - количество лайков i-й записи. 2. Уровень общительности (Talk Rate, TR) - среднее количество комментариев в пересчете на размер аудитории: (13) 3. Коэффициент распространения (Amplification Rate, AR) - показатель, определяющий заинтересованность пользователей в теме конкретной публикации: (14) 4. Коэффициент вовлеченности аудитории (Engagement Rate, ER) - высокий уровень вовлеченности пользователей говорит о качестве и востребованности ресурса: (15) 5. Коэффициент вовлеченности по охвату (Engagement Rate by Reach, ERR) - метрика показывает отношение пользователей, которые хоть раз взаимодействовали с публикациями, к просмотрам: (16) 6. Уровень вовлеченности в пересчете на пост (Engagement Rate of Post, ER Post) - показатель позволяет оценивать привлекательность конкретной публикации: (17) 7. Пользовательский контент (User Generated Content, UGC) - метрика позволяет оценить количество записей, созданных пользователями сообщества [10]: (18) где n - количество всех записей, x - количество записей, созданных участниками сообщества. Метрики для оценки коммуникации со стороны SMM-специалистов 1. Частота генерации постов (Post Rate) - количество постов, размещенных в сообществе за отчетный период: (19) где n - количество записей за x дней. 2. Среднее время отклика (Response Time) - метрика, показывающая среднее время отклика администратора на сообщения пользователей. Это важный показатель качества обслуживания и уважения к клиентам [11]: (20) где n - количество сообщений, xi - дата отправки i-го сообщения клиента, yi - дата ответа администрации сообщества на i-е сообщение. Существуют различные методы поиска скрытых закономерностей с помощью алгоритмов и машинного обучения, но не стоит упускать возможность анализа и интерпретации данных с помощью человека. Визуальный анализ данных позволяет представить большие объемы данных в таких графических представлениях, как двумерные и трехмерные графики, таблицы и деревья решений. Данный вид анализа имеет следующие преимущества: • позволяет анализировать зашумленные данные, в отличие от автоматических методов, которые могут плохо работать с такими данными; • не требует реализации сложных алгоритмов; • интуитивно понятен. 4. Полученные результаты Определение тональности текста Во время исследования необходимо было выяснить наиболее точный метод определения тональности текста. Для обучения моделей был выбран набор данных RuTweetCorp, который включает в себя комментарии, распределенные на две группы: «заведомо положительные» (114,911 записи) и «заведомо отрицательные» (111,923 записи) [12, 13]. Результаты тестирования различных моделей тонального анализа текста представлены на рис. 1. Рис. 1. Точность моделей определения тональности текста Как видно на рис. 1, наиболее точным является метод опорных векторов с показателем 82 %, на последнем месте оказался метод, основанный на тональных словарях, с точностью 71 %. Следовательно, для определения тональности текста рекомендуется использовать метод опорных векторов. Определение целевого портрета пользователя На рис. 2 можно увидеть проекцию данных пользователей (пол, возраст, страна, город, интересы, количество подписчиков) в двумерное пространство и кластеры, на которые были разбиты данные с помощью алгоритма кластеризации k-средних. Как видно на рис. 2, пользователи были разделены на два кластера, а данные о каждом пользователе были спроецированы в двумерное пространство. Как можно заметить, кластеры пересекаются - это нормальное явление при анализе пользователей одного сообщества. На рис. 3 показано распределение кластеров между городом проживания и полом пользователя. Как видно на рис. 3, условием для максимизации расстояния до кластеров является разбиение аудитории по половому признаку. Исходя из полученной информации, можно рассчитать средние значения по каждому кластеру и определить характеристики и размер аудитории для проведения целевой рекламной компании. Поиск ассоциативных правил Поиск ассоциативных правил проводился с помощью алгоритма Apriori. Входными данными алгоритма являлись интересы пользователей. Поиск ассоциативных правил осуществлялся на основе интересов пользователей одного из сообществ «ВКонтакте». Рис. 2. Кластеризация пользователей сообщества в двумерном пространстве Рис. 3. Кластеризация пользователей сообщества по полу и городу проживания Большинство полученных правил с большой поддержкой (С) и достоверностью (S) являются тривиальными, например «Творчество → Юмор» (С = 0,94 и S = 0,65) или «Фотография → Юмор» (С = 0,92 и S = 0,27). Однако существование данных зависимостей можно было предположить и без поиска ассоциативных правил. Также были найдены более интересные зависимости, например «Интернет-СМИ, Образование → Юмор» (С = 0,93 и S = 0,05), «Юмор, Фотография, Литература → Творчество» (С = 0,77 и S = 0,04). На основе полученных данных можно искать новую аудиторию в соответствующих, связанных по интересам сообществах. Визуальный анализ Визуальное представление позволяет быстрее анализировать большие объемы информации. Так, на примере одного сообщества социальной сети «ВКонтакте», являющегося СМИ, был проведен визуальный анализ (рис. 4). Рис. 4. Визуальный анализ сообщества социальной сети «ВКонтакте» Данный пример визуального анализа состоит из шести графиков и диаграмм, которые включают в себя: активность, страны и города проживания, распределение по полу, распределение по полу и возрасту и диаграмму интересов пользователей сообщества. По данным диаграммам можно сделать следующие выводы: большинство пользователей проживают на территории России, более 80 % аудитории сообщества - мужчины, основная возрастная аудитория - от 18 лет до 21 года, пользователи, подписанные на данное сообщество, интересуются юмором, творчеством, интернет-СМИ, образованием и видеоиграми, больше 84 % являются активными пользователями социальных сетей. Заключение Результатом исследования стала информационно-аналитическая система по анализу социальных сетей, которая предназначена для автоматизации сбора, мониторинга и актуализации информации об объектах в социальных сетях. Составляющими компонентами данной системы являются: 1. Сбор данных. Система может иметь множество источников данных, таких как социальные сети, блоги и сайты. 2. Трансформация данных. На данном этапе происходит объединение данных из разных источников в единую систему хранения. Также на этом этапе выполняется очистка, масштабирование и кодирование данных. 3. Оперативный анализ. На данном этапе происходит автоматическая агрегация данных с помощью технологии обработки OLAP [10]. Причина использования OLAP - высокая скорость обработки данных. Структура реляционных БД удобна для операционных баз данных (системы OLTP), но сложные многотабличные запросы в ней выполняются относительно медленно. 4. Интеллектуальный анализ. Сочетает в себе инновационные подходы к обработке данных, такие как Data Mining, Big Data и машинное обучение. На данном этапе определяется тональность комментариев в сообществе и под записями. Это может быть полезно для исследований в области маркетинга в социальных сетях. Кластеризация пользователей сообществ поможет определить целевой портрет аудитории. На основе полученных результатов может быть выстроена соответствующая целевая рекламная компания с использованием данных о географическом расположении, возрасте, интересах целевого пользователя. С помощью поиска ассоциативных правил могут быть найдены закономерности в интересах пользователей. На основе статистического анализа были вычислены KPI-показатели сообществ, которые являются числовыми показателями эффективности деятельности сообщества. 5. Представление результатов. На данном этапе найденные результаты представляются в виде графиков, диаграмм, таблиц и других визуальных объектов. Визуальный анализ позволяет преобразовать сложные данные в наглядные образы, которые дают возможность пользователю выявлять закономерности. Одними из перспективных направлений аналитики в социальных сетях являются анализ изображений и семантический анализ текста. Развитие данных направлений поможет лучше понимать интересы и настроение пользователя и строить более точные аналитические модели. Дальнейшее развитие системы может способствовать созданию новых моделей на основе машинного обучения, позволяющих строить достоверные прогнозы относительно разных показателей, например определение реакции пользователей на определенные записи.

About the authors