ПРИМЕНЕНИЕ МЕТОДА СЛУЧАЙНОЙ ДИХОТОМИЧЕСКОЙ КЛАССИФИКАЦИИ ДЛЯ ОЦЕНКИ ЗАСТРОЙЩИКА ПО ОТЗЫВАМ ПОТРЕБИТЕЛЕЙ
- Авторы: Минин А.А1, Федосеев С.А1
- Учреждения:
- Пермский национальный исследовательский политехнический университет
- Выпуск: № 4 (2022)
- Страницы: 159-173
- Раздел: Статьи
- URL: https://ered.pstu.ru/index.php/amcs/article/view/3624
- DOI: https://doi.org/10.15593/2499-9873/2022.4.09
- Цитировать
Аннотация
Бренд влияет на успешность и устойчивость застройщика. В настоящей работе авторы продолжают решать задачу управления брендингом застройщика на основе информации в сети Интернет. Предложен метод дихотомической классификации, который позволяет классифицировать отзывы о застройщике на основе случайной маркировки данных. Метод дихотомической классификации позволяет работать с небольшими базами данных, в отличие от методов на основе построения искусственных нейронных сетей, для которых необходимы большие выборки данных. Метод был реализован в системе «Эйдос». В основе системы «Эйдос» заложен автоматизированный системно-когнитивный анализ (АСК-анализ). Решение об изменении маркера отзыва принималось на основе изменения достоверности модели по F-мере Ван Ризбергена. Апробация применения метода дихотомической классификации для классификации отзывов о застройщиках произведена на примере Акционерного общества «Пермский завод силикатных панелей» (ПЗСП). При обработке текстовой информации методом дихотомической классификации удалось в собранной выборке выделить 20 негативных и 63 позитивных отзыва. Показана работоспособность и адекватность использованного метода. В частности, показано, что можно разделить собранную текстовую информацию о застройщике на два кластера без предварительного обучения. Метод дихотомической классификации позволяет сократить время реакции на упоминание о застройщике. В настоящей работе предложен алгоритм кластеризации отзывов на основе метода дихотомической классификации. Данный алгоритм может быть положен в основу программного обеспечения для сбора и анализа данных о застройщике, а также управления брендингом застройщика.
Полный текст
Введение В современном мире успешность и устойчивость предприятия в значительной степени определяются его брендом. В работе [1] была показана значимость репутационных рисков для бренда предприятия-застройщика. Особого внимания при оценке репутационных рисков застройщика заслуживают факторы, определяющие взаимодействие застройщика с клиентами. Именно клиенты в наибольшей мере оказывают влияние на имидж и репутацию застройщика. В наши дни основным каналом передачи и сбора информации о застройщиках является Интернет. Отзывы и упоминания о застройщике в Интернете - это первое, с чем знакомятся заинтересованные лица, когда начинают изучать рынок. Таким образом, актуальной для предприятий-застройщиков является задача мониторинга и управления своей репутацией в сети Интернет. В настоящее время в компаниях застройщиках существуют отделы маркетинга, которые работают над созданием бренда, в том числе и в сети Интернет. Маркетологи и копирайтеры вручную или через сторонние сервисы осуществляют поиск в Интернете информации о застройщике, определяют её окрас, значимость, прогнозируют, какой эффект окажут эти упоминания на застройщика, и принимают решения, каким образом на такие упоминания реагировать. Однако проблема заключается в том, что у большинства застройщиков автоматизация подобных исследований находится на низком уровне, что существенно ограничивает скорость и масштаб исследований и в результате значительно снижает их своевременность и точность. Так, в работе [1] при комплексной оценки репутационного риска застройщиков учитывались отзывы о застройщиках в сети Интернет. Эти отзывы собирались и обрабатывались вручную, а именно каждый отзыв исследователю приходилось читать и классифицировать как положительный или отрицательный. В данной работе предложен подход, который позволит решить часть обозначенной выше проблемы, а именно автоматизировать разделение собранных упоминаний о застройщике на положительные и отрицательные. Как следствие, предложенный подход поможет сократить время требуемой реакции на упоминания о застройщике. Теория и методы Для решения задач кластеризации широко используются различные методы, связанные с применением искусственных нейронных сетей. Так, в работах [2-4] рассматривается вопрос машинного обучения нейронных сетей в задачах, близких по содержанию к задаче, которая поставлена в настоящей работе. Стоит отметить, что использование нейронных сетей требует значительного объема исходной информации. Однако при оценке репутационного риска для застройщиков может быть найдено или получено относительно небольшое количество отзывов (до нескольких десятков). В настоящей работе для решения задачи кластеризации отзывов о застройщиках использован метод случайной дихотомической классификации. Данный метод впервые был предложен в работе [5] для классификации текстовой информации на основе случайной маркировки данных. Основная идея метода заключается в том, чтобы сформировать два кластера на основе случайно промаркированных данных без предварительного обучения. В рамках задачи оценки и управления репутационными рисками застройщика интерес представляют только положительные и отрицательные отзывы о застройщике. Благодаря полярной противоположности исходной текстовой информации, необходимо выявить совпадения в случайно сформированных двух группах отзывов. Найденные отзывы будут типичны для одной группы или для другой. Далее при помощи последовательной смены маркера случайно выбранной группы у каждого отзыва предполагается сформировать два результирующих кластера отзывов и в заключение продемонстрировать эти кластеры эксперту, который определит, какой из кластеров положительный, а какой отрицательный. Применение метода дихотомической классификации позволяет в автоматизированном режиме осуществить разделение собранных упоминаний о застройщике на положительные и отрицательные, что приведет к значительной экономии времени. Метод дихотомической классификации был реализован в системе «Эйдос», в которой используется автоматизированный системно-когнитивный анализ (АСК-анализ) [6]. В данной системе реализованы инструменты для формализации предметной области (конструирование классификационных и описательных шкал, градаций, а также формирование обучающей выборки) [7-9]. Пример применения метода дихотомической классификации В работе [1] самый низкий уровень репутационного риска был определен для Акционерного общества «Пермский завод силикатных панелей» (ПЗСП), поэтому данный застройщик был выбран в качестве примера не только для дополнительной оценки его репутации, но и для проверки адекватности метода дихотомической классификации. В качестве исходных данных были собраны 82 отзыва о застройщике ПЗСП, оставленных клиентами на площадке «Яндекс.Карты» в период с 09.08.2018 по 13.06.2022. Каждый отзыв представляет собой текст, в котором клиент описывает достоинства ПЗСП, которые он смог для себя отметить во время работы с предприятием, либо описывает негативный опыт и даже предостерегает других потенциальных клиентов от работы с данным предприятием. На рис. 1 представлен короткий положительный текстовый отзыв, а на рис. 2 представлен объёмный текстовый отзыв, который несет в себе негативную информацию. На рис. 3 представлены текстовые отзывы среднего объема, которые одновременно несут позитивную и негативную информацию. Рис. 1. Пример текста короткого положительного отзыва Рис. 2. Пример текста объемного отрицательного отзыва Рис. 3. Примеры одновременно положительного и отрицательного отзыва Полученная выборка из 82 отзывов была загружена в таблицу Excel и промаркирована случайным образом с помощью следующей формулы =ЕСЛИ(СЛУЧМЕЖДУ(0;100)<50;"А";"Б"). Процедура случайной маркировки отзывов была выполнена 10 раз. Каждый из 10 вариантов сравнивался с остальными по F-мере Ван Ризбергена [10; 11]. Для варианта № 7 по модели INF3 было получено максимальное значение F-меры Ван Ризбергена, равное 0,909 (рис. 4), именно поэтому данный вариант маркировки отзывов был выбран для дальнейших исследований. Рис. 4. Пример интерфейса системы «Эйдос» F-мера Ван Ризбергена [12-14] определяется как взвешенное гармоническое среднее от точности и полноты информационного поиска где P - точность (precision) информационного поиска; R - полнота (recall) информационного поиска. В рамках настоящего исследования при этом F-мера называется сбалансированной и может быть определена следующим образом: Точность и полнота необходимы для оценки эффективности информационного поиска. Точность - это доля объектов, действительно принадлежащих данному классу, относительно всех объектов, которые были отнесены к данному классу. Точность может быть определена следующим образом: где TP - количество истинных положительных (True Positive) результатов, т.е. число объектов, правильно отнесенных к классам, к которым они действительно относятся; FP - количество ложных положительных (False Positive) результатов, т.е. число объектов, неправильно отнесенных к классам, к которым они на самом деле не относятся. Полнота - это доля найденных объектов, принадлежащих классу, относительно всех объектов этого класса среди найденных. Полнота может быть определена следующим образом где FN - количество ложных негативных (False Negative) результатов, т.е. число объектов, неправильно не отнесенных к классам, к которым они на самом деле относятся. В рамках настоящего исследования объекты - это отзывы о застройщике, а классы - это отзывы отрицательные и отзывы положительные. Модель INF3 представляет собой разность между фактическими и теоретически ожидаемыми абсолютными частотами где - фактическое число появлений i-го признака у объектов j-го класса; - теоретическое число появлений i-го признака у объектов j-го класса; - суммарное число появлений i-го признака во всех классах; - суммарное число появлений всех признаков в j-м классе; - суммарное число появлений всех признаков во всех классах. В рамках настоящего исследования признаки - это слова из собранных отзывов о застройщике. В системе «ЭЙДОС» также реализованы и другие модели, представленные на рис. 5. После того как была найдена начальная достоверность модели по F-мере, последовательно менялись маркеры для каждого отзыва. Если при изменении маркера достоверность модели увеличивалась, то данное изменение фиксировалось. Если при изменении маркера достоверность модели уменьшалась, то изменение отвергалось, т.е. у отзыва маркер оставался таким, каким был до изменения. Рис. 5. Различные аналитические формы частных критериев знаний, применяемые в АСК-Анализе и системе «Эйдос» [15] Рис. 6. Максимальная достоверность полученной модели Например, изначально отзыв, представленный на рис. 1, имел маркер «Б». После того как маркер был заменен на «А», достоверность модели по F-мере возросла. Поэтому для отзыва, представленного на рис. 1, в итоге был зафиксирован маркер «А». Изначально отзыв, представленный на рис. 2, также имел маркер «Б». После того, как маркер был заменен на «А», достоверность модели по F-мере уменьшилась. Поэтому для отзыва, представленного на рис. 2, в итоге был оставлен маркер «Б». Вычисления были завершены после того, как был выполнен перебор всех найденных отзывов. Результирующая максимальная достоверность модели представлена на рис. 6. После завершения вычислений из отзывов были сформированы два кластера. Эксперт, который ознакомился с полученными кластерами, определил, что отзывы с меткой «Б» относятся к положительным, а отзывы с меткой «А» - к отрицательным. Среди собранных 82 отзывов 62 оказались положительными и 20 - отрицательными. Таким образом, во-первых, показана работоспособность метода дихотомической классификации, во-вторых, продемонстрирована адекватность данного метода, так как застройщик ПЗСП обладает объективно высокой репутацией. Блок-схема алгоритма кластеризации отзывов на основе метода дихотомической классификации представлена на рис. 7. Рис. 7. Блок схема алгоритма кластеризации отзывов на основе метода дихотомической классификации Заключение Использованный в настоящей работе метод дихотомической классификации позволяет автоматизировать распределение собранных отзывов о застройщике на положительные и отрицательные. В результате удается значительно увеличить скорость и масштаб анализа данных о застройщике и, как следствие, значительно повысить своевременность и точность такого анализа. Следует отметить, что негативные отзывы выявляются лучше, чем позитивные. Данный результат объяснится тем, что, как правило, отрицательные отзывы обладают большим объемом текстовой информации, чем положительные, и к тому же содержат больший эмоциональный окрас. Следовательно, у отрицательных отзывов более плотное семантическое ядро и совпадение слов в отзывах выше, чем у положительных. К существенным достоинствам метода дихотомической классификации относится возможность его использования при относительно небольших объемах собранной информации (несколько десятков отзывов). Стоит отметить, что полученный в настоящей работе результат оценки деятельности застройщика ПЗСП коррелирует с результатом комплексной оценки уровня репутационного риска данного застройщика, описанным в работе [1]. Более того, использованный в настоящей работе метод дихотомической классификации позволяет уточнить оценку уровня репутационного риска застройщика. В настоящей работе предложен алгоритм кластеризации отзывов на основе метода дихотомической классификации. Данный алгоритм может быть положен в основу программного обеспечения для сбора и анализа данных о застройщике, а также управления брендингом застройщика.Об авторах
А. А Минин
Пермский национальный исследовательский политехнический университет
С. А Федосеев
Пермский национальный исследовательский политехнический университет
Список литературы
- Minin A., Fedoseev S. Assessment of the Developer’s Reputational Risk Level // Proceedings of 2022 4nd International Conference on Control Systems, Mathematical Modeling, Automation and Energy Efficiency, SUMMA 2022, Virtual, Lipetsk, 9-11 November 2022. - IEEE, 2022. - P. 292-295.
- Торкоз Д.А. Алгоритм машинного обучения широких нейронных сетей с использование алгебры гиперразмерных двоичных векторов и генетических алгоритмов // Южно-Сибирский научный вестник. - 2020. - № 6 (34). - С. 148-154.
- Петрухин С.А., Глухов Г.Е., Ладыгина Н.Н. Двоичная классификация авиационных текстов с использованием нейронной сети // Научный вестник ГОСНИИ ГА. - 2021. - № 34. - С. 50-58.
- Орақов О.Т., Сериков Е.К., Тулеген А.Т. Проблема многоклассовой классификации в машинном обучении // StudNet. - 2021. - Т. 4, № 5. - C. 1743-1748.
- Жарова О.Ю., Чевычелов А.В. Использование методов машинного обучения для классификации вредоносного ПО // Электронный журнал: наука, техника и образование. - 2018. - № 4 (22). - С. 32-39.
- Луценко Е.В. Синтез адаптивных интеллектуальных измерительных систем с применением АСК-анализа и системы «Эйдос» и системная идентификация в эконометрике, биометрии, экологии, педагогике, психологии и медицине // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. - 2016. - № 116 (02). - С. 1-60.
- Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): монография (научное издание). - Краснодар: КубГАУ, 2002. - 605 с.
- Alekseev A., Galiaskarov E., Koskova K. Application of the Matrix Rating Mechanisms and System Cognitive Analysis Methods at the Task of Residential Real Estate Conceptual Designing // Proceedings of 21st IEEE Conference on Business Informatics, CBI 2019, Moscow, 15-17 July 2019. - IEEE, 2019. - P. 111-116. - doi: 10.1109/CBI.2019.10105.
- Носкова А.Р., Алексеев А.О. Исследование достоверности прогнозирования банкротства при введении новой категории финансового состояния предприятий // Прикладная математика и вопросы управления. - 2020. - № 3. - С. 105-122. - doi: 10.15593/2499-9873/2020.3.06.
- Луценко Е.В. Инвариантное относительно объёмов данных нечеткое мультиклассовое обобщение F-меры достоверности моделей Ван Ризбергена в АСК-Анализе и системе «Эйдос» // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета - 2017. - № 126 (02). - С. 1-32. - doi: 10.21515/1990-4665-126-001.
- Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика. Монография (научное издание). - Краснодар: КубГАУ, 2014. - 600 с.
- Оценка классификатора (точность, полнота, F-мера) [Электронный ресурс]. - URL: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html (дата обращения: 28.11.2022).
- Как заставить работать бинарный классификатор чуточку лучше [Электронный ресурс]. - URL: https://habr.com/ru/post/228963/(дата обращения: 28.11.2022)
- Гармоническое среднее [Электронный ресурс]. - URL: http://bazhenov.me/blog/2012/05/05/harmonic-mean.html (дата обращения: 28.11.2022).
- Луценко Е.В., Печурина Е.К., Сергеев А.Э. Развитый алгоритм принятия решений в интеллектуальных системах управления на основе АСК-анализа и системы «ЭЙДОС» // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. - 2020. - № 160 (06). - С. 95-114. - doi: 10.21515/1990-4665-160-009.
Статистика
Просмотры
Аннотация - 119
PDF (Russian) - 89
Ссылки
- Ссылки не определены.