THE USE OF DATA MINING METHODS TO IDENTIFY RISKS OF FETAL PATHOLOGY
- Authors: Leonov Y.A1, Filippova L.B1, Martynenko A.A1, Tsareva G.V1, Sviridova E.D1
- Affiliations:
- Bryansk State Technical University
- Issue: No 4 (2022)
- Pages: 47-59
- Section: ARTICLES
- URL: https://ered.pstu.ru/index.php/amcs/article/view/3618
- DOI: https://doi.org/10.15593/2499-9873/2022.4.03
- Cite item
Abstract
Reducing child mortality is reflected in several United Nations Sustainable Development Goals and is a key indicator of human progress. The use of information technology makes it possible to process a large number of generated statistical data, or to form new ones over time based on the results of analyses and examinations of a huge number of patients, use the results to determine deviations in the early stages and identify the influence of certain indicators on the likelihood of pathologies. Based on the analysis, the functional requirements for the system are formulated and the task of developing a new information and analytical system is set. The article is devoted to the actual problem of determining the risks of fetal pathology during pregnancy. A variant of the classification of the presence of fetal abnormalities using multinomial logistic regression and a method for clustering patient risk groups using the k -means method was proposed, an optimization technique based on the Broyden - Fletcher - Goldfarb - Shanno method was applied, where memory (L-BFGS) was used as a limitation, the classification of fetal health occurs according to the specified three classes. An information system has been developed to visualize the results of analytical methods. When creating the software package, the client - server architecture was used, which allows the server device to support multi-user mode and provide simultaneous work with several clients. The system includes: an application for Windows, an application for Android. Server interaction module, database interaction module, data analysis module, patient data processing module, doctor data processing module, module, statistical sampling module, personal data protection module, rights differentiation module, visualization module. The modular architecture allows you to upgrade the system, add new modules as needed and make changes to the modules while maintaining the integrity of the system. The developed system has passed the stages of testing and performance evaluation.
Full Text
Введение За последние 29 лет смертность новорожденных снизилась на 59 % и составляет примерно 38 случаев на 1000 новорожденных [1]. Однако для достижения результатов, поставленных многими странами, а именно снижения этого показателя до 25 случаев на 1000 детей, необходимо использовать современные технологии, применимые к данной сфере [2]. Статистические методы анализа данных можно использовать за счет большого количества наборов данных, формируемых больницами, а методы машинного обучения способны определять с высокой точностью группу риска и вероятность развития патологий плода во время протекания беременности. Теория Кардиотокография (КТГ) - это метод функциональной диагностики, основанный на регистрации частоты сердцебиения плода и сократительной способности матки во время беременности и родов. В основе кардиотокографии лежит эффект Допплера и принцип ультразвука. Кардиотокограммы (КТГ) - это простой и доступный по цене способ оценки состояния плода, позволяющий медицинским работникам принимать меры для предотвращения детской и материнской смертности [3; 4]. Помимо результатов КТГ, в определение рисков развития патологии плода включают базовые анализы, рекомендованные врачом и проведенные в определенные периоды беременности [5; 6]. Комплексный анализ результатов позволяет классифицировать патологии развития плода, использовать кластеризацию для определения группы риска конкретного пациента и составлять рекомендации для дальнейших действий врача и пациента. Основные задачи определения степени здоровья плода: • анализ результатов кардиотокографии; • анализ промежуточных рекомендуемых врачебных назначений; • кластеризация данных с целью выявления группы риска; • классификация данных с целью определения отклонения развития плода; • визуализация данных. Данные и методы В рамках проектирования автоматизированной системы была разработана архитектура создаваемого ПО (рис. 1). В качестве архитектуры программного комплекса была выбрана архитектура «клиент - сервер», при которой серверное устройство способно поддерживать многопользовательский режим и обеспечивать одновременную работу с несколькими клиентами. При такой архитектуре клиентское приложение, разработанное под ОС Windows для работы сотрудников и ОС Android для работы пациентов, напрямую взаимодействует с сервером приложений путем отправки запросов на получение и запись различных данных [6; 7]. Сервер СУБД отвечает за управление данными в базе данных, получая SQL-запросы от сервера приложений. Сервер приложений, в свою очередь, является промежуточным звеном между клиентом и сервером СУБД и отвечает за всю логику работы программного комплекса [8; 9]. Рис. 1. Архитектура ПО Основной модуль системы - модуль взаимодействия с сервером. Он предназначен для выполнения запросов со стороны клиентской части информационно-аналитической системы. Модуль взаимодействия с базой данных предназначен для добавления, удаления и редактирования данных в базе данных ИАС. Модуль анализа данных предназначен для аналитической работы системы: • определение здоровья плода; • выявление группы риска пациента; • отслеживание показателей анализов; • определение перечня анализов, соответствующих текущей неделе беременности. Модуль обработки данных пациента предназначен для представления данных пациента в необходимом для добавления в базу данных виде. Модуль обработки данных врача предназначен для ведения статистики приемов и пациентов, закрепленных за врачом. Модуль логирования предназначен для идентификации действий конкретного пользователя во избежание нарушения целостности ИАС. Модуль формирования статистических выборок формирует наборы данных из базы данных, которые необходимы для построения различных графиков статистики. Безопасность данных и информационной системы в целом обеспечивается следующими модулями: • модуль защиты персональных данных - предназначен для кодирования и шифрования персональных данных пациента; • модуль разграничения прав доступа - обеспечивает логическое разделение пользователей с последующим наделением их различными правами доступа к информации. Модуль визуализации предназначен для отображения графиков и отчетов на основе сформированных статистических выборок. Модель Для классификации степени здоровья плода выбрана модель мультиномиальной логистической регрессии. Мультиномиальная логистическая регрессия - классификационный метод, который обобщает логистическую регрессию на многоклассовые задачи. Это модель, которая используется для прогнозирования вероятностей различных результатов категориально распределенной зависимой переменной при заданном наборе независимых переменных (которые могут быть действительными, двоичными, категориальными и т.д.) [10]. Модель максимальной энтропии, используемая в программе в качестве классификатора, является обобщением линейной логистической регрессии [11; 12]. Основное различие между моделью максимальной энтропии и логистической регрессией заключается в количестве классов, поддерживаемых в рассматриваемой задаче классификации. Предположим, что количество классов равно m и количество функций n. Модель максимальной энтропии назначает c-й класс вектор коэффициентов и предвзятость дляc = 1, …, м. Учитывая вектор признаков , то c-оценка класса будет равна Вероятность x принадлежности к классу c определяется как Допустим P(c, x) обозначают совместную вероятность увидеть c и x. Функция потерь, минимизированная этим тренером, равна что является функцией отрицательного логарифма правдоподобия [13; 14]. Реализованная методика оптимизации основана на методе Бройдена - Флетчера - Гольдфарба - Шанно с ограниченной памятью (L-BFGS). L-BFGS - это квазиньютоновский метод, который заменяет дорогостоящее вычисление матрицы Гессе приближением, но при этом обладает высокой скоростью сходимости, как метод Ньютона, при котором вычисляется полная матрица Гессе. Поскольку приближение L-BFGS использует только ограниченное количество исторических состояний для вычисления направления следующего шага, оно особенно подходит для задач с многомерным вектором признаков. Кластеризация была использована для разбиения пациентов на группы риска и осуществлена с использованием метода k-средних [15; 16]. Действие алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров: где k - число кластеров, Si - полученные кластеры, а - центры масс всех векторов x из кластера Si. Алгоритм представляет собой версию EM-алгоритма, применяемого также для разделения смеси гауссиан. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k [17; 18]. Алгоритм прекращает работу на итерации, не изменяющей внутрикластерное расстояние. Количество возможных разбиений множества и число итераций конечно, а суммарное квадратичное отклонение V уменьшается, что исключает зацикливание работы алгоритма. Полученные результаты Классификация здоровья плода по трем классам проводится со следующей точностью: • точность классификации для 1-го класса («здоров») равна 89 %; • точность классификации для 2-го класса («есть отклонения») равна 75 %; • точность классификации для 3-го класса («болен») равна 90 %; Результат конкретного пациента представлен в его личном кабинете и имеет исторический график (рис. 2). Результат работы кластеризации представлен в виде столбчатой диаграммы, демонстрирующей анализы, по которым пациент был отнесен к определенной группе риска, средние показатели в этой группе риска и его текущие показатели по каждому анализу (рис. 3). Рис. 2. Результат классификации на основе кардиотокографии Рис. 3. Результат кластеризации Для корректного проведения кластеризации оптимальное число найденных кластеров равно 5, при таком количестве кластеров силуэтный анализ, являясь одной из основных метрик, определяющих степень сходства каждого объекта с кластером, к которому он принадлежит, достигает оптимального значения. Каждый кластер соответствует группе риска с определенной тяжестью отклонений. Заключение В результате проведенного исследования была разработана информационно-аналитическая система, способная определять риски патологии развития плода, классифицировать результаты анализов с высокой точностью и относить конкретного пациента к группе риска. Разработанная система позволяет пользователю отслеживать течение беременности и наличие отклонений, предоставляет список рекомендаций для каждого периода и анализирует показатели всех сданных пользователем анализов с целью определения общего состояния здоровья пациента и плода. Проведена классификация здоровья плода по трем классам: «здоров», «есть отклонения», «болен». Минимальная точность анализа составляет свыше 75 %. Для классификации степени здоровья плода использована модель мультиномиальной логистической регрессии. Модульная архитектура позволяет модернизировать систему, добавлять новые модули по мере необходимости и вносить изменения в систему с сохранением её целостности [19]. Разработанная информационно-аналитическая система подходит для применения в частных и государственных медицинских учреждениях по профилю выявление патологии развития плода. Достигнутые результаты имеют большую практическую значимость в области раннего предупреждения патологии плода при беременности.About the authors
Yu. A Leonov
Bryansk State Technical University
L. B Filippova
Bryansk State Technical University
A. A Martynenko
Bryansk State Technical University
G. V Tsareva
Bryansk State Technical University
E. D Sviridova
Bryansk State Technical University
References
- Повышение показателей выживаемости и благополучного развития детей / Всемирная организация здравоохранения. - текст : электронный. - URL: https://www.who.int/ru/news-room/fact-sheets/detail/children-reducing-mortality (дата обращения 21.07.2022 г.)
- Fetal Health Data Set / Набор данных о состоянии плода. - текст: электронный. - URL: https://www.kaggle.com/andrewmvd/fetal-health-classification. (дата обращения 21.07.2022 г.)
- Выучейская М.В., Крайнова И.Н., Грибанов А.В. Нейросетевые технологии в диагностике заболеваний (обзор) // Журнал медико-биологических исследований. - 2018. - № 3. - С. 284-294. doi: 10.17238/issn2542-1298.2018.6.3.284
- Цидвинцева Л.Н. Определение информативности автоматизированной КТГ в оценке состояния плода во время родов: автореф. дис. … канд. мед. наук: 14.00.01. 2007. - 27 с.
- Ившин А.А., Гусев А.В., Новицкий Р.Э. Искусственный интеллект: предиктивная аналитика перинатального риска // Вопросы гинекологии, акушерства и перинатологии. - 2020. - № 19(6) - С. 133-144. doi: 10.20953/1726-1678-2020-6-133-144.
- Мультиноминальная логическая регрессия. - текст: электронный. - URL: https://datewiki.ru/wiki/Multinomial_logistic_regression. (дата обращения 19.05.2022 г.)
- Интернет вещей: основные понятия: учебно-методическое пособие / Р.А. Филиппов, Л.Б. Филиппова, А.С. Сазонова. - Брянск: БГТУ, 2016. - 112 с.
- Intelligent System of Classification and Clusterization of Environmental Media for Economic Systems / A.A. Kuzmenko, L.B. Filippova, A.S. Sazonova, R.A. Filippov // Advances in Economics, Business and Management Research [Proceedings of the International Conference on Economics, Management and Technologies 2020 (ICEMT 2020).]. - 2020. - Vol. 139. - P. 583-586. doi: 10.2991/aebmr.k.200509.103
- Филиппов, Р.А. Интернет вещей и обеспечение безопасности // Международная научно-практическая конференция «Инновации в промышленности, управлении и образовании». - Брянск: БГТУ, 2017. - С. 76-78
- Максимальная энтропия. - текст: электронный. - URL: https://www.csie.ntu.edu.tw/~cjlin/papers/maxent_dual.pdf (дата обращения 16.06.2022 г.)
- Selection of rational schemes automation based on working synthesis instruments for technological processes / Yu.A. Leonov, E.A. Leonov, A.A. Kuzmenko, A.A. Martynenko, E.E. Averchenkova, R.A. Filippov. - Yelm, WA, USA: Science Book Publishing House LLC, 2019. - 192 p.
- Intellectual subsystems for collecting information from the internet to create knowledge bases for self-learning systems / E.A. Leonov, Y.A. Leonov, Y.M. Kazakov, L.B. Filippova. Text: electronic // Proceedings of the Second International Scientific Conference “Intelligent Information Technologies for Industry” (IITI’17). IITI 2017. Advances in Intelligent Systems and Computing / In: Abraham A., Kovalev S., Tarassov V., Snasel V., Vasileva M., Sukhanov A. (eds). - 2017. - Vol. 679. - Springer, Cham. - Р. 95-103. - doi: 10.1007/978-3-319-68321-8_10
- Методы продвижения российских инноваций на международный рынок / А.А. Тищенко, О.М. Симоненкова, Ю.М. Казаков, Л.Б. Филиппова, А.А. Кузьменко // Новые информационные технологии в научных исследованиях: материалы XХIII Всероссийской научно-технической конференции студентов, молодых ученых и специалистов. Т. 2. - Рязань: Рязанский государственный радиотехнический университет, 2018. - С. 39-41.
- Сазонова А.С., Филиппов Р.А., Филиппова Л.Б. Теория информационных процессов и систем: учебно-методическое пособие. - Брянск, 2016. - 136 с.
- Метод k-means - текст: электронный. - URL: https://ru.wikipedia.org/wiki/Метод_k-средних. (дата обращения 12.05.2022 г.)
- Мониторинг и прогнозирование региональной потребности в специалистах высшей научной квалификации: монография / В.М. Кожухар, В.И. Аверченков, А.Г. Подвесовский, А.С. Сазонова // Брянский государственный технический университет. - Брянск, 2010. -150 с.
- Silwattananusarn Tipawan, Kulthida Tuamsuk Data mining and its applications for knowledge management: a literature review from 2007 to 2012 // International Journal of Data Mining & Knowledge Management Process. - 2012. - Vol. 2, № 5. - P. 13-24. doi: 10.48550/arXiv.1210.2872
- Divya T., Agarwal S. A survey on Data Mining approaches for Healthcare // International Journal of Bio-Science and Bio-Technology. - 2013. - Vol. 5, № 5. - P. 241-266.
- A Review Paper on Various Data Mining Techniques. / A. V. Saurkar, B. Vaibhav, P. Bhagat, A. Khaparde // International Journal of Advanced Research in Computer Science and Software Engineering. - 2014. - Vol. 4, №4. - P. 163-169.
Statistics
Views
Abstract - 124
PDF (Russian) - 74
Refbacks
- There are currently no refbacks.