THE USE OF DATA MINING METHODS TO IDENTIFY RISKS OF FETAL PATHOLOGY

Yu. A Leonov; Леонов Ю. А; L. B Filippova; Филиппова Л. Б; A. A Martynenko; Мартыненко А. А; G. V Tsareva; Царева Г. В; E. D Sviridova; Свиридова Э. Д

doi:10.15593/2499-9873/2022.4.03

ИСПОЛЬЗОВАНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ВЫЯВЛЕНИЯ РИСКОВ ПАТОЛОГИИ РАЗВИТИЯ ПЛОДА

Авторы: Леонов Ю.А¹, Филиппова Л.Б¹, Мартыненко А.А¹, Царева Г.В¹, Свиридова Э.Д¹
Учреждения:
1. Брянский государственный технический университет
Выпуск: № 4 (2022)
Страницы: 47-59
Раздел: Статьи
URL: https://ered.pstu.ru/index.php/amcs/article/view/3618
DOI: https://doi.org/10.15593/2499-9873/2022.4.03
Цитировать

Аннотация
Полный текст
Об авторах
Список литературы
Статистика

Аннотация

Снижение детской смертности отражено в нескольких целях устойчивого развития Организации Объединенных Наций и является ключевым показателем прогресса человечества. Использование информационных технологий позволяет обрабатывать большое количество сформированных статистических данных либо формировать новые с течением времени на основе результатов анализов и обследований огромного количества пациентов, использовать результаты для определения отклонений, возникающих на ранних сроках беременности, и выявления влияния определенных показателей на вероятность появления патологий. На основе проведенного анализа сформулированы функциональные требования к системе и поставлена задача разработки новой информационно-аналитической системы. Статья посвящена актуальной проблеме определения рисков патологии развития плода на протяжении беременности. Предложен вариант классификации наличия отклонений плода с использованием мультиномиальной логистической регрессии и способ кластеризации групп риска пациента с использованием метода k -средних, применена методика оптимизации на основе метода Бройдена - Флетчера - Гольдфарба - Шанно, где в качестве ограничения была память (L-BFGS) Классификация здоровья плода происходит по заданным трем классам. Разработана информационная система для визуализации результатов работы аналитических методов. При создании программного комплекса была применена архитектура «клиент - сервер», позволяющая серверному устройству поддерживать многопользовательский режим и обеспечивать одновременную работу с несколькими клиентами. В состав системы вошли: приложение под Windows, приложение под Android, модуль взаимодействия с сервером, модуль взаимодействия с базой данных, модуль анализа данных, модуль обработки данных пациента, модуль обработки данных врача, модуль формирования статистических выборок, модуль защиты персональных данных, модуль разграничения прав, модуль визуализации. Модульная архитектура позволяет модернизировать систему, добавлять новые модули по мере необходимости и вносить изменения в модули с сохранением целостности системы. Разработанная система прошла этапы тестирования и оценки производительности.

Ключевые слова

интеллектуальный анализ данных, машинное обучение, классификация, анализ здоровья плода, патология плода, детская смертность, анализ кардиотокографии, мультиномиальная логистическая регрессия, информационная система определения рисков патологии плода, анализ протекания беременности.

Полный текст

Введение За последние 29 лет смертность новорожденных снизилась на 59 % и составляет примерно 38 случаев на 1000 новорожденных [1]. Однако для достижения результатов, поставленных многими странами, а именно снижения этого показателя до 25 случаев на 1000 детей, необходимо использовать современные технологии, применимые к данной сфере [2]. Статистические методы анализа данных можно использовать за счет большого количества наборов данных, формируемых больницами, а методы машинного обучения способны определять с высокой точностью группу риска и вероятность развития патологий плода во время протекания беременности. Теория Кардиотокография (КТГ) - это метод функциональной диагностики, основанный на регистрации частоты сердцебиения плода и сократительной способности матки во время беременности и родов. В основе кардиотокографии лежит эффект Допплера и принцип ультразвука. Кардиотокограммы (КТГ) - это простой и доступный по цене способ оценки состояния плода, позволяющий медицинским работникам принимать меры для предотвращения детской и материнской смертности [3; 4]. Помимо результатов КТГ, в определение рисков развития патологии плода включают базовые анализы, рекомендованные врачом и проведенные в определенные периоды беременности [5; 6]. Комплексный анализ результатов позволяет классифицировать патологии развития плода, использовать кластеризацию для определения группы риска конкретного пациента и составлять рекомендации для дальнейших действий врача и пациента. Основные задачи определения степени здоровья плода: • анализ результатов кардиотокографии; • анализ промежуточных рекомендуемых врачебных назначений; • кластеризация данных с целью выявления группы риска; • классификация данных с целью определения отклонения развития плода; • визуализация данных. Данные и методы В рамках проектирования автоматизированной системы была разработана архитектура создаваемого ПО (рис. 1). В качестве архитектуры программного комплекса была выбрана архитектура «клиент - сервер», при которой серверное устройство способно поддерживать многопользовательский режим и обеспечивать одновременную работу с несколькими клиентами. При такой архитектуре клиентское приложение, разработанное под ОС Windows для работы сотрудников и ОС Android для работы пациентов, напрямую взаимодействует с сервером приложений путем отправки запросов на получение и запись различных данных [6; 7]. Сервер СУБД отвечает за управление данными в базе данных, получая SQL-запросы от сервера приложений. Сервер приложений, в свою очередь, является промежуточным звеном между клиентом и сервером СУБД и отвечает за всю логику работы программного комплекса [8; 9]. Рис. 1. Архитектура ПО Основной модуль системы - модуль взаимодействия с сервером. Он предназначен для выполнения запросов со стороны клиентской части информационно-аналитической системы. Модуль взаимодействия с базой данных предназначен для добавления, удаления и редактирования данных в базе данных ИАС. Модуль анализа данных предназначен для аналитической работы системы: • определение здоровья плода; • выявление группы риска пациента; • отслеживание показателей анализов; • определение перечня анализов, соответствующих текущей неделе беременности. Модуль обработки данных пациента предназначен для представления данных пациента в необходимом для добавления в базу данных виде. Модуль обработки данных врача предназначен для ведения статистики приемов и пациентов, закрепленных за врачом. Модуль логирования предназначен для идентификации действий конкретного пользователя во избежание нарушения целостности ИАС. Модуль формирования статистических выборок формирует наборы данных из базы данных, которые необходимы для построения различных графиков статистики. Безопасность данных и информационной системы в целом обеспечивается следующими модулями: • модуль защиты персональных данных - предназначен для кодирования и шифрования персональных данных пациента; • модуль разграничения прав доступа - обеспечивает логическое разделение пользователей с последующим наделением их различными правами доступа к информации. Модуль визуализации предназначен для отображения графиков и отчетов на основе сформированных статистических выборок. Модель Для классификации степени здоровья плода выбрана модель мультиномиальной логистической регрессии. Мультиномиальная логистическая регрессия - классификационный метод, который обобщает логистическую регрессию на многоклассовые задачи. Это модель, которая используется для прогнозирования вероятностей различных результатов категориально распределенной зависимой переменной при заданном наборе независимых переменных (которые могут быть действительными, двоичными, категориальными и т.д.) [10]. Модель максимальной энтропии, используемая в программе в качестве классификатора, является обобщением линейной логистической регрессии [11; 12]. Основное различие между моделью максимальной энтропии и логистической регрессией заключается в количестве классов, поддерживаемых в рассматриваемой задаче классификации. Предположим, что количество классов равно m и количество функций n. Модель максимальной энтропии назначает c-й класс вектор коэффициентов и предвзятость дляc = 1, …, м. Учитывая вектор признаков , то c-оценка класса будет равна Вероятность x принадлежности к классу c определяется как Допустим P(c, x) обозначают совместную вероятность увидеть c и x. Функция потерь, минимизированная этим тренером, равна что является функцией отрицательного логарифма правдоподобия [13; 14]. Реализованная методика оптимизации основана на методе Бройдена - Флетчера - Гольдфарба - Шанно с ограниченной памятью (L-BFGS). L-BFGS - это квазиньютоновский метод, который заменяет дорогостоящее вычисление матрицы Гессе приближением, но при этом обладает высокой скоростью сходимости, как метод Ньютона, при котором вычисляется полная матрица Гессе. Поскольку приближение L-BFGS использует только ограниченное количество исторических состояний для вычисления направления следующего шага, оно особенно подходит для задач с многомерным вектором признаков. Кластеризация была использована для разбиения пациентов на группы риска и осуществлена с использованием метода k-средних [15; 16]. Действие алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров: где k - число кластеров, Si - полученные кластеры, а - центры масс всех векторов x из кластера Si. Алгоритм представляет собой версию EM-алгоритма, применяемого также для разделения смеси гауссиан. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k [17; 18]. Алгоритм прекращает работу на итерации, не изменяющей внутрикластерное расстояние. Количество возможных разбиений множества и число итераций конечно, а суммарное квадратичное отклонение V уменьшается, что исключает зацикливание работы алгоритма. Полученные результаты Классификация здоровья плода по трем классам проводится со следующей точностью: • точность классификации для 1-го класса («здоров») равна 89 %; • точность классификации для 2-го класса («есть отклонения») равна 75 %; • точность классификации для 3-го класса («болен») равна 90 %; Результат конкретного пациента представлен в его личном кабинете и имеет исторический график (рис. 2). Результат работы кластеризации представлен в виде столбчатой диаграммы, демонстрирующей анализы, по которым пациент был отнесен к определенной группе риска, средние показатели в этой группе риска и его текущие показатели по каждому анализу (рис. 3). Рис. 2. Результат классификации на основе кардиотокографии Рис. 3. Результат кластеризации Для корректного проведения кластеризации оптимальное число найденных кластеров равно 5, при таком количестве кластеров силуэтный анализ, являясь одной из основных метрик, определяющих степень сходства каждого объекта с кластером, к которому он принадлежит, достигает оптимального значения. Каждый кластер соответствует группе риска с определенной тяжестью отклонений. Заключение В результате проведенного исследования была разработана информационно-аналитическая система, способная определять риски патологии развития плода, классифицировать результаты анализов с высокой точностью и относить конкретного пациента к группе риска. Разработанная система позволяет пользователю отслеживать течение беременности и наличие отклонений, предоставляет список рекомендаций для каждого периода и анализирует показатели всех сданных пользователем анализов с целью определения общего состояния здоровья пациента и плода. Проведена классификация здоровья плода по трем классам: «здоров», «есть отклонения», «болен». Минимальная точность анализа составляет свыше 75 %. Для классификации степени здоровья плода использована модель мультиномиальной логистической регрессии. Модульная архитектура позволяет модернизировать систему, добавлять новые модули по мере необходимости и вносить изменения в систему с сохранением её целостности [19]. Разработанная информационно-аналитическая система подходит для применения в частных и государственных медицинских учреждениях по профилю выявление патологии развития плода. Достигнутые результаты имеют большую практическую значимость в области раннего предупреждения патологии плода при беременности.

Об авторах