ИССЛЕДОВАНИЕ НЕЙРОСЕТЕВОЙ МОДЕЛИ ОБНАРУЖЕНИЯ АНОМАЛЬНЫХ НАБЛЮДЕНИЙ В МАССИВАХ ДАННЫХ

Аннотация


Цифровизация различных сфер экономической и социальной деятельности сопровождается возникновением больших массивов данных, обрабатывая которые необходимо выявлять определенные зависимости, строить модели процессов и систем. Посвящена разработке и исследованию математической модели классификации данных о фактах оказания медицинской помощи в учреждениях Липецкой области. В качестве массива входных данных использованы индикаторы оказания медицинской помощи, разделенные на пять групп (данные, характеризующие пациента; данные, характеризующие медицинское учреждение, в котором была оказана помощь; индикаторы заболевания; данные о медицинском сотруднике, оказавшем помощь; индикаторы, характеризующие специфические особенности посещения пациентом конкретного специалиста). Объем записей, на которых проводилось исследование, - более одного миллиона записей о фактах оказания помощи населению. Цель исследования - предложить модели и подходы к выявлению ошибочных записей, а также случаев фальсификации. Приводится постановка задачи бинарной классификации. Выявление аномалий относится к проблеме нахождения данных, не соответствующих некоторому ожидаемому поведению процесса или показателю, возникающему в системе. При построении систем обнаружения аномальных наблюдений большое внимание необходимо уделять модели, лежащей в основе системы. Исследование посвящено построению модели обнаружения аномальных значений фиксируемого показателя на основе комбинации алгоритма изолирующего леса для оценки показателя аномальности наблюдения и последующего применения нейросетевого классификатора. Исследование содержит результаты вычислительных экспериментов по определению порогового значения для разделения записей на классы аномальных наблюдений и данные, не обладающие признаками аномальности. Для оценки того, какие факторы должны быть переданы на вход нейросетевого классификатора (с целью повышения временной эффективности обработки данных), был синтезирован подход к редукции нейросетевой модели, основанный на анализе чувствительности. Классическим подходом при рассмотрении чувствительности систем является нахождение чувствительности по параметрам изучаемой системы, однако существует и направление анализа чувствительности, предполагающее использование в качестве оцениваемых параметров системы ее факторы. Предлагаемый подход к анализу чувствительности модели по факторам основан на использовании анализа конечных изменений. В основе такого анализа - замена математической модели зависимости выхода системы от факторов на модель зависимости конечного изменения выхода от конечных изменений факторов. Из математического анализа известна такая структура - это теорема Лагранжа о промежуточной точке. Подход позволяет определить значения так называемых факторных нагрузок. Приводится подход к усреднению полученных значений факторных нагрузок и построению интервальных характеристик для их оценивания. Приводится исследование устойчивости предлагаемой процедуры вычисления коэффициентов чувствительности модели.

Полный текст

Введение Задачи математического моделирования технических, социальных, экономических систем или технологических процессов требуют высокой степени уверенности в достоверности и качестве входной информации, используемой как для их структурной, так и для параметрической идентификации. В ходе синтеза модели, ее анализа или практического использования важным условием является выявление наблюдений, которые не могут быть классифицированы как нормальные, т.е. которые не подчиняются законам системы или процесса, требуют детального исследования, могут оказать пагубное влияние на результат, полученный с помощью модели. Одним из хорошо зарекомендовавших себя инструментов моделирования, а также численного анализа систем, являются искусственные нейронные сети. Однако для повышения точности моделирования и возможности частичной интерпретации результатов моделирования актуальной становится задача выбора наиболее влиятельных входов нейросетевой модели, используемая впоследствии и в алгоритме выявления аномальных наблюдений. Решение этой задачи лежит в области анализа чувствительности по факторам математической модели, одной из целей которого как раз и является редукция моделей. В случае исследования нейросетевых моделей применяют алгоритмы, предполагающие объяснение характеристик нейронной сети через анализ ее весовых коэффициентов. Однако в силу существования различных параметров нейронной сети, доставляющих схожие выходы, такие алгоритмы не являются устойчивыми. Для решения задачи анализа чувствительности предлагается использовать известный метод анализа конечных изменений, основанный на применении теоремы Лагранжа о промежуточной точке и рассматривающий некоторые конечные изменения факторов модели и их связь с изменением выхода модели. Особую значимость указанные подходы приобретают в решении задачи выявления аномальных наблюдений в зафиксированных данных об оказании медицинских услуг населению. Своевременное обнаружение таких записей позволяет вести оперативный контроль за качеством оказания медицинской помощи населению и способно минимизировать человеческие ошибки в данных, а также обнаруживать возможные фальсификации предоставленной информации. 1. Постановка задачи бинарной классификации Рассматривается задача нахождения аномальных наблюдений в массивах данных. Пусть проведено наблюдение над n объектами, каждый из которых характеризуется m-мерным вектором признаков Про каждый из объектов известно, что он принадлежит к одному из двух классов: K1 - нормальных наблюдений или K2 - аномальных наблюдений. Множество показателей X объектов классов K1 и K2 является обучающей выборкой. Задача состоит в том, чтобы для каждого нового наблюдения вектора признаков с учетом совершения некоторой ошибки второго рода (возможность того, что доля нормальных наблюдений будет отнесена к аномальным) определить класс объекта Ki, i = 1, 2, к которому его следует отнести. Необходимо синтезировать решающее правило (с учетом ошибки первого рода) , где Для того чтобы отнести новое наблюдение к одному из возможных классов, определим дискриминантную пороговую функцию . Тогда классификатор примет вид В заданном решающем правиле в качестве функции возможно использование различных подходов. Далее для решения поставленной задачи в качестве указанной функции используется выходное значение нейросетевой модели. 2. Определение порогового значения разделения наблюдений В исследовании качество классификации (качество модели) оценивалось на основе точности и полноты, а также комбинации указанных характеристик [1]. Точность классификации P(h) определяется как доля объектов, которые были распознаны как объекты класса аномальных наблюдений. Полнота классификации R(h) показывает, какая доля объектов, реально относящаяся к классу аномальных наблюдений, была предсказана. Часто используют среднее гармоническое точности и полноты (F-меру) [2], которая определяется как Одним из способов оценки порогового значения для бинарной классификации, построенного в соответствии с описанным выше алгоритмом, является использование кривых ошибок (или ROC-кривых) [3]. ROC-кривая представляет собой график зависимости полноты классификации R(h) от единицы минус величина специфичности (отношение количества истинно отрицательных решений к сумме истинно отрицательных и ложноположительных решений) по всем возможным пороговым значениям λ. 3. Модели обнаружения аномальных наблюдений Одной из групп подходов к обнаружению аномалий являются алгоритмы, основанные на применении методов классификации [4]. В качестве инструментов для классификации могут быть использованы различные структуры: деревья решения, модели нечеткой логики, наивные байесовские модели, генетические алгоритмы, нейронные сети, опорные векторы и т.п. Для улучшения результатов классификации при решении задачи обнаружения аномальных наблюдений были предложены и комбинированные методы, сочетающие использование нескольких алгоритмов. Среди таких комбинаций можно выделить каскадные техники классификации с учителем (сочетание наивных байесовских моделей и деревьев решений, деревьев решений и метода опорных векторов) и комбинации классификационных схем с учителем и без учителя (например, сочетание метода опорных векторов и классификации методом k-средних). Отмеченные выше способы нахождения аномальных наблюдений предполагают, что в результате анализа будет построена модель, описывающая профиль «нормального» наблюдения. Однако существует и принципиально отличный подход, основанный не на построении модели, определяющей «нормальное» значение и отвергающей все не попадающие под такое понимание, а на построении модели, выявляющей значения, отличные от всех типичных для показателей рассматриваемой системы или процесса. Структура, положенная в основу работы такого метода, - изолирующий лес. Изоляция означает отделение одной группы наблюдений от другой. Чтобы применить такую идею для каждого наблюдения, необходимо вычислить некоторую меру восприимчивости, определяющую порог разделения. Естественные структуры, разделяющие данные, - это случайно сгенерированные двоичные деревья, экземпляры которых рекурсивно разделены [5, 6]. Метод имеет много преимуществ и хорошо обнаруживает аномалии, в частности он чувствителен к возникновению контекстных аномалий, которые могут быть интерпретированы как технические ошибки фиксации данных или их намеренное искажение. Чтобы обеспечить такое обнаружение, необходимо построить массивы «нормальных» и аномальных реализаций, которые впоследствии будут проанализированы контролирующими специалистами. Для повышения качества обнаружения аномальных значений [7] предлагается использовать изолирующий лес в качестве первого шага для фильтрации данных (сформировать группы «нормальных» и аномальных наблюдений), затем проанализировать все аномалии и выделить среди них контекстуальные аномалии (принципиально возможные наблюдения, но нетипичные по сравнению с ближайшими данными), а затем, применяя нейросетевой классификатор [8, 9], построить модель, способную находить выбросы для новых исходных данных: где - выход n-слойной нейронной сети (значение, характеризующее принадлежность наблюдения к множеству выбросов); X - вектор входных факторов; - функции активации слоев нейронной сети. Однако использование такого подхода требует значительных вычислительных ресурсов, особенно с увеличением числа факторов модели (так как возрастает и число параметров - весов нейронов). Далее приводится подход к анализу чувствительности по факторам нейросетевой модели, основанный на применении анализа конечных изменений. 3.1. Анализ чувствительности Анализ конечных изменений (АКИ) может быть описан как подход к анализу сложных систем различной структуры с целью построения зависимости, связывающей конечные изменения показателя (функции) с конечными изменениями факторов (переменных). Впервые этот подход был представлен в работе [10] как логичное расширение экономического факторного анализа и затем нашел применение в различных прикладных исследованиях [11]. Обозначим изменение некоторой величины (фактора) x через Естественной формой такого показателя является абсолютное приращение при начальном значении фактора и его конечном значении Основная задача анализа конечных изменений формулируется следующим образом. Пусть задана зависимость (1) описывающая связь выхода системы y и ее входов xi, . Необходимо трансформировать модель (1), чтобы она приняла вид связывающий конечные изменения ее входов и выхода. Стоит отметить, что во многих практических приложениях конечные изменения, отмеченные выше, предполагаются малыми. Для случая малых конечных приращений из математического анализа известна теорема, позволяющая выполнить указанные преобразования. Это теорема Лагранжа о средней точке (промежуточной точке, формула конечных приращений). Для случая функции многих переменных, определенной и непрерывной на своей области определения и имеющей на ней частные производные, она формулируется следующим образом: Промежуточная точка определяется значением параметра Пусть задана нейронная сеть, содержащая n скрытых слоев, которая описывает поведение технической, социально-экономической системы или технологического процесса в виде где В текущий момент времени начальное состояние факторов системы имеет вид и выход системы . В следующий момент фиксации факторы системы претерпели изменения и описываются как , выход системы . Таким образом, приращение выхода системы может быть определено, с одной стороны, как разница нового и предыдущего значений выходов и, с другой стороны, по теореме Лагранжа, т.е. может быть составлено и решено относительно параметра следующее уравнение: что позволит оценить так называемые факторные нагрузки и получить модель вида Указанная процедура может быть повторена d - 1 раз, численные результаты анализа (факторные нагрузки) могут быть усреднены и получены оценки влиятельности факторов рассматриваемой системы, что позволит сократить числа факторов системы. Рис. 1. Структурная схема подхода к обнаружению аномальных наблюдений в массивах данных Структурная схема подхода к обнаружению аномальных наблюдений в массивах данных представлена на рис. 1. На начальном этапе полученные из информационной системы данные должны быть преобразованы в необходимый формат. Затем исходные данные подвергаются преобразованию алгоритмом изолирующего леса. Выбор именно этого алгоритма объясняется, во-первых, тем, что алгоритм распознает аномалии различных типов; во-вторых, сложность изолирующего дерева эффективнее большинства других алгоритмов; в-третьих, отсутствием параметров выполнения. Вычисленные оценки аномальности для каждого из наблюдений формируют еще один вход системы, который затем будет использован при построении нейросетевой модели классификатора. Построенная модель, в свою очередь, подвергается описанному далее анализу чувствительности по входам для сокращения числа своих аргументов. По выбранным наиболее значимым входам происходит структурная и параметрическая идентификация новой нейросетевой модели классификатора с сокращенным числом входных переменных. На последнем этапе производится оценка качества классификации. 3.2. Точечные и интервальные оценки показателей чувствительности В качестве устойчивой к выбросам в исходном наборе данных оценки среднего значения может быть использовано взвешенное среднее Тьюки. Алгоритм построения этой оценки носит итерационный характер и включает в себя следующие шаги [12]: 1. Вычисление среднего значения выборки (в начале работы алгоритма обычно используется медиана). 2. Определение расстояния от вычисленного среднего до каждого элемента выборки. В соответствии с этими расстояниями элементам выборки присваиваются различные веса, с учетом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего. Пусть - выборка из рассчитанных факторных нагрузок для входа - медиана выборки S - медиана выборки; - абсолютное отклонение среднего. Для каждого элемента (k = 1,…,n) выборки вычисляют отклонение от среднего где c - параметр, определяющий, насколько оценка чувствительна к выбросам; - малая величина, основное назначение которой - исключить возможность деления на ноль. Для нахождения веса каждого наблюдения выборки используется биквадратная функция вида Оценка взвешенного Тьюки Помимо точечной оценки среднего находят интервал для построения величины при помощи приближения распределением Стьюдента. Симметричный доверительный интервал задается формулой где - -квантиль распределения Стьюдента с числом степеней свободы 3.3. Устойчивость метода анализа чувствительности Входы системы могут иметь неустранимые погрешности, которые тем не менее не должны вызывать неточностей при вычислениях оценок влияния факторов на выход системы. Устойчивость численного метода характеризуется небольшими отклонениями выходного значения при незначительных изменениях во входах. Пусть в результате решения задачи по входному значению фактора xi находится значение величины выхода. Входная величина xi имеет некоторую погрешность , выход

Об авторах

Р. В Щеглеватых

Липецкий государственный технический университет

А. С Сысоев

Липецкий государственный технический университет

Список литературы

  1. Bramer M. Estimating the predictive accuracy of a classifier // Principles of Data Mining. - 4th ed. - London: Springer-Verlag London, 2020. - P. 79-92.
  2. Sawade C., Landwehr N., Scheffer T. Active estimation of f-measures // Advances in Neural Information Processing Systems. - 2010. - Vol. 2. - P. 2083-2091.
  3. Obuchowski N.A. Nonparametric analysis of clustered ROC curve data // Biometrics. - 1997. - Vol. 53, no. 2. - P. 567-578.
  4. Parmar J.D., Patel J.T. Anomaly detection in data mining: a review // International Journal of Advanced Research in Computer Science and Software Engineering. - 2017. - Vol. 7, iss. 4. - P. 32-40.
  5. Liu F.T., Ting K.M., Zhou Z.H. Isolation forest // 2008 Eight IEEE International Conference on Data Mining (ICDM), Pisa, Italy. 15-19 December 2008. - Los Alamitos: IEEE, 2008. - Art. 10472172. - P. 413-422. doi: 10.1109/ICDM.2008.17
  6. Liu F.T., Ting K.M., Zhou Z.H. Isolation-based anomaly detection // ACM Transactions on Knowledge Discovery from Data. - 2012. - Vol. 6, iss. 1. - Art. 3. - P. 1-39. doi: 10.1145/2133360.2133363
  7. Щеглеватых Р.В., Сысоев А.С. Математическая модель обнаружения аномальных наблюдений с использованием анализа чувствительности нейронной сети [Электронный ресурс] // Моделирование, оптимизация и информационные технологии. - 2020. - Т. 8, № 1. - 14 c. - URL: https://moit.vivt.ru/ wp-content/uploads/2020/02/ScheglevatychSysoev_1_20_1.pdf DOI: 0.26102/2310-6018/2020.28
  8. Sysoev A.S., Blyumin S.L., Scheglevatych R.V. Approach to sensitivity analysis of neural network models based on analysis of finite fluctuations // 14th International Conference on Pattern Recognition and Information Processing (PRIP'2019), Minsk, Belarus. 21-23 May 2019 / Belarus State University of Informatics and Radioelectronics. - Minsk, 2019. - P. 97-100.
  9. Sysoev A., Scheglevatych R. Combined approach to detect anomalies in health care datasets // 2019 1st International Conference on Control Systems, Mathematical Modelling, Automation and Energy Efficiency (SUMMA), Lipetsk, Russia, 20-22 November 2019. - Los Alamitos: IEEE, 2019. - P. 359-363. doi: 10.1109/SUMMA48161.2019.8947605
  10. Блюмин С.Л., Суханов В.Ф., Чеботарев С.В. Экономический факторный анализ: монография / ЛЭГИ. - Липецк, 2004. - 148 с.
  11. Analysis of finite fluctuations for solving big data management problems / S.L. Blyumin, G.S. Borovkova, K.V. Serova, A.S. Sysoev // 2015 9th International Conference on Application of Information and Communication Technologies (AICT), Rostov on Don, Russia, 14-16 October 2015. - Los Alamitos: IEEE, 2015. - Art. 15620282. - 4 p. doi: 10.1109/ICAICT.2015.7338514
  12. Hoaglin D.C., Mosteller F., Tukey J.W. Understanding robust and exploratory data analysis. - New York: Wiley-Interscience, 2000. - 472 p.
  13. Mann H.B., Whitney D.R. On a test of whether one of two random variables is stochastically larger than the other // Annals of Mathematical Statistics. - 1947. - Vol. 18, no. 1. - P. 50-60.
  14. Sensitivity analysis of neural network models: applying methods of analysis of finite fluctuations / A. Sysoev, A. Ciurlia, R. Sheglevatych, S. Blyumin // Periodica Polytechnica Electrical Engineering and Computer Science. - 2019. - Vol. 63, iss. 4. - P. 306-311. doi: 10.3311/PPee.14654
  15. Sheglevatych R.V., Sysoev A.S. Analysis of finite fluctuations as a basis of defining a set of neural network model inputs // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems: сб. науч. тр. / под ред. В.В. Голенкова (гл. ред.) [и др.]; Белорус. гос. ун-т информ. и радиоэлектрон. - Минск, 2020. - Вып. 4. - С. 313-316.

Статистика

Просмотры

Аннотация - 79

PDF (Russian) - 32

Ссылки

  • Ссылки не определены.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах