STUDY ON NEURAL NETWORK MODEL TO DETECT ANOMALIES IN DATASETS

Abstract


Digitalization of various spheres of economic and social life is accompanied by the emergence of large amounts of data, processing of which is necessary to identify certain dependencies, build models of processes and systems. The study is devoted to the development and research of a mathematical model for the classification of data on medical care in the medical organization of Lipetsk region. As inputs there were used indicators of medical care, divided into five groups (data describing patient; data describing the medical organization in which the care was provided; indicators of the disease; data on health employee that assisted; indicators characterizing the specific features of the patient's visits to a particular specialist). The volume of records on which the study was conducted is more than one million records of the facts. The purpose of the study is to propose models and approaches for identifying erroneous records, as well as cases of falsification. The paper presents a statement of the binary classification problem. Anomaly detection refers to the problem of finding data that does not correspond to some expected process behavior or indicator that occurs in the system. When building systems for detecting anomalous observations, much attention must be paid to the model underlying the system. The study is devoted to the construction of a model for detecting anomalous values of a fixed indicator based on a combination of an isolation forest algorithm to estimatie the observation anomaly index and the subsequent application of a neural network classifier. The study contains the results of computational experiments to determine the threshold value for dividing records into classes of anomalous observations and data that do not have signs of abnormality. To evaluate which factors should be passed to the input of the neural network classifier (in order to increase the time efficiency of data processing), the approach to the reduction of the neural network model based on Sensitivity Analysis was proposed. The classical approach when considering the sensitivity of systems is to find the sensitivity by the parameter of the system under study, however, there is also a direction of Sensitivity Analysis that involves using its factors as the estimated parameters of the system. The proposed approach is based on applying Analysis of Finite Fluctuation. This analysis is based on replacing the mathematical model of the dependence of the system output on factors with a model of the dependence of the finite fluctuation in output on the finite fluctuations of factors. In Mathematical Analysis such a structure is known - this is Lagrange mean value theorem. The approach allows us to determine the values of the so-called factor loads. The paper presents a new approach to averaging the obtained values of factor loads and constructing interval characteristics for their estimation. A study of the stability of the proposed procedure for calculating the sensitivity coefficients of the model is presented.

Full Text

Введение Задачи математического моделирования технических, социальных, экономических систем или технологических процессов требуют высокой степени уверенности в достоверности и качестве входной информации, используемой как для их структурной, так и для параметрической идентификации. В ходе синтеза модели, ее анализа или практического использования важным условием является выявление наблюдений, которые не могут быть классифицированы как нормальные, т.е. которые не подчиняются законам системы или процесса, требуют детального исследования, могут оказать пагубное влияние на результат, полученный с помощью модели. Одним из хорошо зарекомендовавших себя инструментов моделирования, а также численного анализа систем, являются искусственные нейронные сети. Однако для повышения точности моделирования и возможности частичной интерпретации результатов моделирования актуальной становится задача выбора наиболее влиятельных входов нейросетевой модели, используемая впоследствии и в алгоритме выявления аномальных наблюдений. Решение этой задачи лежит в области анализа чувствительности по факторам математической модели, одной из целей которого как раз и является редукция моделей. В случае исследования нейросетевых моделей применяют алгоритмы, предполагающие объяснение характеристик нейронной сети через анализ ее весовых коэффициентов. Однако в силу существования различных параметров нейронной сети, доставляющих схожие выходы, такие алгоритмы не являются устойчивыми. Для решения задачи анализа чувствительности предлагается использовать известный метод анализа конечных изменений, основанный на применении теоремы Лагранжа о промежуточной точке и рассматривающий некоторые конечные изменения факторов модели и их связь с изменением выхода модели. Особую значимость указанные подходы приобретают в решении задачи выявления аномальных наблюдений в зафиксированных данных об оказании медицинских услуг населению. Своевременное обнаружение таких записей позволяет вести оперативный контроль за качеством оказания медицинской помощи населению и способно минимизировать человеческие ошибки в данных, а также обнаруживать возможные фальсификации предоставленной информации. 1. Постановка задачи бинарной классификации Рассматривается задача нахождения аномальных наблюдений в массивах данных. Пусть проведено наблюдение над n объектами, каждый из которых характеризуется m-мерным вектором признаков Про каждый из объектов известно, что он принадлежит к одному из двух классов: K1 - нормальных наблюдений или K2 - аномальных наблюдений. Множество показателей X объектов классов K1 и K2 является обучающей выборкой. Задача состоит в том, чтобы для каждого нового наблюдения вектора признаков с учетом совершения некоторой ошибки второго рода (возможность того, что доля нормальных наблюдений будет отнесена к аномальным) определить класс объекта Ki, i = 1, 2, к которому его следует отнести. Необходимо синтезировать решающее правило (с учетом ошибки первого рода) , где Для того чтобы отнести новое наблюдение к одному из возможных классов, определим дискриминантную пороговую функцию . Тогда классификатор примет вид В заданном решающем правиле в качестве функции возможно использование различных подходов. Далее для решения поставленной задачи в качестве указанной функции используется выходное значение нейросетевой модели. 2. Определение порогового значения разделения наблюдений В исследовании качество классификации (качество модели) оценивалось на основе точности и полноты, а также комбинации указанных характеристик [1]. Точность классификации P(h) определяется как доля объектов, которые были распознаны как объекты класса аномальных наблюдений. Полнота классификации R(h) показывает, какая доля объектов, реально относящаяся к классу аномальных наблюдений, была предсказана. Часто используют среднее гармоническое точности и полноты (F-меру) [2], которая определяется как Одним из способов оценки порогового значения для бинарной классификации, построенного в соответствии с описанным выше алгоритмом, является использование кривых ошибок (или ROC-кривых) [3]. ROC-кривая представляет собой график зависимости полноты классификации R(h) от единицы минус величина специфичности (отношение количества истинно отрицательных решений к сумме истинно отрицательных и ложноположительных решений) по всем возможным пороговым значениям λ. 3. Модели обнаружения аномальных наблюдений Одной из групп подходов к обнаружению аномалий являются алгоритмы, основанные на применении методов классификации [4]. В качестве инструментов для классификации могут быть использованы различные структуры: деревья решения, модели нечеткой логики, наивные байесовские модели, генетические алгоритмы, нейронные сети, опорные векторы и т.п. Для улучшения результатов классификации при решении задачи обнаружения аномальных наблюдений были предложены и комбинированные методы, сочетающие использование нескольких алгоритмов. Среди таких комбинаций можно выделить каскадные техники классификации с учителем (сочетание наивных байесовских моделей и деревьев решений, деревьев решений и метода опорных векторов) и комбинации классификационных схем с учителем и без учителя (например, сочетание метода опорных векторов и классификации методом k-средних). Отмеченные выше способы нахождения аномальных наблюдений предполагают, что в результате анализа будет построена модель, описывающая профиль «нормального» наблюдения. Однако существует и принципиально отличный подход, основанный не на построении модели, определяющей «нормальное» значение и отвергающей все не попадающие под такое понимание, а на построении модели, выявляющей значения, отличные от всех типичных для показателей рассматриваемой системы или процесса. Структура, положенная в основу работы такого метода, - изолирующий лес. Изоляция означает отделение одной группы наблюдений от другой. Чтобы применить такую идею для каждого наблюдения, необходимо вычислить некоторую меру восприимчивости, определяющую порог разделения. Естественные структуры, разделяющие данные, - это случайно сгенерированные двоичные деревья, экземпляры которых рекурсивно разделены [5, 6]. Метод имеет много преимуществ и хорошо обнаруживает аномалии, в частности он чувствителен к возникновению контекстных аномалий, которые могут быть интерпретированы как технические ошибки фиксации данных или их намеренное искажение. Чтобы обеспечить такое обнаружение, необходимо построить массивы «нормальных» и аномальных реализаций, которые впоследствии будут проанализированы контролирующими специалистами. Для повышения качества обнаружения аномальных значений [7] предлагается использовать изолирующий лес в качестве первого шага для фильтрации данных (сформировать группы «нормальных» и аномальных наблюдений), затем проанализировать все аномалии и выделить среди них контекстуальные аномалии (принципиально возможные наблюдения, но нетипичные по сравнению с ближайшими данными), а затем, применяя нейросетевой классификатор [8, 9], построить модель, способную находить выбросы для новых исходных данных: где - выход n-слойной нейронной сети (значение, характеризующее принадлежность наблюдения к множеству выбросов); X - вектор входных факторов; - функции активации слоев нейронной сети. Однако использование такого подхода требует значительных вычислительных ресурсов, особенно с увеличением числа факторов модели (так как возрастает и число параметров - весов нейронов). Далее приводится подход к анализу чувствительности по факторам нейросетевой модели, основанный на применении анализа конечных изменений. 3.1. Анализ чувствительности Анализ конечных изменений (АКИ) может быть описан как подход к анализу сложных систем различной структуры с целью построения зависимости, связывающей конечные изменения показателя (функции) с конечными изменениями факторов (переменных). Впервые этот подход был представлен в работе [10] как логичное расширение экономического факторного анализа и затем нашел применение в различных прикладных исследованиях [11]. Обозначим изменение некоторой величины (фактора) x через Естественной формой такого показателя является абсолютное приращение при начальном значении фактора и его конечном значении Основная задача анализа конечных изменений формулируется следующим образом. Пусть задана зависимость (1) описывающая связь выхода системы y и ее входов xi, . Необходимо трансформировать модель (1), чтобы она приняла вид связывающий конечные изменения ее входов и выхода. Стоит отметить, что во многих практических приложениях конечные изменения, отмеченные выше, предполагаются малыми. Для случая малых конечных приращений из математического анализа известна теорема, позволяющая выполнить указанные преобразования. Это теорема Лагранжа о средней точке (промежуточной точке, формула конечных приращений). Для случая функции многих переменных, определенной и непрерывной на своей области определения и имеющей на ней частные производные, она формулируется следующим образом: Промежуточная точка определяется значением параметра Пусть задана нейронная сеть, содержащая n скрытых слоев, которая описывает поведение технической, социально-экономической системы или технологического процесса в виде где В текущий момент времени начальное состояние факторов системы имеет вид и выход системы . В следующий момент фиксации факторы системы претерпели изменения и описываются как , выход системы . Таким образом, приращение выхода системы может быть определено, с одной стороны, как разница нового и предыдущего значений выходов и, с другой стороны, по теореме Лагранжа, т.е. может быть составлено и решено относительно параметра следующее уравнение: что позволит оценить так называемые факторные нагрузки и получить модель вида Указанная процедура может быть повторена d - 1 раз, численные результаты анализа (факторные нагрузки) могут быть усреднены и получены оценки влиятельности факторов рассматриваемой системы, что позволит сократить числа факторов системы. Рис. 1. Структурная схема подхода к обнаружению аномальных наблюдений в массивах данных Структурная схема подхода к обнаружению аномальных наблюдений в массивах данных представлена на рис. 1. На начальном этапе полученные из информационной системы данные должны быть преобразованы в необходимый формат. Затем исходные данные подвергаются преобразованию алгоритмом изолирующего леса. Выбор именно этого алгоритма объясняется, во-первых, тем, что алгоритм распознает аномалии различных типов; во-вторых, сложность изолирующего дерева эффективнее большинства других алгоритмов; в-третьих, отсутствием параметров выполнения. Вычисленные оценки аномальности для каждого из наблюдений формируют еще один вход системы, который затем будет использован при построении нейросетевой модели классификатора. Построенная модель, в свою очередь, подвергается описанному далее анализу чувствительности по входам для сокращения числа своих аргументов. По выбранным наиболее значимым входам происходит структурная и параметрическая идентификация новой нейросетевой модели классификатора с сокращенным числом входных переменных. На последнем этапе производится оценка качества классификации. 3.2. Точечные и интервальные оценки показателей чувствительности В качестве устойчивой к выбросам в исходном наборе данных оценки среднего значения может быть использовано взвешенное среднее Тьюки. Алгоритм построения этой оценки носит итерационный характер и включает в себя следующие шаги [12]: 1. Вычисление среднего значения выборки (в начале работы алгоритма обычно используется медиана). 2. Определение расстояния от вычисленного среднего до каждого элемента выборки. В соответствии с этими расстояниями элементам выборки присваиваются различные веса, с учетом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего. Пусть - выборка из рассчитанных факторных нагрузок для входа - медиана выборки S - медиана выборки; - абсолютное отклонение среднего. Для каждого элемента (k = 1,…,n) выборки вычисляют отклонение от среднего где c - параметр, определяющий, насколько оценка чувствительна к выбросам; - малая величина, основное назначение которой - исключить возможность деления на ноль. Для нахождения веса каждого наблюдения выборки используется биквадратная функция вида Оценка взвешенного Тьюки Помимо точечной оценки среднего находят интервал для построения величины при помощи приближения распределением Стьюдента. Симметричный доверительный интервал задается формулой где - -квантиль распределения Стьюдента с числом степеней свободы 3.3. Устойчивость метода анализа чувствительности Входы системы могут иметь неустранимые погрешности, которые тем не менее не должны вызывать неточностей при вычислениях оценок влияния факторов на выход системы. Устойчивость численного метода характеризуется небольшими отклонениями выходного значения при незначительных изменениях во входах. Пусть в результате решения задачи по входному значению фактора xi находится значение величины выхода. Входная величина xi имеет некоторую погрешность , выход

About the authors

R. V Sheglevatych

Lipetsk State Technical University

A. S Sysoev

Lipetsk State Technical University

References

  1. Bramer M. Estimating the predictive accuracy of a classifier // Principles of Data Mining. - 4th ed. - London: Springer-Verlag London, 2020. - P. 79-92.
  2. Sawade C., Landwehr N., Scheffer T. Active estimation of f-measures // Advances in Neural Information Processing Systems. - 2010. - Vol. 2. - P. 2083-2091.
  3. Obuchowski N.A. Nonparametric analysis of clustered ROC curve data // Biometrics. - 1997. - Vol. 53, no. 2. - P. 567-578.
  4. Parmar J.D., Patel J.T. Anomaly detection in data mining: a review // International Journal of Advanced Research in Computer Science and Software Engineering. - 2017. - Vol. 7, iss. 4. - P. 32-40.
  5. Liu F.T., Ting K.M., Zhou Z.H. Isolation forest // 2008 Eight IEEE International Conference on Data Mining (ICDM), Pisa, Italy. 15-19 December 2008. - Los Alamitos: IEEE, 2008. - Art. 10472172. - P. 413-422. doi: 10.1109/ICDM.2008.17
  6. Liu F.T., Ting K.M., Zhou Z.H. Isolation-based anomaly detection // ACM Transactions on Knowledge Discovery from Data. - 2012. - Vol. 6, iss. 1. - Art. 3. - P. 1-39. doi: 10.1145/2133360.2133363
  7. Щеглеватых Р.В., Сысоев А.С. Математическая модель обнаружения аномальных наблюдений с использованием анализа чувствительности нейронной сети [Электронный ресурс] // Моделирование, оптимизация и информационные технологии. - 2020. - Т. 8, № 1. - 14 c. - URL: https://moit.vivt.ru/ wp-content/uploads/2020/02/ScheglevatychSysoev_1_20_1.pdf DOI: 0.26102/2310-6018/2020.28
  8. Sysoev A.S., Blyumin S.L., Scheglevatych R.V. Approach to sensitivity analysis of neural network models based on analysis of finite fluctuations // 14th International Conference on Pattern Recognition and Information Processing (PRIP'2019), Minsk, Belarus. 21-23 May 2019 / Belarus State University of Informatics and Radioelectronics. - Minsk, 2019. - P. 97-100.
  9. Sysoev A., Scheglevatych R. Combined approach to detect anomalies in health care datasets // 2019 1st International Conference on Control Systems, Mathematical Modelling, Automation and Energy Efficiency (SUMMA), Lipetsk, Russia, 20-22 November 2019. - Los Alamitos: IEEE, 2019. - P. 359-363. doi: 10.1109/SUMMA48161.2019.8947605
  10. Блюмин С.Л., Суханов В.Ф., Чеботарев С.В. Экономический факторный анализ: монография / ЛЭГИ. - Липецк, 2004. - 148 с.
  11. Analysis of finite fluctuations for solving big data management problems / S.L. Blyumin, G.S. Borovkova, K.V. Serova, A.S. Sysoev // 2015 9th International Conference on Application of Information and Communication Technologies (AICT), Rostov on Don, Russia, 14-16 October 2015. - Los Alamitos: IEEE, 2015. - Art. 15620282. - 4 p. doi: 10.1109/ICAICT.2015.7338514
  12. Hoaglin D.C., Mosteller F., Tukey J.W. Understanding robust and exploratory data analysis. - New York: Wiley-Interscience, 2000. - 472 p.
  13. Mann H.B., Whitney D.R. On a test of whether one of two random variables is stochastically larger than the other // Annals of Mathematical Statistics. - 1947. - Vol. 18, no. 1. - P. 50-60.
  14. Sensitivity analysis of neural network models: applying methods of analysis of finite fluctuations / A. Sysoev, A. Ciurlia, R. Sheglevatych, S. Blyumin // Periodica Polytechnica Electrical Engineering and Computer Science. - 2019. - Vol. 63, iss. 4. - P. 306-311. doi: 10.3311/PPee.14654
  15. Sheglevatych R.V., Sysoev A.S. Analysis of finite fluctuations as a basis of defining a set of neural network model inputs // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems: сб. науч. тр. / под ред. В.В. Голенкова (гл. ред.) [и др.]; Белорус. гос. ун-т информ. и радиоэлектрон. - Минск, 2020. - Вып. 4. - С. 313-316.

Statistics

Views

Abstract - 33

PDF (Russian) - 12

Refbacks

  • There are currently no refbacks.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies