The use of maximum entropy principle to construct robust estimators under point Bayesian contamination. Part I

Abstract


The paper develops the theory of robust parameter estimation of statistical models using the apparatus of information theory. The approach of A. M. Shurygin based on the model of a series of samples with random point contamination (point Bayesian contamination model) is considered. Perhaps, stoyki (steady) estimators have the most interesting properties among the estimators proposed by A. M. Shurygin. Although this approach can be associated with F. Hampel's approach to robust estimation, the need to postulate a parametric form of the contamination point distribution when finding stoyki estimators does not allow this to be considered a robust procedure. In the first part of our work, a non-parametric method of selecting said distribution is proposed - by maximizing Shannon entropy in the neighborhood of the model distribution limited by the value of Kulbak - Leibler divergence. This way of finding the distribution density of the contamination point allows us to consider the resulting estimators as robust, and, moreover, having the optimality property. We call the obtained estimators generalized radical, since their special case is the radical estimators of A. M. Shurygin. Generalized radical estimators are widely known in foreign publications as estimators of the minimum logarithmic density power divergence (gamma-divergence), while the question of their optimality is not investigated there. Generalized radical estimators include some popular estimators of the location: the estimators of Meshalkin (Welsh), Andrews, Smith, Bernoulli, Tukey's biweight estimator, Huber-type skipped mean and the generalized Charbonnier estimators. Also in the first part of the work it is proposed to use the cross entropy functional. Cross entropy, used as an optimized functional instead of Shannon entropy, allows us to get a family of estimators with the widest range of values of the parameter specifying this family. Since the problem of maximizing the expectation of the loss function of the maximum likelihood estimators in the point Bayesian contamination model is reduced to the problem of maximizing the cross entropy, the generalized radical estimators can be interpreted as being defended against malicious modifying of the maximum likelihood estimates. In the second part of the work, another optimal solution is obtained on the basis of the formalism of A. Rényi (or the formalism of C. Tsallis equivalent in terms of our problem) that gives a new family of estimators, the special cases of which are also some well-known estimators. To select one estimate from a family defined by different divergence constraints, an optimization approach is proposed that is similar to the approach leading to stoyki estimators, but, unlike the latter, remaining non-parametric. The main theoretical results obtained in the paper are illustrated in its second part by the example of location estimating for the cosine distribution.

Full Text

Введение Одним из направлений развития статистической теории являются методы оценивания параметров моделей, направленные на обеспечение устойчивости оценок к отклонению распределения наблюдений от постулируемого (модельного) [1-4]. Важность таких оценок обусловлена тем, что на практике модель неизбежно расходится с реальной ситуацией по причине наличия некачественных наблюдений или неточности самой модели, а многие классические методы оценивания, например, метод максимального правдоподобия [1] являются неустойчивыми. В данной работе развивается подход А.М. Шурыгина, связанный с моделью серии выборок со случайным точечным засорением [2], где каждая выборка из серии имеет распределение в виде смеси модельного распределения, параметры которого оцениваются, и распределения, сосредоточенного в одной фиксированной точке. Случайная засоряющая точка в серии выборок имеет некоторое распределение, которое может постулироваться или определяться в результате решения той или иной оптимизационной задачи. Описанные построения будем называть моделью байесовского точечного засорения (БТЗ) [2, 5]. Оптимальная оценка в данном подходе для фиксированного распределения засоряющей точки определяется минимизацией асимптотического квадратичного отклонения оценки при некоторых дополнительных асимптотических предположениях. Более подробно данный подход описан в п. 1. Нахождение оптимальной оценки сближает рассматриваемый подход с классическими подходами П. Хьюбера [3] и Ф. Хампеля [4] к робастному оцениванию. Последние дают оптимальные оценки в непараметрической окрестности модельного распределения, при этом часто окрестность формируется путем засорения модельного распределения. Отметим, что в подходе на основе модели БТЗ окрестность задается несколько более сложным образом. Классические решения теории робастности часто являются недостаточно устойчивыми (например, при оценивании параметра сдвига симметричного распределения в условиях его несимметричного засорения). Стойкие оценки, получаемые в рамках подхода на основе модели БТЗ, при подходящем распределении засоряющей точки могут обладать большей устойчивостью. Однако задавать такое распределение приходится в параметрическом виде, что не позволяет рассматривать данную схему как робастную в классическом смысле. Большой практический интерес представляют оценки, которые соответствуют выбору плотности засоряющей точки, пропорциональной некоторой степени (как правило, не превышающей единицы) модельной плотности [6-8]. Мы будем называть такие оценки обобщенными радикальными или, сокращенно, ООР[1], поскольку их частным случаем являются радикальные оценки [2]. С точки зрения теории Шурыгина, но вне контекста модели БТЗ, обсуждаемые оценки или их частные случаи изучались, например, в работах [9-11]. В зарубежных публикациях данные оценки обычно называют оценками минимума логарифмической дивергенции степени плотности или гамма-дивергенции, т.е. они рассматриваются как частный случай оценок метода минимума расстояния, при этом вопрос их оптимальности не исследуется (см., например, [12-16]). Частными случаями ООР оказываются известные робастные оценки параметра сдвига, введенные их авторами в большей или меньшей степени эвристически, например, оценки Мешалкина (в зарубежной литературе известные как оценки Уэлша), Эндрюса, Смита, Бернулли, бивес-оценка Тьюки, оценка Хьюбера типа урезанного среднего, обобщенные оценки Шарбонье [2; 8; 17]. Так, в [4] высказано предположение, что бивес-оценка Тьюки и оценка Эндрюса не имеют каких-либо свойств оптимальности. В связи со сказанным обоснование ООР как робастных оценок, обладающих определенными свойствами оптимальности, представляется нам актуальным. Для такого обоснования в рамках подхода на основе модели БТЗ необходим способ непараметрического задания плотности засоряющей точки указанного вида. Оказывается, возможный способ состоит в использовании широко известного принципа максимальной энтропии [18]: нужная плотность является решением задачи максимизации энтропии Шеннона [19, 20] в окрестности модельного распределения, которая определяется ограничением на дивергенцию Кульбака - Лейблера [1] между распределением засоряющей точки и модельным распределением [21]. Изложению этих результатов посвящен п. 2. Описанный подход является довольно общим: вместо энтропии Шеннона и дивергенции Кульбака - Лейблера в оптимизационной задаче можно использовать иные виды энтропий и дивергенций. Здесь и далее имеются в виду непрерывные версии этих функционалов. В наиболее общем случае можно говорить о выборе плотности, оптимальной по какому-либо целевому критерию (характеризующему, например, разброс случайной величины или неточность модели) на некотором непараметрически заданном множестве допустимых плотностей. В результате будут получаться другие плотности засоряющей точки и, как следствие, - новые семейства оценок. В данной работе предлагается ограничить произвол в выборе функционалов: в рамках одной вариационной задачи будут использоваться функционалы энтропии и дивергенции, которые определенным образом связаны между собой. Так, во второй части статьи (п. 1) используются энтропия Реньи в паре с дивергенцией Реньи [22] или эквивалентные им с точки зрения оптимизационной задачи энтропия и дивергенция Цаллиса [23]. Получаемое семейство оценок охватывает многие полезные на практике устойчивые решения, включая ООР и условно оптимальные оценки Шурыгина, которые описываются ниже в п. 1 [2; 24] (см. также [15] как пример получения этих оценок вне теории Шурыгина). Условно оптимальные оценки являются оптимальным решением в рамках другого - локально устойчивого - подхода Шурыгина. Его отличие от робастного подхода Хампеля в значительной мере состоит в использовании другой нормы функции влияния: вместо L∞ используется L2. Рассматриваемые нами оценки являются семействами с одним или несколькими параметрами. Такое положение является обычным в теории робастности, однако интерес может представлять и обоснованный выбор какого-то одного члена семейства. Способ такого выбора, аналогичный способу получения стойких оценок Шурыгина, но, в отличие от последнего, остающийся непараметрическим, описан во второй части статьи (п. 2). Основные теоретические результаты, полученные в работе, проиллюстрированы на примере оценивания параметра сдвига косинусного распределения [7; 8] и приведены во второй части статьи (п. 3 и 4). 1. Элементы теории устойчивого оценивания Пусть - наблюдения непрерывной случайной величины ξ, распределенной с плотностью , где и параметр . Будем предполагать, что функция непрерывна на . Если X имеет конечную длину, такую модель будем называть финитной. M-оценка неизвестного параметра θ может определяться [1; 3] как решение оптимизационной задачи , где - непрерывная, дифференцируемая почти всюду функция, удовлетворяющая условию асимптотической несмещенности [1] , E - оператор математического ожидания. Условие равенства нулю производной по θ оптимизируемой функции служит альтернативной (хотя и не эквивалентной [1]) формулировкой задачи M-оценивания: . Данное уравнение называется оценочным, а функция (1) называется оценочной функцией для параметра θ, - произвольная непрерывная функция, не равная нулю для всех Сомножитель в оценочной функции (очевидно, его введение не влияет на решение оценочного уравнения) задает семейство эквивалентных оценочных функций. Здесь и далее точкой сверху обозначено дифференцирование по оцениваемому параметру. Оценочная функция также должна удовлетворять условию асимптотической несмещенности, которое принимает вид [1; 25] . (2) Дифференцируя (2) по θ и допуская возможность изменения порядка дифференцирования и интегрирования, можно записать следующие равенства [3; 25]: . (3) В рассматриваемой теории можно предложить различные формулировки условий регулярности (см., например, [1; 3]), однако их детальное обсуждение выходит за рамки статьи. Далее будет приведен набор условий, который выглядит наиболее естественно с точки зрения используемых в статье построений. Приведенные ниже условия должны выполняться локально - в некоторой окрестности истинного значения параметра θ. Итак, потребуем, чтобы: 1) выполнялось условие асимптотической несмещенности (2); 2) были справедливы равенства (3), функция была непрерывной и не равной нулю [6]; 3) выполнялось условие 4) выполнялось условие При выписанных условиях M-оценка является -состоятельной и асимптотически нормальной [26]. Ее нормированная асимптотическая дисперсия [1] определяется выражением . В теории робастного оценивания конструируются оценки, имеющие высокое качество не только при постулируемом распределении (плотности ), но и при отклонении от него. Одним из наиболее широко используемых инструментов для анализа качества оценки в теории робастности является функция влияния Хампеля [4]. Она отражает воздействие на оценку бесконечно малого точечного засорения модельного распределения. Оценки с ограниченной функцией влияния называют B-робастными. Функция влияния M-оценок задается как , откуда следует . Перейдем к рассмотрению подходов Шурыгина, и первым рассмотрим локально устойчивый подход, основанный на показателе неустойчивости [2; 5; 9] . Показатель W представляет собой квадрат L2-нормы функции влияния (подобно тому, как в [4] одним из критериев оптимальности является L∞-норма функции влияния). Оценку и соответствующую оценочную функцию будем называть устойчивыми по Шурыгину, если Эффективностью и устойчивостью оценки называются соответственно характеристики и где - асимптотическая дисперсия оценки максимального правдоподобия (ОМП), минимизирующей - неустойчивость оценки максимальной устойчивости (ОМУ) [2], минимизирующей В рамках данного подхода построено семейство условно оптимальных оценочных функций [2, 5, 24, 27] , (4) где функция имеет тот же смысл, что и в (1), функция определяется из условия (2). Значение параметра в (4) соответствует ОМУ, значение - ОМП. Промежуточные значения параметра λ позволяют получить различные условно оптимальные оценки, имеющие минимальную неустойчивость при ограничении сверху на величину асимптотической дисперсии либо минимальную асимптотическую дисперсию при ограничении сверху на величину неустойчивости [9; 27]. Множество значений параметра λ в выражении (4) можно дополнить отрицательными значениями, такими, что Соответствующее семейство оценочных функций является решением задачи минимизации неустойчивости W при ограничении-равенстве на асимптотическую дисперсию оценки [24; 27], где - предел (конечный или бесконечный) асимптотической дисперсии оценки при . Рассмотрим подход Шурыгина, основанный на модели БТЗ [2; 5]. Пусть плотность распределения случайной величины имеет вид , где α - доля аномальных наблюдений, δ - функция Дирака; υ - засоряющая точка такая, что в пределах одной выборки а в серии выборок представляет собой случайную величину, распределенную на X с плотностью В дополнение к условиям, описанным в [2], будем предполагать, что функция плотности непрерывна на Пусть α - бесконечно малая величина с порядком малости, меньшим , т.е. , где и . Тогда нормированное асимптотическое квадратичное отклонение оценки не зависит от параметров γ и ζ и определяется выражениями [2] . (5) В [2] показано, что функционал (5) достигает минимума на оценочной функции , (6) где функция имеет тот же смысл, что и в (1), функция определяется из условия (2). Функционал (5) можно интерпретировать как квадрат нормы функции влияния в весовом L2-пространстве с весом s, т.е. постулировать вне модели БТЗ. В этом случае весовая функция s не интерпретируется как плотность, но должна быть неотрицательной. Заметим также, что в выражение (6) допустимо подставлять функции s, не удовлетворяющие условию нормировки плотности из-за того, что нормировочная константа плотности поглощается сомножителем (справедливость такого подхода для неинтегрируемых функций s будет показана ниже). Нетрудно видеть, что во всех этих случаях решение (6) по-прежнему доставляет минимум функционалу (5). Но если функция s не является интегрируемой, то модель БТЗ не может быть применена для обоснования показателя (5), а он не будет иметь смысла асимптотического квадратичного отклонения оценки (хотя сохраняет смысл квадрата весовой L2-нормы функции влияния). Для использования оценочной функции (6) необходимо выбрать плотность , но на практике вряд ли можно это сделать объективно. Возможное решение в этой ситуации - в соответствии с принципами теории робастности произвести поиск наилучшей оценки в наихудших условиях [3], например, использовать минимаксную формулировку (7) где S - множество плотностей, ограниченное лишь условиями регулярности. Нижний индекс «med» в обозначении минимаксной оценочной функции обусловлен тем, что она является медианной [2; 28], т.е. имеет вид . Медианная оценка, уже известная в рамках классических подходов к робастному оцениванию [3; 4], является В-робастной, однако часто она недостаточно устойчива, например, при оценивании параметра сдвига симметричного распределения в условиях его несимметричного засорения [2]. Таким образом, свойства В-робастности оценки не всегда достаточно для ее устойчивости на практике. Большей устойчивостью обладают оценки со свойством при обобщающим свойство при которому удовлетворяют сниженные оценки параметра сдвига для [4]. Данное свойство выглядит естественно, например, в рамках борьбы с выбросами [13]: признаком выброса может служить то, что соответствующее значение модельной плотности близко к нулю; и если функция влияния тоже близка к нулю, то влияние выброса на оценку нивелируется. Поскольку мы работаем с непрерывными распределениями, данное условие для рассмотренных в статье построений будем использовать в усиленном виде: при (8) Другой путь построения оптимальных оценок в модели БТЗ - решение максиминной задачи [2, 28] (9) откуда находим подставляя (9) в (6). Здесь плотность (9) - это наихудшая плотность распределения засоряющей точки [2] на некотором множестве плотностей S. Если S представляет собой параметрическое семейство плотностей, включающее модельную плотность f, тогда решение соответствует стойким оценкам [2; 5]. Стойкие оценки часто обладают свойством (8), важным для обеспечения устойчивости. Однако параметрический способ задания множества S не отвечает методологии теории робастности, где модель засорения определяется непараметрически. Как правило, свойством (8) обладают также ООР, получаемые при выборе плотности засоряющей точки, пропорциональной степени модельной плотности: , (10) где - нормировочная константа, [6, 7]; они обобщают радикальные оценки Шурыгина с плотностью [2; 5]. Формально подставив плотность вида (10) в выражение (6), получаем семейство оценочных функций . (11) В этом выражении нормировочная константа k поглощается функцией с. В частности, при имеем ОМП - наименее устойчивую в семействе оценку, при имеем ОМУ - наиболее устойчивую оценку в рамках локально устойчивого подхода Шурыгина. Обозначим через верхнюю грань множества значений ν, для которых существует плотность (10). Здесь возможны следующие варианты. 1. Неограниченный (с одной или обеих сторон) интервал X. В этом случае Если при имеет место , где , то . Так, для распределения Коши , . Если в левой и правой окрестностях бесконечности плотность стремится к нулю с различной скоростью, следует взять наименьшую из двух τ. 2. Ограниченный интервал X. В этом случае . Если при этом то Например, рассмотрим косинусно-степенное распределение с плотностью [29] , , , (12) где - гамма-функция. Для имеем , для имеем При , поскольку выражения (5) и (6) это допускают, вместо плотности (10) можно использовать ненормированную функцию . Соответствующие решения также могут рассматриваться как формальное продолжение семейства (11) в область . Семейство (11) допускает распространение и на отрицательные значения параметра ν, однако в рамках теории робастности изучение оценок, менее устойчивых, чем ОМП, как правило, малоинтересно. Интерпретировать описанный выше подход можно следующим образом. Строго говоря, модель БТЗ неприменима, если плотность распределения засоряющей точки не существует. Однако понятие модели БТЗ можно обобщить и на такие распределения, рассматривая неинтегрируемую функцию как предел некоторой последовательности интегрируемых весовых функций , где . Действительно, рассмотрим оценочную функцию (6). Далее для краткости часто будем опускать аргументы функций. Так, оценочная функция (6) может быть записана в виде . Пусть для определенности величина c здесь выбрана таким образом, что оценочная функция совпадает с функцией влияния (это не уменьшает общности изложения, так как все эквивалентные оценочные функции отличаются от соответствующей функции влияния только ненулевым сомножителем c). Тогда для элементов последовательности имеем соответственно следующие БТЗ-оптимальные решения: , где являются решениями уравнения (2) относительно β для оценочных функций . Поскольку в этом выражении нормировочная константа плотности сокращается, предельный переход может быть выполнен непосредственной подстановкой предельных функций: . При этом предполагаем, что предельная функция существует и удовлетворяет равенству (2) для (выбор функции c не влияет на β). Таким образом, в пределе получается выражение для функции влияния, соответствующей неинтегрируемой функции . Для получения последовательности функций бывает удобно рассматривать последовательность усеченных интервалов когда функции совпадают с в центральной части интервала X и равны 0 в окрестности его границ. В отличие от описанного выше подхода, здесь каждой ставится в соответствие модельная плотность полученная аналогично в результате усечения плотности Поскольку последовательность имеет пределом , введение этой последовательности не влияет на предельную оценочную функцию. Однако справедливость равенств и не очевидна и требует постулирования. Кроме того, для получения БТЗ-оптимальной требуются те же условия регулярности, что и для исходной модели. Расширение модели БТЗ на неинтегрируемые функции играющие здесь роль несобственных плотностей распределения засоряющей точки (см., например, [30]), будем называть обобщенной моделью БТЗ. Применение описанной теории к финитным моделям, в том числе полученным выше в результате усечения исходного множества X, имеет свою специфику. Появление наблюдений за пределами интервала финитности X возможно только с нулевой вероятностью (в незасоренной модели), и можно выделить два подхода к их обработке: традиционный, в котором такие наблюдения запрещаются, и обобщенный, при котором они допускаются, а оценочная функция за пределами интервала финитности полагается равной нулю [8]. Обобщенный подход имеет приблизительно тот же прикладной смысл, что и условие (8): маловероятные наблюдения должны игнорироваться. С целью обеспечения регулярности финитной модели в данной работе подразумевается применение обобщенного подхода к оцениванию параметров. Это означает, что в модели БТЗ плотности и s определяются на . Плотность на доопределяется нулем, поэтому из (6) следует БТЗ-оптимальность оценочной функции в обобщенном подходе при условии, что функция s на доопределяется произвольным образом, но не равна нулю. При этом происходит нарушение нормировки s, что, как уже было сказано, не влияет на справедливость (6). Таким образом, плотность s представляет интерес только при , поэтому нормировать ее (если это возможно) и приводить выражения для нее будем только на этом интервале. 2. Оптимальность обобщенных радикальных оценок Для обоснования ООР как робастных оценок в рамках подхода Шурыгина, связанного с байесовским точечным засорением, покажем, что плотность (10) может быть получена как результат непараметрической оптимизации. Такой способ нахождения оптимальной плотности, использующий аппарат теории информации, описан в [21] и основан на принципе максимальной энтропии [18]. Определение. Будем говорить, что энтропия порождается дивергенцией если выполнено формальное равенство [20] (13) для некоторой . Эта формула отражает свойство энтропии, согласно которому ее безусловный максимум достигается на равномерном распределении вероятностей. Условие (13) обеспечивает единообразие подходов к характеризации неопределенности распределения и непохожести между распределениями в рамках одной оптимизационной задачи. Итак, плотность (10) является решением задачи максимизации энтропии Шеннона (дифференциальной энтропии) [19; 20] , (14) порождаемой дивергенцией Кульбака - Лейблера [1] , (15) при ограничении , (16) где Δ - неотрицательная величина. Действительно, лагранжиан данной задачи имеет вид , где , b - множители Лагранжа, и условие стационарности - . Отсюда после преобразований находим , где и , причем . Однако в случае функционалы (14), (15) и модель БТЗ при не имеют смысла, а формально найденное решение задачи с такими значениями параметра ν (им соответствует ) нуждается в дополнительном объяснении. Это объяснение строится на основе обобщенной модели БТЗ и будет рассмотрено в этом параграфе ниже для более общего случая . Одним крайним членом получаемого семейства является ОМП при другим - для случая - ОМУ, которая соответствует безусловному максимуму (14). Последний достигается при любых , где - плотность равномерного на X распределения. В случае при соответствующим решением (11) в пределе будет . Таким образом, рассмотренная оптимизационная задача позволяет получать решения из семейства (11) в диапазоне (с возможностью расширения до за счет обобщенной БТЗ), где . С этой точки зрения случай (или ), названный нами максимально неопределенным байесовским точечным засорением [7], соответствует наиболее слабым предположениям в рамках рассматриваемого подхода - отсутствию ограничения (16) - и одновременно наихудшей с точки зрения критерия (14) ситуации. В свою очередь, интерпретация неустойчивости W как показателя (5) при максимально неопределенном байесовском точечном засорении позволяет представить локально устойчивый подход Шурыгина частным случаем его же подхода на основе модели БТЗ при наиболее слабых предположениях (с той лишь разницей, что в случае используется обобщенная модель БТЗ, как описано в п. 1). Поскольку работа [21] не связана с робастным оцениванием параметров, дадим интерпретацию рассматриваемого решения с точки зрения нашей задачи. В теории робастности решения часто формулируются как минимаксные, подобно (7): находится наилучшая оценка при наихудшем засорении [3]. Отличие нашего подхода от классического состоит в том, что мы используем два критерия: по одному критерию находится наихудшее засорение, а по другому - наилучшая оценка. Отказываясь от минимаксной задачи (7), мы теряем гарантированность результата, зато приобретаем возможность получать оценки, удовлетворяющие условию (8). С точки зрения теории принятия решений в условиях неопределенности подход на основе двух критериев соответствует игре с непротивоположными интересами [31], где исследователь «играет» с природой. Действительно, природа о задаче оценивания модели ничего не знает, поэтому в общем случае не имеет со статистиком противоположные интересы. Но разумно предположить, что она стремится к увеличению неопределенности наблюдаемой системы, выражаемой в нашем случае энтропией Шеннона. Иначе говоря, стратегия природы - максимизация энтропии, стратегия статистика - получение оптимальной оценки при данной стратегии природы. Применительно к модели БТЗ стратегия природы направлена на серию выборок, т.е. определяет плотность s. Получение решения в виде семейства, разные члены которого полезны при разной степени искажения модельного распределения, также является характерным для теории робастности. Поскольку решением в случае является ОМП, которую целесообразно принять в качестве крайнего (наименее устойчивого) члена семейства, степень искажения определяется степенью непохожести плотности s на модельное распределение, а сама степень непохожести формализуется через ограничение на дивергенцию. Подобно тому, как это делается в подходе Хьюбера, ограничение (16) формирует окрестность модельного распределения размера Δ, в которой ведется поиск наихудшего распределения. На практике указанное ограничение может формироваться на основе априорной информации или, если ее нет, на основе формальных процедур, например, с использованием максиминного подхода, как в стойких оценках (см. п. 2 второй части статьи); возможен и субъективный выбор нескольких значений с целью исследования изменения оценок при изменении ограничения (размера окрестности). Вместо размера окрестности Δ на практике задают параметр ν оценочной функции, что проще. Чтобы найти размер окрестности Δ при известном значении ν, подставим (10) в (15). Получаем , . (17) Если , формулы (17) позволяют находить и для , однако результат в этом случае не может интерпретироваться как размер окрестности Δ. Кроме того, определяет лишь нижнюю границу размера окрестности. Заметим, что даже при наличии устойчивости по Шурыгину функция влияния оптимальной оценки может оказаться неограниченной (см. п. 3 второй части статьи), что будет означать отсутствие робастности с точки зрения подхода Хампеля [4] (отсутствие качественной робастности оценки). С практической точки зрения такие оценки тоже нельзя считать устойчивыми. Таким образом, робастными мы будем считать лишь те БТЗ-оптимальные оценки, которые удовлетворяют условию B-робастности. Для обоснования семейства (11) при всех в соответствии с [8, 32], необходимо максимизировать вместо энтропии Шеннона (14) перекрестную энтропию (неточность Керриджа) [13; 33] . (18) Заметим, что в [34] такая задача сформулирована в рамках принципа максимума функции неточности. В интерпретации новой задачи с точки зрения игры с непротивоположными интересами исследователь «играет», скорее, уже не с безразличной природой, а с целенаправленно действующим противником (см., например, [35, 36]). Ограничение на дивергенцию тогда можно понимать как один из инструментов маскировки последнего. Легко увидеть, что к задаче максимизации по s перекрестной энтропии сводится задача максимизации математического ожидания функции потерь ОМП в модели БТЗ при фиксированной плотности и истинном значении параметра θ (параметр α ненастраиваемый). Заметим в связи с этим, что максимизация критерия на основе функции потерь часто используется во вредоносном машинном обучении (adversarial machine learning) с целью формирования наихудшего искажения («отравления») обучающих данных с последующим получением оценок, защищенных от этого искажения [36]. С рассматриваемой точки зрения задача максимизации перекрестной энтропии соответствует наличию у противника предположения об использовании исследователем ОМП, в то время как исследователь выбирает оценку, защищенную от искажающего воздействия противника. Цель противника тогда состоит в компрометации истинного значения параметра как согласованного с данными. Таким образом, ООР могут быть охарактеризованы как защищенные от намеренного искажения ОМП. Отметим также, что функционал (14) может рассматриваться как предельный случай (18) [37]: . Использование энтропии тогда можно интерпретировать как формализацию незнания противником модельной плотности. Рассмотрение задачи максимизации функционала (18) при ограничении (16) может натолкнуться на следующую трудность. Решение (10) формально может быть записано для всех , однако при никакие значения множителей Лагранжа не удовлетворяют условию нормировки плотностей , поскольку соответствующие функции неинтегрируемые. По этой же причине функционалы (15) и (18) не имеют смысла, а модель БТЗ неприменима. Для преодоления указанной трудности вместо интервала X рассмотрим последовательность усеченных (с одной или двух сторон по необходимости) интервалов (где n - натуральные числа), таких что (под сходимостью последовательности интервалов понимается сходимость последовательностей соответствующих границ) и для каждого существуют плотности вида (10) . Плотности получены в результате соответствующего усечения плотности и могут рассматриваться как ее аппроксимации. Решая задачу оптимизации на интервале аналогично [21] и подставляя найденную оптимальную плотность в (6), получаем семейство оценочных функций вида (11) для модельной плотности и Таким образом, семейство (11) в случае, когда плотность не существует, т.е. , может интерпретироваться как предел аппроксимирующих семейств, построенных для интервалов при . Как и в п. 1, будем предполагать, что изложенный здесь способ построения обобщенной модели БТЗ возможен. Заключение В первой части работы предложен непараметрический способ выбора плотности засоряющей точки для модели БТЗ, что позволяет рассматривать решения, получаемые в рамках соответствующего подхода А.М. Шурыгина, как решения теории робастности. Рассмотрено решение, в котором оптимальная плотность определяется в результате максимизации функционала энтропии при ограничении на величину дивергенции Кульбака - Лейблера между искомой и модельной плотностями. Характерно, что данные функционалы энтропии и дивергенции связаны между собой. В результате получается известное семейство ООР при условии , где ν - параметр, задающий семейство. Использование в качестве оптимизируемого функционала вместо энтропии перекрестной энтропии позволяет вывести семейство ООР для всех Таким образом, получено обоснование семейства ООР как робастных оценок, обладающих свойством оптимальности.

About the authors

D. V. Lisitsin

Novosibirsk State Technical University

K. V. Gavrilov

Novosibirsk State Technical University

References

  1. Боровков, А.А. Математическая статистика / А.А. Боровков. - СПб.: Издательство «Лань», 2021. - 704 с.
  2. Шурыгин, А.М. Математические методы прогнозирования: учебное пособие для вузов / А.М. Шурыгин. - М.: Горячая линия - Телеком, 2009. - 180 с.
  3. Хьюбер, П. Робастность в статистике / П. Хьюбер. - М.: Мир, 1984. - 303 с.
  4. Робастность в статистике: подход на основе функций влияния / Ф. Хампель, Э. Рончетти, П. Рауссеу, В. Штаэль. - М.: Мир, 1989. - 512 с.
  5. Shurygin, A.M. New approach to optimization of stable estimation / A.M. Shurygin // Proceedings of the First US/Japan Conference on the Frontiers of Statistical Modeling: An Informational Approach. - 1994. - Vol. 3. Dordrecht: Kluwer. - P. 315-340. doi: 10.1007/978-94-011-0854-6_15
  6. Лисицин, Д.В. Об устойчивом оценивании параметров модели при асимметричном засорении данных / Д.В. Лисицин, К.В. Гаврилов // Научный вестник НГТУ. - 2008. - № 1(32). - С. 33-40.
  7. Лисицин, Д.В. Устойчивое оценивание параметров модели при асимметричном засорении данных / Д.В. Лисицин, К.В. Гаврилов // Известия МАН ВШ. - 2006. - № 1(35). - С. 60-73.
  8. Лисицин, Д.В. Оценивание параметров распределения ограниченной случайной величины, робастное к нарушению границ / Д.В. Лисицин, К.В. Гаврилов // Научный вестник НГТУ. - 2016. - № 2(63). - С. 70-89. doi: 10.17212/1814-1196-2016-2-70-89
  9. Shevlyakov, G. Redescending M-estimators / G. Shevlyakov, S. Morgenthaler, A. Shurygin //j. Statist. Plann. Inference. - 2008. - Vol. 138, no. 10. - P. 2906-2917. doi: 10.1016/j.JSPI.2007.11.008
  10. Asymptotically stable detection of a weak signal / G. Shevlyakov, V. Shin, S. Lee, K. Kim // Int. J. Adapt. Control Signal Process. - 2014. - Vol. 28. - P. 848-858. doi: 10.1002/acs.2405
  11. Симахин, В.А. Адаптивные оценки параметра сдвига / В.А. Симахин, О.С. Черепанов // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2013. - № 1(22). - С. 131-137.
  12. Windham, M.P. Robustifying model fitting / M.P. Windham //j. R. Statist. Soc. B. - 1995. - Vol. 57, no. 3. - P. 599-609. doi: 10.1111/J.2517-6161.1995.TB02050.X
  13. Eguchi, S. Entropy and divergence associated with power function and the statistical application / S. Eguchi, S. Kato // Entropy. - 2010. - Vol. 12. - P. 262-274. DOI: 10.3390/ e12020262
  14. A comparison of related density-based minimum divergence estimators / M.C. Jones, N.L. Hjort, I.R. Harris, A. Basu // Biometrika. - 2001. - Vol. 88, no. 3. - P. 865-873. doi: 10.1093/biomet/88.3.865
  15. Fujisawa, H. Normalized estimating equation for robust parameter estimation / H. Fujisawa // Electronic Journal of Statistics. - 2013. - Vol. 7. - P. 1587-1606. doi: 10.1214/13-EJS817
  16. Eguchi, S. Minimum divergence methods in statistical machine learning: from an information geometric viewpoint / S. Eguchi, O. Komori. - Springer: Japan KK. - 2020. - 221 p. doi: 10.1007/978-4-431-56922-0
  17. Lisitsin, D.V. Minimum gamma-divergence estimation for non-homogeneous data with application to ordered probit model / D.V. Lisitsin, A.G. Usol'tsev // Applied Methods of Statistical Analysis. Statistical Computation and Simulation: Proc. of the Intern. Workshop. - Novosibirsk: NSTU, 2019. - P. 227-234.
  18. Джейнс, Э.Т. О логическом обосновании методов максимальной энтропии / Э.Т. Джейнс // ТИИЭР. - 1982. - Т. 70, № 9. - С. 33-51.
  19. Michalowicz, J.V. Handbook of differential entropy /j.V. Michalowicz, J.M. Nichols, F. Bucholtz. - Boca Raton: CRC Press, 2014. - 226 p. doi: 10.1201/b15991
  20. Cichocki, A. Families of alpha- beta- and gamma-divergences: flexible and robust measures of similarities / A. Cichocki, S.-I. Amari // Entropy. - 2010. - Vol. 12, no. 6. - P. 1532-1568. doi: 10.3390/e12061532
  21. Farhadi, A. Robust coding for a class of sources: applications in control and reliable communication over limited capacity channels / A. Farhadi, C.D. Charalambous // Systems & Control Letters. - 2008. - Vol. 57. - P. 1005-1012. doi: 10.1016/j.sysconle.2008.06.006
  22. Principe, J.C. Information theoretic learning: Renyi’s entropy and kernel perspectives /j.C. Principe. - Springer: Information Science and Statistics. - 2010. - 515 p. doi: 10.1007/978-1-4419-1570-2
  23. Tsallis, C.Introduction to nonextensive statistical mechanics: approaching a complex world / C. Tsallis. - N.Y.: Springer, 2009. - 382 p. doi: 10.1007/978-0-387-85359-8
  24. Лисицин, Д.В. О свойствах условно оптимальных оценок / Д.В. Лисицин, К.В. Гаврилов // Научный вестник НГТУ. - 2015. - № 1(58). - С. 76-93. doi: 10.17212/1814-1196-2015-1-76-93
  25. Смоляк, С.А. Устойчивые методы оценивания: статистическая обработка неоднородных совокупностей / С.А. Смоляк, Б.П. Титаренко. - М.: Статистика, 1980. - 208 с.
  26. Van der Vaart, A.W. Asymptotic statistics / A.W. Van der Vaart. - Cambridge: Cambridge University Press, 1998. - 443 p. doi: 10.1017/CBO9780511802256
  27. Лисицин, Д.В. Устойчивое оценивание параметров модели по многомерным неоднородным неполным данным / Д.В. Лисицин // Научный вестник НГТУ. - 2013. - № 1(50). - С. 17-30.
  28. Лисицин, Д.В. Максиминная задача оценивания параметров в условиях байесовского точечного засорения / Д.В. Лисицин, К.В. Гаврилов // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2023. - № 1(62). - С. 56-64. doi: 10.17223/19988605/62/6
  29. Cartwright, D.E. The use of directional spectra in studying the output of a wave recorder on a moving ship / D.E. Cartwright // Ocean Wave Spectra: Proc. of Conf. - New Jersey: Prentice Hall, 1963. - P. 203-218.
  30. Зельнер А. Байесовские методы в эконометрии / А. Зельнер. - М.: Статистика, 1980. - 439 с.
  31. Гермейер, Ю.Б. Игры с непротивоположными интересами / Ю.Б. Гермейер. - М.: Наука, 1976. - 328 с.
  32. Glasserman, P. Robust risk measurement and model risk / P. Glasserman, X. Xu // Quantitative Finance. - 2014. - Vol. 14. - P. 29-58. doi: 10.2139/ssrn.2167765
  33. Kerridge, D.F. Inaccuracy and inference / D.F. Kerridge // Journal of Royal Statistical Society, Ser. B. - 1961. - Vol. 23. - P. 184-194. doi: 10.1111/j.2517-6161.1961.tb00404.x
  34. Трухаев, Р.И. Модели принятия решений в условиях неопределенности / Р.И. Трухаев. - М.: Наука, 1981. - 258 с.
  35. Wagner, D. Resilient aggregation in sensor networks / D. Wagner // Proceedings of the 2nd ACM Workshop on Security of Ad hoc and Sensor Networks (SASN’04). - 2004. - P. 78-87. doi: 10.1145/1029102.1029116
  36. Biggio, B. Wild patterns: ten years after the rise of adversarial machine learning / B. Biggio, F. Roli // Pattern Recognition. - 2018. - Vol. 84. - P. 317-331. doi: 10.1016/j.patcog.2018.07.023
  37. Walley, P. Statistical reasoning with imprecise probabilities / P. Walley. - New York: Chapman and Hall, 1991. - 706 p.

Statistics

Views

Abstract - 16

PDF (Russian) - 9

Refbacks

  • There are currently no refbacks.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies