Нечисловая статистика: Одношаговые оценки

Орлов А.И.
Нечисловая статистика
М.: МЗ-Пресс, 2004.

Глава 2. Статистические методы в пространствах произвольной природы

2.4. Одношаговые оценки

В прикладной статистике используются разнообразные параметрические модели. Термин «параметрический» означает, то вероятностно-статистическая модель полностью описывается конечномерным вектором фиксированной размерности. Причем эта размерность не зависит от объема выборки.

Рассмотрим выборку x₁, x₂,…, x_n из распределения с плотностью f(x;θ₀), где f(x;θ₀)- элемент параметрического семейства плотностей распределения вероятностей {f(x;θ), θєΘ}. Здесь Θ – заранее известное k-мерное пространство параметров, являющееся подмножеством евклидова пространства R^k, а конкретное значение параметра θ₀ статистику неизвестно. Обычно в прикладной статистике применяются параметрические семейства с k = 1,2,3 (см. главу 1.2). В статистике нечисловых данных вместо плотности часто рассматриваются вероятности попадания в точки. Напомним, что в параметрических задачах оценивания принимают вероятностную модель, согласно которой результаты наблюдений x₁, x₂,…, x_n рассматривают как реализации n независимых случайных величин (векторов, элементов произвольных пространств).

Задача оценивания состоит в том, чтобы оценить неизвестное статистику значение параметра θ₀ наилучшим (в каком-либо смысле) образом.

Выбор «наилучших» в каком-либо смысле оценок в определенной параметрической модели прикладной статистики – научно-исследовательская работа, растянутая во времени. Выделим два этапа. Этап асимптотики: оценки строятся и сравниваются по их свойствам при безграничном росте объема выборки. На этом этапе рассматривают такие характеристики оценок, как состоятельность, асимптотическая эффективность и др. Этап конечных объемов выборки: оценки сравниваются, скажем, при n = 10. Ясно, что исследование начинается с этапа асимптотики: чтобы сравнивать оценки, надо сначала их построить и быть уверенными, что они не являются абсурдными (такую уверенность дает доказательство состоятельности).

С какой оценки начинать? Одним из наиболее известных и простых в употреблении методов является метод моментов. Название связано с тем, что этот метод опирается на использование выборочных моментов. Они приравниваются теоретическим моментам, выраженным в виде гладких функций от параметров. Решением этой системы уравнений является вектор оценок метода моментов, координаты которого являются функциями от выборочных моментов. Обычно оценки метода моментов легко вычисляются. Однако они, как правило, не являются наилучшими. Обычно существуют другие оценки, дисперсия которых при любых значениях параметров меньше, чем для оценок метода моментов. Таковы одношаговые оценки и оценки максимального правдоподобия. Рассмотрим их.

Оценки максимального правдоподобия. В работах, предназначенных для первоначального знакомства с математической статистикой, обычно рассматривают оценки максимального правдоподобия (сокращенно ОМП):

(1)

Таким образом, сначала строится плотность распределения вероятностей, соответствующая выборке. Поскольку элементы выборки независимы, то эта плотность представляется в виде произведения плотностей для отдельных элементов выборки. Совместная плотность рассматривается в точке, соответствующей наблюденным значениям. Это выражение как функция от параметра (при заданных элементах выборки) называется функцией правдоподобия. Затем тем или иным способом ищется значение параметра, при котором значение совместной плотности максимально. Это и есть оценка максимального правдоподобия.

Хорошо известно, что оценки максимального правдоподобия входят в класс наилучших асимптотически нормальных оценок (определение дано ниже). Однако при конечных объемах выборки в ряде задач ОМП недопустимы, т.к. они хуже ( дисперсия и средний квадрат ошибки больше), чем другие оценки, в частности, несмещенные [10]. Именно поэтому в ГОСТ 11.010-81 для оценивания параметров отрицательного биномиального распределения используются несмещенные оценки, а не ОМП [11]. Из сказанного следует, что априорно предпочитать ОМП другим видам оценок можно – если можно – лишь на этапе изучения асимптотического поведения оценок.

В отдельных случаях ОМП находятся явно, в виде конкретных формул, пригодных для вычисления.

Пример 1. Найдем ОМП для выборки из нормального распределения, каждый элемент которой имеет плотность

Таким образом, надо оценить двумерный параметр (m, σ²).

Произведение плотностей вероятностей для элементов выборки, т.е. функция правдоподобия, имеет вид

(2)

Требуется решить задачу оптимизации

Как и во многих иных случаях, задача оптимизации проще решается, если прологарифмировать функцию правдоподобия, т.е. перейти к функции

называемой логарифмической функцией правдоподобия. Для выборки из нормального распределения

(3)

Необходимым условием максимума является равенство 0 частных производных от логарифмической функции правдоподобия по параметрам, т.е.

(4)

Система (4) называется системой уравнений максимального правдоподобия. В общем случае число уравнений равно числу неизвестных параметров, а каждое из уравнений выписывается путем приравнивания 0 частной производной логарифмической функции правдоподобия по тому или иному параметру.

При дифференцировании по m первые два слагаемых в правой части формулы (3) обращаются в 0, а последнее слагаемое дает уравнение

Следовательно, оценкой m* максимального правдоподобия параметра m является выборочное среднее арифметическое,

Для нахождения оценки дисперсии необходимо решить уравнение

Легко видеть, что

Следовательно, оценкой (σ²)* максимального правдоподобия для дисперсии σ² с учетом найденной ранее оценки для параметра m является выборочная дисперсия,

Итак, система уравнений максимального правдоподобия решена аналитически, ОМП для математического ожидания и дисперсии нормального распределения – это выборочное среднее арифметическое и выборочная дисперсия. Отметим, что последняя оценка является смещенной.

Отметим, что в условиях примера 1 оценки метода максимального правдоподобия совпадают с оценками метода моментов. Причем вид оценок метода моментов очевиден и не требует проведения каких-либо рассуждений.

В большинстве случаев аналитических решений не существует, для нахождения ОМП необходимо применять численные методы. Так обстоит дело, например, с выборками из гамма-распределения или распределения Вейбулла-Гнеденко. Во многих работах по нечисловой статистике каким-либо итерационным методом решают систему уравнений максимального правдоподобия ([12] и др.) или впрямую максимизируют функцию правдоподобия типа (8) (см. [13] и др.).

Однако применение численных методов порождает многочисленные проблемы. Сходимость итерационных методов требует обоснования. В ряде примеров функция правдоподобия имеет много локальных максимумов, а потому естественные итерационные процедуры не сходятся [14]. Для данных ВНИИ железнодорожного транспорта по усталостным испытаниям стальным образцов уравнение максимального правдоподобия имеет 11 корней [15]. Какой из одиннадцати использовать в качестве оценки параметра?

Как следствие осознания указанных трудностей, стали появляться работы по доказательству сходимости алгоритмов расчета ОМП для конкретных вероятностных моделей и конкретных алгоритмов. Примером является статья [16], посвященная одному из разделов нечисловой статистики.

Однако теоретическое доказательство сходимости итерационного алгоритма – это еще не всё. Возникает вопрос об обоснованном выборе момента прекращения вычислений в связи с достижением требуемой точности. В большинстве случаев он не решен.

Но и это не все. Точность вычислений необходимо увязывать с объемом выборки – чем он больше, тем точнее надо находить оценки параметров, в противном случае нельзя говорить о состоятельности метода оценивания. Более того, при увеличении объема выборки необходимо увеличивать и количество используемых в компьютере разрядов, например, переходить от одинарной точности расчетов к двойной, – опять-таки ради достижения состоятельности оценок.

Таким образом, при отсутствии явных формул для оценок максимального правдоподобия нахождение ОМП натыкается на ряд проблем, так сказать, вычислительного характера. Специалисты по математической статистике обычно позволяют себе игнорировать все эти проблемы, рассуждая об ОМП в теоретическом плане. Однако прикладная статистика не может их игнорировать. Отмеченные проблемы ставят под вопрос целесообразность практического использования ОМП.

Нет необходимости абсолютизировать ОМП. Кроме них, существуют другие виды оценок, обладающих хорошими статистическими свойствами. Примером являются одношаговые оценки (ОШ-оценки).

В прикладной статистике разработано много видов оценок. Упомянем квантильные оценки. Они основаны на идее, аналогичной методу моментов, но только вместо выборочных и теоретических моментов приравниваются выборочные и теоретические квантили. Другая группа оценок базируется на идее минимизации расстояния (показателя различия) между эмпирическими данными и элементом параметрического семейства. В простейшем случае минимизируется евклидово расстояние между эмпирическими и теоретическими гистограммами, а точнее, векторами, составленными из высот столбиков гистограмм.

Одношаговые оценки. Одношаговые оценки (ОШ-оценки, ОШО) имеют столь же хорошие асимптотические свойства, что и оценки максимального правдоподобия, при тех же условиях регулярности, что и ОМП. Грубо говоря, они представляют собой результат первой итерации при решении системы уравнений максимального правдоподобия по методу Ньютона-Ватсона. Одношаговые оценки выписываются в виде явных формул, а потому требуют существенно меньше машинного времени, а также могут применяться при ручном счете (на калькуляторах). Снимаются вопросы о сходимости алгоритмов, о выборе момента прекращения вычислений, о влиянии округлений при вычислениях на окончательный результат. ОШ-оценки были использованы нами при разработке ГОСТ 11.011-83 [17] вместо ОМП.

Как и раньше, рассмотрим выборку x₁, x₂,…, x_n из распределения с плотностью f(x;θ₀), где f(x;θ₀)- элемент параметрического семейства плотностей распределения вероятностей {f(x;θ), θєΘ}. Здесь Θ – известное статистику k-мерное пространство параметров, являющееся подмножеством евклидова пространства R^k, а конкретное значение параметра θ₀ неизвестно. Его и будем оценивать.

Обозначим θ =(θ¹, θ²,…, θ^k). Рассмотрим вектор-столбец частных производных логарифма плотности вероятности

и матрицу частных производных второго порядка для той же функции

Положим

Пусть матрица информации Фишера I(θ₀) = M[-b_n(θ₀)] положительно определена.

Определение 1 [14, с.269]. Оценку θ(n) параметра θ₀ называют наилучшей асимптотически нормальной оценкой (сокращенно НАН-оценкой), если распределение случайного вектора сходится при n → ∞ к нормальному распределению с нулевым математическим ожиданием и ковариационной матрицей I^-1(θ₀).

Определение 1 корректно: I^-1(θ₀) является нижней асимптотической границей для ковариационной матрицы случайного вектора , где θ*(n) – произвольная оценка. ОМП являются НАН-оценками (см. [14] и др.). Некоторые другие оценки также являются НАН-оценками, например, байесовские. Сказанное об ОМП и байесовских оценках справедливо при некоторых внутриматематических условиях регулярности (см., например, [18]). В ряде случаев несмещенные оценки являются НАН-оценками, более того, они лучше, чем ОМП (их дисперсия меньше), при конечных объемах выборки [10].

Для анализа реальных данных естественно рекомендовать какую-либо из НАН-оценок. (Это утверждение всегда верно на этапе асимптотики при изучении конкретной задачи прикладной статистики. Теоретически можно предположить, что при тщательном изучении для конкретных конечных объемов выборки наилучшей окажется какая-либо оценка, не являющаяся НАН-оценкой. Однако такие ситуации нам пока не известны.)

Пусть θ₁(n) и - некоторые оценки θ₀ и I^-1(θ₀) соответственно.

Определение 2. Одношаговой оценкой (ОШ-оценкой, или ОШО) называется оценка

Теорема 1 [19]. Пусть выполнены следующие условия.

(I) Распределение сходится при n → ∞ к нормальному распределению с математическим ожиданием 0 и ковариационной матрицей I(θ₀) и, кроме того, существует

(II) При некотором ε > 0 и n → ∞

(III) Для любого ε > 0

Тогда ОШ-оценка является НАН-оценкой.

Доказательство. Рассмотрим тождество

В силу условия (II) теоремы

(5)

Из условия (I) теоремы следует, что первое слагаемое в правой части формулы (5) сходится при n → ∞ по распределению к многомерному нормальному закону с математическим ожиданием 0 и ковариационной матрицей I^-1(θ₀). Согласно условию (III)

по вероятности. Кроме того, согласно тому же условию последовательность матриц ограничена по вероятности. Поэтому третье слагаемое в правой части формулы (5) сходится к 0 по вероятности. Для завершения доказательства теоремы осталось показать, что

(6)

по вероятности. Левая часть формулы (6) преобразуется к виду

(7)

где Е – единичная матрица. Поскольку из условия (I) теоремы следует, что для b_n(θ₀) справедлива (многомерная) центральная предельная теорема, то

С учетом условия (III) теоремы заключаем, что

(8)

Из соотношений (7), (8) и условия (III) теоремы вытекает справедливость формулы (6). Теорема доказана.

Прокомментируем условия теоремы. Условия (I) и (II) обычно предполагаются справедливыми при рассмотрении оценок максимального правдоподобия [14]. Эти условия можно выразить в виде требований, наложенных непосредственно на плотность f(x;θ) из параметрического семейства, как это сделано, например, в [18]. Условие (III) теоремы, наложенное на исходные оценки, весьма слабое. Обычно используемые оценки θ₁(n) и являются не n^-1/4-состоятельными, а -состоятельными, т.е. условие (III) заведомо выполняется.

Какие оценки годятся в качестве начальных? В классических областях прикладной статистики в качестве θ₁(n) можно использовать оценки метода моментов, как это сделано в ГОСТ 11.011-83 [17], или, например, квантильные. В качестве в теоретической работе [14] предлагается использовать простейшую оценку

(9)

Для гамма-распределения с неизвестными параметрами формы, масштаба и сдвига ОШ-оценки применены в [17]. При этом оценка (9) оказалась непрактичной, поскольку с точностью до погрешностей измерений и вычислений det(b_n) = 0 для реальных данных о наработке резцов до предельного состояния, приведенных в [17]. Поскольку det(b_n) = 0, то обратная матрица не существует, вычисления по формуле (9) невозможны. Поэтому в [17] в качестве ОШ-оценки была применена непосредственно первая итерация метода Ньютона-Рафсона решения системы уравнений максимального правдоподобия, т.е. была использована оценка

(10)

В формуле (10) непосредственно используется явный вид зависимости матрицы информации Фишера от неизвестных параметров распределения.

В других случаях выбор тех или иных начальных оценок, в частности, выбор между (9) и (10), может определяться, например, простотой вычислений. Можно использовать также устойчивые аналоги [1] перечисленных выше оценок.

Полезно отметить, что еще в 1925 г., т.е. непосредственно при разработке метода максимального правдоподобия, его создатель Р.Фишер считал, что первая итерация по методу Ньютона-Рафсона дает хорошую оценку вектору неизвестных параметров [14, с.298]. Он, однако, рассматривал эту оценку как аппроксимацию ОМП. А.А.Боровков воспринимает ОШ-оценки как способ «приближенного вычисления оценок максимального правдоподобия» [20, с.225] и показывает асимптотическую эквивалентность ОШ-оценок и ОМП (в более сильных предположениях, чем в теореме 1; другими словами, теорема 1 обобщает результаты А.А. Боровкова относительно ОШ-оценок). Мы же полагаем, что ОШ-оценки имеют самостоятельную ценность, причем не меньшую, а в большинстве реальных задач большую, чем ОМП. По нашему мнению, ОМП целесообразно применять (на этапе асимптотики) только тогда, когда они находятся явно. Во всех остальных случаях следует использовать на этом этапе ОШ-оценки (или какие-либо иные, выбранные из дополнительных соображений).

С чем связана популярность оценок максимального правдоподобия? Из всех НАН-оценок они наиболее просто вводятся, ранее других предложены. Поэтому среди математиков сложилась устойчивая традиция рассматривать ОМП в курсах математической статистики. Однако при этом игнорируются вычислительные вопросы, а также отодвигаются в сторону многочисленные иные НАН оценки.

В прикладной статистике – иные приоритеты. На первом месте – ОШ-оценки, все остальные НАН-оценки, в том числе ОМП, рассматриваются в качестве дополнительных возможностей.

В задачах нечисловой статистики вместо оценок метода оценок используют иные начальные оценки, свои для каждого конкретного вида нечисловых данных [12, 13, 16].

Одношаговые оценки для параметров гамма-распределения расписаны в стандарте [11] и статье [21]. Алгоритмическое и программное обеспечение ОШ-оценок для распределения Вейбулла - Гнеденко и гамма-распределения рассмотрено в содержательной монографии [22]. История вопроса освещена в статье [19].

Оглавление