Нечисловая статистика: Линейный регрессионный анализ интервальных данных

Орлов А.И.
Нечисловая статистика
М.: МЗ-Пресс, 2004.

Глава 4. Статистика интервальных данных

4.4. Линейный регрессионный анализ интервальных данных

Перейдем к многомерному статистическому анализу. Сначала с позиций асимптотической математической статистики интервальных данных рассмотрим оценки метода наименьших квадратов (МНК).

Статистическое исследование зависимостей - одна из наиболее важных задач, которые возникают в различных областях науки и техники. Под словами "исследование зависимостей" имеется в виду выявление и описание существующей связи между исследуемыми переменными на основании результатов статистических наблюдений. К методам исследования зависимостей относятся регрессионный анализ, многомерное шкалирование, идентификация параметров динамических объектов, факторный анализ, дисперсионный анализ, корреляционный анализ и др. Однако многие реальные ситуации характеризуются наличием данных интервального типа, причем известны допустимые границы погрешностей (например, из технических паспортов средств измерения).

Если какая-либо группа объектов характеризуется переменными Х₁, Х₂, ,...,Х_m и проведен эксперимент, состоящий из n опытов, где в каждом опыте эти переменные измеряются один раз, то экспериментатор получает набор чисел: Х_1j, Х_2j, ,...,Х_mj(j = 1,…, n).

Однако процесс измерения, какой бы физической природы он ни был, обычно не дает однозначный результат. Реально результатом измерения какой-либо величины Х являются два числа: Х_H— нижняя граница и Х_B — верхняя граница. Причем Х_ИСТ Î [Х_H, Х_B], где Х_ИСТ - истинное значение измеряемой величины. Результат измерения можно записать как X: [Х_H, Х_B]. Интервальное число X может быть представлено другим способом, а именно, X: [Х_m, Δ_x], где Х_H = Х_m - Δ_x, Х_H = Х_m + Δ_x . Здесь Х_m- центр интервала (как правило, не совпадающий с Х_ИСТ), а Δ_x - максимально возможная погрешность измерения.

Метод наименьших квадратов для интервальных данных. Пусть математическая модель задана следующим образом:

у = Q(x,b) + ε,

где х = (х₁ , х₂,..., х_m) - вектор влияющих переменных (факторов), поддающихся измерению; b = (b₁ , b₂ ,... , b_r ) - вектор оцениваемых параметров модели; у - отклик модели (скаляр); Q(x,b)- скалярная функция векторов х и b; наконец, ε - случайная ошибка (невязка, погрешность).

Пусть проведено n опытов, причем в каждом опыте измерены (один раз) значения отклика (у) и вектора факторов (х). Результаты измерений могут быть представлены в следующем виде:

Х = { х_ij ; i =1,n ; j = 1,m }, Y = (y₁ , y₂ ,…, y_n), Е = (ε₁,ε₂,…,ε_n),

где Х - матрица значений измеренного вектора (х) в n опытах; Y - вектор значений измеренного отклика в n опытах; Е - вектор случайных ошибок. Тогда выполняется матричное соотношение:

Y = Q(X,b) + Е ,

где Q(X,b) = (Q(x₁ ,b), Q(x₂ ,b), ..., Q(x_n ,b))^T, причем x₁ , x₂ , ..., x_n - m-мерные вектора, которые составляют матрицу Х = (x₁ , x₂ , ..., x_n)^T.

Введем меру близости d(Y,Q) между векторами Y и Q. В МНК в качестве d(Y,Q) берется квадратичная форма взвешенных квадратов ε_i² невязок ε_i = y_i- Q(x_i ,b), т.е.

d(Y,Q) = [ Y - Q(X,b)]^T W[Y - Q(X,b)],

где W = {w _ij , i, j =1,…, n} - матрица весов, не зависящая от b. Тогда в качестве оценки b можно выбрать такое b*, при котором мера близости d(Y,Q) принимает минимальное значение, т.е.

В общем случае решение этой экстремальной задачи может быть не единственным. Поэтому в дальнейшем будем иметь в виду одно из этих решений. Оно может быть выражено в виде некоторой вектор-функции b* = f(X,Y), где f(X,Y) = (f₁(X,Y), f₂(X,Y),..., f_m(Х.У))^T, причем действительнозначные функции f_i(X,Y) непрерывны и дифференцируемы по (X,Y) Î Z, где Z -область определения функции f(X,Y). Эти свойства функции f(X,Y) дают возможность использовать подходы статистики интервальных данных.

Преимущество метода наименьших квадратов заключается в сравнительной простоте и универсальности вычислительных процедур. Однако не всегда оценка МНК является состоятельной (при функции Q(X,b), не являющейся линейной по векторному параметру b), что ограничивает его применение на практике.

Важным частным случаем является линейный МНК, когда Q(x,b) есть линейная функция от b:

у = b_o x_o+ b₁ x₁ + ... + b_m x_m + ε = b х^T+ ε ,

где, возможно, x_o = 1, а b_o - свободный член линейной комбинации. Как известно, в этом случае МНК-оценка имеет вид:

Если матрица X^TWX не вырождена, то эта оценка является единственной. Если матрица весов W единичная, то

Пусть выполняются следующие предположения относительно распределения ошибок ε_i:

- ошибки ε_i имеют нулевые математические ожидания М{ε_i} = 0,

- результаты наблюдений имеют одинаковую дисперсию D{ε_i} = σ²,

- ошибки наблюдений некоррелированы, т.е. cov{ε_i, ε_j} = 0.

Тогда, как известно, оценки МНК являются наилучшими линейными оценками, т.е. состоятельными и несмещенными оценками, которые представляют собой линейные функции результатов наблюдений и обладают минимальными дисперсиями среди множества всех линейных несмещенных оценок. Далее именно этот наиболее практически важный частный случай рассмотрим более подробно.

Как и в других постановках асимптотической математической статистики интервальных данных, при использовании МНК измеренные величины отличаются от истинных значений из-за наличия погрешностей измерения. Запишем истинные данные в следующей форме:

где R - индекс, указывающий на то, что значение истинное. Истинные и измеренные данные связаны следующим образом:

где Предположим, что погрешности измерения отвечают граничным условиям

(48)

аналогичным ограничениям (1).

Пусть множество W возможных значений (X_R ,Y_R) входит в Z -область определения функции f(X,Y). Рассмотрим b*^R - оценку МНК, рассчитаннуюпо истинным значениям факторов и отклика, и b* - оценку МНК, найденную по искаженным погрешностями данным. Тогда

Ввести понятие нотны придется несколько иначе, чем это было сделано выше, поскольку оценивается не одномерный параметр, а вектор. Положим:

Будем называть n(1) нижней нотной, а n(2) верхней нотной. Предположим, что при безграничном возрастании числа измерений n, т.е. при n→∞, вектора n(1), n(2) стремятся к постоянным значениям N_i(1), N_i(2) соответственно. Тогда N_i(1) будем называть нижней асимптотической нотной, а N_i(2) - верхней асимптотической нотной.

Рассмотрим доверительное множество B_α=B_α(n,b*^R) для вектора параметров b, т.е. замкнутое связное множество точек в r-мерном евклидовом пространстве такое, что где α — доверительная вероятность, соответствующая B_α(α ≈ 1). Другими словами, B_α(n, b*^R) есть область рассеивания (аналог эллипсоида рассеивания) случайного вектора b*^R с доверительной вероятностью α и числом опытов n.

Из определения верхней и нижней нотн следует, что всегда (т.е. по каждой координате выполнено соответствующее неравенство). В соответствии с определением нижней асимптотической нотны и верхней асимптотической нотны можно считать, что при достаточно большом числе наблюдений n. Этот многомерный интервал описывает r-мерный гиперпараллелепипед P.

Каким-либо образом разобьем P на L гиперпараллелепипедов. Пусть b_k - внутренняя точка k-го гиперпараллелепипеда. Учитывая свойства доверительного множества и устремляя L к бесконечности, можно утверждать, что где

Таким образом, множество C характеризует неопределенность при оценивании вектора параметров b. Его можно назвать доверительным множеством в статистике интервальных данных.

Введем некоторую меру М(X), характеризующую «величину» множества X R^r По определению меры она удовлетворяет условию: если и то M(X)=M(Z)+M(Y). Примерами такой меры являются площадь для r = 2 и объем для r = 3. Тогда:

М( C ) = М( P ) + М( F ), (49)

где F = C \ P. Здесь М(F) характеризует меру статистической неопределенности, в большинстве случаев она убывает при увеличении числа опытов n. В то же время М(P) характеризует меру интервальной (метрологической) неопределенности, и, как правило, М(P) стремится к некоторой постоянной величине при увеличении числа опытов n. Пусть теперь требуется найти то число опытов, при котором статистическая неопределенность составляет δ-ю часть общей неопределенности, т.е.

М( F ) = δ М( C ), (50)

где δ < 1. Тогда, подставив соотношение (50) в равенство (49) и решив уравнение относительно n, получим искомое число опытов. В асимптотической математической статистике интервальных данных оно называется "рациональным объемом выборки". При этом δ есть "степень малости" статистической неопределенности М(P) относительно всей неопределенности. Она выбирается из практических соображений. При использовании "принципа уравнивания погрешностей" согласно [3] имеем δ = 1/2.

Метод наименьших квадратов для линейной модели. Рассмотрим наиболее важный для практики частный случай МНК, когда модель описывается линейным уравнением (см. выше).

Для простоты описания преобразований пронормируем переменные х_ij,у_i. следующим образом:

где

Тогда

В дальнейшем изложении будем считать, что рассматриваемые переменные пронормированы описанным образом, и верхние индексы опустим. Для облегчения демонстрации основных идей примем достаточно естественные предположения.

1. Для рассматриваемых переменных существуют следующие пределы:

2. Количество опытов n таково, что можно пользоваться асимптотическими результатами, полученными при

3. Погрешности измерения удовлетворяют одному из следующих типов ограничений:

Тип 1. Абсолютные погрешности измерения ограничены согласно (48):

Тип 2. Относительные погрешности измерения ограничены:

Тип 3. Ограничения наложены на сумму погрешностей:

(поскольку все переменные отнормированы, т.е. представляют собой относительные величины, то различие в размерностях исходных переменных не влияет на возможность сложения погрешностей).

Перейдем к вычислению нотны оценки МНК. Справедливо равенство:

Воспользуемся следующей теоремой из теории матриц [14].

Теорема. Если функция f(λ) разлагается в степенной ряд в круге сходимости |λ – λ₀| < r, т.е.

то это разложение сохраняет силу, если скалярный аргумент заменить любой матрицей А, характеристические числа которой λ_k, k = 1,…,n, лежат внутри круга сходимости.

Из этой теоремы вытекает, что

Легко убедиться, что:

Это вытекает из последовательности равенств:

Применим приведенную выше теорему из теории матриц, полагая А = Δ Z и принимая, что собственные числа этой матрицы удовлетворяют неравенству |λ_k|<1. Тогда получим:

Подставив последнее соотношение в заключение упомянутой теоремы, получим:

Для дальнейшего анализа понадобится вспомогательное утверждение. Исходя из предположений 1-3, докажем, что:

Доказательство. Справедливо равенство

где - состоятельные и несмещенные оценки дисперсий и коэффициентов ковариации, т.е.

тогда

где

Другими словами, каждый элемент матрицы, обозначенной как о(1/n), есть бесконечно малая величина порядка 1/n. Для рассматриваемого случая cov(x) = E, поэтому

Предположим, что n достаточно велико и можно считать, что собственные числа матрицы о(1/n) меньше единицы по модулю, тогда

что и требовалось доказать.

Подставим доказанное асимптотическое соотношение в формулу для приращения b*, получим

Выразим Δb* относительно приращений ΔХ, ΔY до 2-ro порядка

Перейдем от матричной к скалярной форме, опуская индекс (R):

Будем искать max(|Δb_k*|) по Δx_ij и Δy_i(i=1,…, п ;j=1,…, m). Для этого рассмотрим все три ранее введенных типа ограничений на ошибки измерения.

Тип 1 (абсолютные погрешности измерения ограничены). Тогда:

Тип 2 (относительные погрешности измерения ограничены). Аналогично получим:

Тип З (ограничения наложены на сумму погрешностей). Предположим, что |Δb_k*| достигает максимального значения при таких значениях погрешностей Δx_ij и Δy_i, которые мы обозначим как:

тогда:

Ввиду линейности последнего выражения и выполнения ограничения типа 3:

Для простоты записей выкладок сделаем следующие замены:

Теперь для достижения поставленной цели можно сформулировать следующую задачу, которая разделяется на m типовых задач оптимизации:

при ограничениях

Перепишем минимизируемые функции в следующем виде:

Очевидно, что f_i^k > 0.

Легко видеть, что

Следовательно, необходимо решить nm задач

при ограничениях "типа равенства":

Сформулирована типовая задача поиска экстремума функции. Она легко решается. Поскольку

то максимальное отклонение МНК-оценки k-ого параметра равно

Кроме рассмотренных выше трех видов ограничений на погрешности могут представлять интерес и другие, но для демонстрации типовых результатов ограничимся только этими тремя видами.

Оценивание линейной регрессионной связи. В качестве примера рассмотрим оценивание линейной регрессионной связи случайных величин у и х₁ , х₂..., х_mс нулевыми математическими ожиданиями. Пусть эта связь описывается соотношением:

где b₁ , b₂ ,..., b_m - постоянные, а случайная величина е некоррелирована с х₁ , х₂..., х_m.Допустим, необходимо оценить неизвестные параметры b₁ , b₂ ,..., b_m по серии независимых испытаний:

Здесь при каждом i = 1,2,…,n имеем новую независимую реализацию рассматриваемых случайных величин. В этой частной схеме оценки наименьших квадратов b₁^*^R, b₂^*^R,…, b_m^*^R параметров b₁, b₂ ,..., b_m являются, как известно, состоятельными [45].

Пусть величины х₁ , х₂..., х_m в дополнение к попарной независимости имеют единичные дисперсии. Тогда из закона больших чисел [45] следует существование следующих пределов (ср. предположение 1 выше):

где σ - среднее квадратическое отклонение случайной величины е.

Пусть измерения производятся с погрешностями, удовлетворяющими ограничениям типа 1, тогда максимальное приращение величины |Δb*_k|, как показано выше, равно:

Перейдем к предельному случаю и выпишем выражение для нотны:

В качестве примера рассмотрим случай m = 2. Тогда

Приведенное выше выражение для максимального приращения метрологической погрешности не может быть использовано в случае m = 1. Для m = 1 выведем выражение для нотны, исходя из соотношения:

Подставив m = 1, получим:

Следовательно, нотна выглядит так:

N_f=M{|2xb* – y|}Δx+M{|x|}Δy .

Для нахождения рационального объема выборки необходимо сделать следующее.

Этап 1. Выразить зависимость размеров и меры области рассеивания B_α(n,b) от числа опытов n (см. выше).

Этап 2. Ввести меру неопределенности и записать соотношение между статистической и интервальной неопределенностями.

Этап 3. По результатам этапов 1 и 2 получить выражение для рационального объема выборки.

Для выполнения этапа 1 определим область рассеивания следующим образом. Пусть доверительным множеством B_α(n,b) является m-мерный куб со сторонами длиною 2K, для которого

Исследуем случайный вектор b* и

Как известно, если элементы матрицы А = {а_ij} -случайные, т.е. А – случайная матрица, то ее математическим ожиданием является матрица, составленная из математических ожиданий ее элементов, т.е. М{А} = {М{а_ij}}.

Утверждение 1. Пусть А = {а_ij} и В = {b_ij} - случайные матрицы порядка (m х n) и (n х r) соответственно, причем любая пара их элементов (а_ij, b_kl) состоит из независимых случайных величин. Тогда математическое ожидание произведения матриц равно произведению математических ожиданий сомножителей, т.е. M{AB} = M{A} M{B}.

Доказательство. На основании определения математического ожидания матрицы заключаем, что

но так как случайные величины а_ik, b_kj независимы, то

что и требовалось доказать.

Утверждение 2. Пусть А = {а_ij} и В = {b_ij} - случайные матрицы порядка (m х n) и (n х r) соответственно. Тогда математическое ожидание суммы матриц равно сумме математических ожиданий слагаемых:, т.е. М{А+В} = М{А} + М{В}.

Доказательство. На основании определения математического ожидания матрицы заключаем, что

M{А+В} = {М{а_ij+b_ij}} = {М{а_ij} + М{b_ij}} =M{A} + M{B},

что и требовалось доказать.

Найдем математическое ожидание и ковариационную матрицу вектора b* с помощью утверждений 1, 2 и выражения для b^*^R , приведенного выше. Имеем

Но так как M{ e } = 0, то M {b^*^R} = b . Это означает что оценка МНК является несмещенной.

Найдем ковариационную матрицу:

Как выяснено ранее, для достаточно большого количества опытов n выполняется приближенное равенство

(51)

тогда

Осталось определить вид распределения вектора b^*R . Из выражения для b^*^R, приведенного выше, и асимптотического соотношения (51) следует, что

Можно утверждать, что вектор b^*R имеет асимптотически нормальное распределение, т.е.

Тогда совместная функция плотности распределения вероятностей случайных величин b^*R₁, b^*R₂,…, b^*R_m будет иметь в асимптотике вид:

где

Тогда справедливы соотношения

Подставим в формулу (52), получим

где

Вычислим асимптотическую вероятность попадания описывающего реальность вектора параметров b в m-мерный куб с длиной стороны, равной 2k, и с центром b^*^R.

Сделаем замену

Тогда

где Т = (n/2)^1/2(k/σ), а Ф₀(Т )- интеграл Лапласа,

где - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Из последнего соотношения получаем

Т = Ф₀^-1 (P^1/m),

где Ф^-1(Р) - обратная функция Лапласа. Отсюда следует, что

k = σ (2/n)^1/2 Ф₀^-1 (Р^1/m). (53)

Напомним, что доверительная область B_α (n,b) - это m-мерный куб, длина стороны которого равна К, т.е.

P( b ÎB_α (n,b))= P (-K <β₁<K, -K <β₂<K,…, -K <β_m<K) = α.

Подставляя P = α в формулу (53), получим

К = k = σ (2/n)^1/2 Ф₀^-1(α^1/m). (54)

Соотношение (54) выражает зависимость размеров доверительной области (т.е. длины ребра куба К) от числа опытов n, среднего квадратического отклонения σ ошибки е и доверительной вероятности α. Это соотношение понадобится для определения рационального объема выборки.

Переходим к этапу 2. Необходимо ввести меру разброса (неопределенности) и установить соотношение между статистической и интервальной (метрологической) неопределенностями с соответствии с ранее сформулированным общим подходом.

Пусть A - некоторое измеримое множество точек в m-мерном евклидовом пространстве, характеризующее неопределенность задания вектора а Î A . Тогда необходимо ввести некую меру М(А), измеряющую степень неопределенности. Такой мерой может служить m-мерный объем V(A) множества А (т.е. его мера Лебега или Жордана), М(А) = V(A).

Пусть P - m-мерный параллелепипед, характеризующий интервальную неопределенность. Длины его сторон равны значениям нотн 2N₁, 2N₂,…, 2N_m, а центр а (точка пересечений диагоналей параллелепипеда) находится в точке b^*^R. Пусть C - измеримое множество точек, характеризующее общую неопределенность. В рассматриваемом случае это m-мерный параллелепипед, длины сторон которого равны 2(N₁+ K), 2(N₂+ K),…, 2(N_m+ K), а центр находится в точке b^*^R . Тогда

M(P)= V(P) = 2^m N₁N₂… N_m, (55)

M(C) = V(C) = 2^m (N₁+ K)(N₂+ K)…(N_m+ K). (56)

Справедливо соотношение (49), согласно которому М(C) = М(P) + М(F), где множество F = C\P характеризует статистическую неопределенность.

На этапе 3 получаем по результатам этапов 1 и 2 выражение для рационального объема выборки. Найдем то число опытов, при котором статистическая неопределенность составит δ 100% от общей неопределенности, т.е. согласно правилу (50)

M(F) = М(C) - М(P) = δ M(C) (57)

где 0 < < 1. Подставив (55) и (56) в (57), получим

Следовательно,

Преобразуем эту формулу:

откуда

Если статистическая погрешность мала относительно метрологической, т.е. величины K/Ni малы, то

При m = 1 эта формула является точной. Из нее следует, что для дальнейших расчетов можно использовать соотношение

Отсюда нетрудно найти К:

Подставив в формулу (58) зависимость K = K(n), полученную в формуле (54), находим приближенное (асимптотическое) выражение для рационального объема выборки:

При m = 1 эта формула также справедлива, более того, является точной.

Переход от произведения к сумме является обоснованным при достаточно малом , т.е. при достаточно малой статистической неопределенности по сравнению с метрологической. В общем случае можно находить К и затем рациональный объем выборки тем или иным численным методом.

Пример 1. Представляет интерес определение n_рац для случая, когда m = 2, поскольку простейшая линейная регрессия с m =2 широко применяется. В этом случае базовое соотношение имеет вид

(1 + К/N₁)(1 + К/N₂) = 1/(1 - ).

Решая это уравнение относительно К, получаем

К= 0.5{ -(N₁ + N₂) + [(N₁ + N₂)² + 4 N₁N₂ (/(1 - )]^1/2}.

Далее, подставив в формулу (54), получим уравнение для рационального объема выборки в случае m = 2:

σ(2/n)^1/2Ф^-1(α^1/2)= 0.5{-(N₁+N₂)+[(N₁+N₂)²+4 N₁N₂(/(1-)]^1/2}.

Следовательно,

При использовании «принципа уравнивания погрешностей» согласно [3] При доверительной вероятности имеем и согласно [42] . Для этих численных значений

Если то Если же то Если первое из этих чисел превышает обычно используемые объемы выборок, то второе находится в «рабочей зоне» регрессионного анализа.

Парная регрессия. Наиболее простой и одновременно наиболее широко применяемый частный случай парной регрессии рассмотрим подробнее. Модель имеет вид

Здесь x_i – значения фактора (независимой переменной), y_i – значения отклика (зависимой переменной), - статистические погрешности, a, b - неизвестные параметры, оцениваемые методом наименьших квадратов. Она переходит в модель (используем альтернативную запись линейной модели)

если положить

Естественно принять, что погрешности факторов описываются матрицей

В рассматриваемой модели интервального метода наименьших квадратов

где X, y – наблюдаемые (т.е. известные статистику) значения фактора и отклика, X_R, y_R– истинные значения переменных, - погрешности измерений переменных. Пусть - оценка метода наименьших квадратов, вычисленная по наблюдаемым значениям переменных, - аналогичная оценка, найденная по истинным значениям. В соответствии с ранее проведенными рассуждениями

(59)

с точностью до бесконечно малых более высокого порядка по и . В формуле (59) использовано обозначение . Вычислим правую часть в (59), выделим главный линейный член и найдем нотну.

Легко видеть, что

(60)

где суммирование проводится от 1 до n. Для упрощения обозначений в дальнейшем до конца настоящего пункта не будем указывать эти пределы суммирования. Из (60) вытекает, что

(61)

Легко подсчитать, что

(62)

Положим

Тогда знаменатель в (61) равен . Из (61) и (62) следует, что

(63)

Здесь и далее опустим индекс i, по которому проводится суммирование. Это не может привести к недоразумению, поскольку всюду суммирование проводится по индексу i в интервале от 1 до n. Из (61) и (63) следует, что

(64)

где

Наконец, вычисляем основной множитель в (59)

(65)

где

Перейдем к вычислению второго члена с в (59). Имеем

(67)

где

Складывая правые части (65) и (67) и умножая на у, получим окончательный вид члена с в (59):

(68)

где

(69)

Для вычисления нотны выделим главный линейный член. Сначала найдем частные производные. Имеем

(70)

Если ограничения имеют вид

то максимально возможное отклонение оценки а* параметра а из-за погрешностей таково:

где производные заданы формулой (70).

Пример 2. Пусть вектор (х,y) имеет двумерное нормальное распределение с нулевыми математическими ожиданиями, единичными дисперсиями и коэффициентом корреляции . Тогда

(71)

При этом

следовательно, максимально возможному изменению параметра b* соответствует сдвиг всех x_i в одну сторону, т.е. наличие систематической ошибки при определении х-ов. В то же время согласно (71) значения в асимптотике выбираются по правилу

Таким образом, максимальному изменению а* соответствуют не те , что максимальному изменению b*. В этом – новое по сравнению с одномерным случаем. В зависимости от вида ограничений на возможные отклонения, в частности, от вида метрики в пространстве параметров, будут «согласовываться» отклонения по отдельным параметрам. Ситуация аналогична той, что возникает в классической математической статистике в связи с оптимальным оцениванием параметров. Если параметр одномерен, то ситуация с оцениванием достаточно прозрачна – есть понятие эффективных оценок, показателем качества оценки является средний квадрат ошибки, а при ее несмещенности – дисперсия. В случае нескольких параметров возникает необходимость соизмерить точность оценивания по разным параметрам. Есть много критериев оптимальности (см., например, [46]), но нет признанных правил выбора среди них.

Вернемся к формуле (59). Интересно, что отклонения вектора параметров, вызванные отклонениями значений факторов и отклика , входят в (59) аддитивно. Хотя

но для отдельных компонент (не векторов!) имеет место равенство.

В случае парной регрессии

(72)

Из формул (68), (69) и (72) следует, что

где F и G определены в (69), а

Итак, продемонстрирована возможность применения основных подходов статистики интервальных данных в регрессионном анализе.

Пример использования интервального регрессионного анализа. Методы статистики интервальных данных наряду с классическими методами оказываются полезными не только в традиционных статистических задачах, но и во многих других областях, в частности, в экономике и управлении промышленными предприятиями [27, 47]. Пример использования статистики интервальных данных в инвестиционном менеджменте подробно описан в [27] (см. также раздел 4.7 ниже). Перспективы применения статистики интервальных данных в контроллинге рассмотрены в [48]. Компьютерный анализ данных и использование статистических методов в информационных системах управления предприятием при решении задач контроллинга рассмотрены в [49]. Рассмотрим практический пример применения интервального регрессионного анализа при анализе и прогнозировании затрат предприятия[1].

Выпуск продукции y зависит от величины суммарных переменных затрат х. Условные исходные данные для предприятия “Омега” приведены в табл. 1. Необходимо построить уравнение регрессии и найти нотну. В данном случае n = 12, k = 2. Зависимость ищется в виде .

Таблица 1.

Исходные данные для предприятия «Омега», тыс. руб.

№ п/п	х	y	№ п/п	х	y
1	15,1	89,0	7	44,3	145,9
2	25,0	104,4	8	46,0	151,8
3	16,8	110,8	9	46,8	153,7
4	30,7	116,1	10	53,4	161,8
5	33,2	127,8	11	56,5	175,8
6	44,2	143,3	12	65,4	193,4

Пусть как для х, так и для y максимально возможная погрешность . Можно доказать [12], что указанное значение допустимо считать малым, поскольку под «малостью» следует понимать малость относительно типовых значений х и y. Построим уравнение регрессии согласно методу наименьших квадратов:

Оценим максимально возможное изменение (приращение) вектора (a*, b*) оценок параметров линейной зависимости методом наименьших квадратов при изменении исходных данных, когда α и малы (см. формулу (59) выше). Для этого найдем нотны - максимально возможные изменения координат этого вектора в предположении и :

N_a_*(x,y) = 0,87; N_b_*(x,y) = 32,98.

Найдем доверительные интервалы для параметров a и b согласно [27, п.5.1] при доверительной вероятности 0,95. Для параметра a (т.е. для переменных затрат на единицу выпуска) нижняя доверительная граница , а верхняя - . Доверительный интервал для параметра a с учетом нотны равен [1,595 - 0,87; 2,233 + 0,87] или [0,73; 3,1]. Ширина «классического» доверительного интервала d₁=a_B(0,95) - a_H(0,95) равна 0,63, что несколько меньше, чем нотна 0,87.

Для параметра b (т.е. для постоянных затрат) нижняя доверительная граница , а верхняя - . Ширина «классического» доверительного интервала для параметра b* равна 9,63, т.е. почти в з раза меньше, чем нотна 32,98. Доверительный интервал для параметра b с учетом нотны равен [58,51 – 32,98; 68,13 + 32,98] или [25,53; 101,12].

Итак, восстановленная зависимость с учетом метрологических и статистических погрешностей имеет вид

Исходя из погрешностей коэффициентов линейной зависимости, можно указать нижнюю и верхнюю доверительные границы для функции

, .

Более точно доверительные границы для значения функции в определенной точке можно указать, если найти нотну и статистическую погрешность не для коэффициентов, а непосредственно для значения функции [27, п.5.1].

Полученные результаты дают возможность оценивать точность прогнозирования с помощью восстановленной зависимости, рассчитывая нижние и верхние границы для значения зависимой переменной. Например, при х=100 нижняя и верхняя границы интервала равны

y_н(100) = (1,914 - 0,87)Ч100 + 63,32 – 32,98 = 134,74;

y_в(100) = (1,914 + 0,87)Ч100 + 63,32 + 32,98 = 374,70.

Некоторые замечания. На основе использования вероятностных моделей регрессионного анализа [27, гл. 5.1] удается построить доверительные границы для восстановленной зависимости. Однако при практическом применении вероятностных моделей не всегда легко обосновать предположения, наложенные на вектор невязок (независимость и одинаковую распределенность его координат). Кроме того, при моделировании экономических явлений и процессов обычно нет оснований использовать нормально распределенные случайные величины [27, гл. 4.1], следовательно, нельзя применять методы регрессионного анализа, основанные на нормальном распределении погрешностей. При этом объем данных обычно таков, что применение асимптотических формул непараметрического регрессионного анализа [27, гл. 5] не вполне оправдано. Поэтому описанный выше подход интервального регрессионного анализа представляется не менее оправданным, чем подход на основе вероятностных моделей. В этом мы согласны с А.П. Вощининым [21]. Представляется необходимым использование интервального регрессионного анализа в различных областях научных и прикладных исследований, прежде всего, в технических, экономических, управленческих разработках.

[1] Пример рассмотрен и расчеты проведены Е.А. Гуськовой.

Оглавление