Дронов С.В. Многомерный статистический анализ-1
.pdf6.1. Постановка задачи |
|
|
|
|
|
|
61 |
расположены по столбцам и в векторе |
~ |
= (x1; x2 |
; ::: xn) |
t, â êîòî- |
|||
|
|
|
X |
|
|||
ром размещаются соответствующие значения отклика. Знак t означает |
|||||||
транспонирование, т.е. ~ |
|
|
|
|
|
|
|
Введем обозначенияX на самом деле вектор-столбец. |
|
||||||
~ |
t |
; ~ |
= |
t |
: |
|
|
= ( 1 |
; :::; k) |
( 1; :::; n) |
|
|
Теперь мы можем записать задачу линейной регрессии в матричной фор-
~
ме: по заданным Z; X определить наилучший вектор коэффициентов
регрессии ~ и остаточную дисперсию из соотношения
~ |
t ~ |
+ ~; |
(6.2) |
X |
= Z |
причем cov~ = 2I.
Осталось ввести критерий оптимальности выбираемого набора коэффициентов. В основе традиционно рассматривающегося критерия, немедленно приводящего и к соответствующему методу, лежит геометриче- ское представление, восходящее еще к К.Ф.Гауссу. Представим себе, что
столбцы матрицы Z задают координаты точек в k-мерном пространстве,
тогда уравнение (6.1) (без добавки ) задает в этом пространстве гиперплоскость. Поставим задачу так провести эту гиперплоскость, чтобы
она проходила как можно ближе к точкам, задаваемым матрицей Z. Íà
языке формул, оптимальный ~ |
|
|
|
|
|
|||
|
|
|
ищется из условия |
|
|
|
||
|
|
^ |
^ |
|
~ |
|
|
(6.3) |
|
|
: |
S( ) |
= min S( ); |
|
|
||
|
|
|
|
|
~ |
|
|
|
|
|
|
|
|
|
|
|
|
ãäå |
|
|
|
|
n |
|
k |
|
|
|
|
|
|
|
|
||
~ |
~ |
t ~ |
~ |
t ~ |
Xi |
|
X |
2 |
S( ) |
|
|
|
|
jzj;i) : |
|||
= (X Z ) (X Z ) = (xi |
|
|||||||
|
|
|
|
|
=1 |
|
j=1 |
|
Описанный метод называется методом наименьших квадратов, а ^, îïðå-
деленный (6.3), оценкой коэффициентов по методу наименьших квадратов (ОМНК).
Методы нахождения ОМНК могут быть самыми различными. Напри-
мер, можно методами математического анализа решить для функции k
~
переменных S( ) задачу на минимум. Традиционный метод наименьших квадратов, привлекающий только понятия линейной алгебры, будет рассмотрен в следующем разделе. А сейчас упомянем еще один метод, который получил название метода центра неопределенностей.
62 |
Глава 6. Регрессионный анализ |
Суть его состоит в переходе от пространства наблюдений к пространству коэффициентов. Сначала зафиксируем некоторое число " и рассмо-
трим систему неравенств относительно ~
|
k |
|
" xi |
jX |
|
jzj;i "; i = 1; :::; n: |
(6.4) |
|
|
=1 |
|
Методами линейного программирования определим наименьшее возможное из чисел ", при которых эта система имеет непустое множество
решений, т.е. имеется хотя бы одно ~, удовлетворяющее (6.4). Затем опре-
делим это минимальное непустое множество и его геометрический центр ~ . В литературе встречаются разные способы определения этого центра,
например,в решения (6.4) вписывается эллипсоид и в качестве ~ берет-
ся пересечение его полуосей. Можно также представить себе, что наше множество решений заполнено однородной массой и тем или иным способом определить центр масс. Так или иначе, но найденное ~ объявляется
оценкой коэффициентов регрессии по методу центра неопределенностей.
6.2Нормальное уравнение регрессии
Оказывается, ОМНК, определенная в предыдущем разделе, всегда является решением некоторой системы линейных уравнений, выводом которой мы сейчас и займемся.
|
|
|
|
|
|
~ |
Лемма 4 Для двух произвольных k-мерных векторов ;~ справедливо |
||||||
соотношение |
|
|
|
|
|
|
~ |
|
|
~ |
~ |
~ |
~ |
S( ) = S(~) + 2(Y |
A~) (~ ) + 2(A(~ )) (~ ); |
|||||
ãäå A = ZZ |
t |
~ |
~ |
|
|
|
|
; Y |
= ZX: |
|
|
|
Доказательство. Проделаем следующие несложные выкладки:
~ |
|
|
~ |
t |
~ |
~ |
t ~ |
|
~ |
t |
~) |
~ |
t ~ |
S( ) S(~) = (X |
Z ) (X |
Z ) |
(X |
Z |
(X Z ) |
||||||||
~ |
|
t |
~) |
~ |
t |
~) |
~ |
t |
~) |
~ |
|
t ~ |
|
((X |
Z |
(X Z |
(X Z |
(X Z |
)) = |
|
|||||||
|
t |
|
~ |
~ |
|
t ~ |
~ |
|
t |
|
t ~ |
~): |
|
= Z |
(~ ) (X Z ) (X Z |
~) Z ( |
|
6.2. Поиск ОМНК |
|
|
|
|
|
|
|
|
|
|
63 |
|
Если мы теперь учтем, что |
|
|
|
|
|
|
|
|||||
~ |
t |
~) Z |
t |
~ |
~ |
|
t |
|
|
~ |
|
|
(X Z |
|
(~ ) = (ZX ZZ |
~) (~ ); |
|||||||||
|
|
Z |
t |
~ |
~ |
t ~ |
|
|
|
|
|
|
|
|
|
(~ ) (X Z ) = |
|
|
|
|
|
||||
t |
|
~ |
|
|
~ |
~ |
t |
|
|
|
~ |
|
ZZ |
(~ ) |
(~ ) + (ZX |
ZZ |
~) (~ ); |
|
|||||||
то окончательно получим |
|
|
|
|
|
|
|
|
|
|||
~ |
|
t |
|
|
~ |
~ |
~ |
t |
~) |
~ |
||
S( ) S(~) = ZZ |
(~ ) |
(~ ) + 2(ZX ZZ |
(~ ); |
что и доказывает лемму.
Матрица A, фигурирующая в формулировке леммы, называется матрицей плана.
Лемма 5 Матрица плана симметрична и неотрицательно определена. Она положительно определена, если строки матрицы Z линейно независимы,
Доказательство. Так как A = ZZt, òî At = (Zt)tZt = ZZt = A, что означает симметричность. Возьмем теперь произвольный k-мерный
вектор ~
t. Тогда
~ |
~ |
t~ |
~ |
t~ |
t~ |
0; |
At |
t = ZZ t |
t = Z t |
Z t |
а это означает неотрицательную определенность. Если для некоторого ненулевого вектора ~
t в последнем неравенстве достигается равенство, то
t~
Z t = 0, а значит, строки матрицы Z линейно зависимы с коэффициен-
òàìè t ; :::; t
Уравнение1 k.
~ |
~ |
(6.5) |
A |
= Y |
называется нормальным уравнением регрессии.
Теорема 6 Любое решение нормального уравнения регрессии доставля-
~
ет минимум функции S( ), т.е. является ОМНК. Если матрица плана
обратима, то ^ 1 ~ ~
= A Y несмещенная оценка , причем
^ 2 1
cov = A :
64 |
|
|
|
Глава 6. |
Регрессионный анализ |
|
Доказательство. Пусть ^ |
|
|
|
|
|
|
|
решение уравнения (6.5). Тогда в си- |
|||||
|
|
|
|
|
|
~ |
лу леммы 4 и неотрицательной определенности A для произвольного |
||||||
выполнено |
|
|
|
|
|
|
~ |
^ |
^ |
~ |
^ |
~ |
^ |
S( ) = S( ) + A( |
) ( |
) |
S( ): |
|||
Тем самым доказано, что ^ |
|
|
|
|
|
|
|
ОМНК. Нам известно, что |
|||||
|
~ |
t |
~ |
+ ~; |
|
|
|
X |
= Z |
|
|||
откуда получаем |
~ |
~ |
|
|
|
|
|
+ Z~: |
|
||||
|
Y |
= A |
|
Сравнивая это соотношение с нормальным уравнением регрессии (6.5),
получаем, что A( ) = Z~; и если матрица плана невырождена, то
^ ~
^~ 1
= A Z~:
Вычислим от обеих частей математическое ожидание и учтем, что M~ =
^ |
~ |
= |
0, т.е. мы доказали несмещенность ОМНК. |
|||||||||
0. Получим M |
|
|||||||||||
Наконец, в силу несмещенности, |
|
|
|
|
|
|
|
|
||||
|
|
^ |
|
^ |
|
~ ^ |
|
~ |
t |
= |
|
|
|
cov |
= M( |
)( |
) |
|
|
||||||
|
|
= M(A 1Z~~tZtA 1) = |
|
|
||||||||
= A 1Z cov~ ZtA 1 |
= 2A 1ZZtA 1 = 2A 1: |
|||||||||||
Теорема доказана. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
^ |
|
|
|
|
|
|
|
|
|
остаточной дисперсии 2 в случае |
k) является несмещенной оценкой |
|||||||||||
Теорема 7 Статистика S( )=(n |
|
|||||||||||
|
|
|
|
|
невырожденной матрицы плана. |
|||||||
Доказательство. Пусть ~ |
|
|
|
|
|
|
|
|
|
|||
|
|
|
теоретический (неизвестный) вектор ко- |
|||||||||
эффициентов регрессии. Тогда |
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
n |
|
|
|
|
|
|
~ |
|
|
|
|
|
jX |
|
2 |
|
|
2 |
MS( ) = M~ ~ = |
|
|
|
|
|
|||||||
M j = n : |
||||||||||||
|
|
|
|
|
|
|
=1 |
|
|
|
|
|
Далее, обозначая ~ |
= |
|
^ |
~ |
|
|
|
|
|
|
|
|
h |
A( |
), расписывая скалярное произведение |
||||||||||
через координаты и используя вид ковариационной матрицы ОМНК из |
||||||||||||
предыдущей теоремы, получаем |
|
|
|
|
|
|
|
|
||||
|
~ |
^ |
~ |
|
2 |
trAA |
1 |
|
|
2 |
: |
|
Mh ( |
) = |
|
|
= k |
6.3. Ограничения |
65 |
Здесь для матрицы B через trB обозначен ее след, т.е. сумма диагональных элементов. Согласно лемме 4,
~ |
^ ~ ^ |
~ |
S( ) = S( ) + h ( |
): |
Вычисляя математические ожидания от обеих частей этого соотношения с учетом ранее сделанных замечаний, получим
n |
2 |
^ |
2 |
; |
|
= MS( ) + k |
что и завершает доказательство теоремы.
6.3Задачи регрессии с ограничениями
Мы рассмотрели случай, когда любое из значений коэффициентов ре- |
||
грессии, полученное в результате наших исследований на оптимальность, |
||
нами принималось как допустимое. Но часто бывает так, что получен- |
||
ное значение ^ |
|
|
нас не может устроить в силу невозможности его реали- |
||
зации или каких-то иных априорных соображений. Таким образом, мы |
||
приходим к задаче регрессии, в которой на коэффициенты наложены |
||
некоторые ограничения. |
|
|
Используя тот же метод, который применяется в задачах линейного |
||
программирования при приведении задачи к каноническому виду (име- |
||
ется ввиду способ замены всех ограничений на равенства при помощи |
||
введения искусственных переменных), можно считать, что ограничения |
||
на коэффициенты имеют вид |
|
|
~ |
~ |
~ |
f1( ) = 0; |
f2( ) = 0; ::: fm( ) = 0; |
|
где каждая из fi; i = 1; :::; m функция k |
переменных, принимающая |
действительные значения.
Теперь наша задача сводится к поиску условного экстремума функ-
~
öèè S( ) в выписанных ограничениях. В такой ситуации математический анализ рекомендует прибегнуть к так называемому методу Лагранжа. Введем функцию Лагранжа
~
L( ; 1; :::; m)
|
m |
~ |
~ |
= S( ) |
ifi( ); |
|
=1 |
|
Xi |
66 Глава 6. Регрессионный анализ
ãäå ; :::;
эту функцию1 m -наискусственноминимум. Найденныевведенныезначенияпеременныекоэффициентови будем исследоватьи будут
решением нашей задачи с ограничениями. |
|
В силу линейности нашей задачи особенно важным частным случаем |
|
является тот, когда ограничения на коэффициенты имеют линейный вид |
|
~ |
(6.6) |
Q = ~a: |
Здесь ~a известный вектор размерности m, Q m k-матрица, имеющая ранг m. Это предположение не нарушает общности, поскольку означает
только, что ни одно из m линейных ограничений не является следствием остальных, и система ограничений непротиворечива.
Теорема 8 ^
- ОМНК парамет-
ров регрессии в задаче без ограничений с теми же выборочными данными и матрица плана не вырождена. Тогда решение задачи с ограниче- ниями имеет вид
^ |
^ |
A |
1 t |
1 |
^ |
~a); |
Q |
= |
Q D |
|
(Q |
ãäå D = QA 1Qt квадратная матрица порядка m.
Доказательство. Прежде всего заметим, что |
|
|||||||||||
|
^ |
|
^ |
|
|
1 |
|
|
^ |
~a) = ~a; |
(6.7) |
|
|
Q Q |
= Q DD |
|
|
(Q |
|
||||||
а так как для ОМНК справедливо (6.5), то |
|
|
||||||||||
|
~ |
|
^ |
|
t |
D |
1 |
|
^ |
|
||
|
Y |
A Q |
= Q |
|
(Q ~a): |
|
||||||
Из (6.7) следует, что |
|
^ |
~ |
|
|
|
|
|
|
~ |
|
|
|
|
|
|
|
|
|
|
|
|
|||
при произвольном ~ |
|
Q( Q ) = ~a Q |
|
|||||||||
|
. Осталось заметить, что в силу леммы 4, |
|||||||||||
~ |
^ |
^ |
~ |
t |
1 |
|
|
|
^ |
|
^ |
~ ^ ~ |
S( ) = S( Q) + 2( Q |
) Q D |
|
(Q |
~a) + A( Q |
) ( Q ): |
|||||||
Åñëè ~ |
|
|
|
|
|
|
|
|
|
|
|
|
удовлетворяет (6.6), то |
|
|
|
|
|
|
|
|
|
|||
|
( ^Q ~) QtD 1(Q ^ ~a) = Q( ^Q ~) D 1(Q ^ ~a) = |
|||||||||||
|
= (~a Q~) D 1(Q ^ ~a) = 0; |
|
||||||||||
а следовательно, |
|
|
|
|
|
|
|
|
|
|
|
|
|
~ |
^ |
|
^ |
|
~ |
|
|
^ |
~ |
^ |
|
|
S( ) = S( Q) + A( Q |
) |
( Q ) S( Q) |
в силу свойств матрицы плана, что и завершает доказательство.
6.4. Матрица плана |
67 |
6.4Оптимальный выбор матрицы плана
В задачах регрессии, а иногда и в других задачах, связанных с изу- |
|||||
чениями данных эксперимента, принято рассматривать две различных |
|||||
ситуации в зависимости от возможности ставить дополнительные экспе- |
|||||
рименты. Если серию экспериментов мы планируем сами, т.е. в состоянии |
|||||
задавать значения факторов в очередном эксперименте по собственному |
|||||
желанию, то говорят, что имеет место ситуация активного эксперимента. |
|||||
Если же такой возможности нет, и мы просто можем записывать, чему |
|||||
равны значения факторов, не в силах вмешаться в их изменение, то экс- |
|||||
перимент называется пассивным. Близким (и в основном, тождествен- |
|||||
ным) к ситуации пассивного эксперимента является случай так называ- |
|||||
емого архивного эксперимента: фактически эксперимент не ставится, а |
|||||
изучаются данные о проводившихся когда-то экспериментах. |
|||||
Если мы имеем дело с активным экспериментом, то уместно поста- |
|||||
вить вопрос о том, какие значения следует придать факторам, чтобы |
|||||
оценки параметров регрессии получились бы возможно более точными. |
|||||
В принципе, постановка такого вопроса не лишена смысла и в случае |
|||||
пассивного эксперимента, просто возможностей выбора значений у нас |
|||||
здесь будет скорее всего меньше, ведь все, что мы в состоянии пред- |
|||||
принять это решить, включаем мы наблюдаемый эксперимент в наши |
|||||
данные или подождем до следующего. Будем всюду в этом разделе рас- |
|||||
сматривать только невырожденные матрицы плана. |
|||||
Итак, задача поставлена. Естественным критерием надежности оце- |
|||||
нок коэффициентов являются дисперсии ОМНК ^ |
|||||
|
|
|
|
|
j; j = 1; :::; k ÷åì |
меньше эти дисперсии, тем лучше оценки. Но, согласно теореме 6, |
|||||
^ |
= |
2 |
(A |
1 |
)j;j; j = 1; :::; k; |
D j |
|
|
а значит, если мы значения всех факторов Zi заменим на hZi; i = 1; :::; k,
то, поскольку матрица A 1 |
= (ZZt) 1 |
заменится на h 2A 1, òî âñå |
|
дисперсии ОМНК уменьшатся в h2 ðàç. |
|
|
|
Это наблюдение приводит к пониманию того, что для корректной |
|||
постановки задачи на минимизацию дисперсий необходимо наложить на |
|||
строки матрицы Z некоторые ограничения. Обычно такие ограничения |
|||
имеют вид |
n |
|
|
jZ(j)j2 = |
|
|
|
zj;i2 = aj2; |
j = 1; :::; k: |
(6.8) |
|
|
Xi |
|
|
|
=1 |
|
|
Здесь Z(j) = (zj;1; :::; zj;n) j-я строка матрицы Z.
68 |
|
Глава 6. Регрессионный анализ |
|
Теорема 9 |
Если имеют место ограничения (6.8), то при любом выборе |
||
матрицы плана для ОМНК справедливы оценки |
|||
|
^ |
2 |
|
|
D j |
aj2 |
; j = 1; :::; k; |
причем равенство во всех этих неравенствах одновременно достигается тогда и только тогда, когда строки матрицы Z ортогональны, т.е.
при произвольных i 6= j скалярное произведение Z(i) Z(j) = 0:
Доказательство. Заметим, что из определения матрицы плана и |
|||||||||||||||||
условий (6.8) |
|
. |
|
|
. |
|
|
|
. |
|
1 |
|
|
|
|
||
|
|
0 |
Z(2) |
Z(1) |
Z(2) |
Z(2) |
::: |
Z(2) |
Z(k) |
|
a2 |
~bt |
|
||||
|
|
B |
Z(1) |
|
Z(1) |
Z(1) |
|
Z(2) |
::: |
Z(1) |
|
Z(k) |
C |
|
|
|
! ; |
|
A = |
|
|
|
|
|
|
|
|
|
|
= |
~b1 |
F |
|||
|
|
B |
|
|
|
|
|
|
|
|
|
|
C |
|
|
|
|
|
|
B |
|
|
|
|
|
|
|
|
|
|
C |
|
|
|
|
|
|
B |
Z(k) |
|
Z(1) |
Z(k) |
|
Z(2) |
::: Z(k) |
|
Z(k) |
C |
|
|
|
|
|
|
|
@ |
|
|
|
|
|
|
|
|
|
|
A |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
ãäå ~t |
= (Z(1) Z(2); :::; Z(1) |
|
|
|
|
~ |
|
|
|
|
|
|
|||||
b |
Z(k)), а значит b вектор-столбец размерно- |
сти k 1, матрица F получена из матрицы плана вычеркиванием первой строки и первого столбца, а следовательно, является положительно определенной симметричной матрицей. Поскольку определитель
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
|
|
0 |
|
= 1; |
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
F 1~b |
|
|
Ik 1 |
|
|
|
|||||||||||||
òî |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
jAj = |
|
|
|
2 |
|
~t |
! |
|
|
|
F 1~b |
|
Ik 1 |
! = |
||||||||||
|
|
|
|
|
|
|
|||||||||||||||||||
|
|
~b1 |
|
F |
|
|
|
||||||||||||||||||
|
|
|
|
|
|
a |
|
|
b |
|
|
|
|
|
|
|
1 |
|
|
|
0 |
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
1~ |
|
~ |
|
|
~t |
|
|
|
|
|
|
|
|
|
|
|||||||
|
|
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
a1 |
|
F |
b |
|
b |
|
b |
|
|
|
|
2 |
|
|
|
1~ ~ |
|||||||
= |
|
|
0 |
|
|
|
|
|
|
F |
|
|
= (a1 |
|
F b b)jF j; |
откуда
Поскольку
2 |
> |
|
F |
1~ ~ |
|||
a1 |
|
|
b b: |
||||
(A 1)1;1 = |
jF j |
|
= |
|
1 |
||
jAj |
a12 F 1~b ~b |
||||||
|
|
|
6.5. Статистический прогноз |
|
|
|
|
|
|
|
|
|
|
69 |
|||
è F 1~b ~b > 0, òî |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
^ |
= |
2 |
(A |
1 |
)1;1 |
|
2 |
2 |
; |
|
||
|
|
D 1 |
|
|
|
|
a1 |
|
||||||
причем равенство достигается в том и только том случае, когда ~ |
= 0, |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
b |
|
т.е. когда строка |
Z(1) ортогональна всем остальным. Итак, теорема дока- |
|||||||||||||
çàíà äëÿ |
|
|||||||||||||
|
j = 1. Для остальных j доказательство полностью аналогично. |
|||||||||||||
Заметим, наконец, что в случае ортогональных строк Z |
|
|||||||||||||
|
|
|
0 a12 |
.::: |
0 |
1 |
|
|
||||||
|
|
A = B |
0. |
|
|
:::.. |
a.2 |
C ; |
|
|
||||
|
|
|
B |
|
|
|
|
k |
C |
|
|
|||
а значит, |
|
|
@ |
|
|
|
|
|
A |
|
|
|||
|
|
|
|
~ |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
^j = |
Z(j) X |
; |
j = 1; :::; k: |
(6.9) |
||||||||
|
|
|
aj2 |
|
|
|
|
|
|
|
|
|
6.5Задача статистического прогноза
Рассмотрим задачу, похожую на задачу регрессии. Отличие этих задач будет состоять в том, что в рассматриваемой ниже задаче статистического прогноза случайность вмешивается в наш эксперимент в более общей
форме - на этапе формирования факторов |
Z1; :::; Zk. |
Предположим, что случайный вектор |
~
Z размерности k доступен для наблюдения, а случайная величина X недоступна. Ставится задача уга-
~
дать значение X ïî Z. Любая функция , заданная на k-мерном пространстве, принимающая действительные значения и такая, что мы бу-
~ ~
дем использовать (Z) вместо X, называется предиктором X ïî Z. Äðó-
~
гими словами, предиктор это оценка X ïî Z.
~
В ситуации, когда X не зависит от Z задача прогноза (оценки) X
ïî ~
Z лишена какого-либо смысла. Обычно считается что с теоретиче- ской точки зрения известно совместное распределение X
условные математические ожидания при фиксированном данными мы располагаем на практике?
Допустим, что в нашем распоряжении имеется достаточно обширный архив сведения о том, какие значения принимали факторы и какие значения предсказываемая величина в предыдущих экспериментах. По этим данным разными методами (например, методом подстановки)
70 Глава 6. Регрессионный анализ
можно оценить любые характеристики совместного распределения: MX; cov(X; Zj), j = 1; :::; k и т.п. В частности, если архив достаточно велик,
можно выбрать из него сведения о разных значениях |
X при фиксиро- |
||||||||||||||||||
ванном наборе значений ~ |
|
|
|
~(0) |
|
|
0 |
|
|
0 |
|
t |
и рассчитать |
||||||
|
|
|
Z = Z |
= (z1 |
; :::; zk) |
|
|
|
|
||||||||||
|
|
|
M (Z~(0)) |
= |
1 |
|
r |
X |
|
|
; |
|
|
|
|||||
|
|
|
r |
|
=1 |
nj |
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
jX |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
~(0) |
в качестве ~ |
ãäå r это число выборочных данных с набором Z |
Z, à |
||||||||||||||||||
вернемсяX соответствующиек теоретическойзначенияточке зрения,предсказываемойто считаем,величинычтофункция.Если мы |
|||||||||||||||||||
nj |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
~ |
(0) |
|
|
|
|
|
~ |
|
|
~(0) |
) |
|
||||
|
M(Z |
|
) = M(X = Z = Z |
|
|||||||||||||||
нам известна при каждом значении Z~(0), à M |
(:) является ее оценкой. |
||||||||||||||||||
Эта функция называется функцией регрессии. |
|
|
|
|
|
||||||||||||||
Говорят, что предиктор оптимален (в смысле среднего квадрати- |
|||||||||||||||||||
ческого), если |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M( |
X |
|
|
Z~ |
2 = min M(X |
|
(Z~))2: |
|
|||||||||||
|
|
( |
|
|
)) |
|
|
|
|
|
|
|
|
Теорема 10 Оптимальный предиктор всегда существует и имеет вид
~ ~
(Z) = M(Z), т.е. получается подстановкой случайного вектора наблюдаемых величин в функцию регрессии.
Как становится ясно из приведенных выше рассуждений, эта теорема |
|||
имеет чисто теоретическое значение, ведь на практике знание функции |
|||
регрессии вещь весьма и весьма нечастая. Задача определения этой |
|||
функции непроста даже для нормальных распределений. С другой сто- |
|||
роны, справедливость утверждения теоремы совершенно очевидна с гео- |
|||
метрической точки зрения см. геометрическую интерпретацию в раз- |
|||
деле 2.5. Поэтому эту теорему мы не будем доказывать. |
|||
Пусть нам заранее известно, что функция регрессии линейна, т.е. на- |
|||
~ |
= ( 1; :::; k) |
t, ÷òî |
|
шлись такие число 0 и вектор |
|
||
~ |
~ |
~ |
|
M(Z) = 0 + |
Z: |
|
Если бы эти число и вектор нам удалось бы определить, то, согласно теореме, оптимальный предиктор имел бы вид