Дронов С.В. Многомерный статистический анализ-1
.pdf15.2. Критерии случайности |
|
|
|
201 |
n 3 1 |
n 3 1 |
n 3 1 |
! |
; |
2 2 d=1 (d + 2)! |
d=1 (d + 1)! |
d=1 (d + 3)! |
||
X |
X |
X |
|
|
чтобы, после стандартных сокращений, получить формулу
N = 2 |
2 |
n |
7 |
1 |
: |
|
|
+ |
|
||||
|
|
6 |
n! |
На практике последним слагаемым обычно пренебрегают в силу его малости. Поэтому справедлива
Теорема 23 Для (чисто) случайного временного ряда из n членов среднее число фаз длины d задается формулой (15.3), а математическое ожидание числа фаз во всем ряду приближенно равно (2n 7)=3.
К сожалению, распределение числа фаз весьма далеко от нормально-
го, и даже не сходится к нему при увеличении n, поэтому на практике применяют следующий критерий: вычисляют по формуле (15.3) число ожидаемых фаз фиксированной длины, затем по наблюдаемым данным подсчитывают фактическое количество таких фаз и сравнивают два получившихся ряда чисел при помощи одного из критериев. Если значи- тельных различий не наблюдается, гипотезу о случайном характере временного ряда следует принять.
Рассмотрим следующий числовой пример, заимствованный из [10, c.476]. В таблице приведены урожайности ячменя в Англии и Уэльсе с 1884 по 1939 годы в центнерах на акр:
|
|
|
|
|
|
Урожайность ячменя |
|
|
|
|
|
||||||
|
ãîä |
|
ö ñ àêðà |
|
ãîä |
|
|
ö ñ àêðà |
|
ãîä |
|
ö ñ àêðà |
|
ãîä |
|
ö ñ àêðà |
|
|
|
|
|
|
|
|
|
|
|||||||||
|
84 |
|
15,2 |
|
92 |
|
|
16,5 |
|
00 |
|
14,9 |
|
08 |
|
15,5 |
|
|
85 |
|
16,9 |
|
93 |
|
|
13,3 |
|
01 |
|
14,5 |
|
09 |
|
17,3 |
|
|
86 |
|
15,3 |
|
94 |
|
|
16,5 |
|
02 |
|
16,6 |
|
10 |
|
15,5 |
|
|
87 |
|
14,9 |
|
95 |
|
|
15,0 |
|
03 |
|
15,1 |
|
11 |
|
15,1 |
|
|
88 |
|
15,7 |
|
96 |
|
|
15,9 |
|
04 |
|
14,6 |
|
12 |
|
14,2 |
|
|
89 |
|
15,1 |
|
97 |
|
|
15,5 |
|
05 |
|
16,0 |
|
13 |
|
15,8 |
|
|
90 |
|
16,7 |
|
98 |
|
|
16,9 |
|
06 |
|
16,8 |
|
14 |
|
15,7 |
|
|
91 |
|
16,3 |
|
99 |
|
|
16,4 |
|
07 |
|
16,8 |
|
15 |
|
14,1 |
|
202 |
|
|
|
|
|
|
|
|
|
Глава 15. Временные ряды |
|||
|
|
ãîä |
|
ö ñ àêðà |
|
ãîä |
|
ö ñ àêðà |
|
ãîä |
|
ö ñ àêðà |
|
|
|
|
|
|
|
|
|||||||
|
|
16 |
|
14,8 |
|
24 |
|
15,4 |
|
32 |
|
16,0 |
|
|
|
17 |
|
14,4 |
|
25 |
|
15,3 |
|
33 |
|
16,8 |
|
|
|
18 |
|
15,6 |
|
26 |
|
16,0 |
|
34 |
|
16,9 |
|
|
|
19 |
|
13,9 |
|
27 |
|
16,4 |
|
35 |
|
16,6 |
|
|
|
20 |
|
14,7 |
|
28 |
|
17,2 |
|
36 |
|
16,2 |
|
|
|
21 |
|
14,3 |
|
29 |
|
17,8 |
|
37 |
|
14,0 |
|
|
|
22 |
|
14,0 |
|
30 |
|
14,4 |
|
38 |
|
18,1 |
|
|
|
23 |
|
14,5 |
|
31 |
|
15,0 |
|
39 |
|
17,5 |
|
После изучения этой таблицы, видим, что наблюдаемое число фаз |
||||||
заданной длины, а также ожидаемое число их, рассчитанное по формуле |
||||||
(15.3) и теореме, равны |
|
|
|
|
|
|
|
Сравнение количеств фаз |
|
|
|||
|
Длина фазы |
1 |
2 |
3 |
Всего |
|
|
Наблюдаемых |
23 |
7 |
4 |
34 |
|
|
Вычисленных |
21,25 |
9,17 |
2,59 |
33,67 |
|
Как видно без дальнейших вычислений, любой разумный критерий сравнения двух выписанных числовых последовательностей укажет на их совпадение. Таким образом, наш временной ряд следует признать чи- сто случайным.
Приведем здесь также и вывод критерия подсчета числа экстремальных точек. Внимательное изучение данных приводит нас к выводу, что
имеется e = 34 экстремальных точки. При этом дважды экстремальная точка соседствует с равным ей значением (1906-7 и 1910-11 годах). Тем
самым, мы принимаем n = 54, уменьшая на два общее число членов наблюдаемого временного ряда. Формула (15.2) дает значение t = 1; 09,
которое меньше по абсолютной вели чине, чем например, t0;95 = 1; 64, что дает основание и при работе с этим критерием принять гипотезу о случайном характере наблюдаемого ряда. Заметим, что если бы мы не
уменьшили число n при расчете, формула (15.2) дала бы t = 1; 50, что все равно меньше любого разумного критического, хотя и несколько хуже значения, получившегося у нас.
206 |
|
|
|
|
Глава 15. |
Временные ряды |
Воспользовавшись этой леммой, запишем |
|
|||||
|
12 |
|
n 1 |
n |
|
|
r = 1 |
|
|
|
Xi |
X |
|
|
|
|
|
|||
n3 |
|
n =1 j=i+1 Hi;j(j i): |
(15.6) |
Признаком случайности ряда будет близость r к нулю, точнее говоря, незначимость его отличия от нуля. Проверку можно осуществлять методами, описанными в разделе 2.3, и, более точно, по формулам в конце подраздела 3.3.1. К сожалению, нужно отметить, что проверка гипотезы случайности только что описанным методом требует гораздо больших вычислений, чем методы, описанные выше. Но этот метод дает и большую информацию в случае, если гипотеза случайности будет отвергнута.
Обратимся снова к примеру с урожайностью ячменя. Ниже приводится таблица рангов урожайностей по годам, упорядоченных в порядке возрастания.
Сумма квадратов разности рангов
корреляции Спирмена r = 0; 41. Как видим, в этом случае коэффициент получился умеренно отрицательным, что дает, в отличие от всех предыдущих методов, основание заподозрить наличие тренда, направленного в сторону уменьшения. Проверка по критерию, описанному в
3.3.1, дает значение критерия Стьюдента T = 3; 30, что дает возможность принять гипотезу о чисто случайном характере временного ряда только на уровне 0,999. При меньших доверительных уровнях гипотеза случайности отвергается, например, двусторонняя критическая точ-
ка распределения Стьюдента с 54 степенями свободы t0;99 = 2; 68. Это означает, что принять гипотезу случайности в этой ситуации мы можем, только если априори верим в нее очень сильно.
|
|
|
Ранги урожайности ячменя |
|
|
|
||||||||||
|
ãîä |
|
ðàíã |
|
ãîä |
|
ðàíã |
|
ãîä |
|
ðàíã |
|
ãîä |
|
ðàíã |
|
|
|
|
|
|
|
|
|
|
||||||||
|
84 |
|
10 |
|
92 |
|
47 |
|
00 |
|
12 |
|
08 |
|
14 |
|
|
85 |
|
36 |
|
93 |
|
18 |
|
01 |
|
48 |
|
09 |
|
25 |
|
|
86 |
|
39 |
|
94 |
|
40 |
|
02 |
|
6 |
|
10 |
|
27 |
|
|
87 |
|
54 |
|
95 |
|
21 |
|
03 |
|
20 |
|
11 |
|
28 |
|
|
88 |
|
32 |
|
96 |
|
37 |
|
04 |
|
1 |
|
12 |
|
35 |
|
|
89 |
|
29 |
|
97 |
|
33 |
|
05 |
|
3 |
|
13 |
|
5 |
|
|
90 |
|
38 |
|
98 |
|
4 |
|
06 |
|
42 |
|
14 |
|
31 |
|
|
91 |
|
34 |
|
99 |
|
17 |
|
07 |
|
41 |
|
15 |
|
30 |
|
15.2. Критерии случайности |
|
|
|
|
|
|
207 |
||||||
|
|
ãîä |
|
ðàíã |
|
ãîä |
|
ðàíã |
|
ãîä |
|
ðàíã |
|
|
|
|
|
|
|
|
|||||||
|
|
16 |
|
13 |
|
24 |
|
9 |
|
32 |
|
2 |
|
|
|
17 |
|
22 |
|
25 |
|
11 |
|
33 |
|
15 |
|
|
|
18 |
|
43 |
|
26 |
|
19 |
|
34 |
|
51 |
|
|
|
19 |
|
49 |
|
27 |
|
52 |
|
35 |
|
45 |
|
|
|
20 |
|
53 |
|
28 |
|
7 |
|
36 |
|
26 |
|
|
|
21 |
|
8 |
|
29 |
|
23 |
|
37 |
|
56 |
|
|
|
22 |
|
16 |
|
30 |
|
24 |
|
38 |
|
46 |
|
|
|
23 |
|
44 |
|
31 |
|
50 |
|
39 |
|
55 |
|
15.2.4Коррелограмма
При переходе от чисто случайных временных рядов к рядам, несущим на себе все больший отпечаток зависимости между соседними членами, большое значение имеют так называемые коэффициенты сериальной корреляции. Коэффициентом сериальной корреляции с запаздыванием
k (или с лагом k) называется число
|
|
|
P |
n k |
|
k)Su2 |
|
|||
|
|
|
(n |
|
|
|||||
rk |
= |
|
i=1 (ui u)(ui+k u) |
; |
(15.7) |
|||||
где, конечно же, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 n |
2 |
|
|
1 n |
|
||||
|
|
|
|
|
2 |
|
||||
u = |
|
X |
|
|
|
|
Xi |
|
||
|
|
|
|
|||||||
n i=1 ui; Su = |
n =1(ui u) |
выборочные среднее и дисперсия наблюдаемого ряда.
Последовательность r ; r ; :::r
ного ряда, то же слово употребляют1 2 n 1 называютидля диаграммы,коррелограммойнаглядновременпока--
зывающей зависимость rk îò k. Ясно, что чем больше k (по отношению к n), тем меньшее число слагаемых содержит сумма в числителе (15.7).
Чтобы "уравнять в правах"малые и большие k, предположим, что ряд продолжен циклическим образом, т.е.
un+1 = u1; :::; un+k = uk:
Тогда можно определить
r(c) |
= |
in=1(ui u)(ui+k u) |
: |
|||
k |
|
P |
in=1(ui |
|
u)2 |
|
|
|
P |
|
|
|
208 |
Глава 15. Временные ряды |
Этот коэффициент называют коэффициентом циклической или круговой сериальной корреляции с лагом k. Åñëè k мало по сравнению с n, òî
коэффициенты обычной и круговой сериальной корреляции с лагом k практически совпадают.
15.3Тренд и сезонность
Наличие тренда (в отсутствие сезонных изменений) предполагает, что наблюдаемый временной ряд может быть записан в виде
ut = f(t) + t; t = 1; :::; n;
ãäå f(:) неслучайная функция, определяющая тренд, а ; :::; довательность независимых одинаково распределенных случайных1 n послевели--
чин, на которую можно смотреть как на чисто случайный временной ряд. Тем самым, понятие тренда можно рассматривать, как некую "основную"составляющую, на которую накладываются нерегулярные колебания.
В ряде практических задач вид функции f известен с точностью до параметров, и тогда оценка этих параметров делается при помощи обыч- ных методов регрессионного анализа об одном особо важном частном случае мы будем говорить подробнее чуть ниже. Иногда же и никаких предположений о виде функции уверенно сделать нельзя. В этом случае принято применять гладкое приближение к истинной функции тренда об этом мы поговорим в подпункте "Сглаживание".
15.3.1Полиномиальные тренды
Здесь мы будем предполагать, что тренд является полиномом степени q:
f(t) = a0 + a1t + ::: + aqtq:
Обычно q бывает мало по сравнению с n. Для оценки коэффициентов
aj; j = 0; :::; q можно воспользоваться обычными методами регрессионного анализа (см. главу 6). Однако там же доказано, что оценки коэффициентов получаются лучше, если данные, по которым производится их оценка, предварительно ортогонализованы.
15.3. Тренд и сезонность |
209 |
Перейдем от 1; t; t2; ::::; tq к ортогональным переменным 'j(n; t); |
j = |
0; :::; n. Пусть |
|
'j(n; t) = tj + Cj 1(j; n)tj 1 + ::: + C0(j; n); j = 1; :::; (n 1):
При этом мы дополнительно предположим, что '0(n; t) = 1. Ортогональ-
ность 'j(n; t) всем полиномам с меньшими номерами эквивалентна его ортогональности 1; t; :::; tj 1. Поэтому
n
X 'j(n; t)ti = 0; i = 0; :::; (j 1);
i=1
что можно переписать в виде
j 1 |
n |
n |
(15.8) |
sX |
Cs(j; n) |
ti+s = ti+j; i = 0; :::; (j 1): |
|
X |
X |
|
|
=0 |
t=1 |
t=1 |
|
Формулы (15.8) представляют собой систему уравнений для нахождения Cs(j; n), которая всегда однозначно разрешима. Например, для нахожде-
íèÿ C0(1; n) положим в (15.8) i = 0; j = 1:
nn
XX
C0(1; n) 1 = t;
t=1 t=1
откуда n + 1
C0(1; n) = 2 :
Аналогично, полагая j = 2 и рассматривая i = 0; 1, получаем систему
(C0(2; n) |
|
n |
t + C1(2; n) |
|
n |
t2 |
= |
|
|
n |
t2; |
C0(2; n) |
|
tn=1 |
1 + C1(2; n) |
|
tn=1 t = |
|
tn=1 t2; |
||||
|
Pt=1 |
|
Pt=1 |
|
|
|
P t=1 |
|
|||
|
P |
|
|
P |
|
|
|
P |
|
|
из которой находятся значения C0(2; n); C1 |
(2; n). |
|
|||
Вычисляя эти коэффициенты, можно последовательно выписывать |
|||||
ортогональные полиномы |
|
|
|
|
|
'0(n; t) = 1; |
|
|
|
|
|
'1(n; t) = t |
n + 1 |
; |
|
||
|
|
|
|
||
|
2 |
|
|||
'2(n; t) = t2 (n + 1)t + |
n2 |
+ 3n + 2 |
; |
||
|
|
6 |
210 |
Глава 15. Временные ряды |
и т.д. Здесь полезной бывает таблица сумм степеней натуральных чисел, которая приведена ниже.
Запишем тренд через ортогональные полиномы
q
X
f(t) = s's(n; t):
s=0
Все задействованные в наших выкладках коэффициенты связаны формулой
q
X
aj = j + Cj(s; n) s; j = 0; :::; q:
s=j+1
Согласно (6.9) в условиях ортогональности исходных данных, метод наименьших квадратов дает оценки для s
= |
|
tn=1 ut's(n; t) |
; s = 0; :::; q; |
|
P |
s2 |
|
||
s |
|
|
|
а несмещенной оценкой для дисперсии чисто случайной составляющей (остаточной дисперсии) будет
|
1 |
|
n |
q |
2 |
2 = |
|
|
ut 0 i 'i(n; t)! : |
||
|
|
|
|||
n q 1 |
t=1 |
||||
|
|
=1 |
|
||
|
X |
Xi |
|
Здесь использовано обозначение
n
2j = X '2j (n; t):
t=1
Осталось только добавить, что формулы для ортогональных полиномов нетрудно найти в специальной литературе, даже не занимаясь специально решением системы (15.8). См., например, [6, c. 376 и далее].
(Следует иметь ввиду, что в упомянутой книге значения t первоначаль-
но центрируются числом (n + 1)=2). Заметим, наконец, что, поскольку постоянные множители не влияют на условие ортогональности, ортогональные полиномы для удобства вычислений (например, чтобы добиться целых, а не дробных коэффициентов), можно умножать на произвольные числа, каждый на свое.