Методы обработки и планирования эксперимента. Ч.1. Оценка распределений и их параметров (110
.pdfМИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ «ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
Ю.С. Радченко, А.В. Захаров, А.В. Зюльков
МЕТОДЫ ОБРАБОТКИ И ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА
Часть 1 ОЦЕНКА РАСПРЕДЕЛЕНИЙ И ИХ ПАРАМЕТРОВ
Учебно-методическое пособие
Воронеж Издательский дом ВГУ
2016
Утверждено научно-методическим советом физического факультета 11 марта 2016 г., протокол № 4
Рецензент – д-р физ.-мат. наук, доцент Г.К. Усков
Учебно-методическое пособие подготовлено на кафедре радиофизики физического факультета Воронежского государственного университета/
Рекомендовано для студентов бакалавриата 4-го курса и магистрантов 1-го и 2-го годов обучения изучающих курсы «Статистическая радиофизика», «Современные методы обработки и планирования эксперимента», «Цифровое моделирование радиофизических процессов и систем».
Для направлений: 03.03.03 – Радиофизика (бакалавриат) 03.04.03 – Радиофизика (магистратура)
2
|
ОГЛАВЛЕНИЕ |
|
Введение....................................................................................................... |
4 |
|
1. |
Методы оценок числовых характеристик распределений |
|
случайных величин ............................................................................................ |
5 |
|
2. |
Оценки при известном (с точностью до параметров) распределении |
|
выборки.............................................................................................................. |
13 |
|
3. |
Выборочные распределения и их анализ............................................ |
18 |
4. |
Оценки, основанные на порядковых статистиках............................. |
27 |
5. |
Робастные оценки параметров............................................................. |
32 |
Библиографический список..................................................................... |
38 |
3
Введение
Методы обработки результатов статистического эксперимента являются востребованными в самых различных областях: физические исследования, технические испытания, статистическая обработка массивов данных в экономике, медицине и др. В последние десятилетия появились задачи, требующие новых методов и подходов к статистическому анализу.
Во-первых, разрабатываются оптимальные алгоритмы обработки массивов данных, случайных сигналов и полей. Во-вторых, во многих задачах невозможно достоверно задать вероятностные распределения. То есть приходится работать в условиях параметрической и непараметрической априорной неопределенности относительно полученных данных. В-третьих, как правило, наблюдаемые данные «засорены» аномальными ошибками и помехами.
Всвязи с вышеупомянутыми особенностями обработки случайных данных в последнее время предложен ряд новых методов и подходов к статистическому анализу экспериментальных результатов. Сведения об этих методах практически не входят в классический курс математической статистики. Поэтому возникает потребность в доступном изложении новых алгоритмов обработки и анализа данных для бакалавров и магистрантов соответствующих специальностей.
Вданном учебном пособии рассматриваются как классические алгоритмы обработки, так и ряд не очень широко известных приемов статистического анализа. Кроме того, в первой части учебного пособия рассматривается такое перспективное направление, как применение порядковых статистик к обработке статистических рядов. Более полно применение методов непараметрической статистики будет изложено в последующих частях учебного пособия.
4
1. МЕТОДЫ ОЦЕНОК ЧИСЛОВЫХ ХАРАКТЕРИСТИК РАСПРЕДЕЛЕНИЙ СЛУЧАЙНЫХ ВЕЛИЧИН
Общие соотношения
Оценки параметров распределений можно классифицировать следующим образом:
−оценки на основе выборочных характеристик;
−оценки по методу моментов;
−оценки максимального правдоподобия;
−непараметрические оценки;
−робастные оценки.
Оценки на основе выборочных характеристик
Данный метод основан на эмпирической функции распределения Fn (x) и ее сходимости к истинной функции распределения Fξ (x) при n → ∞. Если в результате эксперимента получена выборка {xi} из n независимых реализаций этой случайной величины ξ: {xi} = (x1,...,xn ) , то выборочная функция распределения равна
|
1 |
n |
|
Fn (x) = |
U (x − xi′) , |
(1.1) |
|
|
n i=1 |
|
где {xi′} – вариационный ряд из элементов выборки, U (x) – единичная функция Хевисайда.
1, |
x ≥ 0 |
. |
U (x) = |
x < 0 |
|
0, |
|
Тогда для некоторой функции случайной величины g(ξ ) имеет место сходимость при n → ∞ выборочного среднего g от этой функции к теоре-
тическому среднему Mg |
|
|
|
|
||
параметр |
оценка |
|
|
|
||
Mg = |
|
g(x)dFξ (x) |
g = g(x)dFn (x) = |
1 |
n |
|
|
|
|
g(xi ) |
|||
Например: |
|
|
n i=1 |
|||
mk = xk dFξ (x) → |
1 xik . |
(1.2) |
||||
|
|
|
|
n |
|
|
n i=1
5
1 |
1 |
|
|
|
1 |
1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
Fn(x, z) |
|
|
|
|
Fn(x, z) |
|
|
|
|
|
|
cnorm(x) |
0.5 |
|
|
|
cnorm(x) |
0.5 |
|
|
|
|
|
0 |
0 4 |
|
|
|
0 |
0 |
4 |
2 |
0 |
2 |
4 |
|
2 |
0 |
2 |
4 |
|||||||
|
− 4 |
|
x |
|
4 |
|
− 4 |
|
x |
|
4 |
|
|
|
n = 1000 |
|
Рис. 1.1 |
|
|
|
n = 200 |
|
|
|
|
|
|
|
|
|
|
|
|
|
На рис. 1.1 приведены выборочная функция распределенияFn (x) (1.1) при разных n и теоретическая функция распределения.
Оценка числовых характеристик и параметров нормального распределения по независимым результатам наблюдений
Точечные оценки
Предположим, что случайная величина Xi ~ N (m,σ2X ) наблюдается
непосредственно (без аномальных ошибок, обусловленных «засорением» выборки). Можно показать, что оценки параметров m и σ2X будут определяться следующими выражениями для всех методов:
− оценка математического ожидания (выборочное среднее)
m X 1 n X
= = n i=1 i ;
− оценка дисперсии (выборочная дисперсия):
при условии, что математическое ожидание известно,
2 |
2 |
1 |
n |
2 |
; |
σ X ≡ sX = |
n |
(Xi − m) |
|
||
|
|
i=1 |
|
|
|
|
|
|
|
|
при условии, что математическое ожидание неизвестно
(1.3)
(1.4)
|
|
1 |
|
n |
|
|
1 |
|
|
n |
|
|
n |
|
|
|
|
||
σ2X ≡ SX2 |
= |
|
(Xi − X )2 = |
Xi2 |
− |
X 2. |
(1.5) |
||||||||||||
|
|
|
|
|
|
|
|
||||||||||||
n − 1 |
n − 1 |
n − 1 |
|||||||||||||||||
|
|
i=1 |
|
|
|
|
|
|
|
|
|||||||||
|
|
|
|
|
|
i=1 |
|
|
|
|
|
|
|
|
6
Эти оценки (1.3)−(1.5) являются несмещенными и асимптотически эффективными. Их дисперсии определяются следующим образом:
D{X} = σ2X / n ;
при условии, что математическое ожидание известно,
D{SX2 }= n2 σ4X ≈ n2 SX4 ; (при n >> 1);
при условии, что математическое ожидание не известно,
D{SX2 }= |
2 |
|
σ4X ≈ |
2 |
|
s4X (при n >> 1). |
|
n − 1 |
n − 1 |
||||||
|
|
|
Старшие начальные и центральные выборочные моменты определяются следующими выражениями:
|
1 |
n |
|
1 |
n |
|
|
k |
|
|
xik ; |
(xi − X ) |
; (k = 3, 4, ...), |
||||||||
mk (X ) = |
n |
Mk ( X )= |
n |
|
||||||
|
i=1 |
|
i=1 |
|
|
|||||
|
|
|
|
|
|
которые дают состоятельные и эффективные оценки характеристик гауссовской случайной величины.
Для определения коэффициентов асимметрии и эксцесса можно воспользоваться следующими выражениями:
|
|
|
1 |
n |
|
|
A{X |
}= |
( Xi − m)3; |
||||
|
||||||
|
|
|
n( SX2 )3 i=1 |
|
||
E{X }= |
|
n |
|
) – 3. |
||
1 |
( Xi − m)4 / (SX4 |
|||||
|
|
n |
i=1 |
|
|
|
|
|
|
|
|
Интервальные оценки параметров
Для совместного анализа точности и надежности рассмотренных оценок используют доверительные интервалы, соответствующие заданной до-
верительной вероятности P0 |
: |
|
|
(1.6) |
|
P d1(X ) ≤ θ ≤ d2 (X ) = P0 . |
|||
|
|
|
|
|
Пусть γ (X ) – точечная оценка. Тогда (для симметричного распределе- |
||||
ния γ (X ) ) |
d1(X ) = γ (X ) − |
|
|
|
|
p , |
(1.7) |
||
|
d2 (X ) = γ (X ) + |
p . |
||
|
|
|||
Тогда можно записать (1.6) с учетом (1.7) |
P = P0 . |
1.8) |
||
|
P − |
P ≤ γ (X ) − θ ≤ |
||
|
|
|
|
|
7
Таким образом, зная распределение случайной величины γ (X ) − θ , можно найти P .
Следует отметить, что наилучшее качество интервального оценивания гарантируется только при гауссовском распределении и резко падает при отклонениях от него.
Оценка математического ожидания при известной дисперсии выборки
Оценка математического ожидания, определенная в соответствии с выражением (1.3), является несмещенной и имеет гауссовское распределение
|
|
N (m, |
σ x2 ) . Поэтому, как правило, рассматривается симметричный дове- |
|||||||||||||||
X |
||||||||||||||||||
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
рительный интервал |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
P |
− |
|
|
|
− m ≤ |
|
= P |
|
|
|
|||||
|
|
|
P |
≤ X |
|
|
|
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
P |
|
0 |
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
− m |
|
|
|
|
|
|
|
|
|
|
|
P |
|
|
|
X |
|
|
P |
= P0 . |
(1.9) |
|||||
|
|
|
P |
− |
n ≤ |
|
|
|
|
n ≤ |
|
n |
||||||
|
|
|
σ x |
|
σ x |
|
σ x |
|||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
P[−δ ≤ η ≤ δ ] = P0 |
|
|
|
|
|
|
|
|
|
|
|
При заданной дисперсии σx2 статистика |
η = |
X |
− m |
n N (0,1) имеет |
|
|
|
|
|||
стандартное гауссовское распределение δ = P |
|
|
σx |
||
n / σ x . Откуда: |
1 δ
2π −δ
exp − x2 dx = Φ (δ ) − Φ (−δ ) = P .
2 0
Учитывая, что Φ (−δ ) = 1− Φ (δ ) , получаем
2Φ (δ ) −1 = P или δ = Φ−1 |
1+ P0 |
. |
||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
0 |
|
|
|
|
|
|
2 |
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||
Обозначим λq – квантиль |
|
|
порядка q |
распределения N (0,1). , где |
||||||||||||||||
q = (1+ P0 ) / 2 . Чаще всего берут P0 = 0.9 , следовательно λP = 1.645 |
||||||||||||||||||||
|
|
|
|
− σ |
|
|
λ |
|
|
|
|
/ |
n; |
|
(1.10) |
|||||
d = X |
|
|
|
|
) |
|
|
|
||||||||||||
1 |
|
|
|
|
|
|
x |
|
( |
|
/ 2 |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
1+ p |
|
|
|
|
|
|
||||||
|
|
+ σ |
|
|
λ |
|
|
|
|
/ |
n. |
|
(1.11) |
|||||||
d = X |
|
|
|
|
|
|
|
|||||||||||||
2 |
|
|
|
|
|
|
|
x |
( ) |
/ 2 |
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
1+ p |
|
|
|
|
|
|
|
|||||
Очевидно, что d2 − d1 = 2 P . Тогда из полученных соотношений (1.10) |
||||||||||||||||||||
|
2 |
|
P = |
( |
|
|
) |
/2 |
. |
|
|
|
|
|
(1.12) |
|||||
|
|
|
|
|
λ |
1+ P |
|
|
|
|
|
|
|
|
|
|||||
|
σ x |
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
||||
На рис. 1.2 приведен график коридора v(n) = |
/ σ x |
= |
λ(1+ P)/2 |
. |
||||||||||||||||
|
||||||||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
n |
8
1.645 |
2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
1.5 |
|
|
|
|
|
|
1 |
|
|
|
|
|
v(n) |
0.5 |
|
|
|
|
|
|
|
|
|
|
|
|
− v(n) |
0 |
|
|
|
|
|
0 |
0.5 |
|
|
|
|
|
|
1 |
|
|
|
|
|
|
1.5 |
|
|
|
|
|
− 1.645 |
2 |
0 |
5 |
10 |
15 |
20 |
|
||||||
|
|
1 |
|
n |
|
20 |
|
|
|
|
Рис. 1.2 |
|
|
Как видно из графика на рис. 1.2, уменьшение доверительного интервала с увеличением n замедляется. Так уменьшение доверительного интервала в 10 раз требует увеличения выборки в 100 раз.
Оценка математического ожидания при неизвестной дисперсии выборки
|
|
|
|
1 |
|
n |
|
В таком случае вместо σ x2 берут ее оценку SX2 = |
|
(Xi − X |
)2 . |
||||
|
|
||||||
|
|
|
|
n −1 i=1 |
|||
Если дисперсия неизвестна, статистика ξ = |
X |
− m |
|
n имеет t − распре- |
|||
|
SX |
||||||
|
|
|
|
деление Стьюдента с ν= n − 1 степенями свободы. Границы доверительных интервалов получаются следующие:
|
|
|
|
|
− SX tn−1, 1+P |
/ 2 / |
|
|
||||||||
|
d1` = X |
|
n; |
(1.13) |
||||||||||||
|
|
|
|
|
|
( |
) |
|
|
|
|
|||||
|
|
|
− SX tn−1, |
|
|
|
|
/ 2 / |
n; |
(1.14) |
||||||
|
d2` = X |
1+P |
) |
|||||||||||||
|
|
|
|
|
|
|
|
|
|
( |
|
|
|
|
|
|
Следует |
отметить, что при |
достаточно |
больших n ( n ≥ 60...100 ) |
|||||||||||||
tn−1, q ≈ λq и |
вместо выражений |
(1.13)–(1.14) |
могут |
быть использованы |
||||||||||||
(1.10)–(1.11), в которые вместо истинных значений |
σx подставляются их |
|||||||||||||||
оценки SX . |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Расчет длины выборки n |
|
||||||||||||||
Если задана ширина двустороннего интервала 2 |
p , в котором с веро- |
|||||||||||||||
ятностью P0 должно содержаться истинное значение математического ожи- |
||||||||||||||||
дания m, диапазон отклонений |
|
|
|
− m |
|
, |
то из выражений (1.12), (1.10), |
|||||||||
X |
|
(1.11) можно определить n :
9
− при условии известной дисперсииσ x2 для оценки m
n ≥ (λpσx2 / p )2 = λp (σx2 / p )2 ; |
(1.15) |
− при условии неизвестной дисперсии σ x2 |
|
n ≥ s2X (tn−1, (1+P)/ 2 / p )2 . |
(1.16) |
Расчет допустимой погрешности измерения σ x
Заданы: Пусть задана доверительная вероятность P0 ( P0 = 0.9), объем выборки n , диапазон отклонений X − m . Тогда из (1.12) получаем расчетную формулу
σ x = |
n |
. |
|
||
|
λ |
|
|
q |
Расчет доверительной области
Заданы: Задана доверительная вероятность P0 ( P0 = 0.9), объем выборки n , дисперсия ошибки единичного измерения. Тогда из (1.12) получаем
= |
σ xλ(1+ P)/2 |
. |
|
|
|
n |
|
± . |
|
|
|
|||
В таком случае диапазон нахождения параметра m = X |
||||
Оценка числовых характеристик случайных величин |
||||
по сгруппированным данным |
|
|
||
Пусть исходная выборка X = {Xi} сгруппирована |
|
в M интервалов |
||
длиной h , xj – центр j–го интервала. Соответствующие |
|
частоты (оценки |
вероятностей попадания в i подинтервал){p j} ( j =1,M , M << n).
0.274 |
0.3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
0.25 |
|
|
|
|
|
|
|
|
|
0.2 |
|
|
|
|
|
|
|
p k |
|
0.15 |
|
|
|
|
|
|
|
|
|
0.1 |
|
|
|
|
|
|
|
|
|
0.05 |
|
|
|
|
|
|
|
4 × 10 |
− 3 |
0 |
3 |
2 |
1 |
0 |
1 |
2 |
3 |
|
|
||||||||
|
|
|
|||||||
|
|
|
− |
2.8 |
|
x k |
|
|
2.8 |
|
|
|
|
|
|
Рис. 1.3 |
|
|
|
|
|
|
|
|
|
10 |
|
|
|