Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

569

.pdf
Скачиваний:
2
Добавлен:
06.12.2022
Размер:
2.09 Mб
Скачать

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат час-

тичные интервалы длиной h, а высоты равны отношению ni . h

Пример. На рис. 22 сверху отображена гистограмма с шагом h = 2, а снизу — с шагом h = 5.

Рис. 22. Гистограммы с различными шагами разбиения интервала

3.2. Оценка параметров

Закон распределения F(x) случайной величины Х, определяющий генеральную совокупность ее значений, характеризуется набором числовых параметров = ( 1, 2, …, n).

Пример.

1. У нормально распределенной случайной величины два параметра распределения (математическое ожидание и стан-

 

 

1

 

x

 

(x )2

 

дартное отклонение): F(x)

 

 

e

 

2 2

N( , ).

 

 

 

 

 

 

 

 

2

 

 

 

2. У показательного распределения один параметр распре-

деления:

0,

x 0

0.

f(x)

( ),

 

e x,

x 0

 

 

 

 

 

31

Параметры обычно неизвестны. Их необходимо оценить на основе анализа выборки V. Часто неизвестен и сам вид функции распределения F(x).

Оценкой параметра называется статистика, реализацию которой принимают за неизвестное истинное значение параметра .

Так как выборка V случайна, то и оценка — случайная величина, которая может принимать какие-то значения

1, 2, , k.Возникает вопрос, какую из этих оценок выбрать.

Рассмотрим некоторые характеристики «надежности» оценки.

1. Оценка называется несмещенной, если ее математическое ожидание равняется значению оцениваемого парамет-

ра: M( ) . Иначе — смещенная.

2.Оценка называется эффективной, если она является несмещенной и имеет при заданном объеме выборки n наименьшую дисперсию.

3.Оценка называется состоятельной, если при неограниченном увеличении числа наблюдений n она сходится по

вероятности к , т.е. lim P 0. 0.

n

3.3.Примеры оценок

1.Среднеарифметическое значение (выборочное среднее) является эффективной, состоятельной оценкой для математического ожидания М(X). Средневыборочное вычисляется по

 

 

 

n

 

 

 

 

n

 

 

 

xini

n

 

 

 

xi

формулам:

 

 

i 1

, n ni

или

 

 

i 1

.

x

x

 

 

 

n

i 1

 

 

 

n

2. Оценка дисперсии характеризует разброс данных относительно среднеарифметического x и вычисляется по форму-

 

n

 

n

 

 

 

 

 

(xi

 

)2

 

(xi

 

)2

 

 

x

x

 

лам: D

i 1

, S2

i 1

 

 

 

. Оценка D (ее так-

B

n

 

n

1

B

32

 

 

 

 

 

 

 

 

 

 

 

же обозначают 2) является смещенной оценкой для генеральной дисперсии, а S2 является несмещенной.

3. В качестве оценки вероятности события используют относительную частоту данного события.

Эти оценки являются точечными, так как определяются одним числом.

3.4. Доверительный интервал

При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра. Поэтому при небольшом объеме выборки следует пользоваться интервальными оценками.

Интервальной называют оценку, которая определяется дву-

мя числами — концами интервала и . Надежностью оценки или доверительной вероятностью на-

зывают вероятность , с которой осуществляется неравенство

, т.е. P( ) (рис. 23).

f( )

 

 

 

Рис. 23. Доверительный интервал, построенный с надежностью

Иными словами, вероятность того, что интервал ( , )

заключает в себя (покрывает) неизвестный параметр , равна . Как видно из рис. 23, с увеличением надежности доверительный интервал должен стать шире, так как увеличивается. Но определяет информативность оценки и, следовательно, информативность оценки станет меньше. С одной стороны, чем меньше надежность , тем доверительный интервал уже и, следовательно, это хорошо, так как увеличилась информативность оценки. Но, с другой стороны, — это надежность и значит, чем выше, тем лучше, так как с большей вероятностью

33

оценим . Получили противоречие. Обычно в статистике ис-

пользуют = 0,95; 0,99; 0,999.

Надежность и уровень значимости (доверительный уровень) связаны формулой = 1 – .

Пример 1. Доверительный интервал для математического ожидания М(X) с надежностью = 1 – вычисляется по

 

 

 

t

S

 

 

 

t

 

S

 

 

 

 

 

 

 

 

 

,n 1

M(X)

 

 

 

 

 

,n 1

 

 

 

 

 

 

формуле

 

2

 

2

 

 

,

где

 

— выбороч-

x

 

 

x

 

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

n 1

 

 

 

 

 

n 1

 

 

 

ное среднее; S — несмещенная оценка среднеквадратическо-

го отклонения; n — объем выборки; t

,n 1

— значение функ-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ции распределения Стьюдента, взятое при уровне значимости

и с n – 1 степенью свободы. 2

Пример 2. Доверительный интервал для вероятности изображен на рис. 24.

p

 

 

1

 

 

p

 

 

p

 

 

p

1

р

Рис. 24. Доверительный интервал для вероятности

В качестве точечной оценки вероятности биномиального закона распределения ( p(nj) Cnnj pnj j (1 pj)n nj ) возьмем ве-

 

nj

 

 

личину p

 

.

Для построения доверительного интервала

n

 

 

 

34

вычислим u

 

 

p(1 p)

, где

u

— значение квантиля

 

 

 

 

1

 

 

n

1

 

 

 

 

2

 

2

 

 

 

 

 

 

 

 

 

1

 

стандартного нормального распределения (M(x) = 0;

 

2

 

 

 

 

 

 

 

 

D(x) = 1). Тогда доверительный интервал для вероятности: p p p .

Пример 3. Доверительный интервал для дисперсии имеет вид (sn2 k (sn2), sn2 + k (sn2)). Коэффициент k определяется из уравнения = 2 (k) – 1; — функция распределения стандартного нормального закона (с нулевым математическим ожиданием и единичной дисперсией); — уровень значимос-

ти (квантиль порядка

1

стандартного нормального зако-

 

2

 

 

 

 

 

 

 

 

 

 

на); среднеквадратичное отклонение (s

2) статистики s 2

вы-

 

 

 

 

 

n

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

n

 

 

 

 

 

 

 

 

 

 

(xi

 

)4 s2

 

 

 

 

 

x

 

 

 

 

 

 

 

числяется по формуле (sn2)

n i 1

 

.

 

 

 

 

 

 

 

 

 

 

n

 

3.5. Статистическая проверка гипотез

Ясно, что никаких точных утверждений о параметрах закона распределения на основе анализа случайной выборки V делать нельзя. Можно лишь высказывать различные предположения о них — гипотезы.

Статистической называют гипотезу о виде неизвестного распределения, или о параметрах неизвестного распределения.

Примеры гипотез:

1)генеральная совокупность распределена по нормальному закону распределения;

2)дисперсии двух генеральных совокупностей равны между собой.

Примечание. Гипотеза — это не вопросительное предложение, это утверждение.

Наряду с выдвинутой гипотезой H0 рассматривают и противоречащую ей гипотезу Н1.

35

Нулевой (основной) называют выдвинутую гипотезу H0. Конкурирующей (альтернативной) называют гипотезу Н1, которая противоречит основной.

Простой называют гипотезу, содержащую только одно предположение.

В зависимости от вида альтернативной гипотезы мы можем говорить о двухсторонней, левосторонней или правосторонней альтернативных гипотезах.

Примеры гипотез:

1)двусторонняя гипотеза: Н0: М(X) = 10; Н1: М(X) 10;

2)правосторонняя гипотеза: Н0: М(X) = 10; Н1: М(X) 10;

3)левосторонняя гипотеза: Н0: М(X) = 10; Н1: М(X) 10. Сложной называют гипотезу, которая состоит из конечного

или бесконечного числа простых гипотез.

Пример. Н0: М(X) 5; D(X) — неизвестна. То есть

М(Х) = 5, М(X) = 6 и т.д.

Выдвинутая гипотеза может быть правильной или неправильной, следовательно, существует необходимость проверять гипотезы с помощью статистических методов (табл. 5).

 

 

Таблица 5

 

Проверка гипотез

 

 

 

 

 

 

Н0

Не верна

Верна

Отвергаем

+

– ошибка первого

 

рода

 

 

Нет оснований отвергнуть

– ошибка второго рода

+

 

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.

Ошибка второго рода состоит в том, что не будет отвергнута неправильная гипотеза.

Вероятность совершить ошибку первого рода называют уровнем значимости и обозначают . Вероятность совершить ошибку второго рода обозначают .

Например, пусть = 0,05. Это означает, что в пяти случаях из ста мы рискуем совершить ошибку первого рода — отвергнуть правильную гипотезу.

Проверка гипотез базируется на выборочных данных. Выборочное пространство можно разделить на две области так,

36

что попадание полученной выборки в одну из частей ведет к принятию одной гипотезы, а в другую — другой. Таким образом, основной гипотезе будет соответствовать одна область, а конкурирующей — другая.

Пример. Рассмотрим правостороннюю гипотезу (рис.25).

Н0: М(Х) = 10; Н1: М(Х) > 10.

Рис. 25. Правосторонняя гипотеза

Критической областью называют совокупность значений критерия, при которой нулевую гипотезу отвергают.

Областью принятия гипотезы (областью допустимых значений) называют совокупность значений критерия, при которых гипотезу не отвергают.

Мощностью критерия называют вероятность попадания критерия в критическую область, при условии, что справедлива конкурирующая гипотеза, т.е. вероятность отвергнуть нулевую гипотезу Н0, если верна конкурирующая гипотеза Н1, равна 1 – .

Примечание. Необходимо выдвигать конкурирующую гипотезу с максимальной мощностью критерия.

Основные принципы проверки статистических гипотез:

1.Если наблюдаемое значение критерия принадлежит критической области, гипотезу отвергают (прямой метод).

2.Если вычисленный уровень значимости меньше теоретического уровня значимости, то гипотезу отвергают (обратный метод).

37

3.6. Проверка простой гипотезы о том, что значение математического ожидания равняется значению b

Для проверки гипотезы о том, что значение математического ожидания равняется конкретному значению (H0: M(Х) = b),

 

 

 

 

 

 

 

 

 

 

 

 

b n

.

вычисляется t-статистика t

x

 

 

 

набл

 

 

 

s

 

 

 

 

Прямой метод проверки гипотезы зависит от вида альтернативной гипотезы. В нашем случае возможны три вида альтернативных гипотез:

1. Двусторонняя гипотеза H1: M(Х) b. Вычисляется зна-

чение критической точки tдвухст.кр( , n – 1). Если |tнабл| > tдвухст.кр, то гипотезу отвергают.

2. Правосторонняя гипотеза H1: M(Х) > b. Вычисляется зна-

чение критической точки tправост.кр( , n – 1). Если tнабл > tправост.кр, то гипотезу отвергают.

3. Левосторонняя гипотеза H1: M(Х) < b. Вычисляется зна-

чение критической точки tлевост.кр( , n – 1). Если tнабл < tлевост.кр, то гипотезу отвергают.

При проверке гипотезы обратным методом вид альтернативной гипотезы не влияет на выводы об отвержении гипотезы. На основе tнабл и объема выборки находится значение вычисленного уровня значимости в. Если вычисленный уровень значимости меньше теоретического уровня значимости ( в < ), то гипотезу отвергают.

3.7. Проверка гипотезы о законе распределения F(x)

На практике не всегда известны две гипотезы: основная и конкурирующая. Часто под конкурирующей гипотезой подразумевается то, что просто не выполнена основная гипотеза. Тогда задача ставится так: согласуются ли результаты наблюдений с выдвинутым утверждением.

С помощью оценок параметров функции распределения, а следовательно, и оценки функции распределения, можно проверить гипотезы о том, насколько хорошо выборочные данные согласуются с теоретическими выводами о виде функции распределения.

38

Рассмотрим критерий согласия 2. Пусть известны вариан-

k

ты x1, x2, …, xv и эмпирические частоты; n1*, n2*, …, nk*; ni* n,

i 1

где п — объем выборки. Разобьем вариационный ряд на k группы так, чтобы в группу попали 5–10 наблюдений (рис. 26).

0

1

2

m–1

k

xmin

 

 

 

 

 

 

 

 

Рис. 26. Вариационный ряд

xmax

 

 

 

Для того чтобы вычислить теоретические вероятности по-

падания в i-й интервал pi = F(ai) – F(ai–1), i 1,k, вместо параметров распределения используются их эффективные оценки, которые находятся на основе выборки. Таким образом, находят оценки вероятностей. Умножив оценки вероятностей на объем выборки n, находят оценки теоретических частот попадания в i-й интервал.

 

k

(n* np )2

Вычисляют статистику 2

 

i

i

, которая имеет

 

npi

 

i 1

 

 

k – r – 1 степеней свободы, где k — число интервалов; r — число оцениваемых параметров исследуемого распределения. На основе этой статистики 2 находится вычисленный уровень

значимости . Затем вычисленный уровень значимости срав-

нивается с исходным уровнем значимости для проверки ги-

потезы. Если < , то гипотеза отвергается.

Критерий 2 не доказывает справедливость гипотезы, а лишь устанавливает при принятом уровне значимости ее согласие или несогласие с данными наблюдениями.

Рассмотрим критерий согласия Колмагорова—Смирнова.

Вычисляются

статистики

D

max {F*(X) F(X)};

 

 

 

n

X n

D

max {F(X) F*(X)}, где F *(Х) — эмпирическая фун-

n

X

n

n

 

 

 

 

 

кция распределения; F(Х) — функция распределения, кото-

39

рая вычисляется, используя оцениваемые параметры на основе выборки (рис. 27).

Рис. 27. Критерий Колмагорова—Смирнова

На основе этих статистик находится значение

Dn max{Dn ,Dn } — максимальное отклонение эмпиричес-

кой функции распределения от теоретической, вычисленной на основе оценок параметров распределения.

Критическую область находят из неравенства: nDn d ,

где d — квантиль предельного распределения Колмагорова 1 – Кp(d ) = . На основе критической точки Кp находится

вычисленный уровень значимости . Если < , то гипотеза

отвергается.

Примечание. Хорошо, если по обоим критериям нет основания отвергнуть гипотезу. Что делать, если по одному критерию гипотеза отвергается, а по другому критерию нет основания отвергнуть эту же гипотезу? Тогда среди гипотез нужно выбрать ту, для которой оба вычисленных уровня значимости максимальны, то есть близки к тому, чтобы не отвергать гипоте-

зу (так как если < , то Н

0

отвергается).

 

 

Контрольные вопросы к разделу 3

1.Понятие выборки и генеральной совокупности.

2.Понятие частоты, относительной частоты, кумулятивной частоты, относительной кумулятивной частоты.

3.Эмпирическая функция распределения.

4.Какая числовая характеристика является аппроксимацией вероятности?

5.Критерии качества оценки параметра.

6.Точечные и интервальные оценки. В каких случаях возникает необходимость строить интервальные оценки?

40

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]