Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

Ранее утверждалось, что отношение сумм квадратов даёт

нам коэффициент детерминации R2 = (SSрегр) / (SSобщ). Для нашего примера R2 = 19,84 / 47,96 = 0,4137, что также сходится с приве-

денными значениями в табл. 5.8.

Числа степеней свободы представлены в третьем столбце табл. 5.9, их равенство (n – 1) = 1 + (n – 2) соблюдается. В четвёртом столбце рассчитаны средние квадраты отклонений как сумма квадратов второго столбца, отнесённая к соответствующему числу степеней свободы. Полученные два значения средних квадратов на одну степень свободы. Первый – средний квадрат, обусловленный регрессией, а второй – средний квадрат остатков. Вычислим отношение средних квадратов (квадратов, делённых на число степеней свободы), обусловленных регрессией, и остатков, частное от деления обозначим F:

F = [(SSрегр / 1)] / [(SSост / (n – 2)] = 19,843 / 1,004 = 19,76. (5.20)

На основании формулы для расчёта R2 выражение (5.19) можно переписать так:

F = [R2 / (1 – R2)] · [k2 / k1] = [0,4137 / (1 – 0,4137)] · [28 / 1] =

= 0,7056·28 = 19,757~19,76,

(5.21)

где k1, k2 числа степеней свободы.

Эта статистика подчиняется распределению Фишера, она обычно используется для общей оценки достоверности полученного регрессионного уравнения [51]. Если средние квадраты в выражении (5.19) будут равны, то и F = 1, в этом случае нет смысла пользоваться уравнением регрессии. Вместо него лучше использовать среднее значение наблюдаемой функции. Уравнением можно пользоваться тогда, когда F будет больше 1, т.е. когда средний квадрат, обусловленный регрессией, больше среднего квадрата остатков. А насколько больше?

Вданном случае отношение дисперсии наших измерений

кдисперсии ошибок модели (разности расчетных данных и ре-

181

ально полученных) подчиняется закону распределения Фишера. Назовём рассчитанное отношение эмпирическим (Fэмп, в литературе можно встретить термин фактическое значение критерия Fфакт). Далее мы должны будем сравнить рассчитанный для этого уравнения критерий с табличным значением (его назовём как критический Fкрит, в литературе можно встретить обозначение как табличный Fтабл) для соответствующей вероятности и числа степеней свободы. Мы используем для нашего примера вероятность 0,95 (или уровень значимости p-level 0,05), степеней сво-

боды 1; 28. Принято писать Fкрит (α, k1, k2), где α – уровень значимости, k1, k2 – числа степеней свободы, например, Fтабл (0,05;

1; 28) = 4,196. Таким образом, для нашего примера с 30 наблюдениями и уровнем значимости 0,05 средний квадрат, обусловленный регрессией, должен быть больше среднего квадрата остатков в 4,196 раза.

Для вычисления Fкрит в пакете Statistica используем вероятностный калькулятор. Если расчёты показывают, что при выбранных условиях Fэмп > Fкрит, то говорят, что регрессия статистически значима. В нашем примере Fэмп > Fкрит (19,76 > 4,20), следовательно, уравнение регрессии в целом признается статистически значимым. Данная оценка справедлива как для уравнения парной регрессии, так и для уравнения множественной регрессии, т.е. когда в уравнениинескольконезависимыхаргументов.

Для множественной регрессии проверяется общая, совокупная значимость коэффициентов, т.е. всего уравнения в целом. Такой анализ осуществляется на основе проверки гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при аргументах: H0: b1 = b2 = … = bm = 0. Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных х1, х2, , хm модели на зависимую переменную y можно считать статистически несущественным, а общее качество уравнения регрессии – невысоким.

Однако на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней гипотезу о статистической значи-

182

мости коэффициента детерминации R2. Для этого выдвигают нулевую гипотезу Н0, в соответствии с которой принимается R2 = 0. (Напомним – альтернативная ей гипотеза Н1 предполагает, что R2 > 0.) Но если гипотеза о равенстве коэффициентов регрессии нулю отклоняется (или отклоняется нулевая гипотеза Н0: R2 = 0), из этого ещё не следует, что уравнение согласуется с результатами наблюдений, или адекватно данным. Адекватность уравнения требует дополнительных проверок.

В программе Statistica рассчитанная величина Fэмп выводится при формировании оценок уравнения регрессии (табл. 5.8). Из таблицы видно, что число степеней свободы (1, 28), достижимый уравнением уровень значимости α = 0,00013, при критическом значении 0,05. Такое многократно заниженное значение критического уровня значимости по отношению к априори выбранному свидетельствует о том, что Fэмп > Fкрит, следовательно, выведенное уравнение значимо, а сама процедура проверки значимости по её достижимому значению аналогична проверке Fэмп и Fкрит. Но искать таблицу и проводить сравнение нет необходимости, это делает программа Statistica, указывая достоверность отличия полученного F-критерия от табличного [51].

Стоит понимать, что данный тест проверяет гипотезу о том, что все факторы одновременно являются незначимыми. Поэтому при наличии незначимых отдельных факторов модель в целом может быть значима.

Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, в ряде отраслей определяют среднюю ошибку аппроксимации:

 

1

n

y yˆ

i

 

 

 

А

n

i 1

i

 

 

.

(5.22)

 

y

 

 

 

 

 

i

 

 

 

 

Средняя ошибка аппроксимации не должна превышать 8–15 % и в пакете Statistica отображается в таблице остатков. Можно создать новую вычисляемую колонку в этой таблице ABS (Ei / Yi) и найти среднее значение по ней. В нашем примере

183

получили значение 6,64 %, что свидетельствует о хорошем описании наблюдаемых данных полученным уравнением регрессии.

5.6. Статистическая оценка полученных коэффициентов регрессии

В табл.5.8 выведены краткие результаты регрессии, в том числе и вычисленные значения статистики Стьюдента (столбец t). Это самая распространенная статистика для оценки значений параметров аппроксимации. Эмпирическое значение критерия Стьюдентарассчитываетсяпоформуле

t

b

,

(5.23)

 

 

Sb

 

где b – вычисленное среднее значение параметра b0 или b1 для парной регрессии; Sb – его стандартное отклонение.

Для аргумента KCl в табл. 5.8 рассчитаем эмпирическую величину критерия: t = 0,0977 / 0,0220 = 4,44, что совпадает (с учётом погрешности округления) с вычисленным программой значением. Выдвигаем нулевую гипотезу о равенстве коэффициента регрессии нулю. В шапке табл. 5.8 в скобках от t записано число степеней свободы (28). Принимаем уровень значимости α = 0,05 и в вероятностном калькуляторе вычисляем таблич-

ное значение tтабл (α = 0,05; n = 28) = 2,048 (рис. 5.11).

Рассчитанное значение t-критерия сравнивается с его критическим значением при заданном уровне значимости и числе степеней свободы f = n ‒ m ‒ 1. Если рассчитанная величина критерия Стьюдента больше, чем табличная, нулевая гипотеза отвергается в пользу альтернативной. Мы можем утверждать, что параметр с заданным уровнем значимости отличен от нуля и, следовательно, статистически значим. Сравнение t-рассчитанного с t-табличным производится в программе [51].

184

В последнем столбце для свободного члена b0 и коэффициента регрессии b1 указан достижимый уровень значимости p-level, в нашем примере он значительно меньше априори заданного уровня 0,05. Параметры b0 и b1 значимы с вероятностью больше 99,999 %. Таким образом, доказана статистическая значимость (отличие от нуля) обоих параметров уравнения парной регрессии [51].

Рис. 5.11. Расчёты критического значения критерия Стьюдента

Отметим, что в парной линейной регрессии между критерием Фишера и критериям Стьюдента коэффициента регрессии существует связь. Для рассматриваемого примера: F tb2 4,4452 19,758. С учётом погрешности округления,

эта величина совпадает с рассчитанным в табл. 5.8 критерием Фишера F = 19,76.

Наличие этих связей позволяет сделать вывод, что статистическая незначимость коэффициента регрессии или коэффициента корреляции влечет за собой незначимость уравнения парной регрессии в целом либо, наоборот, незначимость уравнения регрессии подразумевает несущественность указанных

185

коэффициентов. Поэтому критерий Стьюдента в большей степени важен во множественной регрессии для «отсева» незначимых аргументов.

5.7.Исследование уравнения регрессии

5.7.1.Показатели качества и достоверности уравнения

При вычислении коэффициентов регрессии мы применили принцип наименьших квадратов (выражение (5.3)). Его использование позволило построить линию регрессии так, что отклонения точекотнеё(остатки)становятсяминимальными.Вэтомслучаеточки равномерно разнесены от линии (рис. 5.9), а остатки могут быть положительнымииотрицательными.Всуммеониблизкикнулю.

Ранее указывалась важность нормального распределения в горном деле и исследованиях природных явлений и объектов. В корреляционно-регрессионном анализе используются переменные, которые измерены по интервальной и пропорциональной шкале. В процессе проведения анализа применяются параметрические методы оценивания, а они требуют нормального распределения переменных.

В связи с этими и другими требованиями при выполнении регрессионного анализа предполагается, что выполняются следующие условия:

связь между переменными является линейной (по параметрам);

остатки интерпретируются как случайные величины.

Они имеют нормальное распределение с нулевым средним и некоторой дисперсией (пишут ei ~ N (0, σ2)), в остатках нет значимой автокорреляции cov (ei, ej) = 0.

Представим, что среди проб по сильвинитовому пласту попала проба из зоны замещения сильвинита карналлитом. На диаграмме рассеивания (рис. 5.12) она расположена под номером 1. По расположению пробы на рисунке видно, что она находится далеко от общей группы.

186

Рис. 5.12. Диаграмма рассеивания проб с выбросом

В разделе 1 этой главы упоминалось о подчинении нормальному распределению вероятностей исходных данных. При большом объёме данных проверка производится по трехсигмовому интервалу. В нашем примере всего 30 наблюдений, используем двухсигмовый интервал. Данные для проверки представлены в табл. 5.10, а параметры и оценки регрессионного уравнения приведены в табл. 5.11.

MgCl2

12,301;

MgCl2

1,419;

MgCl2 2 MgCl2 12,301 2 1,419 15,139;

MgCl2 2 MgCl2 12,301 2 1,419 9,463.

По хлористому магнию максимальное значение выходит за интервал MgCl2 + 2 . Проверим хлористый калий:

KCl = 31,372; KCl 1,419;

KCl 2 KCl = 31,372 + 2·9,718 = 50,808;

KCl 2 KCl = 31,372 – 2·9,718 = 11,936.

187

Таблица 5.10 Описательныестатистикидляпеременныхкпарнойрегрессии

Таблица 5.11 Итоги вычислений параметров парной регрессии

Минимальное значение хлорида калия в той же пробе вы-

ходит за нижнюю границу интервала KCl – 2 . Следовательно, эта проба не является представительной для сильвинитового пласта и её требуется исключить из анализа. Линии регрессии на диаграммах рассеивания исходных данных с грубой пробой (выбросом) и без неё имеют разные наклоны. Оценки уравнения также значительно отличаются. Невысокая величина коэффициента множественной корреляции R = 0,22 в примере с грубой пробой (табл. 5.13) указывает на слабую, даже ближе к очень слабой корреляцию. Коэффициент детерминации объясняет всего 4,7 % вариации функции, что не позволит нам использовать выведенное уравнение. И эмпирическая величина критерия Фи-

шера Fэмп = 1,4 < Fтабл (0,05; 1; 28) = 4,196 явно свидетельствует об отсутствии статистической значимости уравнения. Построим

график остатков (табл. 5.12).

На графике остатков также присутствует проба, которая выходит за границы интервала 2 . Величина остатка этой пробы резко выделяется среди остальных. На гистограмме распределе-

188

ния хлористого магния (рис. 5.13, а) проявляется наличие выброса, а для гистограммы хлористого калия (рис. 5.13, б) наличие пробы с минимальным значением содержания полезного компонента придаёт гистограмме ассиметричный характер и смещает оценки переменной.

Таблица 5.12

Фрагмент графика остатков

а

б

Рис. 5.13. Гистограммы распределения полезных компонентов проб

Таким образом, исходные данные должны быть подготовлены к анализу. Неподготовленные данные не дадут приемлемого результата аппроксимации уравнением регрессии. Необходимо удалить выброс и дальнейший анализ проводить без него. Мы заменили эту пробу на другую, следующую из отобранных

189

в этой выработке. Загрузим матрицу парных коэффициентов корреляций выборки без выброса.

После удаления грубых проб степень тесноты линейной связи между переменными выросла с 0,22 до 0,64. Согласно классификации по табл. 5.2 она стала средней. Коэффициент парной корреляции (табл. 5.13) равен коэффициенту множественной корреляции (табл. 5.8).

Таблица 5.13

Таблица вычислений парных коэффициентов корреляций после замены грубой пробы

5.7.2.Показатели адекватности модели

5.7.2.1.Анализ нормальности остатков

Графики рассеивания, представленные на рис. 5.5, 5.6, позволяют получить предварительное представление о зависимости между парами случайных величин Х и Y. Характер распределения точек может указать на вид взаимосвязи двух переменных, а при необходимости потребуется изучить график детальнее. В исходных данных (и на графиках) не должно быть выбросов. В ряде случаев на графиках может встретиться нелинейность (рис. 5.7, д, е), которая потребует преобразования переменных. Помимо первичного анализа исходных данных, большой объём информации об адекватности выведенного уравнения регрессии даёт анализ остатков.

Линейная регрессионная модель считается адекватной, если вычисленные по ней значения функции yˆi (см. формулу (5.2)) согласуются с результатами наблюдений yi. Первичная оценка

190

Соседние файлы в папке книги