книги / Множественная линейная регрессия
..pdfПолучаем значения:
31
Из представленного комплекта статистических показателей выберем те, которые нам потребуются для последующего анализа – среднее арифметическое и стандартное отклонение (среднеквадратичное отклонение) Sn.
|
Производительность труда |
Капиталовооруженность |
Коэффициент загрузки |
Коэффициент |
|
производительности |
|||
|
|
|
|
|
Среднее |
929.15 |
3285.7 |
0.75235 |
1.3714 |
Стандартное отклонение |
35.727 |
1016.937 |
0.0073 |
0.01643 |
31
Расчет показателей регрессии также осуществляется с помощью компьютерной программы. Для ее запуска выполним следующие команды:
•в главном меню выберем пункты Сервис/Анализ данных / Регрессия, после чего щелкнем по кнопке ОК;
•заполним диалоговое окно ввода данных для параметра у и обеих характеристик х1
их2; для этого в каждое окно (Интервал Y и Интервал Х) поместим наши данные, выделив их предварительно в соответствующих столбцах (напомним, что для функции у ее данные «сидят» во втором столбце В2:В21, а для переменных х1 и х2 – в третьем и четвертом, т.е. в диапазоне ячеек C2:D21; заметим, что при этом выделяются только те ячейки, которые содержат исключительно числовые показатели);
•отметим Уровень надежности (доверительную вероятность), равный 95 %;
•выделим в текстовом поле Выходной интервал ту ячейку, от которой будет формироваться весь блок получаемых статистических показателей; после чего нажмем кнопку ОК.
32
Получаем значения:
33
Из представленного комплекса данных выберем такие, которые нам потребуются для последующего анализа: расчетные значения коэффициентов регрессии, стандартную ошибку, величины t-критерия и показатели уровня значимости α.
Запишем полученное уравнение:
y = –2150.798 + 0.00142x1 + 1422.01125x2 + 1462.328x3.
33
Теперь займемся статистическим анализом этого уравнения регрессии.
Интерпретация коэффициентов регрессии
Сдвиг a0 следует обсуждать как вспомогательную величину, необходимую для получения оптимальных прогнозов.
Коэффициенты регрессии a1, a2, … am следует рассматривать как степень влияния каждой из переменных на размер производительности труда, если все другие независимые переменные остаются неизменными.
Ошибки прогнозирования (определение качества регрессионного анализа)
Можно воспользоваться двумя приемами для оценки добротности выполненного нами регрессионного анализа. В статистике для этого используют:
–стандартную ошибку (Sу), которая дает представление о приблизительной величине ошибки прогнозирования;
–коэффициент детерминации (R2), указывающий, какой процент вариации функции
уобъясняется воздействием факторов хk.
Рассмотрим оба подхода более подробно.
1.Результаты статистического расчета показывают, что стандартная ошибка для
функции Sy составляет 7,38. Этот результат применительно к нашему примеру следует рассматривать следующим образом: фактическая величина производительности труда отличается от прогнозируемых показателей не более чем на 7,38 руб.
Стандартная ошибка Sу, равная 7,38, указывает отклонение фактических данных от прогнозируемых на основании использования воздействующих факторов х1; х2; х3. В то же время мы располагаем обычным стандартным отклонением Sn, равным 35,73, которое было рассчитано для одной переменной, а именно: сами текущие значения уi и величина среднего арифметического у, которое равно 929.15. Легко видеть, что Sу < Sn; следовательно, ошибки прогнозирования, как правило, оказываются меньшими, если использовать уравнение регрессии, а не ограничиваться только значением у.
2.Если вновь обратиться к нашему примеру, то коэффициент детерминации R2 равен 0,96, что составляет 96 %. Этот результат следует толковать так: все исследуемые воздействующие факторы объясняют 96 % вариации анализируемой функции. Остальное же 4 %
остается необъясненным и может быть связано с влиянием других, неучтенных факторов. Для нашего примера показатель R2 = 96 %, поэтому можно полагать, что именно эти три фактора в данном конкретном случае оказывают наиболее значительное влияние на y. Итак, нами получено уравнение множественной регрессии, коэффициенты которого ak формально показывают, как и в каком направлении действуют исследуемые факторы хk
икакой процент изменчивости функции у объясняется влиянием именно этих факторов. Теперь требуется определить статистическую значимость полученного аналитиче-
ского выражения.
Проверка значимости модели
При проверке значимости модели принято придерживаться следующей последовательности действий:
1.Сначала выполняется общая проверка полученного уравнения на пригодность.
2.Если результат оказался положительным (уравнение значимо), то проверяют на значимость уже каждый коэффициент уравнения регрессии ak.
3.Дается сравнительная оценка степени влияния каждого из анализируемых факто-
ров хk.
34
Проверка на адекватность уравнения регрессии
Статистическую оценку полученного уравнения (так называемый статистический вывод) принято начинать с проведения F-теста, целью которого является выяснение способности исследуемых факторов хk объяснять значимую часть колебания функции у. Этот тест используется как своеобразные «входные ворота» в статистический вывод: если результат теста значим, то связь существует, значит приступать к ее исследованию и объяснению.
Если проверка указывает на незначимость связи, то заключение лишь одно: мы имеем дело с набором случайных чисел, никак не связанных между собой. Далее не предполагается никаких действий, так как нет предмета для анализа.
Заметим при этом, что сам формальный факт отсутствия значимости на деле может и не соответствовать отсутствию взаимосвязи как таковой. Просто в указанных обстоятельствах у нас не хватило экспериментальных данных доказать, что такая связь вообщето есть. Иначе говоря, она может и быть, но из-за малого размера выборки или какой-либо случайности нам не удалось ее доказать на основании тех опытных данных, которые были в нашем распоряжении.
Использование так называемой нулевой гипотезы для F-теста означает, что между переменными хk и у значимая связь отсутствует. Следовательно, признается, что параметр у является чисто случайной величиной, поэтому значения переменных хk не оказывают на него никакого систематического влияния. Применительно к уравнению регрессии это утверждение можно трактовать как случай, когда все коэффициенты уравнения равны
нулю.
С другой стороны, альтернативная гипотеза F-теста говорит о том, что между параметром у и переменными хk существует определенная прогнозирующая взаимосвязь. Следовательно, параметр у уже не является чисто случайной величиной и должен зависеть хотя бы от одной из переменных хk. Тем самым альтернативная гипотеза настаивает на том, что по крайней мере один из коэффициентов регрессии отличен от нуля. Как видно, здесь принимается во внимание следующее обстоятельство: совершенно необязательно, чтобы каждая х-переменная влияла на параметр у, вполне достаточно, чтобы влияла хотя бы одна из них.
Для выполнения F-теста воспользуемся результатами компьютерного расчета. Здесь обычно рекомендуются следующие приемы.
1. Решение принимается на основе критерия Фишера.
Это достаточно традиционный способ, им обычно пользуются при статистических анализах, хотя по удобству и простоте он может уступать другим методам.
Как правило, F-тест проводится путем сопоставления вычисленного значения F-кри- терия с эталонным (табличным) показателем Fтабл для соответствующего уровня значимости. Если выполняется неравенство Fрасч < Fтабл, то с уверенностью, например на 95 %, можно утверждать, что рассматриваемая зависимость у = a0 + a1x1 + a2x2 +…+ amxm является статистически значимой. В противном случае – наоборот.
2. Решение принимается на основе уровня значимости α.
Для этого обратим внимание на представленные значения уровня значимости α (в интерпретации Excel это показатель р). Если р-значение больше чем 0,05, то полученный результат нужно трактовать как незначимый (для 95%-ной вероятности). В том случае когда величина р оказывается меньше 0,05, то вывод такой: это значимое уравнение с ве-
35
роятностью 95 %. Если же р < 0,01, то полученный результат является высоко значимым (степень риска ошибиться в нашем утверждении оказывается меньше 1 %, т.е. степень надежности составляет 99 %).
3. Решение принимается на основе коэффициента детерминации R2.
В этом случае имеющуюся расчетную величину Rрасч2 необходимо сравнить с таблич-
ными (критическими) значениями Rкрит2 для соответствующего уровня значимости (повто-
рим еще раз, обычно это 0,05). Если окажется, что Rрасч2 > Rкрит2 , то с упомянутой степенью вероятности (95 %) можно утверждать, что анализируемая регрессия является значимой.
Теперь проанализируем наше уравнение с использованием рассмотренных статистических критериев.
1. Проведем проверку по F-критерию. Компьютерная распечатка выдала нам величину Fрасч, равную 143,04. С учетом сделанных замечаний для анализа уравнения будем пользоваться величиной Fрасч, обратной представленной Excel. Она составит: 1:143,04 = = 0,007. Отыщем по эталонной таблице критическую величину Fкрит при условии, что для числителя степень свободы f1 = m, т.е. составит 3 (число воздействующих факторов равно 3), а для знаменателя f2 = n–m–1 = 20–3–1 = 16. Тогда будем иметь следующие значения
для Fкрит: 3,1 (для α = 0,05), 6,2 (α = 0,01) и 10,5 (α = 0,001). Понятно, что для всех рас-
смотренных вероятностей выполняется соотношение Fрасч <Fкрит, поэтому уверенно можно говорить о высокой степени адекватности анализируемого уравнения.
2.Теперь выполним проверку с использованием уровня значимости α. В позиции «Значимость F» указана величина 8,16Е-12. Фактически можно признать, что α = 0. Это говорит о том, что действительно обнаруживается устойчивая зависимость рассматривае-
мой функции у от воздействующих факторов х1; х2; х3, т.е. производительность труда не является чисто случайной величиной. Правда, нам пока неизвестно, какие именно факторы реально участвует в прогнозировании, но нам доподлинно понятно, что по крайней мере один из них влияет непременно.
3.Напомним, что, по нашим расчетам, коэффициент детерминации Rрасч2 составляет
0,96, или 96 %. Таблица для тестирования на уровне значимости 5 % в случае выборки n = 20 и числа переменных m = 3 дает критическое значение Rкрит2 = 0,378. Поскольку вы-
полняется соотношение Rрасч2 > Rкрит2 , то с вероятностью 95 % можно утверждать о нали-
чии значимости данного уравнения регрессии.
Кстати заметим, что для наших обстоятельств (n = 20, m = 3) можно оценить критическое значение Rкрит2 для α = 0,01 (высокая значимость). В этом случае Rкрит2 составляет соответственно 0,498, что, как видно, все равно остается меньше расчетного показателя Rрасч2 , т.е. 0,96. Из чего следует заключить, что обсуждаемое нами уравнение действитель-
но характеризуется очень высокой степенью значимости.
Как видно, все три рассмотренных приема статистической проверки дают одинаковый результат. В этом примере мы воспользовались подобным разнообразием способов анализа только с одной целью – дать представление о существующих методах такой проверки. На практике же нет нужды проводить статистическую оценку с использованием всех указанных вариантов. Вполне разумно (да и экономично) ограничиться каким-то
36
одним методом. Более распространенным методом считается выполнение проверки по F-критерию.
Итак, нами проведена проверка на значимость самого уравнения, т.е. мы понимаем, что существует взаимосвязь между параметром у и переменными хk. Однако нам пока неясно, каково влияние конкретных факторов х1; х2; х3 на исследуемую функцию у: действуют ли оба фактора или только какой-то один из них. Поэтому предстоит определить значимость отдельных коэффициентов регрессии a1; a2; a3. Для этой цели используется так называемый t-тест.
Проверка на адекватность коэффициентов регрессии
Проверку на адекватность коэффициентов регрессии рекомендуется проводить по следующим эквивалентным методам.
1.Использование t-критерия. Необходимые расчеты делаются в Excel, который выдает соответствующую компьютерную распечатку с обозначением значений показателя t. Анализируемый коэффициент считается значимым, если его t-критерий по абсолютной величине превышает 1,96, что соответствует уровню значимости 0,05.
2.Использование уровня значимости. В этом случае оценка проводится путем анали-
за показателя р, т.е. уровня значимости α. Коэффициент признается значимым, если рассчитанное для него р-значение меньше (или равно) 0,05 (т.е. для 95%-ной доверительной вероятности).
Сравнительная оценка степени влияния факторов
При анализе полученного уравнения множественной регрессии закономерно встает вопрос о том, какой фактор хk из числа рассмотренных оказывает наибольшее влияние на исследуемый показатель у? К сожалению, исчерпывающего ответа на этот вопрос нет. Это связано с тем, что наличие возможной взаимосвязи между х-переменными (например, парное взаимодействие типа х1х2, тройное х1х2х3 и т.д.) может сильно усложнить ситуацию. В результате станет принципиально невозможным выяснить, какая именно из переменных хk в действительности отвечает за поведение параметра у.
Тем не менее в статистике даются полезные рекомендации, позволяющие получить хотя бы оценочные представления по этому поводу. В качестве примера познакомимся
содним из таких методов – сравнение стандартизованных коэффициентов регрессии.
Вобщем случае все коэффициенты регрессии a1, a2, …, am могут быть выражены в разных единицах измерения. Тем самым непосредственное их сравнение становится фактически некорректным, поскольку, скажем, формально меньший по величине коэффициент на деле может оказаться важнее большего. Стандартизованные коэффициенты регрессии
позволяют решить эту проблему за счет представления коэффициентов регрессии в некоторых кодированных единицах измерения.
Стандартизованный коэффициент регрессии вычисляется путем умножения коэффи-
циента регрессии ai на стандартное отклонение Sn (для наших х-переменных обозначим его как Sxk) и деления полученного произведения на Sу. Это означает, что каждый стандартизованный коэффициент регрессии измеряется как величина aiSxk/Sу. Применительно к нашему примеру получим следующие результаты.
37
Стандартизованные коэффициенты регрессии
Статистические |
Производительность |
Капиталово- |
Коэффициент |
Коэффициент |
|
характеристики |
труда |
оруженность |
загрузки |
производи- |
|
тельности |
|||||
|
|
|
|
||
Стандартные отклонения |
Sy = 35.727 |
Sx1 = 1016.937 |
Sx2 = 0.0073 |
Sx3 = 0.01643 |
|
Коэффициенты регрессии |
– |
a1 = 0.0014 |
a2 = 1422.01 |
a3 = 1462.33 |
|
Стандартизованные |
– |
a1Sx1/Sy = 0.04 |
0.29 |
0.67 |
|
коэффициенты регрессии |
|||||
|
|
|
|
После проделанных расчетов мы можем на объективном основании сопоставить полученные коэффициенты. Для фактора х3 стандартизованный коэффициент максимален, а для фактора х1 – минимален.
Таким образом, на производительность труда наибольшее влияние оказывает показатель – коэффициент производительности оборудования, а наименьшее влияние – капиталовооруженность одного работающего. Приведенное сравнение абсолютных величин стандартизованных коэффициентов регрессии позволяет получить пусть и довольно грубое, но достаточно наглядное представление о важности рассматриваемых факторов. Еще раз напомним, что эти результаты не являются идеальными, поскольку не в полной мере отражают реальное влияние исследуемых переменных.
38
4. ПРИМЕР ОФОРМЛЕНИЯ РАСЧЕТА
Вариант 88
Исследовать зависимость производительности труда (y) от всех показателей (факторов) хi, i = 4, 5, …, 13. Возьмем статистические данные за 5 лет с 1988 по 1992 год и занесем их в лист Excel.
Заготовим «шапку» таблицы в ячейках A1; B1; C1;…; М1. Затем разместим сами числовые наборы соответственно в диапазо-
нах ячеек А2:А21, B2:B21, C2:C21;…; М2:М21.
|
|
|
Произво- |
Инвести- |
Капитало- |
Стоимость |
Электрово- |
Уровень |
Средний |
Коэффици- |
Коэффици- |
Удельный |
Коэффици- |
|
Год |
Квар- |
дитель- |
ции на од- |
вооружен- |
машин и обо- |
оруженность |
механи- |
возраст |
ент смен- |
ент загруз- |
вес прогрес- |
ент произ- |
|
тал |
ность |
ного рабо- |
ность одно- |
рудования на |
одного ра- |
зации |
оборудо- |
ности обо- |
ки обору- |
сивного |
водитель- |
|
|
|
|
труда, |
тающего, |
го работаю- |
одного рабо- |
ботающего, |
труда, |
вания, |
рудования |
дования |
оборудова- |
ности обо- |
|
|
|
руб. |
руб. |
щего, руб. |
тающего, руб. |
кВт·ч |
% |
лет |
|
|
ния, % |
рудования |
|
1988 |
I |
880 |
400 |
1466 |
790 |
3773 |
0.385 |
12.94 |
1.443 |
0.744 |
17.12 |
1.354 |
|
|
II |
884 |
453 |
1653 |
798 |
3813 |
0.39 |
13.02 |
1.475 |
0.743 |
12.23 |
1.346 |
|
|
III |
882 |
443 |
2008 |
813 |
3904 |
0.394 |
13.06 |
1.487 |
0.738 |
17.01 |
1.355 |
|
|
IV |
883 |
460 |
2039 |
829 |
4076 |
0.398 |
12.99 |
1.475 |
0.746 |
18.13 |
1.35 |
39 |
1989 |
I |
907 |
463 |
2297 |
853 |
4087 |
0.397 |
12.93 |
1.468 |
0.748 |
18.97 |
1.355 |
|
|
II |
910 |
460 |
2640 |
858 |
4098 |
0.399 |
12.85 |
1.482 |
0.746 |
18.67 |
1.36 |
|
|
III |
911 |
470 |
2931 |
897 |
4022 |
0.407 |
12.95 |
1.474 |
0.749 |
18.91 |
1.365 |
|
|
IV |
913 |
480 |
3065 |
890 |
4045 |
0.409 |
12.87 |
1.472 |
0.748 |
18.86 |
1.368 |
|
1990 |
I |
923 |
411 |
3233 |
911 |
4061 |
0.413 |
12.75 |
1.465 |
0.754 |
18.94 |
1.361 |
|
|
II |
929 |
471 |
3285 |
942 |
4082 |
0.419 |
12.81 |
1.481 |
0.751 |
19.01 |
1.369 |
|
|
III |
927 |
462 |
3392 |
923 |
3958 |
0.418 |
12.85 |
1.485 |
0.749 |
18.98 |
1.374 |
|
|
IV |
928 |
504 |
3521 |
945 |
3856 |
0.422 |
12.79 |
1.477 |
0.756 |
19.11 |
1.371 |
|
1991 |
I |
932 |
510 |
3713 |
984 |
3811 |
0.424 |
12.81 |
1.489 |
0.756 |
19.06 |
1.373 |
|
|
II |
940 |
520 |
3847 |
987 |
3802 |
0.428 |
12.73 |
1.503 |
0.758 |
19.13 |
1.376 |
|
|
III |
941 |
580 |
4014 |
987 |
3760 |
0.429 |
12.61 |
1.5 |
0.753 |
19.24 |
1.379 |
|
|
IV |
945 |
588 |
4262 |
993 |
3685 |
0.429 |
12.65 |
1.508 |
0.759 |
19.24 |
1.385 |
|
1992 |
I |
981 |
590 |
4385 |
1011 |
3811 |
0.428 |
12.64 |
1.528 |
0.761 |
19.44 |
1.391 |
|
|
II |
988 |
595 |
4512 |
1017 |
3995 |
0.429 |
12.68 |
1.544 |
0.762 |
19.44 |
1.398 |
|
|
III |
990 |
597 |
4665 |
1035 |
4171 |
0.429 |
12.52 |
1.548 |
0.761 |
19.56 |
1.399 |
|
|
IV |
989 |
600 |
4786 |
1039 |
4295 |
0.432 |
12.56 |
1.54 |
0.765 |
19.55 |
1.399 |
39
1. Выбрать три существенных фактора, влияющих на производительность труда.
а) Рассчитаем коэффициент парной корреляции между производительностью труда и каждым фактором. Для этого воспользуемся Мастером функций.
Выберем функцию КОРРЕЛ (массив1;массив2). Заполним текстовые поля для Массив1 (C2:C21) и Массив2 (D2:D21). Аналогичным образом поступим для расчета остальных коэффициентов.
После вычисления получаем:
Фактор |
Коэффициент парной корреляции |
Х4 |
0.88 |
Х5 |
0.96 |
Х6 |
0.95 |
Х7 |
0.21 |
Х8 |
0.89 |
Х9 |
0.92 |
Х10 |
0.90 |
Х11 |
0.93 |
Х12 |
0.60 |
Х13 |
0.97 |
б) Рассчитаем коэффициент автокорреляции между двумя факторами. Для этого исполь-
зуем функцию КОРРЕЛ (массив1;массив2)
После вычисления получаем:
|
Х4 |
Х5 |
Х6 |
Х7 |
Х8 |
Х9 |
Х10 |
Х11 |
Х12 |
Х13 |
Х4 |
|
0.879 |
0.873 |
0.016 |
0.832 |
0.838 |
0.910 |
0.827 |
0.459 |
0.903 |
Х5 |
|
|
0.990 |
0.105 |
0.974 |
0.927 |
0.839 |
0.932 |
0.681 |
0.957 |
Х6 |
|
|
|
0.067 |
0.982 |
0.920 |
0.820 |
0.943 |
0.673 |
0.942 |
|
|
|
|
|
|
|
|
|
|
|
Х7 |
|
|
|
|
0.009 |
0.096 |
0.198 |
0.104 |
0.266 |
0.131 |
|
|
|
|
|
|
|
|
|
|
|
Х8 |
|
|
|
|
|
0.883 |
0.756 |
0.903 |
0.667 |
0.894 |
|
|
|
|
|
|
|
|
|
|
|
Х9 |
|
|
|
|
|
|
0.778 |
0.906 |
0.612 |
0.905 |
|
|
|
|
|
|
|
|
|
|
|
Х10 |
|
|
|
|
|
|
|
0.776 |
0.390 |
0.900 |
|
|
|
|
|
|
|
|
|
|
|
Х11 |
|
|
|
|
|
|
|
|
0.612 |
0.899 |
|
|
|
|
|
|
|
|
|
|
|
Х12 |
|
|
|
|
|
|
|
|
|
0.623 |
|
|
|
|
|
|
|
|
|
|
|
Х13 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
40