12
Министерство образования и науки Российской Федерации
Лабораторная работа по эконометрике
на тему 'Основы регрессионного анализа. Парная линейная регрессия'
Новосибирск 2010
Ситуация №1. 'Робинзон на охоте'. Каждый раз, идя на охоту на уток, Робинзон берет с собой связку бумерангов и флягу с пивом собственного приготовления, поскольку в жарких условиях субтропиков ему необходимо утолять жажду. При этом он отмечает, какая была средняя температура в день охоты (в градусах Цельсия, Х3), какое количество уток он убил (в штуках, Х2) и сколько при этом выпил пива (в процентах от объема фляги, Х1).
Задание. Основы регрессионного анализа. Парная линейная регрессия.
Цель: ознакомиться с основными положениями, понятиями и методами анализа линейной модели парной регрессии.
По результатам корреляционного анализа выбираем показатель Х1-колличество выпитого пива и показатель Х3-температура в день охоты, потому что они связаны между собой наиболее тесно, так как . Обозначим X3 как Х, а X1 как Y.
X |
30 |
31 |
27 |
29 |
36 |
31 |
31 |
27 |
37 |
28 |
36 |
31 |
|
Y |
31 |
43 |
0 |
4 |
78 |
45 |
41 |
20 |
70 |
33 |
96 |
38 |
|
35 |
37 |
32 |
36 |
29 |
29 |
36 |
34 |
34 |
30 |
33 |
34 |
33 |
|
94 |
73 |
41 |
69 |
38 |
24 |
89 |
70 |
84 |
20 |
65 |
62 |
48 |
Задание 1: Вычислить оценки неизвестных параметров для записанных уравнений парной регрессии по методу наименьших квадратов. Дать содержательную интерпретацию результатов и выбрать для дальнейшего анализа одно из уравнений.
Для построения уравнения регрессии необходимо определить, какая из переменных является входной, а какая выходной. В данном случае очевидно, что количество выпитого пива зависит от средней температуры в день охоты, то есть экзогенной переменной является количество выпитого пива. Таким образом, получаем следующее уравнение парной регрессии:
Где xi - средняя температура в день охоты,
yi - количество выпитого пива,
i - случайная компонента,
0, 1 - неизвестные параметры.
С помощью МНК получаем следующую систему нормальных уравнений:
Найдем МНК-оценку параметра 1 по формуле:
:
1=7,452
Рассчитаем МНК-оценку параметра 0, используя формулу:
:
0= - 198,88
Дадим интерпретацию полученным результатам: 1=7,452
Положительное значение оценки параметра 1 свидетельствует о том, что связь между переменными прямая. Кроме того, если средняя температура увеличивается на 1°С, количество выпитого Робинзоном пива возрастает в среднем на 1=7,452% от объема фляги.
0= - 198,88
Так как значение оценки параметра 0 отрицательно, то это позволяет сделать вывод о том, что изменение средней температуры в день охоты происходит быстрее изменения количества выпитого пива.
Задание 2: Проверить значимость всех параметров модели по критерию Стьюдента. Для значимых коэффициентов построить доверительные интервалы. Сформулировать выводы.
Проверим значимость всех параметров модели по критерию Стьюдента.
1) Проверим на значимость параметр :
Необходимо проверить гипотезу:
Вычислим t-статистику Стьюдента по формуле:
; tкр (0,05; 23) =2,069
Оценка дисперсии оценки вычисляется по формуле
;
S2 = = 146,078
= 25,239
= - 7,88
|t|<tкр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 0 в данном уравнении регрессии является значимым.
2) Проверим на значимость параметр :
Необходимо проверить гипотезу:
Вычислим t-статистику Стьюдента по формуле:
tкр (0,05; 23) =2,069
;
S2 = = 146,078
= 0,779
= 9,947
|t|<tкр (0,05; 23) Так как статистика по абсолютному значению превышает критическое значение, то гипотеза H0 отвергается на 95% -ном уровне значимости, то есть параметр 1 в данном уравнении регрессии также является значимым.
Построим для данных параметров 95% -ные доверительные интервалы.
Для параметра 0 доверительный интервал будет выглядеть следующим образом:
[-198,88-2,069*25,239; - 198,88+2,069*25,239]
[-251,099; - 146,661]
Для параметра 1 доверительный интервал будет выглядеть следующим образом:
[7,452-2,069*0,779; 7,452+2,069*0,779]
[5,84; 9,06]
Таким образом, параметры составленного уравнения парной регрессии являются значимыми. То есть взаимосвязь между количеством выпитого пива и средней температурой в день охоты можно описать уравнением линейной регрессии, а незначительные отклонения возможных значений параметров от их МНК-оценок позволяют принять данные оценки в качестве хороших приближений к реальным параметрам.
Задание 3: Проверить значимость модели (уравнение регрессии) в целом с помощью критерия Фишера. Сформулировать выводы.
Для начала найдём коэффициент детерминации:
,
Где TSS = - полная сумма квадратов,
-общая сумма квадратов;
RSS = - сумма квадратов, обусловленная регрессией,
-объясненная сумма квадратов (сумма квадратов регрессии).
ESS = - остаточная сумма квадратов.
-остаточная сумма квадратов (сумма квадратов остатков)
= 15504,60+3457,033=18862,64
Так как RSS>>ESS, то остатки регрессии невелики.
Можно сделать предварительный вывод о том, что разброс значений относительно линии регрессии также невелик, и уравнение достаточно точно описывает наблюдаемые данные.
Коэффициент детерминации показывает, насколько модель объясняет исходные данные, следовательно, исходя из полученного коэффициента, можно отметить, что наша модель объясняет исходные данные о наличии зависимости количества выпитого пива от температуры на 82%.
В данном случае нельзя точно утверждать, что такое значение коэффициента детерминации означает достаточную пригодность уравнения регрессии, поэтому проверим его на значимость по критерию Фишера на 5% -ном уровне значимости.
Проверим значимость модели в целом по F - критерию:
Чтобы проверить значимость модели, необходимо проверить гипотезу:
Найдем F-статистику по формуле:
Из таблицы находим значение:
Если , то гипотеза отвергается с вероятностью 0,95.
В нашем случае 102,495 > 4,28, значит, гипотеза отвергается с вероятностью 95%.
Из проведенного анализа можно сделать вывод, что наша модель значима, и связь между количеством выпитого пива и температурой воздуха можно описать уравнением:
Y= - 193,558+7,495x
Задание. Построить таблицу дисперсионного анализа.
Источник дисперсии |
Число степеней свободы |
Сумма квадратов |
F-факт. |
F-табл. |
Значимость |
Средняя сумма квадратов |
|
Объясненная дисперсия |
1 |
15405,60 |
102,495 |
4,279344 |
Да |
15405,60 |
|
Остаточная дисперсия |
23 |
3457,033 |
- |
- |
- |
150,305 |
|
Общая дисперсия |
24 |
18862,64 |
- |
- |
- |
785,94 |
Задание 5: Выбрать прогнозную точку Xп в стороне от основного массива исходных данных. Используя уравнение регрессии, выполнить точечный и интервальный прогнозы величины Y в точке Xп. Проанализировать полученные результаты.
Выберем в качестве прогнозной точки значение xп=42°С. Тогда прогнозируемое значение количества выпитого Робинзоном пива будет равно:
yп = - 193,558+7,495 *42= 121,23.
Это значит, что при температуре 420С Робинзон должен выпить 121,23% от объема фляги. Выполним интервальный прогноз.
Для оценки точности прогноза необходимо вычислить стандартную ошибку прогноза по формуле:
= 7,462; tкр (0,05; 23) =2,069
Границы доверительного интервала найдем по формуле:
Получим [121,23-2,069*7,462; 121,23+2,069*7,462].
доверительный интервал для Y: [105,79; 136,67]
То есть при температуре 420С количество выпитого пива с вероятностью 95% колеблется в пределах от 105,79% до 136,67%.
Точечное прогнозирование показывает, что если температура будет равна 42 градусам, то Робинзону может быть недостаточно одной целой фляги пива для утоления жажды, т.к. объём выпитого пива выходит за рамки 100%.
Задание: Построить 95% -ный доверительный интервал для уравнения регрессии на всем диапазоне исходных данных.
i |
xi |
|||||
1 |
25 |
-6,182905484 |
6,056203037 |
-18,71318957 |
6,3473786 |
|
2 |
28 |
16,30221704 |
4,12461405 |
7,768390566 |
24,83604351 |
|
3 |
28 |
16,30221704 |
4,12461405 |
7,768390566 |
24,83604351 |
|
4 |
29 |
23,79725788 |
3,55664372 |
16,43856202 |
31,15595373 |
|
5 |
29 |
23,79725788 |
3,55664372 |
16,43856202 |
31,15595373 |
|
6 |
30 |
31,29229872 |
3,063192858 |
24,95455269 |
37,63004474 |
|
7 |
30 |
31,29229872 |
3,063192858 |
24,95455269 |
37,63004474 |
|
8 |
31 |
38,78733956 |
2,685656131 |
33,23071702 |
44,34396209 |
|
9 |
31 |
38,78733956 |
2,685656131 |
33,23071702 |
44,34396209 |
|
10 |
31 |
38,78733956 |
2,685656131 |
33,23071702 |
44,34396209 |
|
11 |
32 |
46,2823804 |
2,477601595 |
41,1562227 |
51,4085381 |
|
12 |
32 |
46,2823804 |
2,477601595 |
41,1562227 |
51,4085381 |
|
13 |
32 |
46,2823804 |
2,477601595 |
41,1562227 |
51,4085381 |
|
14 |
33 |
53,77742124 |
2,48202194 |
48,64211784 |
58,91272463 |
|
15 |
33 |
53,77742124 |
2,48202194 |
48,64211784 |
58,91272463 |
|
16 |
34 |
61,27246208 |
2,697872977 |
55,69056289 |
66,85436127 |
|
17 |
34 |
61,27246208 |
2,697872977 |
55,69056289 |
66,85436127 |
|
18 |
34 |
61,27246208 |
2,697872977 |
55,69056289 |
66,85436127 |
|
19 |
35 |
68,76750292 |
3,081033386 |
62,39284484 |
75,14216099 |
|
20 |
35 |
68,76750292 |
3,081033386 |
62,39284484 |
75,14216099 |
|
21 |
36 |
76,26254376 |
3,578152777 |
68,85934566 |
83,66574185 |
|
22 |
37 |
83,7575846 |
4,148463607 |
75,17441339 |
92,3407558 |
|
23 |
37 |
83,7575846 |
4,148463607 |
75,17441339 |
92,3407558 |
|
24 |
38 |
91,25262544 |
4,765761822 |
81,39226423 |
101,1129866 |
|
25 |
38 |
91,25262544 |
4,765761822 |
81,39226423 |
101,1129866 |
Задание: Изобразить в одной системе координат исходные данные, линию регрессии, 95% -ный доверительный интервал.
12
Задание: Сделать общие выводы, касающиеся проделанной работы и эконометрической интерпретации полученных результатов.
По результатам корреляционного анализа мы выбрали наиболее тесно связанные показатели Y (количество выпитого пива) и Х (температура).
Полагая, что связь между ними может быть описана линейной функцией, составили уравнение парной регрессии, используя для оценивания неизвестных параметров МНК, получили, что Y = - 193,558+7,495x.
С изменением регрессора (температуры) на 1 единицу, отклик (кол-во выпитого пива) в среднем изменяется на 7,495 % от объема фляги).
Проведя анализ значимости параметров и самой модели, можно сделать вывод, что оба параметра (и0 и и1) значимы, и модель в целом также значима, то есть, верна. Следовательно, эту модель мы можем использовать для дальнейшего прогнозирования.
Нанеся на координатную плоскость исходные данные, линию регрессии, 95% -ный доверительный интервал, мы видим, что большинство значений исходных данных попадает или находится в непосредственной близи от доверительного интервала, что также подтверждает наше предположение о наличии тесной линейной связи между количеством выпитого пива и температурой воздуха в день охоты. Также, исходя из графика, можно заметить, что, чем ближе значение температуры к среднему, тем выше степень точности наших прогнозов.
Следовательно, чтобы расходовать меньше пива и брать его с собой меньше, Робинзону лучше выходить на охоту, когда температура относительно невысока.