/
Лабораторная работа 1. Расчет параметров парной линейной регрессии
Задание №1 для ВСК 1 (макс. балл 35) - сдача на 5 неделе.
Выполнить соответствующий вариант согласно расчетам, приведенным в типовой задаче. (номер варианта и исходные данные в файле 'Инд. задания для лаб.1-2' Все расчеты выполняются в EXCEL)
Пример 1. Ферма занимается выращиванием пушного зверька. На основе содержательного анализа установили, что на ферме все технологические нормативы по содержанию и кормлению соблюдаются. Тогда масса зверька в основном зависит от его возраста.
Определим количественную зависимость массы пушного зверька У (кг) от его возраста Х (в месяцах) (таблица 3).
Таблица 3 - Исходные данные
Хi-возраст, месяц |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
|
Yi-масса, кг |
1.3 |
2.5 |
3.9 |
5.2 |
6.3 |
7.5 |
9 |
10.8 |
12,8 |
Задание:
Установить тесноту связи
Построить уравнение парной регрессии у от х.
Определите параметры уравнения регрессии.
Проверить адекватность уравнения регрессии
Оценить статистическую значимость параметров регрессии
Определить доверительный интервал параметров регрессии
Выполнить прогноз у при прогнозном значении х.
Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
Решение. Для удобства решения задачи все расчеты выполним в табличном процессоре EXCEL и представим в следующей форме.
Для установления тесноты связи находим значение коэффициента корреляции r, для этого используем итоговые значении граф 8, 9 и 10.
Тогда
связь очень тесная, положительная. Коэффициент корреляции близок к 1. Определим коэффициент детерминации (r) 2= (0.99) 2=0,98. Вариация результата у на 98% объясняется вариацией фактора х, а 2% приходятся на неучтенные факторы. Если между выбранными факторами имеется тесная связь, то можно построить уравнение регрессии.
парная линейная регрессия интервал
Таблица 4 - Расчеты парной регрессии
№ |
Хi |
Yi |
Xi-Xcp |
Yi-Ycp |
(Xi-Xcp) (Yi-Ycp) |
(Xi-Xcp) 2 |
(Yi-Ycp) 2 |
Xi2 |
Xi*Yi |
Y* |
Ai |
(Y-Y*) 2 |
|
1 |
0 |
1,3 |
-4 |
-5,289 |
21,15555556 |
16 |
27,97235 |
0 |
0 |
1,0289 |
0, 2085 |
0,0735 |
|
2 |
1 |
2,5 |
-3 |
-4,089 |
12,26666667 |
9 |
16,71901 |
1 |
2,5 |
2,4189 |
0,0324 |
0,0066 |
|
3 |
2 |
3,9 |
-2 |
-2,689 |
5,377777778 |
4 |
7,230123 |
4 |
7,8 |
3,8089 |
0,0234 |
0,0083 |
|
4 |
3 |
5,2 |
-1 |
-1,389 |
1,388888889 |
1 |
1,929012 |
9 |
15,6 |
5, 1989 |
0,0002 |
1E-06 |
|
5 |
4 |
6,3 |
0 |
-0,289 |
0 |
0 |
0,083457 |
16 |
25,2 |
6,5889 |
0,0459 |
0,0835 |
|
6 |
5 |
7,5 |
1 |
0,9111 |
0,911111111 |
1 |
0,830123 |
25 |
37,5 |
7,9789 |
0,0639 |
0,2293 |
|
7 |
6 |
9 |
2 |
2,4111 |
4,822222222 |
4 |
5,813457 |
36 |
54 |
9,3689 |
0,041 |
0,1361 |
|
8 |
7 |
10,8 |
3 |
4,2111 |
12,63333333 |
9 |
17,73346 |
49 |
75,6 |
10,759 |
0,0038 |
0,0017 |
|
9 |
8 |
12,8 |
4 |
6,2111 |
24,84444444 |
16 |
38,5779 |
64 |
102,4 |
12,149 |
0,0509 |
0,4239 |
|
? |
36 |
59,3 |
0 |
0 |
83,4 |
60 |
116,8889 |
204 |
320,6 |
59,3 |
0,4699 |
0,9629 |
|
cредн |
4 |
6,5889 |
|||||||||||
Параметр |
а= |
1,0289 |
в= |
1,39 |
Аср= |
5,2215 |
R= |
0.9959 |
R2= |
0.9818 |
R2= |
0,9917624 |
F= |
842,7577 |
tr=29,03029 |
Для определение вида функции построим график зависимости у от х (рис. 3). Из рисунка видно, что точки располагаются вдоль прямой линии. Значит, выбираем линейную функцию, уравнение регрессии имеет вид у=а+в*х.
Рисунок 3 - График парной регрессии
Для определения параметров а и в используем формулу (6).
(6)
Используя итоговые расчеты 2-5 граф таблицы, получим систему уравнений
9а+36в=59,3
36а+204в=320,6
отсюда а=1,028, в=1,39, тогда уравнение регрессии у=1,028+1,39х. С увеличением возраста зверка на 1 кг, масса увеличивается в среднем на 1,39 кг.
Лабораторная работа 2. Продолжение лабораторной работы №1, т. е исходные данные из примера 1
Задание 2 для ВСК1 (макс. балл 35) - сдача на 13 неделе.)
Выполнить соответствующий вариант согласно расчетам, приведенным в типовой задаче. (номер варианта и исходные данные в файле 'Инд. задания для лаб1-2' Все расчеты выполняются в EXCEL)
4. Адекватность уравнения регрессии проверяется через вычисления значений Аср, tr и F. Найдем величину средней аппроксимации, для этого используем графу 13
Аср = (еАi) /n = 46,99/9 =5,22
Полученное значение Аср остается на допустимом уровне, так как не превышает 8-10%. Оценку статистической значимости модели регрессии проведем с помощью критерия Фишера Fфак и t - статистик Стьюдента.
= 0.98/ (1-0.98) *7 = 0.98/0.02 *7=
= 842,7577 Fтабл=5,12<Fфакт=343,
гипотеза о случайности факторов отклоняется. Критерий t-Стьюдента вычисляем по формуле =29,03, значит tтабл= 2,26 < tфакт=18,5. Фактическое значение tr-критерия Стьюдента коэффициента корреляции определяется как =, здесь
==0,053
Соотношение tтабл=2,26<tфакт=18,67 означает, что тесная связь между у и х неслучайная. Масса зверка неслучайна зависит от возраста, если все другие факторы остается постоянным, то есть также будет соблюдаться все технологические нормативы.
Отсюда уравнение регрессии является адекватным, т. е полученное уравнение достоверно описывает количественную зависимость факторов у и х.
5. Оценку статистической значимости параметров регрессии проведем по формулам:
tb=b/mb. tа=a/ma.
Случайные ошибки параметров линейной регрессии определяются по формулам:
, ta = /ma,
, tb = /mb.
Для вычисления m2a используем 4, 9 и 14 графы таблицы 3
m2a= (0,96*204) / (9*7*60) =195,84/3780= 0.052, отсюда ma= 0,227
?? m2b= 0,96/ (7* 60) = 0,96/420=0,0023, отсюда mb =0.04788?
Теперь находим ta= 1,028/0.227=4,53, tb=1.39/0.048= 29,03, Полученные статистические оценки параметров уравнения регрессии позволяют утверждать что, они статистически значимы и отражают устойчивую зависимость массы зверка от его возраста.
6. Доверительный интервал параметров регрессии вычисляется по формулам
а ±?tкр*mа и b ±?tкр*mb
Для этого определяем предельную ошибку D для каждого параметра
Dа =tтабл ma= 2.26*0.227=0.513, Db=tтабл mb=2.26*0.048=0.108.
Формулы для расчета доверительных интервалов имеют следующий вид:
gа = а?±?Dа =1,028± 0,513, gаmin= a - ?Dа =1,028 - 0.513=0.515 ?
gаmax=a+?Dа=1,028+0.513=1.541,
Тогда параметр а будет в интервале 0.515<a<1.541.
Параметр в вычисляем также
gв = в?±?Dв=1,39±?0,108,gвmin= в - ?
Dв=1,39-0,108=1,282,????????????gвmax=в+?Dв=1,39+0,108=1,498.
Тогда параметр в будет в интервале 1,282<в<1.498.
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
7. Выполнить прогноз У при прогнозном значении Х
После этого полученное уравнение регрессии можно использовать для прогноза. Прогнозное значение Упрог определяется путем подстановки в уравнение регрессии У=1,028+1,39*х соответствующего (прогнозное) значения Хпрог.
Сбор данных осуществлен по периодам времени, то прогнозное значение х будет следующий период. Например, Хпрог=10, то Упрог=1,028+1,39*10= 14,93, это означает, что через месяц масса зверка будет в среднем 14,93 кг. Через два месяца в среднем будет Упрог=1,028+1,39*11= 16,32 кг.
8. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
Средняя стандартная ошибка прогноза за 10 период вычисляется по формулам:
m2 (Yпрог) =?{е-- (у-у*) 2/ (n-m-1) } {1+ 1/n + (xпрог-хср) 2/?е-- (x-xср) 2}=
= (0,96/7) * (1+1/9+36/60) = 0,137*1,711=0,234, отсюда m (yпрог) = 0,484
и строим доверительный интервал прогноза
gу =упр?±?Dпр=упр?±tтабл my,
gуmin=упр?tтабл my =14.93-2.26*0.484=13.84
gуmax= упр?tтабл my=14.93+2.26*0.484=16.02.
Таким образом Упрогн будет в интервале [13,84; 16,02].
Регрессионный анализ на компьютере с помощью ППП Excel выполняется очень легко и быстро. Рассмотрим работу пакета для проведения регрессионного анализа. Для этого выполним следующие шаги:
Формируем таблицу исходных данных в среде Excel;
В главном меню выберите последовательно пункты
Сервис/Анализ данных/Корреляция/ОК;
Заполните диалоговое окно ввода данных и параметров вывода.
Входной интервал; выделите все столбцы, содержащие значения Х и У; В1; С10;
Выходной интервал; выделите область пустой ячейки для вывода результатов, например Д2; ОК.
Еxcel представит таблицу коэффициентов парной корреляции между У и Х.
Таблица 5 - Результаты решения задачи с помощью инструмента Корреляция
№ |
х |
y |
|||||
1 |
0 |
1,30 |
х |
y |
|||
2 |
1 |
2,50 |
х |
1 |
|||
3 |
2 |
3,90 |
y |
0,9959 |
1 |
||
4 |
3 |
5, 20 |
|||||
5 |
4 |
6,30 |
|||||
6 |
5 |
7,50 |
|||||
7 |
6 |
9,00 |
|||||
8 |
7 |
10,80 |
|||||
9 |
8 |
12,80 |
Таблица 5. показывает коэффициент корреляции между у и х ryx=0,9959.
Для вычисления параметров уравнения регрессии используем инструмент анализа данных Регрессия.
Алгоритм действий следующий: Сервис/Анализ данных/Регрессия/ОК;
Входной интервал У; выделите столбец содержащие значения У (столбец С1: С10;
Входной интервал Х; выделите столбец содержащие значения Х (столбец В1: В10;
Выходной интервал: выделите область пустых ячеек для вывода результатов, например В12;
Остатки; установите флажок;
Excel представит решение в виде таблиц 5-7.
Таблица 6 называется регрессионной статистики. В таблице представлено:
Коэффициент корреляции R=0.9959;
Квадрат коэффициента корреляции R2=0.9918;
Стандартная ошибка - S= 0.3709;
Таблица 7-Регрессионная статистика
SUMMARY OUTPUT |
||||
Regression Statistics |
||||
Multiple R |
0,9959 |
|||
R Square |
0,9918 |
|||
Adjusted R Square |
0,9906 |
|||
Standard Error |
0,3709 |
|||
Observations |
9 |
Таблица 7 - Дисперсионный анализ представляет:
df =1 - число степени свободы;
SS - сумма квадратов разностей:
Сумма квадратов регрессии с числом степеней свободы 1 SS1=115,926.
Сумма квадратов остатков с числом степей свободы п-2 - SS2 =0,963.
Cумма квадратов общая с числом степеней свободы п-1 - SS=116,889
MS - оценка дисперсий:
дисперсия регрессии - d2факт?=SS1/1=115,926;
дисперсия остаточная d2ост?=SS2/ (n-2) =0.138;
F - критерий Фишера: F=842,758.
Таблица 7-Дисперсионный анализ
ANOVA |
|||||||
|
df |
SS |
MS |
F |
Significance F |
||
Regression |
1 |
115,926 |
115,926 |
842,758 |
0,000 |
||
Residual |
7 |
0,963 |
0,138 |
||||
Total |
8 |
116,889 |
Таблица 8 - Параметры уравнения регрессии
В ней представлено:
Графа 2 показывает значения коэффициентов а и в:
а=1,028, в=1,39.
Графа 3 - Стандартная ошибка; ma = 0,228 и mb=0,0479;
Графа 4 - t - статистика; ta =4,5135, tb=29,0303.
Графа 5-6-Доверительные интервалы. Интервальные оценки gаmin=0,4899, gаmax=1.5679. gвmin=1.2768, gвmax=1.5032 для параметров регрессии с доверительной вероятностью р=0,95.
Таблица 8
Coefficients |
Standard Error |
t Stat |
P-value |
Lower 95% |
Upper 95% |
||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
|
Intercept |
1,0289 |
0,2280 |
4,5135 |
0,0028 |
0,4899 |
1,5679 |
|
х |
1,3900 |
0,0479 |
29,0303 |
0,0000 |
1,2768 |
1,5032 |
По результатам запишем уравнение регрессии.
У=1,0289+1,39*х,
Доверительные интервалы параметров регрессии
0.4899<a<1.5679, 1,2768<b<1.5032.
При расчетах двумя способами имеются погрешности, они связаны с округлением десятичных знаков до двух. Использование специального пакета ЕХСЕL обеспечивает точность вычисление.