Содержание
Введение
1. Данные для корреляционного и регрессионного анализа
2. Корреляционный анализ экономических показателей
2.1 Построение матрицы парных коэффициентов корреляции
2.2 Расчёт частных коэффициентов корреляции. Сравнение частных и парных коэффициентов корреляции
2.3 Расчёт множественных коэффициентов корреляции
3. Регрессионный анализ экономических показателей
3.1 Проверка исходных данных на мультиколлинеарность
3.2 Построение регрессионной модели и её интерпретация
3.3 Сравнение исходных данных с рассчитанными по уравнению регрессии
Заключение
Список используемой литературы
Введение
В банковской, финансовой сфере, при проведении маркетинговых и социологических исследований, при обработке различных экономических данных требуется оценка взаимосвязи показателей и моделирование их зависимости для дальнейшего прогнозирования. Эти задачи призваны решать методы корреляционного и регрессионного анализов.
Изменение любого экономического показателя зависит от большого числа факторов, но из них лишь некоторые оказывают существенное воздействие на исследуемый показатель. Доля влияния остальных факторов столь незначительна, что их игнорирование не может привести к существенным отклонениям исследуемого объекта.
В большинстве случаев между экономическими явлениями не существует строгой функциональной взаимосвязи, поэтому в экономике говорят не о функциональных, а о корреляционных или статистических зависимостях.
Нахождение, оценка и анализ таких зависимостей и оценка их параметров будет произведена в данной курсовой работе.
Задачами курсовой работы является следующее: провести корреляционный анализ (то есть построить матрицу парных коэффициентов корреляции, частных коэффициентов корреляции, сравнить этих коэффициентов, рассчитать множественные коэффициенты корреляции); выявить, можно ли производить регрессионный анализ; провести регрессионный анализ (проверить данные на наличие мультиколлинеарности, исходя из этого, провести поэтапный регрессионный анализ, интерпретировать полученное уравнение регрессии).
Объектом исследования курсовой работы является массив данных из пяти показателей (одному результативному и четырём факторным) по 50 объектам.
Предметом изучения курсовой работы является определение наличия взаимосвязи между показателями, а также характера этих взаимосвязей.
В курсовой работе делается акцент на использование ППП Microsoft Excel, так как Microsoft Office, куда он входит, имеет в настоящее время наибольшее распространение и доступен всем пользователям современных компьютеров, в отличие от многих специальных статистических пакетов. Также используются такие методы, как графический и табличный.
1. Данные для корреляционного и регрессионного анализа
С целью анализа взаимосвязи показателей эффективности производства продукции были рассмотрены показатели производственно-хозяйственной деятельности 50 предприятий машиностроения.
Необходимо провести анализ взаимосвязи следующих экономических показателей:
Результативный признак:
Y - рентабельность
Факторные признаки Xi:
X5 - удельный вес рабочих в составе ППП
X7 - коэффициент сменности оборудования
X10 - фондоотдача
X15- оборачиваемость нормируемых оборотных средств.
Исходные данные представлены в табл. 1.
Предположим, что рассматриваемые признаки Y, X5, X7, X10, X15 в генеральной совокупности подчиняются нормальному закону распределения и указанные данные представляют выборку из этой генеральной совокупности.
Таблица 1
Исходные данные
№ |
Y3 |
X5 |
X7 |
X10 |
X15 |
|
1 |
13,26 |
0,78 |
1,37 |
1,45 |
166,32 |
|
2 |
10,16 |
0,75 |
1,49 |
1,3 |
92,88 |
|
3 |
13,72 |
0,68 |
1,44 |
1,37 |
158,04 |
|
4 |
12,85 |
0,7 |
1,42 |
1,65 |
93,96 |
|
5 |
10,63 |
0,62 |
1,35 |
1,91 |
173,88 |
|
6 |
9,12 |
0,76 |
1,39 |
1,68 |
162,3 |
|
7 |
25,83 |
0,73 |
1,16 |
1,94 |
88,56 |
|
8 |
23,39 |
0,71 |
1,27 |
1,89 |
101,16 |
|
9 |
14,68 |
0,69 |
1,16 |
1,94 |
166,32 |
|
10 |
10,05 |
0,73 |
1,25 |
2,06 |
140,76 |
|
11 |
13,99 |
0,68 |
1,13 |
1,96 |
128,52 |
|
12 |
9,68 |
0,74 |
1,1 |
1,02 |
177,84 |
|
13 |
10,03 |
0,66 |
1,15 |
1,85 |
114,48 |
|
14 |
9,13 |
0,72 |
1,23 |
0,88 |
93,24 |
|
15 |
5,37 |
0,68 |
1,39 |
0,62 |
126,72 |
|
16 |
9,86 |
0,77 |
1,38 |
1,09 |
91,8 |
|
17 |
12,62 |
0,78 |
1,35 |
1,6 |
69,12 |
|
18 |
5,02 |
0,78 |
1,42 |
1,53 |
66,24 |
|
19 |
21,18 |
0,81 |
1,37 |
1,4 |
67,68 |
|
20 |
25,17 |
0,79 |
1,41 |
2,22 |
50,4 |
|
21 |
19,4 |
0,77 |
1,35 |
1,32 |
70,56 |
|
22 |
21 |
0,78 |
1,48 |
1,48 |
72 |
|
23 |
6,57 |
0,72 |
1,24 |
0,68 |
97,2 |
|
24 |
14,19 |
0,79 |
1,4 |
2,3 |
80,28 |
|
25 |
15,81 |
0,77 |
1,45 |
1,37 |
51,48 |
|
26 |
5,23 |
0,8 |
1,4 |
1,51 |
105,12 |
|
27 |
7,99 |
0,71 |
1,28 |
1,43 |
128,52 |
|
28 |
17,5 |
0,79 |
1,33 |
1,82 |
94,68 |
|
29 |
17,16 |
0,76 |
1,22 |
2,62 |
85,32 |
|
30 |
14,54 |
0,78 |
1,28 |
1,75 |
76,32 |
|
31 |
6,24 |
0,62 |
1,47 |
1,54 |
153 |
|
32 |
12,08 |
0,75 |
1,27 |
2,25 |
107,64 |
|
33 |
9,49 |
0,71 |
1,51 |
1,07 |
90,72 |
|
34 |
9,28 |
0,74 |
1,46 |
1,44 |
82,44 |
|
35 |
11,42 |
0,65 |
1,27 |
1,4 |
79,92 |
|
36 |
10,31 |
0,66 |
1,43 |
1,31 |
120,96 |
|
37 |
8,65 |
0,84 |
1,5 |
1,12 |
84,6 |
|
38 |
10,94 |
0,74 |
1,35 |
1,16 |
85,32 |
|
39 |
9,87 |
0,75 |
1,41 |
0,88 |
101,52 |
|
40 |
6,14 |
0,75 |
1,47 |
1,07 |
107,64 |
|
41 |
12,93 |
0,79 |
1,35 |
1,24 |
85,32 |
|
42 |
9,78 |
0,72 |
1,4 |
1,49 |
131,76 |
|
43 |
13,22 |
0,7 |
1,2 |
2,03 |
116,64 |
|
44 |
17,29 |
0,66 |
1,15 |
1,84 |
138,24 |
|
45 |
7,11 |
0,69 |
1,09 |
1,22 |
156,96 |
|
46 |
22,49 |
0,71 |
1,26 |
1,72 |
137,52 |
|
47 |
12,14 |
0,73 |
1,36 |
1,75 |
135,72 |
|
48 |
15,25 |
0,65 |
1,15 |
1,46 |
155,52 |
|
49 |
31,34 |
0,82 |
1,87 |
1,6 |
48,6 |
|
50 |
11,56 |
0,8 |
1,17 |
1,47 |
42,84 |
|
2. Корреляционный анализ экономических показателей
2.1 Построение матрицы парных коэффициентов корреляции
Парные коэффициенты корреляции характеризуют взаимосвязь между двумя выбранными переменными на фоне действия остальных показателей и являются самыми распространёнными показателями тесноты связи при статистическом анализе данных.
Расчёт матрицы выборочных парных коэффициентов корреляции осуществляется в Excel с помощью пакета анализа данных.
Таблица 2
|
Y3 |
X5 |
X7 |
X10 |
X15 |
|
Y3 |
1 |
|
|
|
|
|
X5 |
0,241163 |
1 |
|
|
|
|
X7 |
0,118018 |
0,379629 |
1 |
|
|
|
X10 |
0,450862 |
-0,00732 |
-0,20751 |
1 |
|
|
X15 |
-0,32518 |
-0,61934 |
-0,37435 |
0,008075 |
1 |
Кроме того, для дальнейших расчётов необходимо привести корреляционную матрицу к обычному виду, заполнив верхний треугольник таблицы. При этом надо учесть, что матрица парных коэффициентов корреляции является симметричной и коэффициенты rij=rji.
Итак, получили матрицу парных коэффициентов корреляции размерности kЧk (в нашем случае 5Ч5).
Таблица 3
Матрица парных коэффициентов корреляции исследуемых экономических показателей
|
Y3 |
X5 |
X7 |
X10 |
X15 |
|
Y3 |
1 |
0,241163 |
0,118018 |
0,450862 |
-0,32518 |
|
X5 |
0,241163 |
1 |
0,379629 |
-0,00732 |
-0,61934 |
|
X7 |
0,118018 |
0,379629 |
1 |
-0,20751 |
-0,37435 |
|
X10 |
0,450862 |
-0,00732 |
-0,20751 |
1 |
0,008075 |
|
X15 |
-0,32518 |
-0,61934 |
-0,37435 |
0,008075 |
1 |
Теперь необходимо проверить значимость полученных коэффициентов корреляции, т.е. гипотезу H0: с=0. Для этого рассчитаем наблюдаемые значения t-статистик для всех коэффициентов по формуле:
и построим матрицу наблюдаемыx значений t-статистик для всех коэффициентов rij (таб.4).
Наблюдаемые значения t-статистик необходимо сравнить с критическим значением tкр, найденным для уровня значимости б=0,05 и числа степеней свободы н=n-2.
Для этого используем встроенную функцию Excel
ВСТАВКА (Office 2003) или ФОРМУЛЫ (Office 2007)
f(x) Функция
Статистические
СТЬЮДРАСПОБР,
введя в предложенное меню вероятность б=0,05 и число степеней свободы н=n-2=50-2=48.
Получаем tкр= 2,010634722
Таблица 4
Матрица наблюдаемыx значений t-статистик парных коэффициентов корреляции исследуемых экономических показателей
tнабл |
Y3 |
X5 |
X7 |
X10 |
X15 |
|
Y3 |
|
1,7216 |
0,82341 |
3,4995 |
-2,38235 |
|
X5 |
1,7216 |
|
2,84297 |
-0,051 |
-5,4653 |
|
X7 |
0,8234 |
2,843 |
|
-1,47 |
-2,79693 |
|
X10 |
3,4995 |
-0,051 |
-1,4697 |
|
0,05595 |
|
X15 |
-2,382 |
-5,465 |
-2,7969 |
0,0559 |
|
По результатам, представленным в табл. 4, наблюдаемое значение t-статистики больше критического tкр= 2,010634722 по модулю для парных коэффициентов корреляции Следовательно, гипотеза о равенстве нулю этих коэффициентов отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициенты значимы.
Для остальных коэффициентов наблюдаемое значение t-статистики меньше критического значения по модулю, следовательно, гипотеза H0 не отвергается, т.е. коэффициенты - незначимы.
Для проверки значимости парных коэффициентов корреляции можно также воспользоваться таблицами Фишера-Иейтса для нахождения критического значения rкр для уровня значимости б=0,05 и числа степеней свободы н=n-2=50-2=48.
По таб. rкр (б=0,05; н=48)=0,267.
Если соответствующий коэффициент | rij | > rкр, то он считается значимым.
Отметим в матрице парных коэффициентов корреляции значимые.
Таблица 5
Матрица парных коэффициентов корреляции исследуемых показателей с выделением значимых коэффициентов (при б=0,05)
|
Y3 |
X5 |
X7 |
X10 |
X15 |
|
Y3 |
1 |
0,241163 |
0,118018 |
0,450862 |
-0,32518 |
|
X5 |
0,241163 |
1 |
0,379629 |
-0,00732 |
-0,61934 |
|
X7 |
0,118018 |
0,379629 |
1 |
-0,20751 |
-0,37435 |
|
X10 |
0,450862 |
-0,00732 |
-0,20751 |
1 |
0,008075 |
|
X15 |
-0,32518 |
-0,61934 |
-0,37435 |
0,008075 |
1 |
Для значимых парных коэффициентов корреляции можно построить с заданной надёжностью г интервальную оценку сmin ? с ? сmax с помощью Z-преобразования Фишера:
Алгоритм построения интервальной оценки для генерального коэффициента корреляции следующий.
1). Zr По найденному выборочному коэффициенту корреляции r с помощью Z-преобразования Фишера находят соответствующее значение Zr , являющееся гиперболическим арктангенсом r :
Для этого в Excel есть встроенные функции:
ВСТАВКА (Office 2003) или ФОРМУЛЫ (Office 2007)
f(x) Функция f(x) Функция
Статистические или Математические
ФИШЕР, ATANH ,
в качестве аргумента вводится значение соответствующего выборочного коэффициента корреляции r.
Следует учитывать, что Z-функция - нечетная, т.е. Z(-r)= - Z(r).
2). ДZ Найдём значение tг, соответствующее заданной надёжности г=0,95. - значение функции Лапласа.
Значение tг можно найти по таблице, а можно использовать встроенную функцию Excel:
ВСТАВКА (Office 2003) или ФОРМУЛЫ (Office 2007)
f(x) Функция
Статистические
НОРМСТОБР
Необходимо заметить, что Excel с помощью функции НОРМСТОБР выдаёт не значения функции Лапласа, а значение функции распределения стандартного нормального закона F(t):
.
Поэтому при расчёте всех интервальных оценок нужно пересчитывать г=0,95 в , а по этому значению уже вычислять t.
В нашем случае для надёжности г=0,95: F(t)=0,975; tг =1,959964 (по таблице tг =1,96).
Находим
3). Zmin и Zmax Теперь можно найти Zmin и Zmax:
Zmin = Zr - ДZ; Zmax= Zr + ДZ
4). сmin и сmax
Наконец, использовав обратное преобразование Фишера, находят нижнюю и верхнюю границы для генерального коэффициента корреляции сmin и сmax , соответствующие Zmin и Zmax.
Соответствующие значения сmin и сmax являются гиперболическими тангенсами Zmin и Zmax :
.
Для их нахождения в Excel используем встроенные функции:
ВСТАВКА (Office 2003) или ФОРМУЛЫ (Office 2007)
f(x) Функция f(x) Функция
Статистические или Математические
ФИШЕРОБР, TANH ,
введя в качестве аргумента значения соответствующих Zmin и Zmax.
Можно найти значения сmin и сmax и по таблице Z-преобразования Фишера.
Построим с надёжностью г=0,95 и с учётом найденного доверительные интервалы для всех значимых парных коэффициентов корреляции, полученных нами. Расчёты представим в виде таблицы.
Таблица 6
Расчёт доверительных интервалов для парных генеральных коэффициентов корреляции исследуемых экономических показателей с надёжностью г=0,95
|
r |
Zr |
Zmin |
Zmax |
сmin |
сmax |
|
y3x10 |
0,450862 |
0,485782 |
0,1998914 |
0,771672 |
0,19727096 |
0,6479 |
|
y3x15 |
-0,325176 |
-0,33742 |
-0,623314 |
-0,05153 |
-0,5534312 |
-0,05149 |
|
x5x7 |
0,379629 |
0,399626 |
0,1137357 |
0,685516 |
0,11324784 |
0,595094 |
|
x5x15 |
-0,619341 |
-0,72394 |
-1,009826 |
-0,43805 |
-0,7656901 |
-0,41202 |
|
x7x15 |
-0,374348 |
-0,39347 |
-0,679361 |
-0,10758 |
-0,5911036 |
-0,10717 |
Таким образом, доверительные интервалы с надёжностью г=0,95 для всех значимых парных генеральных коэффициентов корреляции выглядят следующим образом:
P(0,19727? сY3X10 ? 0,6479)=0,95
P(-0,55343? сY3X15 ? -0,05149)=0,95
P(0,11325? сX5X7 ? 0,59509)=0,95
P(-0,76569? сX5X15 ? -0,41202)=0,95
P(-0,59110? сX7X15 ? -0,10717)=0,95
По полученным данным можно сделать следующие выводы:
1. Значимые прямые взаимосвязи обнаружены между изучаемым признаком Y3-рентабельность и факторным признаком Х10 - фондоотдача, а также между факторными признаками Х5 - удельный вес рабочих в составе ППП и Х7 - коэффициент сменности оборудования.
2. Обратные значимые взаимосвязи наблюдаются между факторным признаком Х15 - оборачиваемость нормируемых оборотных средств и изучаемым признаком Y3-рентабельность; между факторным признаком Х15 и Х5 - удельным весом рабочих в составе ППП; а также между факторным признаком Х15 и Х7 - коэффициентом сменности оборудования.
3. О тесноте связи можно судить по приближенности коэффициента корреляции по абсолютному значению к единице. Наиболее тесная связь наблюдается между удельным весом рабочих в составе ППП и оборачиваемостью нормируемых оборотных средств. Об этой связи можно сказать, что она умеренная (0,5?|r|?0,7) , в то же время, остальные значимые связи являются слабыми (0,3?|r|?0,5).
2.2 Расчёт частных коэффициентов корреляции. Сравнение частных и парных коэффициентов корреляции
Частные коэффициенты корреляции характеризуют взаимосвязь между двумя выбранными переменными при исключении влияния остальных показателей (т.е. характеризуют «чистую» связь только между этими признаками) и важны для понимания взаимодействия всего комплекса показателей, т.к. позволяют определить механизмы усиления-ослабления влияния переменных друг на друга.
Частный коэффициент (k-2)-го порядка между переменными, например, между Y и X1, равен:
,
где Rij - алгебраическое дополнение элемента rij корреляционной матрицы R , равное Rij =(-1)i+j ? Mij
Mij - минор элемента rij корреляционной матрицы R, т.е. определитель матрицы на 1 меньшего порядка, полученной из R путём вычёркивания i-й строки и j-го столбца.
Сформировав в в Excel соответствующие матрицы размерности (k-1)Ч(k-1) (в нашем случае 4Ч4), найдем с помощью встроенной функции определители этих матриц :
ВСТАВКА (Office 2003) или ФОРМУЛЫ (Office 2007)
f(x) Функция
Математические
МОПРЕД ,
указав в качестве массива соответствующую матрицу переменных.
Воспользовавшись этой функцией, получаем:
Таблица 7
Алгебраические дополнения корреляционной матрицы
R11 |
0,48252 |
R12 |
-(0,02028) |
R24 |
-0,00952 |
|
R22 |
0,55534 |
R13 |
-0,04886 |
R25 |
-(-0,30082) |
|
R33 |
0,42276 |
R14 |
-(0,22887) |
R34 |
-(-0,10839) |
|
R44 |
0,45305 |
R15 |
0,12790 |
R35 |
0,08093 |
|
R55 |
0,58563 |
R23 |
-(0,09779) |
R45 |
-(0,04340) |
Рассчитаем частные коэффициенты корреляции с помощью формул и занесем это в таблицу.
; ;
; ; и т.д.
Таблица 8
Матрица выборочных частных коэффициентов корреляции исследуемых экономических показателей
|
Y3 |
X5 |
X7 |
X10 |
X15 |
|
Y3 |
1 |
0,03917 |
0,1081842 |
0,489510 |
-0,2406076 |
|
X5 |
0,03917 |
1 |
0,2018278 |
0,018971 |
-0,5274903 |
|
X7 |
0,108184 |
0,201828 |
1 |
-0,24767 |
-0,1626469 |
|
X10 |
0,489510 |
0,018971 |
-0,247666 |
1 |
0,08425646 |
Теперь необходимо проверить значимость полученных частных коэффициентов корреляции, т.е. гипотезу H0: сij/{..} = 0.
Для этого рассчитаем наблюдаемые значения t-статистик для всех коэффициентов по формуле:
где l - порядок частного коэффициента корреляции, совпадающий с количеством фиксируемых переменных случайных величин (в нашем случае l=3, например ), а n - количество наблюдений.
Построим матрицу наблюдаемыx значений t-статистик для всех коэффициентов rij/{..}
Таблица 9
Матрица наблюдаемыx значений t-статистик частных коэффициентов корреляции исследуемых экономических показателей
tнабл |
Y3 |
X5 |
X7 |
X10 |
X15 |
|
Y3 |
|
0,26296 |
0,730006 |
3,7657588 |
-1,66290 |
|
X5 |
0,26296 |
|
1,382349 |
0,12729 |
-4,16511 |
|
X7 |
0,73001 |
1,38235 |
|
-1,7148 |
-1,10579 |
|
X10 |
3,7657588 |
0,12729 |
-1,71482 |
|
0,56723 |
|
X15 |
-1,6629 |
-4,1651 |
-1,10579 |
0,56723 |
|
Наблюдаемые значения t-статистик необходимо сравнить с критическим значением tкр, найденным для уровня значимости б=0,05 и числа степеней свободы н=n - l - 2.
Для этого используем встроенную статистическую функцию Excel СТЬЮДРАСПОБР, введя в предложенное меню вероятность б=0,05 и число степеней свободы н=n-l-2=50-3-2=45. (Можно найти значения tкр по таблицам математической статистики).
Получаем tкр= 2,014103359.
По результатам, представленным в таблице 9, наблюдаемое значение t-статистики больше критического tкр= 2,014103359 по модулю для частных коэффициентов корреляции и
Следовательно, гипотеза о равенстве нулю этих коэффициентов отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициенты значимы.
Для остальных коэффициентов наблюдаемое значение t-статистики меньше критического значения по модулю, следовательно, гипотеза H0 не отвергается, т.е. незначимы.
Для проверки значимости частных коэффициентов корреляции можно также воспользоваться таблицами Фишера-Иейтса для нахождения критического значения rкр с учётом уровня значимости б=0,05 и числа степеней свободы н=n-l-2=50-3-2=45. По таб. rкр (б=0,05; н=45)=0,288. Если соответствующий коэффициент |r|> rкр, то он считается значимым.
Отметим в матрице частных коэффициентов корреляции значимые.
Таблица 10
Матрица частных коэффициентов корреляции исследуемых показателей с выделением значимых коэффициентов (при б=0,05)
|
Y3 |
X5 |
X7 |
X10 |
X15 |
|
Y3 |
1 |
0,03917 |
0,1081842 |
0,489510 |
-0,2406076 |
|
X5 |
0,03917 |
1 |
0,2018278 |
0,018971 |
-0,5274903 |
|
X7 |
0,108184 |
0,201828 |
1 |
-0,24767 |
-0,1626469 |
|
X10 |
0,489510 |
0,018971 |
-0,247666 |
1 |
0,08425646 |
|
X15 |
-0,240608 |
-0,5275 |
-0,162647 |
0,084256 |
1 |
Для значимых частных коэффициентов корреляции можно построить с заданной надёжностью г интервальную оценку сmin ? с ? сmax с помощью Z-преобразования Фишера:
Алгоритм построения интервальной оценки для частного генерального коэффициента корреляции такой же, как и для парного; единственное отличие заключается в расчёте ДZ :
,
где l - порядок частного коэффициента корреляции, совпадающий с количеством фиксируемых переменных случайных величин (в нашем случае l=3), а n - количество наблюдений.
Построим с надёжностью г=0,95 и с учётом найденного доверительные интервалы для всех значимых частных коэффициентов корреляции, полученных нами. Расчёты представим в виде таблицы 11.
Таблица 11
Расчёт доверительных интервалов для частных генеральных коэффициентов корреляции исследуемых экономических показателей с надёжностью г=0,95
|
r |
Zr |
Zmin |
Zmax |
сmin |
сmax |
|
YX10 |
0,48950965 |
0,535415 |
0,2399396 |
0,830891 |
0,23543867 |
0,680954 |
|
X5X15 |
-0,5274903 |
-0,58666 |
-0,882137 |
-0,29119 |
-0,7074884 |
-0,283226 |
Таким образом, доверительные интервалы с надёжностью г=0,95 для всех значимых частных генеральных коэффициентов корреляции выглядят следующим образом:
P(0,23543867? ? 0,680954)=0,95
P(-0,707488? ? -0,283226)=0,95
Теперь построим таблицу сравнения выборочных парных и частных коэффициентов корреляции для всех переменных.
Сравнение парных и частных коэффициентов играет важную роль в выявлении механизмов воздействия переменных друг на друга.
Таким образом, если оказывается, что парный коэффициент корреляции между двумя переменными по модулю больше соответствующего частного, то остальные переменные усиливают связь между этими двумя признаками. Соответственно, если парный коэффициент корреляции между двумя переменными по абсолютной величине меньше частного, то остальные признаки ослабляют связь между рассматриваемыми двумя.
Таблица 12
Таблица сравнения выборочных оценок парных и частных коэффициентов корреляции пар исследуемых показателей с выделением значимых коэффициентов (при б=0,05)
Между переменными |
Коэффициент корреляции |
||
парный |
частный |
||
Y X5 |
0,241163 |
0,03917 |
|
Y X7 |
0,118018 |
0,108184 |
|
Y X10 |
0,450862 |
0,489510 |
|
Y X15 |
-0,32518 |
-0,24061 |
|
X5 X7 |
0,379629 |
0,201828 |
|
X5 X10 |
-0,00732 |
0,018971 |
|
X5 X15 |
-0,61934 |
-0,52749 |
|
X7 X10 |
-0,20751 |
-0,24767 |
|
X7 X15 |
-0,37435 |
-0,16265 |
|
X10 X15 |
0,008075 |
0,084256 |
По полученным данным можно сделать следующие выводы.
Значимые корреляционные зависимости, полученные на этапе расчёта парных коэффициентов корреляции, подтвердились и при вычислении частных коэффициентов корреляции только для связей между рентабельностью и фондоотдачей, и удельным весом рабочих в составе ППП и оборачиваемостью нормируемых оборотных средств. При этом выявлены следующие механизмы воздействия переменных друг на друга:
1. Прямая связь между рентабельностью и фондоотдачей достаточно тесная и значимая, при этом частный коэффициент по модулю немного меньше парного. Следовательно, остальные переменные, включённые в корреляционную модель (Х5 - удельный вес рабочих в составе ППП, Х7 - коэффициент сменности оборудования и X15 - оборачиваемость нормируемых оборотных средств) ослабляют взаимосвязь между указанными факторными признаками.
2. Между факторными признаками X5 - удельным весом рабочих в составе ППП и Х15 - оборачиваемость нормируемых оборотных средств также существует значимая обратная корреляционная связь. Её усиливают переменные, включенные в корреляционную модель, так как парный коэффициент по абсолютному значению больше частного.
3. Для связи рентабельности (Y) с удельным весом рабочих в составе ППП (Х5), а также рентабельности и коэффициента сменности оборудования (Х7) характерна следующая ситуация: обе связи незначимы, являются прямыми, воздействие других переменных значительно усиливает эти взаимосвязи.
4. Парный коэффициент корреляции для связи X5X7 значим, но его частный коэффициент незначим, то есть значимость этой прямой корреляционной связи не подтвердилась. В тоже время, ее усиливают переменные, включенные в корреляционную модель.
5. Аналогичная ситуация происходит со связями рентабельности (Y) с оборачиваемостью нормируемых оборотных средств (X15) и коэффициента сменности оборудования (X7) также с оборачиваемостью нормируемых оборотных средств: парный коэффициент значим, взаимосвязи обратные, и их усиливает переменные, включенные в модель.
6. Единственная обратная взаимосвязь, которая ослабляется остальными переменными - это связь между коэффициентом сменности оборудования (X7) и фондоотдачей (Х10), так как значение частного коэффициента превышает значение парного по модулю. Но эта взаимосвязь незначима.
2.3 Расчёт множественных коэффициентов корреляции
Множественные коэффициенты корреляции служат мерой связи одной переменной с совместным действием всех остальных показателей.
Вычислим точечные оценки множественных коэффициентов корреляции. Множественный коэффициент корреляции, например, для 1-го показателя Y вычисляется по формуле:
где |R| - определитель корреляционной матрицы R;
Rii - алгебраическое дополнение элемента rii корреляционной матрицы R.
Все алгебраические дополнения Rii были найдены в п.2.2 на этапе расчёта частных коэффициентов корреляции, поэтому осталось вычислить только определитель самой корреляционной матрицы.
Чтобы найти определитель корреляционной матрицы, воспользуемся встроенной математической функцией Excel МОПРЕД.
Получим |R| = 0,327084571.
;
Множественный коэффициент детерминации R2i/{..}) (и его выборочная оценка r2i/{..}) показывает долю дисперсии рассматриваемой случайной величины, обусловленную влиянием остальных переменных, включённых в корреляционную модель.
Соответственно (1- R2i/{..}) показывает долю остаточной дисперсии данной случайной величины, обусловленную влиянием других, не включённых в исследуемую модель факторов.
Множественные коэффициенты детерминации получаются возведением соответствующих множественных коэффициентов корреляции в квадрат (таб. 13).
Проверим значимость полученных множественных коэффициентов корреляции и детерминации.
Проверка значимости, т.е. гипотезы о равенстве нулю соответствующего множественного коэффициента корреляции, осуществляется с помощью статистики:
,
где l - порядок множественного коэффициента корреляции, совпадающий с количеством фиксируемых переменных случайных величин (в нашем случае l=4, например, ), а n - количество наблюдений.
Произведя расчёты, получим (таб.13).
Для определения значимости множественных коэффициентов корреляции и детерминации нужно найти критическое значение F-распределения для заданного уровня значимости б и числа степеней свободы числителя н1=l и знаменателя н2=n-l-1.
Для определения Fкр можно воспользоваться встроенной функцией Excel:
ВСТАВКА (Office 2003) или ФОРМУЛЫ (Office 2007)
f(x) Функция
Статистические
FРАСПОБР,
введя в предложенное меню вероятность б=0,05 и число степеней свободы н1=l=4 и н2=n-l-1=50-4-1=45.
Можно найти значения Fкр по таблицам математической статистики.
Получаем Fкр(0,05; 4; 45)= 2,578739184.
Таблица 13
Множественные коэффициенты корреляции и детерминации исследуемых показателей с выделением значимых коэффициентов (на уровне значимости б=0,05)
Множественный коэффициент корреляции |
Множественный коэффициент детерминации r2 |
Значение статистики F набл |
||
rY /{..} |
0,5675688 |
0,3221344 |
5,3462093 |
|
rX5/{..} |
0,641108 |
0,4110195 |
7,8508016 |
|
rX7/{..} |
0,4757306 |
0,2263196 |
3,2908884 |
|
rX10/{..} |
0,527289 |
0,2780337 |
4,3324456 |
|
rX15/{..} |
0,6644429 |
0,4414844 |
8,8926764 |
Если наблюдаемое значение F-статистики превосходит ее критическое значение Fкр=2,578739184, то гипотеза о равенстве нулю соответствующего множественного коэффициента корреляции отвергается с вероятностью ошибки, равной 0,05. Следовательно, у нас все коэффициенты значимо отличаются от нуля.
Полученные данные позволяют сделать следующие выводы.
Множественный коэффициент корреляции = 0,5675688 значим и имеет достаточно высокое значение, что говорит о том, показатель Y - рентабельность имеет умеренную связь с многомерным массивом факторных признаков X5 - удельный вес рабочих в составе ППП, X7 - коэффициент сменности оборудования, X10 - фондоотдача и X15 - оборачиваемость нормируемых оборотных средств. Это даёт основание для проведения дальнейшего регрессионного анализа.
Множественный коэффициент детерминации r2Y/{..}=0,3221344 показывает, что 32,21% доли дисперсии Y - объёма промышленной продукции, обусловлены изменениями факторных признаков.
Факторные признаки также являются значимыми, несмотря на то, что у Х7 и Х10 всего 22,63% и 27,80% доля дисперсии соответственно обусловлены изменениями факторных признаков. Более тесная связь с другими переменными наблюдается у Х5 и Х15, у которых 41,10% и 44,15% доли дисперсии обусловлены изменениями остальными рассматриваемыми признаками, а остальное факторами, которые не включены в изучаемую модель.
Итак, полученные результаты корреляционного анализа, показавшие, что показатель Y3 - рентабельность имеет умеренную связь с многомерным массивом факторных признаков, позволяют перейти ко второму этапу статистического исследования - построению регрессионной модели.
3. Регрессионный анализ экономических показателей
После того как с помощью корреляционного анализа выявлено наличие статистически значимых связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа. С этой целью подбирают класс функций, связывающий результативный показатель Y и аргументы X1, X2, X3 ,... Xk, отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров уравнения связи и анализируют точность полученного уравнения.
Наиболее часто используется множественная линейная модель регрессионного анализа, уравнение которой имеет вид:
для всех i=1,2,…n, или в матричной форме: ,
Где
Исследуем на основе линейной регрессионной модели зависимость рентабельности (Y) от удельного веса рабочих в составе ППП (Х5), коэффициента сменности оборудования (Х7) , фондоотдачи (X10) и оборачиваемости нормируемых оборотных средств (X15).
3.1 Проверка исходных данных на мультиколлинеарность
Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность. Она возникает в случаях существования достаточно тесных линейных статистических связей между объясняющими переменными X1, X2, X3 ,... Xk. В результате мультиколлинеарности матрица парных коэффициентов корреляции становится слабообусловленной, близкой к вырожденной.
Точных количественных критериев для определения наличия или отсутствия мультиколлинеарности не существует. Однако существуют некоторые рекомендации по выявлению этого негативного явления, на которые следует обратить внимание. На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8 , т.е. | rij | > 0,8 , то считают, что имеет место мультиколлинеарность и в уравнение регрессии следует включать только один из показателей Xi или Xj (как правило, тот, который имеет наибольшую связь с Y).
Прежде, чем переходить к построению регрессионной модели, необходимо проверить объясняющие переменные на наличие мультиколлинеарности. Для этого рассмотрим матрицу парных коэффициентов корреляции между факторными признаками Xi.
Таблица 14
Матрица парных коэффициентов корреляции факторных признаков
X5 |
X7 |
X10 |
X15 |
||
X5 |
1 |
0,379629 |
-0,00732 |
-0,61934 |
|
X7 |
0,379629 |
1 |
-0,20751 |
-0,37435 |
|
X10 |
-0,00732 |
-0,20751 |
1 |
0,008075 |
|
X15 |
-0,61934 |
-0,37435 |
0,008075 |
1 |
Поскольку значения коэффициентов корреляции для всех пар объясняющих переменных не превышают по модулю 0,8, то нет необходимости сокращать набор объясняющих переменных.
3.2 Построение регрессионной модели и её интерпретация
Будем использовать алгоритм пошагового регрессионного анализа с последовательным исключением незначимых регрессоров, пока все входящие в регрессионную модель факторы не будут иметь значимые коэффициенты.
Построение и оценка регрессионной модели осуществляется в Excel с помощью модуля регрессии пакета анализа данных.
в меню Office 2007
ДАННЫЕ
Анализ данных (Data Analysis)
Регрессия (Regression)
Задаем нужные параметры.
I ЭТАП РЕГРЕССИОННОГО АНАЛИЗА.
В модель включены все факторные признаки (X5, X7, X10 , X15).
ВЫВОД ИТОГОВ |
|||||||||
Регрессионная статистика |
|||||||||
Множественный R |
0,56756882 |
||||||||
R-квадрат |
0,32213436 |
||||||||
Нормированный R-квадрат |
0,26187964 |
||||||||
Стандартная ошибка |
4,96625793 |
||||||||
Наблюдения |
50 |
||||||||
Дисперсионный анализ |
|||||||||
|
df (число степеней свободы н) |
SS (сумма квадратов отклонений Q) |
MS (средний квадрат MS=SS/н) |
F (Fнабл= MSR/MSост) |
Значимость F |
||||
Регрессия |
4 |
527,4296 |
131,8574 |
5,3462 |
0,001309 |
||||
Остаток |
45 |
1109,8673 |
24,6637 |
||||||
Итого |
49 |
1637,2969 |
|
|
|
||||
|
Коэффи-циенты (bi) |
Стандартная ошибка (Sbi) |
t-ста-тистика (tнабл) |
P-Значение |
Нижние 95% (вimin) |
Верхние 95% (вimax) |
Нижние 98% (вimin) |
Верхние 98% (вimax) |
|
Y-пересечение |
-1,3837 |
15,8683 |
-0,0872 |
0,9309 |
-33,3442 |
30,5768 |
-39,6600 |
36,8926 |
|
Переменная X5 |
4,5936 |
17,4685 |
0,2630 |
0,7938 |
-30,5899 |
39,7770 |
-37,5426 |
46,7297 |
|
Переменная X7 |
4,1894 |
5,7389 |
0,7300 |
0,4692 |
-7,3693 |
15,7481 |
-9,6534 |
18,0323 |
|
Переменная X10 |
6,5490 |
1,7391 |
3,7658 |
0,0005 |
3,0463 |
10,0518 |
2,3541 |
10,7439 |
|
Переменная X15 |
-0,0428 |
0,0257 |
-1,6629 |
0,1033 |
-0,0945 |
0,0090 |
-0,1048 |
0,0193 |
В регрессионной статистике указываются множественный коэффициент корреляции (Множественный R) и детерминации (R-квадрат) между Y и массивом факторных признаков (что совпадает с полученными ранее значениями в корреляционном анализе)
Средняя часть таблицы (Дисперсионный анализ) необходима для проверки значимости уравнения регрессии.
Нижняя часть таблицы - точечные оценки bi генеральных коэффициентов регрессии вi, проверка их значимости и интервальная оценка.
Оценка вектора коэффициентов b (столбец Коэффициенты):
Тогда оценка уравнения регрессии имеет вид:
Необходимо проверить значимость уравнения регрессии и полученных коэффициентов регрессии.
Проверим на уровне б=0,05 значимость уравнения регрессии, т.е. гипотезу H0: в1=в2=в3=…=вk=0. Для этого рассчитывается наблюдаемое значение F-статистики:
Excel выдаёт это в результатах дисперсионного анализа:
QR=527,4296; Qост=1109,8673 =>
В столбце F указывается значение Fнабл.
По таблицам F-распределения или с помощью встроенной статистической функции FРАСПОБР для уровня значимости б=0,05 и числа степеней свободы числителя н1=k=4 и знаменателя н2=n-k-1=45 находим критическое значение F-статистики, равное
Fкр = 2,578739184
Так как наблюдаемое значение F-статистики превосходит ее критическое значение 8,1957 > 2,7587, то гипотеза о равенстве вектора коэффициентов отвергается с вероятностью ошибки, равной 0,05. Следовательно, хотя бы один элемент вектора в=(в1,в2,в3,в4)T значимо отличается от нуля.
Проверим значимость отдельных коэффициентов уравнения регрессии, т.е. гипотезу .
Проверку значимости регрессионных коэффициентов проводят на основе t-статистики для уровня значимости .
Наблюдаемые значения t-статистик указаны в таблице результатов в столбце t-статистика.
|
Коэффициенты (bi) |
t-статистика (tнабл) |
||
Y-пересечение |
b0=-1,3837 |
-0,0872 |
||
Переменная X5 |
b1= 4,5936 |
0,2630 |
||
Переменная X7 |
b2 = 4,1894 |
0,7300 |
||
Переменная X10 |
b3= 6,5490 |
3,7658 |
||
Переменная X15 |
b4 =-0,0428 |
-1,6629 |
Их необходимо сравнить с критическим значением tкр, найденным для уровня значимости б=0,05 и числа степеней свободы н=n - k - 1.
Для этого используем встроенную статистическую функцию Excel СТЬЮДРАСПОБР, введя в предложенное меню вероятность б=0,05 и число степеней свободы н= n-k-1=50-4-1=45. (Можно найти значения tкр по таблицам математической статистики.
Получаем tкр= 2,014103359.
Для наблюдаемое значение t-статистики меньше критического по модулю 2,0141>|-0,0872|, 2,0141>|0,2630|, 2,0141>|0,7300|, 2,0141>|-1,6629|.
Следовательно, гипотеза о равенстве нулю этих коэффициентов не отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициенты незначимы.
Для наблюдаемое значение t-статистики больше критического значения по модулю |3,7658|>2,0141, следовательно, гипотеза H0 отвергается, т.е. - значим.
Значимость регрессионных коэффициентов проверяют и следующие столбцы результирующей таблицы:
Столбец p-значение показывает значимость параметров модели граничным 5%-ым уровнем, т.е. если p?0,05, то соответствующий коэффициент считается значимым, если p>0,05, то незначимым.
И последние столбцы - нижние 95% и верхние 95% и нижние 98% и верхние 98% - это интервальные оценки регрессионных коэффициентов с заданными уровнями надёжности для г=0,95 (выдаётся всегда) и г=0,98 (выдаётся при установке соответствующей дополнительной надёжности).
Если нижние и верхние границы имеют одинаковый знак (ноль не входит в доверительный интервал), то соответствующий коэффициент регрессии считается значимым, в противном случае - незначимым..
Как видно из таблицы, для коэффициента в3 p-значение p=0,0005<0,05 и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям этот коэффициент является значимым.
Согласно алгоритму пошагового регрессионного анализа с исключением незначимых регрессоров, на следующем этапе необходимо исключить из рассмотрения переменную, имеющую незначимый коэффициент регрессии.
В случае, когда при оценке регрессии выявлено несколько незначимых коэффициентов, первым из уравнения регрессии исключается регрессор, для которого t-статистика () минимальна по модулю. По этому принципу на следующем этапе необходимо исключить переменную Х5 , имеющую незначимый коэффициент регрессии в2
II ЭТАП РЕГРЕССИОННОГО АНАЛИЗА.
В модель включены факторные признаки X7, X10, X15, исключён X5.
ВЫВОД ИТОГОВ |
|||||||||
Регрессионная статистика |
|||||||||
Множественный R |
0,56665 |
||||||||
R-квадрат |
0,321093 |
||||||||
Нормированный R-квадрат |
0,276816 |
||||||||
Стандартная ошибка |
4,915753 |
||||||||
Наблюдения |
50 |
||||||||
Дисперсионный анализ |
|||||||||
|
df (число степеней свободы н) |
SS (сумма квадратов отклонений Q) |
MS (средний квадрат MS=SS/н) |
F (Fнабл= MSR/MSост) |
Значимость F |
||||
Регрессия |
3 |
525,7241 |
175,2414 |
7,251979 |
0,00044 |
||||
Остаток |
46 |
1111,573 |
24,16463 |
||||||
Итого |
49 |
1637,297 |
|
|
|
||||
|
Коэффи-циенты (bi) |
Стандартная ошибка (Sbi) |
t-ста-тистика (tнабл) |
P-Значение |
Нижние 95% (вimin) |
Верхние 95% (вimax) |
Нижние 98% (вimin) |
Верхние 98% (вimax) |
|
Y-пересечение |
1,94084 |
9,492634 |
0,204457 |
0,838898 |
-17,1668 |
21,04852 |
-20,9382 |
24,81987 |
|
Переменная X7 |
4,502469 |
5,556948 |
0,810241 |
0,421973 |
-6,68309 |
15,68803 |
-8,89082 |
17,89576 |
|
Переменная X10 |
6,569053 |
1,719766 |
3,819738 |
0,000399 |
3,107345 |
10,03076 |
2,424095 |
10,71401 |
|
Переменная X15 |
-0,0465 |
0,021196 |
-2,19389 |
0,033333 |
-0,08917 |
-0,00384 |
-0,09759 |
0,004584 |
Оценка коэффициентов в случае трех объясняющих переменных имеет вид:
а уравнение регрессии имеет вид:
Проверим на уровне б=0,05 значимость уравнения регрессии, т.е. гипотезу H0: в2=в3=в4=0. Для этого в результатах дисперсионного анализа находим наблюдаемое значение F-статистики Fнабл=7,251979.
С помощью встроенной статистической функции FРАСПОБР или по таблицам F-распределения для уровня значимости б=0,05 и числа степеней свободы числителя н1=k=3 и знаменателя н1=n-k-1=46 находим критическое значение F-статистики, равное
Fкр = 2,80684494
Так как наблюдаемое значение F-статистики превосходит ее критическое значение 7,251979 > 2,80684494, то гипотеза о равенстве вектора коэффициентов отвергается с вероятностью ошибки, равной 0,05. Следовательно, хотя бы один элемент вектора в=(в2,в3,в4)T значимо отличается от нуля.
Проверим значимость отдельных коэффициентов уравнения регрессии, т.е. гипотезу. H0:вi=0, i=2,3,4.
Наблюдаемые значения t-статистик указаны в таблице результатов в столбце t-статистика.
|
Коэффициенты (bi) |
t-статистика (tнабл) |
||
Y-пересечение |
b0=1,94084 |
0,204457 |
||
Переменная X7 |
b2=4,502469 |
0,810241 |
||
Переменная X10 |
b3=6,569053 |
3,819738 |
||
Переменная X15 |
b4=-0,0465 |
-2,19389 |
Их необходимо сравнить с критическим значением tкр, найденным для уровня значимости б=0,05 и числа степеней свободы н=n - k - 1.
Для этого используем встроенную статистическую функцию Excel СТЬЮДРАСПОБР, введя в предложенное меню вероятность б=0,05 и число степеней свободы н= n-k-1=50-3-1=46. (Можно найти значения tкр по таблицам математической статистики).
Получаем tкр= 2,012895567.
Для в3, в4 наблюдаемое значение t-статистики больше критического по модулю |3,819738|>2,012895567, |-2,19389|>2,012895567.
Следовательно, гипотеза о равенстве нулю этих коэффициентов отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициенты значимы.
Для в0, в2, наблюдаемое значение t-статистики меньше критического значения по модулю |0,204457|<2,012895567, |0,204457|<0,810241, следовательно, гипотеза H0 не отвергается, т.е. в0, в2 - незначимы.
Столбец p-значение показывает, что для коэффициентов в3, в4 p3= 0,000398559, p4= 0,03333, т.е они меньше 0,05, следовательно, данные коэффициенты значимы.
Для в0, в2, p0= 0,83889, p1= 0,42197, то есть по всем проверочным критериям эти коэффициенты незначимы.
Согласно алгоритму пошагового регрессионного анализа с исключением незначимых регрессоров, на следующем этапе необходимо исключить из рассмотрения переменную X7 (коэффициент сменности оборудования), имеющую незначимый коэффициент регрессии в2.
III ЭТАП РЕГРЕССИОННОГО АНАЛИЗА.
В модель включены факторные признаки X10, X15., исключён X5, Х7.
ВЫВОД ИТОГОВ |
|||||||||
Регрессионная статистика |
|||||||||
Множественный R |
0,558036 |
||||||||
R-квадрат |
0,311404 |
||||||||
Нормированный R-квадрат |
0,282102 |
||||||||
Стандартная ошибка |
4,897756 |
||||||||
Наблюдения |
50 |
||||||||
Дисперсионный анализ |
|||||||||
|
df (число степеней свободы н) |
SS (сумма квадратов отклонений Q) |
MS (средний квадрат MS=SS/н) |
F (Fнабл= MSR/MSост) |
Значимость F |
||||
Регрессия |
2 |
509,8602 |
254,9301 |
10,6274 |
0,000156 |
||||
Остаток |
47 |
1127,437 |
23,98801 |
||||||
Итого |
49 |
1637,297 |
|
|
|
||||
|
Коэффи-циенты (bi) |
Стандартная ошибка (Sbi) |
t-ста-тистика (tнабл) |
P-Значение |
Нижние 95% (вimin) |
Верхние 95% (вimax) |
Нижние 98% (вimin) |
Верхние 98% (вimax) |
|
Y-пересечение |
9,128202 |
3,36724 |
2,710886 |
0,00934 |
2,35419 |
15,90221 |
1,018727 |
17,23768 |
|
Переменная X1 |
6,261759 |
1,671283 |
3,746677 |
0,000489 |
2,89957 |
9,623948 |
2,236732 |
10,28679 |
|
Переменная X2 |
-0,05304 |
0,019525 |
-2,71665 |
0,009201 |
-0,09232 |
-0,01376 |
-0,10007 |
-0,00602 |
|
Оценка коэффициентов в случае двух объясняющих переменных имеет вид:
а уравнение регрессии имеет вид:
Проверим на уровне б=0,05 значимость уравнения регрессии, т.е. гипотезу H0: в3=в4=0. Для этого в результатах дисперсионного анализа находим наблюдаемое значение F-статистики Fнабл=10,6274.
С помощью встроенной статистической функции FРАСПОБР или по таблицам F-распределения для уровня значимости б=0,05 и числа степеней свободы числителя н1=k=2 и знаменателя н1=n-k-1=50-2-1=47 находим критическое значение F-статистики, равное
Fкр = 3,195056281
Так как наблюдаемое значение F-статистики превосходит ее критическое значение 10,6274> 3,19505, то гипотеза о равенстве вектора коэффициентов отвергается с вероятностью ошибки, равной 0,05. Следовательно, хотя бы один элемент вектора в=(в3,в4)T значимо отличается от нуля.
Проверим значимость отдельных коэффициентов уравнения регрессии, т.е. гипотезу H0:вi=0, i=3,4.
Наблюдаемые значения t-статистик указаны в таблице результатов в столбце t-статистика.
|
Коэффициенты |
t-статистика |
|
Y-пересечение |
9,128202 |
2,710886 |
|
X10 |
6,261759 |
3,746677 |
|
X15 |
-0,05304 |
-2,71665 |
Их необходимо сравнить с критическим значением tкр, найденным для уровня значимости б=0,05 и числа степеней свободы н=n - k - 1.
Для этого используем встроенную статистическую функцию Excel СТЬЮДРАСПОБР, введя в предложенное меню вероятность б=0,05 и число степеней свободы н= n-k-1=50-2-1=47. (Можно найти значения tкр по таблицам математической статистики).
Получаем tкр= 2,01174048.
Для всех рассматриваемых коэффициентов в0,в3,в4 наблюдаемое значение t-статистики больше критического по модулю
|2,710886|>2,01174048, |3,746677|>2,01174048, |-2,71665|>2,01174048
Следовательно, гипотеза о равенстве нулю коэффициентов отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициенты значимы.
Эту гипотезу так же подтверждают p-значения:
0,05 >
и доверительные интервалы не включают ноль, т.е. по всем проверочным критериям эти коэффициенты являются значимыми.
Т.к. в данном случае все коэффициенты оказались значимыми, процесс исключения переменных прекращается
Окончательная оценка регрессии со значимыми коэффициентами имеет вид:
Для значимых коэффициентов регрессии можно найти с заданной доверительной вероятностью г интервальные оценки.
|
Коэффициенты |
Нижние 95% |
Верхние 95% |
Нижние 98,0% |
Верхние 98,0% |
|
Y-пересечение |
9,128202 |
2,35419 |
15,90221 |
1,018727 |
17,23768 |
|
X10 |
6,261759 |
2,89957 |
9,623948 |
2,236732 |
10,28679 |
|
X15 |
-0,05304 |
-0,09232 |
-0,01376 |
-0,10007 |
-0,00602 |
Таким образом, интервальные оценки значимых генеральных коэффициентов регрессии имеют вид:
P(2,35419? в0?15,90221)=0,95 P(1,018727? в0?17,23768)=0,98 |
P(2,89957? в3?9,623948)=0,95 P(2,236732? в3?10,28679)=0,98 |
|
P(-0,09232? в4?-0,01376)=0,95 P(-0,10007? в4?-0,00602)=0,98. |
Интерпретация результатов
Величина R2 характеризует долю общей дисперсии зависимой переменной, обусловленную воздействием объясняющих переменных. Т.е. около 31,14% вариации рентабельности (Y) объясняется вариацией фондоотдача (X10) и оборачиваемостью нормируемых оборотных средств (X15), а 68,86% вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно утверждать, что модель слабо отражает исследуемый процесс.
Коэффициент регрессии показывает среднюю величину изменения зависимой переменной Y при изменении объясняющей переменной X на единицу собственного изменения. Знак при коэффициенте указывает направление этого изменения.
Коэффициент регрессии при X10 показывает, что при росте фондоотдачи на единицу рентабельность Y в среднем увеличится на 6,2618 единиц. Построенная выше интервальная оценка показывает, что с вероятностью 0,95 при росте оборачиваемости ненормируемых оборотных средств на единицу увеличение рентабельности будет в пределах от 2,90 до 9,62 единиц.
Аналогично, коэффициент при X15 свидетельствует о том, что при росте оборачиваемости нормируемых оборотных средств на единицу рентабельность в среднем уменьшается на 0,0530 единиц, а с вероятностью 0,95 при росте оборачиваемости нормируемых оборотных средств на единицу уменьшение рентабельности будет в пределах от 0,01376 до 0,09232 единиц.
3.3 Сравнение исходных данных с рассчитанными по уравнению регрессии
Таблица 15
Сравнительная таблица исходных данных показателя рентабельности (Y) с рассчитанными с помощью построенной линейной регрессионной модели
Наблюдение |
Предсказанное Y3 |
Наблюдаемое Y3 |
Остатки |
Стандартные остатки |
|
1 |
9,386 |
13,26 |
3,874484 |
0,807729 |
|
2 |
12,342 |
10,16 |
-2,18179 |
-0,45485 |
|
3 |
9,324 |
13,72 |
4,396223 |
0,916498 |
|
4 |
14,476 |
12,85 |
-1,62611 |
-0,339 |
|
5 |
11,865 |
10,63 |
-1,23491 |
-0,25745 |
|
6 |
11,039 |
9,12 |
-1,91896 |
-0,40005 |
|
7 |
16,578 |
25,83 |
9,25154 |
1,928706 |
|
8 |
15,597 |
23,39 |
7,792979 |
1,624634 |
|
9 |
12,454 |
14,68 |
2,226223 |
0,46411 |
|
10 |
14,561 |
10,05 |
-4,51099 |
-0,94042 |
|
11 |
14,584 |
13,99 |
-0,59407 |
-0,12385 |
|
12 |
6,082 |
9,68 |
3,598105 |
0,750111 |
|
13 |
14,640 |
10,03 |
-4,61001 |
-0,96107 |
|
14 |
9,693 |
9,13 |
-0,56275 |
-0,11732 |
|
15 |
6,289 |
5,37 |
-0,91879 |
-0,19154 |
|
16 |
11,084 |
9,86 |
-1,2241 |
-0,25519 |
|
17 |
15,481 |
12,62 |
-2,86063 |
-0,59637 |
|
18 |
15,195 |
5,02 |
-10,1751 |
-2,12124 |
|
19 |
14,305 |
21,18 |
6,875336 |
1,433329 |
|
20 |
20,356 |
25,17 |
4,814098 |
1,003614 |
|
21 |
13,651 |
19,4 |
5,749043 |
1,198526 |
|
22 |
14,576 |
21 |
6,423545 |
1,339142 |
|
23 |
8,230 |
6,57 |
-1,66035 |
-0,34614 |
|
24 |
19,272 |
14,19 |
-5,0819 |
-1,05944 |
|
25 |
14,976 |
15,81 |
0,83388 |
0,173842 |
|
26 |
13,007 |
5,23 |
-7,7775 |
-1,62141 |
|
27 |
11,265 |
7,99 |
-3,27533 |
-0,68282 |
|
28 |
15,502 |
17,5 |
1,997579 |
0,416443 |
|
29 |
21,008 |
17,16 |
-3,84832 |
-0,80227 |
|
30 |
16,038 |
14,54 |
-1,49798 |
-0,31229 |
|
31 |
10,656 |
6,24 |
-4,41562 |
-0,92054 |
|
32 |
17,508 |
12,08 |
-5,42753 |
-1,1315 |
|
33 |
11,016 |
9,49 |
-1,52615 |
-0,31816 |
|
34 |
13,772 |
9,28 |
-4,49221 |
-0,93651 |
|
35 |
13,655 |
11,42 |
-2,23541 |
-0,46602 |
|
36 |
10,915 |
10,31 |
-0,60493 |
-0,12611 |
|
37 |
11,654 |
8,65 |
-3,00387 |
-0,62623 |
|
38 |
11,866 |
10,94 |
-0,92615 |
-0,19308 |
|
39 |
9,254 |
9,87 |
0,616452 |
0,128514 |
|
40 |
10,119 |
6,14 |
-3,97865 |
-0,82945 |
|
41 |
12,367 |
12,93 |
0,56291 |
0,117352 |
|
42 |
11,469 |
9,78 |
-1,68918 |
-0,35215 |
|
43 |
15,653 |
13,22 |
-2,43255 |
-0,50712 |
|
44 |
13,317 |
17,29 |
3,97293 |
0,828253 |
|
45 |
8,442 |
7,11 |
-1,3318 |
-0,27765 |
|
46 |
12,604 |
22,49 |
9,886149 |
2,061005 |
|
47 |
12,887 |
12,14 |
-0,74718 |
-0,15577 |
|
48 |
10,021 |
15,25 |
5,228994 |
1,09011 |
|
49 |
16,569 |
31,34 |
14,77091 |
3,079351 |
|
50 |
16,061 |
11,56 |
-4,50059 |
-0,93826 |
|
Диаграммы сравнения исходных данных показателя рентабельности (Y) с рассчитанными с помощью линейной регрессионной модели:
Рис.1
Рис.2
Проанализировав остатки, мы можем прийти к выводу, что предприятия №7,№8,№46 и №49 демонстрируют наибольшую рентабельность. В то же время для предприятий №18 и №25 характерна обратная ситуация - отрицательное отклонение от линии регрессии.
Заключение
Проведенный корреляционный и регрессионный анализ отобранных экономических показателей деятельности 50 предприятий машиностроения позволяет сформулировать следующие выводы.
Множественный коэффициент детерминации, полученный и в корреляционном, и в регрессионном анализе показывает, что полученные модели слабо отражают исследуемый процесс. Т.е.по результатам регрессионного анализа около 31,14% вариации рентабельности (Y) объясняется вариацией фондоотдача (X10) и оборачиваемостью нормируемых оборотных средств (X15), а 68,86% вариации вызвано воздействием неучтенных в модели и случайных факторов. По результатам корреляционного анализа - множественный коэффициент детерминации r2Y/{..}=0,3221344 показывает, что 32,21% доли дисперсии Y - объёма промышленной продукции, обусловлены изменениями факторных признаков.
· Удельный вес рабочих в составе ППП и коэффициент сменности оборудования имеют взаимосвязь: с ростом первого показателя - второй также увеличивается.
· Взаимосвязь рентабельности и фондоотдачи прямая, достаточно тесная и значимая, при этом остальные переменные, включённые в корреляционную модель ослабляют эту взаимосвязь.
Коэффициент регрессии при X10 показывает, что при росте фондоотдачи на единицу рентабельность Y в среднем увеличится на 6,2618 единиц. Построенная выше интервальная оценка показывает, что с вероятностью 0,95 при росте оборачиваемости ненормируемых оборотных средств на единицу увеличение рентабельности будет в пределах от 2,90 до 9,62 единиц.
О связи рентабельности с оборачиваемостью нормируемых оборотных средств говорят следующие показатели: парный коэффициент корреляции значим, взаимосвязи обратные, и их усиливает переменные, включенные в модель.
Также коэффициент при X15 свидетельствует о том, что при росте оборачиваемости нормируемых оборотных средств на единицу рентабельность в среднем уменьшается на 0,0530 единиц, а с вероятностью 0,95 при росте оборачиваемости нормируемых оборотных средств на единицу уменьшение рентабельности будет в пределах от 0,01376 до 0,09232 единиц.
Наиболее сильная обратная связь существует между факторными признаками удельным весом рабочих в составе ППП и оборачиваемостью нормируемых оборотных средств. Воздействие других переменных (рентабельности, коэффициента сменности оборудования и фондоотдачи) усиливают взаимосвязь между указанными признаками, так частный коэффициент корреляции немного меньше парного.
Связь между рентабельностью и оборачиваемостью нормируемых оборотных средств, между удельным весом рабочих в составе ППП и коэффициентом сменности оборудования и между коэффициентом сменности оборудования и оборачиваемостью нормируемых оборотных средств обусловлена лишь влиянием на них остальных переменных.
Анализ остатков показал, что наибольшее положительное отклонение от линии регрессии у предприятий №7,№8,№46 и №49, они демонстрируют высокую рентабельность. Для предприятий №18 и №25 характерна обратная ситуация - отрицательное отклонение от линии регрессии, и следовательно, низкая рентабельность.
Литература
1. Теория вероятностей и математическая статистика. Под ред. В.С. Мхитаряна. - М., Market DS, 2009 г
2. Н.Ш.Кремер. Теория вероятностей и математическая статистика: Учебник для вузов. М.:ЮНИТИ-ДАНА,2010.
3. В.С.Мхитарян, Ю.Н.Миронкина, Е.В.Астафьева. Корреляционный и регрессионный анализ с использованием ППП MICROSOFT EXCEL. Учебное пособие. - М: Издательство МЭСИ, 2008 - с.68.