Данные представлены таблицей значений независимой переменной X и зависимой переменной Y.
Задание
1. Вычислить коэффициент корреляции и сделать вывод о тесноте и направлении связи.
2. На уровне значимости = 0,05 проверить гипотезу о значимости коэффициента корреляции.
3. Составить уравнение парной регрессии .
4. Нанести данные на чертеж и изобразить прямую регрессии.
5. С помощью коэффициента детерминации оценить качество построенной модели.
6. Оценить значимость уравнения регрессии с помощью дисперсионного анализа.
7. При уровне значимости a = 0,05 построить доверительные интервалы для оценки параметров регрессии , и сделать вывод об их значимости.
8. При уровне значимости a = 0,05 получить доверительные интервалы для оценки среднего и индивидуального значений зависимой переменной Y, если значение объясняющей переменной X принять равным .
Исходные данные для контрольной работы №1 по вариантам:
1
|
x
|
56
|
70
|
81
|
78
|
64
|
60
|
72
|
79
|
89
|
98
|
y
|
24
|
37
|
42
|
34
|
29
|
25
|
31
|
35
|
42
|
48
|
|
|
|
|
|
|
|
|
|
|
2
|
x
|
76
|
87
|
99
|
91
|
84
|
90
|
98
|
106
|
99
|
91
|
y
|
54
|
61
|
66
|
60
|
53
|
59
|
67
|
74
|
69
|
62
|
|
|
|
|
|
|
|
|
|
|
3
|
x
|
95
|
104
|
113
|
102
|
96
|
89
|
98
|
109
|
116
|
103
|
y
|
44
|
48
|
55
|
49
|
41
|
34
|
42
|
48
|
57
|
47
|
|
|
|
|
|
|
|
|
|
|
4
|
x
|
66
|
60
|
49
|
42
|
50
|
55
|
61
|
57
|
51
|
44
|
y
|
39
|
36
|
30
|
27
|
31
|
35
|
40
|
37
|
32
|
26
|
|
|
|
|
|
|
|
|
|
|
5
|
x
|
100
|
94
|
90
|
87
|
93
|
99
|
105
|
111
|
104
|
98
|
y
|
77
|
72
|
68
|
63
|
67
|
70
|
77
|
82
|
79
|
73
|
|
|
|
|
|
|
|
|
|
|
6
|
x
|
99
|
110
|
117
|
122
|
115
|
101
|
94
|
104
|
114
|
123
|
y
|
53
|
60
|
68
|
73
|
69
|
62
|
54
|
61
|
67
|
72
|
|
|
|
|
|
|
|
|
|
|
7
|
x
|
54
|
63
|
69
|
76
|
81
|
75
|
70
|
72
|
78
|
86
|
y
|
22
|
27
|
34
|
39
|
42
|
37
|
33
|
35
|
38
|
45
|
|
|
|
|
|
|
|
|
|
|
8
|
x
|
90
|
97
|
107
|
116
|
104
|
96
|
106
|
118
|
109
|
101
|
y
|
55
|
61
|
67
|
83
|
78
|
73
|
80
|
85
|
78
|
71
|
|
|
|
|
|
|
|
|
|
|
9
|
x
|
48
|
56
|
58
|
61
|
65
|
63
|
60
|
56
|
60
|
64
|
y
|
30
|
33
|
35
|
38
|
41
|
39
|
36
|
33
|
35
|
38
|
|
|
|
|
|
|
|
|
|
|
10
|
x
|
91
|
85
|
81
|
85
|
89
|
93
|
90
|
86
|
80
|
84
|
y
|
62
|
55
|
49
|
54
|
60
|
69
|
61
|
54
|
50
|
53
|
|
|
|
|
|
|
|
|
|
|
РЕШЕНИЕ ТИПОВОГО ПРИМЕРА. Пусть имеются следующие данные:
x
|
83
|
72
|
69
|
90
|
90
|
95
|
95
|
91
|
75
|
70
|
y
|
56
|
42
|
18
|
84
|
56
|
107
|
90
|
68
|
31
|
48
|
|
|
|
|
|
|
|
|
|
|
1. Вычисление коэффициента корреляции проведем по формуле
,
а расчёт параметров и выборочного уравнения парной регрессии соответственно по формулам
, ,
где , , а объём выборки.
Для расчётов удобно использовать следующую таблицу:
Таблица 1.1
№
|
|
|
|
|
|
|
|
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
1
|
83
|
56
|
6889
|
3136
|
4648
|
60,000
|
4,000
|
16,000
|
2
|
72
|
42
|
5184
|
1764
|
3024
|
34,678
|
-7,322
|
53,612
|
3
|
69
|
18
|
4761
|
324
|
1242
|
27,772
|
9,772
|
95,492
|
4
|
90
|
84
|
8100
|
7056
|
7560
|
76,114
|
-7,886
|
62,189
|
5
|
90
|
56
|
8100
|
3136
|
5040
|
76,114
|
20,114
|
404,573
|
6
|
95
|
107
|
9025
|
11449
|
10165
|
87,624
|
-19,376
|
375,429
|
7
|
95
|
90
|
9025
|
8100
|
8550
|
87,624
|
-2,376
|
5,645
|
8
|
91
|
68
|
8281
|
4624
|
6188
|
78,416
|
10,416
|
108,493
|
9
|
75
|
31
|
5625
|
961
|
2325
|
41,584
|
10,584
|
112,021
|
10
|
70
|
48
|
4900
|
2304
|
3360
|
30,074
|
-17,926
|
321,341
|
|
830
|
600
|
69890
|
42854
|
52102
|
600,00
|
0,000
|
1554,796
|
З а м е ч а н и е. Столбцы 7 – 9 таблицы 1 заполняются после получения выборочного уравнения прямой регрессии и будут необходимы для выполнения последующих пунктов задания.
Используя результаты вычислений, представленные в таблице 1.1, найдём значение выборочного коэффициента корреляции:
Полученное значение коэффициента корреляции свидетельствует о том, что между переменными и имеется высокая корреляционная связь. Данная связь характеризуется как положительная, т. е. с увеличением одной из переменных значения другой переменной также увеличиваются.
2. Для оценки значимости коэффициента корреляции следует использовать статистику
,
которая в условиях нулевой гипотезы имеет распределение Стьюдента с числом степеней свободы, равным . В нашем случае получаем следующее расчётное значение статистики:
.
Используя таблицы распределения Стьюдента при заданном уровне надёжности () и числе степеней свободы, равном 8, определим критическое значение статистики
.
Поскольку > , то нулевую гипотезу о равенстве нулю коэффициента корреляции отвергаем с вероятностью ошибки меньше 5% и делаем вывод о значимости коэффициента корреляции.
3. Для того чтобы составить выборочное уравнение прямой регрессии, необходимо вычислить коэффициенты и . Используя результаты расчётов, представленных в таблице 1.1, находим
,
.
Таким образом, получаем следующее регрессионное уравнение:
Y = -131,066 + 2,302*X .
Прямая регрессии представлена на рис.1.1.
Рис. 1.1.
5. Качество регрессионной модели может быть оценено с помощью коэффициента детерминации , который определяется формулой
,
где , – расчётные (прогнозные) значения величины , полученные подстановкой соответствующих значений X в уравнение регрессии. Для вычисления этих значений используются столбцы 7 – 9 таблицы 1.1. В нашем случае имеем
.
Коэффициент детерминации показывает, какую часть вариации (дисперсии) зависимой переменной Y воспроизводит (объясняет) построенное уравнение регрессии. В нашем случае построенное уравнение регрессии на 77,3% объясняет зависимость переменной от переменной X.
З а м е ч а н и е. Для проверки правильности расчётов можно воспользоваться соотношением .
6. Проверка значимости уравнения регрессии заключается в установлении его существенности. Другими словами эта проверка даёт ответ на вопрос о том, насколько можно быть уверенным, что рассматриваемая регрессионная зависимость действительно наличествует в генеральной совокупности, а не является результатом случайного отбора наблюдений.
Проверка значимости регрессионной зависимости производится методом однофакторного дисперсионного анализа, где в качестве фактора выступает построенное уравнение регрессии. Результаты дисперсионного анализа принято представлять в виде стандартной таблицы 1.2.
Таблица 1.2
Компоненты вариации
|
Сумма квадратов
|
Число степеней свободы
|
Средние
квадраты
|
F -отношение
|
Регрессия
|
|
1
|
|
|
Остаточная
|
|
|
|
Общая
|
|
|
|
В нашем случае при расчёте сумм квадратов следует принять во внимание следующие равенства:
;
С учётом результатов, представленных в таблице 1.1, получим следующие значения:
; ; .
Тогда таблица дисперсионного анализа примет вид таблицы 1.3.
При отсутствии линейной зависимости между переменными X и Y статистика имеет распределение Фишера с числом степеней свободы ; n –2 = 8.
Таблица 1.3
Компоненты вариации
|
Сумма квадратов
|
Число степеней свободы
|
Средние
квадраты
|
F -отношение
|
Регрессия
|
5299,204
|
1
|
5299,204
|
|
Остаточная
|
1554,796
|
8
|
194,350
|
Общая
|
6854,000
|
9
|
|
Принимая стандартный 5% уровень значимости, в таблице критических точек распределения Фишера находим .
Поскольку превышает , то делаем вывод о значимости уравнения регрессии.
7. Исправленные выборочные оценки стандартных отклонений (ошибок) МНК-коэффициентов регрессии вычисляются по формулам
Используя результаты вычислений из предыдущих пунктов, получаем
;
83,6.
Отсюда
0,441;
36,88.
Доверительные интервалы для коэффициентов регрессии и имеют соответственно вид
;
.
Если окажется, что доверительный интервал включает 0, то соответствующий коэффициент регрессии объявляется незначимым.
При заданном уровне значимости a = 0,05 и числе степеней свободы, равном , где заданный объем выборки (у нас ) критическое значение статистики Стьюдента .
Теперь строим доверительные интервалы для и соответственно:
;=.
Поскольку ни один из полученных интервалов не включает нулевое значение, делаем вывод о значимом отличии от нуля коэффициентов и .
8. Интервал для прогноза среднего значения зависимой переменной при значении объясняющей переменной (точнее, прогноза ) по линейному уравнению регрессии имеет вид
,
где находят по таблицам критических точек распределения Стьюдента для заданных значений g и числа степеней свободы (в случае парной регрессии). Мы уже знаем, что при и g = 0,95 (т.е. ) .
Вычисляем с учетом полученных ранее результатов:
.
Из выборочного уравнения прямой регрессии имеем
.
Получаем окончательный вид искомого доверительного интервала:
=
=
или
.
Для расчета доверительного интервала возможных индивидуальных значений наблюдений при значении объясняющей переменной применяется формула
,
где
=
=.
Окончательно получаем
=
=
|