Задание Сформулируйте проблему мультиколлинеарности в модели множественной линейной регрессии
Задание Сформулируйте проблему мультиколлинеарности в модели множественной линейной регрессии. Как устранить мультиколлинеарность?
Если в модель включаются два или более тесно взаимосвязанных фактора, то наряду с уравнением регрессии появляется и другая линейная зависимость. Подобное явление, называется мультиколлинеарностью.
Мультиколлинеарность – попарная корреляционная зависимость между факторами. Мультиколлинеарная зависимость присутствует, если коэффициент парной корреляции rij0,7.
Для устранения мультиколлинеарности используют метод исключения переменных. Он заключается в том, что высоко коррелированные объясняющие переменные устраняются из регрессии, и она заново оценивается. Если
то одну из переменных можно исключить, но какую именно, решают исходя из управляемости факторов.
Если возникает такая ситуация, когда оба фактора одновременно управляемы или нет, то решить вопрос об исключении того или иного фактора можно с помощью процедуры отбора главных факторов.
Процедура отбора главных факторов включает обязательно следующие этапы:
Производится анализ значения коэффициентов парной корреляции rij между факторами xi и xj.
Анализ тесноты взаимосвязи объясняющих факторов с результативной переменной.
28.Задание Что такое временной ряд? Приведите примеры эконометрических задач с использованием временных рядов.
Временной ряд – это совокупность значений какого-либо показателя за несколько последовательных моментов времени. Значение временного ряда формируется под влиянием сочетания длительных, кратковременных и случайных факторов. Факторы, действующие в течение длительного времени, оказывают определяющее влияние на изучаемое явление и формируют основную тенденцию ряда – тренд . Периодические факторы формируют сезонные колебания ряда . Случайные факторы отражаются случайными изменениями уровней ряда .
На основе данных об объеме продаж фирмы в приведенных ниже задачах:
1) проанализировать имеющиеся данные;
2) выбрать модель для расчета прогноза;
3) обосновать выбор модели;
4) сделать прогноз на указанный период.
Используя модель с периодической компонентой, построить прогноз объема продаж на 3 и 4 кварталы года 4.
Год 1 2 3 4 5
Квартал 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2
Объём продаж 2 6 7 6,5 9 10,5 13,5 14 13 16 17 16,5 17 19 20
Построить прогноз объема продаж на 4 квартал 5 года.
Год Квартал Объем продаж
1 IV 2
2 I 6
II 7
III 6,5
IV 9
3 I 10,5
II 13,5
III 14
IV 13
4 I 16
II 17
III 16,5
IV 17
5 I 19
II 20
В результате визуального анализа графика делаем вывод о возможности использования аддитивной модели, так как размах вариаций фактических значений относительно линии тренда не меняется, то есть периодических колебаний относительно тренда примерно одинаков в течение анализируемого периода времени.
Величину Y можно представить как .
Рассчитываем скользящую среднюю с шагом 4.
Центрируем скользящую среднюю.
Определяем сезонную компоненту путем вычитания из уровней ряда значений центрированной скользящей средней за соответствующий момент времени.
Результаты расчетов приведены в таблице:
Год Квартал Объем продаж S
1 IV 2
2 I 6
II 7 5,375
III 6,5 7,125 6,25 0,25
IV 9 8,25 7,6875 1,3125
3 I 10,5 9,875 9,0625 1,4375
II 13,5 11,75 10,8125 2,6875
III 14 12,75 12,25 1,75
IV 13 14,125 13,4375 -0,4375
4 I 16 15 14,5625 1,4375
II 17 15,625 15,3125 1,6875
III 16,5 16,625 16,125 0,375
IV 17 17,375 17 0
5 I 19 18,125 17,75 1,25
II 20
Производим расчет средних значений сезонной компоненты по кварталам.
Сумма средних значений сезонной компоненты за 4 квартала должна быть равна нулю. Корректируем средние значения сезонной компоненты, так как в нашем случае эта сумма равна (4,6458). Рассчитываем корректирующий коэффициент и. вычитаем его поочередно из каждой квартальной компоненты . Обычно так поступают при заметных отклонениях от 0.
5ср
Зскорр
1 квартал 1,375 1,161 0,213542
II квартал 2,1875 1,161 1,026042
III квартал 0,791667 1,161 -0,36979
IV квартал 0,291667 1,161 -0,86979
13ср 4,645833
0
От всех уровней ряда отнимаем соответствующее значение скорректированной сезонной компоненты и получаем значения, содержащие тренд и случайную компоненту: .
Построим модель тренда методом наименьших квадратов на нове десезонализированных данных объема ВВП Португалии. Строим график для Т+Е.
Год Квартал Объем продаж Скорректированная сезонная компонента Т+Е
1 IV 2 -0,86979 2,86979
2 I 6 0,213542 5,786458
II 7 1,026042 5,973958
III 6,5 -0,36979 6,86979
IV 9 -0,86979 9,86979
3 I 10,5 0,213542 10,28646
II 13,5 1,026042 12,47396
III 14 -0,36979 14,36979
IV 13 -0,86979 13,86979
4 I 16 0,213542 15,78646
II 17 1,026042 15,97396
III 16,5 -0,36979 16,86979
IV 17 -0,86979 17,86979
5 I 19 0,213542 18,78646
II 20 1,026042 18,97396
На основе визуального сравнения графиков фактических данных и десезонализированных можно принять гипотезу о линейности модели тренда
Подготовим данные для определения тренда (обозначим ):
Год Квартал Z t t2 Z∙t
1 IV 2,86979 1 1 2,86979
2 I 5,786458 2 4 11,57292
II 5,973958 3 9 17,92187
III 6,86979 4 16 27,47916
IV 9,86979 5 25 49,34895
3 I 10,28646 6 36 61,71875
II 12,47396 7 49 87,31771
III 14,36979 8 64 114,9583
IV 13,86979 9 81 124,8281
4 I 15,78646 10 100 157,8646
II 15,97396 11 121 175,7135
III 16,86979 12 144 202,4375
IV 17,86979 13 169 232,3073
5 I 18,78646 14 196 263,0104
II 18,97396 15 225 284,6094
∑ – 186,6302 120 1240 1813,958
Параметры определим из системы нормальных уравнений:
В результате расчетов составляем уравнение тренда: .
Рассчитаем ошибки по формуле:
Год Квартал Объем продаж Скорректированная сезонная компонента Z Ошибка Е
1 IV 2 -0,86979 4,419096 -2,4191
2 I 6 0,213542 5,565227 0,434773
II 7 1,026042 6,711358 0,288642
III 6,5 -0,36979 7,857489 -1,35749
IV 9 -0,86979 9,00362 -0,00362
3 I 10,5 0,213542 10,14975 0,350249
II 13,5 1,026042 11,29588 2,204118
III 14 -0,36979 12,44201 1,557987
IV 13 -0,86979 13,58814 -0,58814
4 I 16 0,213542 14,73427 1,265725
II 17 1,026042 15,88041 1,119594
III 16,5 -0,36979 17,02654 -0,52654
IV 17 -0,86979 18,17267 -1,17267
5 I 19 0,213542 19,3188 -0,3188
II 20 1,026042 20,46493 -0,46493
Среднее значение ошибки по модулю равно – 0,46. Это достаточно хороший показатель. По сравнению с уровнем ряда ошибка меньше 5%. Модель пригодна для прогнозирования.
А) Прогнозирование на основе тренда:
Б) Скорректируем прогноз с учетом фактора сезонности:
29. …
месяцев объем продаж колеблется от 5 до 11 новых автомобилей Частоты различных объемов продаж
месяцев объем продаж колеблется от 5 до 11 новых автомобилей. Частоты различных объемов продаж:
Объем продаж в мес. Частота
5 20
6 15
7 7
8 28
9 16
10 10
11 4
Итого 100 мес.
Даша считает, что продажа будет идти в тех же объемах еще 24 месяца. Время выполнения заказа на поставки распределяется следующим образом:
Время поставки, мес. Вероятность
1 0,4
2 0,28
3 0,11
4 0,21
Итого 1,00
Даша Василькова каждый раз заказывает 25 автомобилей и делает новый заказ, когда запас в магазине снижается до 10 автомобилей. Новый заказ можно делать только после выполнения предыдущего. Проимитируйте эту стратегию в течении 24 месяцев. Используйте для имитации случайные числа с начала второй строки таблицы случайных чисел.
Считайте что:
а) начальный запас составляет 30 автомобилей
б) затраты на хранение одной автомашины составляет в месяц 550 000 р.
в) одна упущенная продажа приносит убыток в среднем 3 330 000 р.
г) один заказ обходится в 500 000 р.
1. Сколько заказов придется сделать за два года?
2. С какими издержками связана данная стратегия (тыс.р.)?
Объем продаж Частота Вероятность Интегральная вероятность Интерв. случ-х чисел
5 20 0,20 0,20 01 – 20
6 15 0,15 0,35 21 – 35
7 7 0,07 0,42 36 – 42
8 28 0,28 0,70 43 – 70
9 16 0,16 0,86 71 – 86
10 10 0,1 0,96 87 – 96
11 4 0,04 1,00 97 – 100
Время поставок Вероятность Интегральная вероятность Интервал случайных чисел
1 0,40 0,40 01 – 40
2 0,28 0,68 41 – 68
3 0,11 0,79 69 – 79
4 0,21 1,00 80 – 100
Сымитируем продажу автомобилей за 24 месяца:
ПЗ – поступление заказа (шт.)
ЗНН – запас на начало (шт.)
СЧ – случайное число
ОП – объем продаж (шт.)
КЗ – конечный запас (шт.)
ПП – потери продаж (шт.)
ДЗ – делать заказ
СИМ – срок использования месяцев
Месяц ПЗ ЗНН СЧ ОП КЗ ПП ДЗ СЧ СИМ
1 — 30 37 7 23 – – – –
2 — 23 63 8 15 – – – –
3 — 15 28 6 9 – + 02 1
4 — 9 74 9 0 – – – –
5 25 25 35 6 19 – – – –
6 — 19 24 6 13 – – – –
7 — 13 03 5 8 – + 29 1
8 — 8 60 8 0 – – – –
9 25 25 74 9 16 – – – –
10 — 16 85 9 7 – + 90 4
11 — 7 73 9 0 2 – – –
12 — 0 59 8 0 8 – – –
13 — 0 55 8 0 8 – – –
14 — 0 17 5 0 5 – – –
15 25 25 60 8 17 – – – –
16 — 17 82 9 8 – + 57 2
17 — 8 68 8 0 – – – –
18 — 0 28 6 0 6 – – –
19 25 25 05 5 20 – – – –
20 — 20 94 10 10 – + 03 1
21 — 10 11 5 5 – – – –
22 25 30 27 6 24 – – – –
23 — 24 79 9 15 – – – –
24 — 15 90 10 5 – + 87 4
Сумма затрат за 2 года = 6*500 000 + 214*550 000 + 29*3 330 000 =
= 3 000 000 + 117 700 000 + 96 570 000 = 120 700 000 + 96 570 000 = = 217 270 000
Ответы: 1. Шесть заказов придется сделать за 2 года.
2. Издержки с данной стратегией составят 217 270 000 р.
БЛОК 11
ОТВЕТИТЬ НА …
БЛОК 1 1 Задание (Правильный ответ – х1) Уравнение линейной регрессии имеет вид
БЛОК 1
1.Задание (Правильный ответ – х1)
Уравнение линейной регрессии имеет вид: y= β0+β1×1+β2×2+ε, где x1, x2 – объясняющие переменные, y – объясняемая переменная, β0, β1, β2 – параметры уравнения, ε – случайная величина, возмущение. По 10 наблюдениям получены оценки коэффициентов β1 и β2: b1=4.6, b2= –2.4 и выборочные средние квадратичные отклонения оценок: sb1=2.3, sb2= 0.24. Какую из объясняющих переменных – x1 или x2 – можно исключить из уравнения с целью его упрощения? Двусторонний квантиль распределения Стьюдента для суммарной вероятности «хвостов» 0.05 и числа степеней свободы 7 равен 2.36.
Фактическое значение статистик
, .
Фактическое значения статистики превосходит табличноезначение: , поэтому параметр не случайно отличается от нуля, а статистически значим.
Фактическое значения статистики не превосходит табличноезначение: , поэтому параметр случайно отличается от нуля, а статистически не значим.
Общий вывод состоит в том, что множественная модель сфакторами и содержит неинформативный фактор , который можно исключить из уравнения с целью его упрощения.
2. …
(20) Составить спецификацию модели которая позволяет объяснять величину спроса yd на конкурентном рынке нормального ценного блага значениями его це
(20)
Составить спецификацию модели, которая позволяет объяснять величину спроса yd на конкурентном рынке нормального ценного блага значениями его цены p, уровнем душевого дохода потребителя x и фактором сезонности (кварталом года).
q2={1- для второго квартала, 0 – для других кварталов};
q3={1- для третьего квартала, 0 – для других кварталов}.
Получаем
yd = a0 + a1 · p + a2 · x + b1∙q1 + b2∙q2 + b3∙q3,
a1 < 0, a2 >0. …
(20) Составить спецификацию модели которая позволяет объяснять величину спроса yd и предложения ys нормального ценного блага
(20)
Составить спецификацию модели, которая позволяет объяснять величину спроса yd и предложения ys нормального ценного блага, а также его рыночную цену p величиной дохода x на душу населения. При составлении спецификации следует учесть известные утверждения экономической теории. Преобразовать структурную форму модели к приведённой форме.
спрос объясняется ценой товара и доходом на душу населения, причём уровень спроса падает с ростом цены и возрастает с увеличением дохода на душу населения;
2) предложение объясняется ценой товара и возрастает с ростом цены;
3) рыночная цена устанавливается при балансе спроса и предложения товара.
Первое уравнение именуется функцией спроса,
второе – функцией предложения,
третье – уравнением реакции рынка.
Составим приведённую форму модели (1.1).
Подставим правые части первого и второго уравнения в третье:
a0 + a1 · p + a2 · x = b0 + b1 · p.
Представим переменную p как явную функцию переменной x:
p = (a0 – b0)/(b1 – a1 ) + (a2 /(b1 – a1 )) · x
yd = (a0 · b1 – b0 · a1 )/( b1 – a1) + (a2 · b1 /( b1 – a1 )) · x,
ys = (a0 · b1 – b0 · a1 )/( b1 – a1) + (a2 · b1 /( b1 – a1 )) · x.
yd = α0 + α1 · xys = α0 + α1 · xp = β0+ β1 · x…
2 Для исходных данных приведенных ниже рассчитайте Коэффициенты линейного регрессионного уравнения
2. Для исходных данных, приведенных ниже, рассчитайте:
Коэффициенты линейного регрессионного уравнения;
Рассчитайте остаточную дисперсию;
Вычислите значения коэффициента корреляции и детерминации;
Рассчитайте коэффициент эластичности;
Рассчитайте доверительные границы уравнения регрессии (по уровню 0,95, t=2,44);
В одной системе координат постройте: уравнение регрессии, экспериментальные точки, доверительные границы уравнения регрессии.
Исходные данные:
х
у
121 0,98
119 0,93
120 0,97
117 0,85
115 0,61
109 0,68
105 0,72
110 0,67
Для расчета параметров a и b линейной регрессии систему нормальных уравнений относительно а и b:
Для определения следующих данных: , , , , , составим вспомогательную таблицу
x
y
x2 y2 x • y
121 0,98 14641 0,96 118,58
119 0,93 14161 0,865 110,67
120 0,97 14400 0,941 116,4
117 0,85 13689 0,723 99,45
115 0,61 13225 0,372 70,15
109 0,68 11881 0,462 74,12
105 0,72 11025 0,518 75,6
110 0,67 12100 0,449 73,7
Сумма 916 6,41 105122 5,29 738,67
Среднее 114,5 0,8013 13140 0,6613 92,334
Для наших данных система уравнений имеет вид
Домножим уравнение (1) системы на (-114.5), получим систему, которую решим методом алгебраического сложения.
Получаем:
240 b = 4.73
Откуда b = 0.01969
Теперь найдем коэффициент «a» из уравнения (1):
8a + 916 b = 6.41
8a + 916 • 0.01969 = 6.41
8a = -11.62
a = -1.453
Получаем эмпирические коэффициенты регрессии: b = 0.01969, a = -1.453
Уравнение регрессии (эмпирическое уравнение регрессии):
2. Рассчитаем остаточную дисперсию;
Остаточная дисперсия
3. Вычислим значения коэффициента корреляции и детерминации;
Тесноту линейной связи оценит коэффициент корреляции
В нашем примере связь между признаком Y фактором X высокая и прямая.
Коэффициент детерминации R2=0.7762=0.6021 показывает, что на 60,21% вариация результата объясняется вариацией фактора х.
4. Рассчитаем коэффициент эластичности
Средний коэффициент эластичности:
;
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами – Х существенно влияет на Y.
5. Рассчитаем доверительные границы уравнения регрессии (по уровню 0,95, t=2,44) по формуле
(a + bxi ± ε)
Где
Представим расчеты в виде таблицы:
xi
y = -1,45 + 0,0197xi εi ymin = y – εi ymax = y + εi
121 0,929 0,282 0,647 1,212
119 0,89 0,272 0,617 1,162
120 0,91 0,277 0,633 1,187
117 0,85 0,266 0,585 1,116
115 0,811 0,263 0,548 1,074
109 0,693 0,277 0,416 0,97
105 0,614 0,303 0,311 0,918
110 0,713 0,272 0,44 0,985
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
6. В одной системе координат построим: уравнение регрессии, экспериментальные точки, доверительные границы уравнения регрессии.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму: 1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: об одновременном равенстве нулю всех коэффициентов при факторах регрессионной модели на уровне значимости α. 2. Далее определяют фактическое значение F-критерия: F=R2*(n-m-1)1-R2*m=0.6021*(8-1-1)0.3979*1=9.079
где m=1 для парной регрессии.
Табличное значение определяется через функцию Excel FРАСПОБР(вероятность;1;n-2)). Fтабл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05
Fтабл =5,98
. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом
Поскольку фактическое значение F > Fтабл, (9.079>5.98),то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна)
…
Имеются следующие данные о стаже и производительности труда рабочих цеха № п п Стаж работы
Имеются следующие данные о стаже и производительности труда рабочих цеха:
№ п/п Стаж работы, лет Выработка за смену, штук № п/п Стаж работы, лет Выработка за смену, штук
1 8 800 11 10 920
2 10 1000 12 12 1000
3 8 850 13 10 1060
4 9 880 14 11 1150
5 8 720 15 10 950
6 9 850 16 11 900
7 9 800 17 11 1200
8 10 900 18 12 1100
9 9 950 19 11 1000
10 12 1200 20 9 820
Используя данные:
а) постройте линейное уравнение парной регрессии;
б) вычислите коэффициент парной корреляции;
в) оцените значимость линейного коэффициента корреляции;
г) постройте график эмпирической и теоретической зависимости производительности труда рабочих от стажа их работы.
х – стаж работы (лет),
у – выработка за смену (штук).
Уравнение линейной регрессии ищем в виде .
Для нахождения коэффициентов регрессии a и b воспользуемся методом наименьших квадратов, для чего составим расчетную таблицу 1.
Таблица 1 – Расчетная таблица для нахождения коэффициентов регрессии
i xi yi x2i y2i xiyi
1 8 800 64 640000 6400
2 10 1000 100 1000000 10000
3 8 850 64 722500 6800
4 9 880 81 774400 7920
5 8 720 64 518400 5760
6 9 850 81 722500 7650
7 9 800 81 640000 7200
8 10 900 100 810000 9000
9 9 950 81 902500 8550
10 12 1200 144 1440000 14400
11 10 920 100 846400 9200
12 12 1000 144 1000000 12000
13 10 1060 100 1123600 10600
14 11 1150 121 1322500 12650
15 10 950 100 902500 9500
16 11 900 121 810000 9900
17 11 1200 121 1440000 13200
18 12 1100 144 1210000 13200
19 11 1000 121 1000000 11000
20 9 820 81 672400 7380
Σ 199 19050 2013 18497700 192310
Средние 9,95 952,5 100,65 924885 9615,5
По данным таблицы 1 определяем следующие величины:
– выборочные средние:
– вспомогательные величины
– выборочные дисперсии и среднеквадратические отклонения:
Определим коэффициенты линейной зависимости у от х. Согласно методу наименьших квадратов они находятся по формулам
Поэтому коэффициенты регрессии будут равны
Тогда уравнение связи будет иметь вид .
б) Оценим тесноту связи с помощью коэффициента парной корреляции:
.
Данное значение коэффициента корреляции позволяет судить о прямой высокой линейной зависимости между переменными х и у.
в) Проверим значимость коэффициента корреляции. Для этого рассмотрим нулевую гипотезу о равенстве нулю генерального коэффициента корреляции между переменными х и у. Вычисляем наблюдаемое значение t-статистики:
Для уровня значимости α=0,05 при степенях свободы ν=n–2=20–2=18 по таблице распределения Стьюдента находим критическое значение статистики
.
Так как , то нулевая гипотеза о равенстве нулю генерального коэффициента корреляции отвергается.
Таким образом, коэффициент корреляции статистически значим.
г) Покажем линейную линию регрессии на исходном поле корреляции (рис.1).
Рис.1 – График линейной регрессии и поле корреляции
По графику можно сделать вывод, что эмпирические точки расположены достаточно вплотную к теоретической прямой, что еще раз подтверждает вывод об адекватности построенной линейной регрессии эмпирическим данным.
ЛИТЕРАТУРА
1. Бородич С.И. Эконометрика / С.И. Бородич. Минск: Дизайн ПРО, 2001. 256 с.
2. Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006. – 576 с.
3. Практикум по эконометрике: Учеб. пособие / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006. – 344 с.
4. Эконометрика: Учебно-методическое пособие / Шалабанов А.К., Роганов Д.А. – Казань: Издательский центр Академии управления «ТИСБИ», 2008. – 198 с.
5. Практикум по эконометрике с применение MS Excel / Шалабанов А.К., Роганов Д.А. – Казань: Издательский центр Академии управления «ТИСБИ», 2008 – 53 с.
6. Доугерти К. Введение в эконометрику: Пер. с англ. – М.: ИНФРА-М, 1999. – 402 с.
…
Составить уравнение множественной линейной регрессии y = a + b1x1 + b2x2 + ε в матричной форме
Составить уравнение множественной линейной регрессии y = a + b1x1 + b2x2 + ε в матричной форме, используя МНК, и найти числовые характеристики переменных.
Найти оценки параметров а, b1, b2, б².
Найти коэффициент детерминации и оценить уравнение регрессивной связи.
Построить корреляционную матрицу и оценить статистическую зависимость между переменными.
По данным, полученным от фермерских хозяйств одного из регионов, изучается зависимость объёма выпуска продукции растениеводства Y (млн руб.) от двух факторов: численности работников Х1 (чел.) и количества осадков в период вегетации Х2 (мм).
№ п/п Y Х1 Х2
1 0.9 54 5
2 1.3 62 7
3 2.4 80 13
4 2.6 83 11
5 3.2 98 18
Представим данные в матричной форме:
Y=0,91,32,42,63,2; X=15451627180131831119818; B=ab1b2; e=e1e2e3e4e5
В матричной форме система нормальных уравнения для модели множественной регрессии имеет вид:
Тогда .
Рассчитаем
11111546280839857131118∙15451627180131831119818=537754377296534421544421688
11111546280839857131118∙0,91,32,42,63,2=10,4850,6131.
Матрицу определим по формуле , где – определитель матрицы ; – матрица, присоединенная к матрице
Получим
A-1=26,2174-0,63222,0047-0,63220,0160-0,05352,0047-0,05350,1879.
Теперь умножим эту матрицу на вектор
10,4850,6131
Получим B=26,2174-0,63222,0047-0,63220,0160-0,05352,0047-0,05350,1879∙10,4850,6131=-2,47590,0668-0,0444.
e=e1e2e3e4e5=-0,0084-0,05390,11050,0213-0,0696
2.Найдем оценки параметров а, b1, b2, б².
Исходя из матрицы В=-2,47590,0668-0,0444 значения параметров а=-2,4759,
b1=0,0668; b2=-0,0444.
Уравнение множественной регрессии имеет вид:
.
3.Найдем коэффициент детерминации и оценим уравнение регрессивной связи.
Для удобства вычислений составим вспомогательную таблицу.
№ х12
х2 2
у2
1 0.9 54 5 0.9084 1.3924 1.373 0.000 2916 25 0.81
2 1.3 62 7 1.3539 0.6084 0.527 0.003 3844 49 1.69
3 2.4 80 13 2.2895 0.1024 0.044 0.012 6400 169 5.76
4 2.6 83 11 2.5787 0.2704 0.249 0.000 6889 121 6.76
5 3.2 98 18 3.2696 1.2544 1.415 0.005 9604 324 10.24
SYMBOL 83f “symbol” * MERGEFORMAT 10.4 377 54 10.4 3.628 3.608 0.020 29653 688 25.26
Ср.знач. 2.08 75.4 10.8 5930.6 137.6 5.052
Рассчитаем коэффициент детерминации:
Коэффициент детерминации свидетельствует о том, что вариация исследуемой зависимой переменной на 99,4% объясняется изменчивостью включенных в модель объясняющих переменных , .
Рассчитаем скорректированный коэффициент детерминации:
Оба коэффициента детерминации свидетельствуют о сильной связи между факторными переменными и результативным показателем.
Проверим статистическую значимость на основе критерия Фишера по формуле:
Фактическое значение критерия F меньше табличного , определенного на уровне значимости при и степенях свободы, т.е. уравнение регрессии статистически незначимо, следовательно, исследуемая зависимая переменная Y плохо описывается включенными в регрессионную модель переменными.
4.Построим корреляционную матрицу и оценим статистическую зависимость между переменными.
Рассчитаем стандартизированные коэффициенты регрессии , коэффициенты эластичности , и -коэффициенты.
Коэффициент эластичности рассчитывается по формуле
;.
Это означает, что увеличение переменной на 1% (от своего среднего значения) приводит в среднем к росту величины на 2,422%, увеличение переменной на 1% (от своего среднего значения) приводит в среднем к уменьшению величины на 0,230%.
Стандартизированный коэффициент регрессии рассчитывается по формуле
,
где
,.
Стандартизированный коэффициент регрессии показывает, на сколько величин изменится в среднем зависимая переменная при увеличении только j-ой объясняющей переменной на .
Таким образом, увеличение только на одно увеличивает в среднем зависимую величину Y на 1,228; увеличение только на одно уменьшает в среднем зависимую величину Y на 0,239.
Рассчитаем -коэффициенты:
,
где – коэффициент парной корреляции.
Найдем матрицу коэффициентов парной корреляции.
Тогда
это означает, что на 123,0% приращение величины Y можно объяснить влиянием изменения фактора ,
это означает, что на 23,0% приращение величины Y можно объяснить влиянием изменения фактора .
…
(20) Для линейного парного уравнения регрессии при количестве наблюдений n=12 известны следующие значения величин
(20)
Для линейного парного уравнения регрессии при количестве наблюдений n=12 известны следующие значения величин:
i=1nx=15, i=1nx2=85, i=1nx∙y=125, i=1ny=58, i=1ny2=120. Определите параметры уравнения регрессии. Оцените тесноту связи между параметрами.
b=yx-y*xx2-x2=12512-1512*58128512-15122=0,792
a=y-b*x=5812-0,792*1512=3,843
Получаем уравнение регрессии
yx=3,843+0,792*x
Теснота связи линейной регрессии оценивалась по коэффициенту корреляции:
rxy=b*σxσy=0,792*8512-1512212012-58122
8512-15122=5,521
12012-58122=-13,361,
должно быть неотриц. возможно ошибка в данных…
Составить уравнение линейной регрессии используя МНК и найти числовые характеристики переменных
Составить уравнение линейной регрессии , используя МНК, и найти числовые характеристики переменных.
Составить уравнение линейной регрессии , используя матричный метод.
Вычислить коэффициент корреляции и оценить полученное уравнение регрессии.
Найти оценки параметров .
Найти параметры нормального распределения для статистик и .
Найти доверительные интервалы для и на основании оценок и при уровне значимости α = 0,05.
Вычислить коэффициент детерминации и оценить качество выбранного уравнения регрессии.
Имеются данные о количестве вносимых минеральных удобрений Х (кг) и урожайности картофеля Y (ц) по десяти сельхозпредприятиям.
X 168 158 293 245 199 202 210 167 270 263
Y 80 30 20 35 36 65 100 123 110 140
Построение линейной регрессии сводится к оценке ее параметров – и . МНК позволяет получить такие оценки параметров и , при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна:
. (1)
Решая систему уравнений (2), найдем искомые оценки параметров и :
(2)
Можно воспользоваться следующими готовыми формулами, которые следуют непосредственно из решения системы (2):
,, (3)
где – ковариация признаков и ,
– дисперсия признака и
, , , .(4)
Для удобства дальнейших вычислений составим таблицу 1:
Т а б л и ц а 1. Расчетная таблица
Число наблюдений , %
1 2 3 4 5 6 7 8 9 10
1 168 80 13440 28224 6400 73.3255 6.6745 44.5493 0.0834
2 158 30 4740 24964 900 73.2094 -43.2094 1867.0529 1.4403
3 293 20 5860 85849 400 74.7763 -54.7763 3000.4428 2.7388
4 245 35 8575 60025 1225 74.2192 -39.2192 1538.1442 1.1205
5 199 36 7164 39601 1296 73.6853 -37.6853 1420.1802 1.0468
6 202 65 13130 40804 4225 73.7201 -8.7201 76.0401 0.1342
7 210 100 21000 44100 10000 73.8130 26.1870 685.7616 0.2619
8 167 123 20541 27889 15129 73.3139 49.6861 2468.7118 0.4040
9 270 110 29700 72900 12100 74.5093 35.4907 1259.5865 0.3226
10 263 140 36820 69169 19600 74.4281 65.5719 4299.6740 0.4684
Итого 2175 739.00 160970 493525 71275 739 0 16660.1434 8.021
Среднее значение 217.5 73.9 16097.0000 49352.5000 7127.5000 73.9000 – 1666.0143 0.8021
45.24 40.82 – – – – – – –
2046.25 1666.29 – – – – – – –
Система нормальных уравнений примет вид:
Средние значения:
, , ,
σх=2046,25=45,24.
σу=1666,29=40,82.
,
Получили уравнение: = 71,376 + 0,0116·x.
2.Составим уравнение линейной регрессии , используя матричный метод.
Х=1168115812931245119912021210116712701263
Система нормальных уравнения для модели линейной регрессии имеет вид:
(5)
где В=ab
Тогда (6)
Рассчитаем
1111111111168158293245199202210167270263∙1168115812931245119912021210116712701263=
=1021752175493525;
1111111111168158293245199202210167270263∙=739160970;
Матрицу определим по формуле , (7)
где – определитель матрицы ; – матрица, присоединенная к матрице .
Получим
A-1=2,41185-0,01063-0,010630,000049
Теперь умножим эту матрицу на вектор
739160970.
Получим В=2,41185-0,01063-0,010630,000049∙739160970=71,3760,0116
Уравнение линейной регрессии имеет вид:
= 71,376 + 0,0116·x. (8)
что совпадает с ранее полученным уравнением (с точностью до округления).
3.Вычислим коэффициент корреляции и оценим полученное уравнение регрессии.
Показатель тесноты связи – линейный коэффициент корреляции . Для его вычисления воспользуемся формулой (9)
. (9)
.
Линейный коэффициент корреляции находится в пределах . Чем ближе абсолютное значение к единице, тем сильнее линейная связь между факторами (при имеем строгую функциональную зависимость). В данном случае связь очень слабая.
Определяют среднюю ошибку аппроксимации по формуле:
. (10)
Средняя ошибка аппроксимации не должна превышать 8–10 %, значит данная модель плохо аппроксимирует зависимость.
4.Найдем оценки параметров .
Найдем стандартные ошибки коэффициентов регрессии:
mb= Sостσx ∙ n=i=1n(yi- yi)2n-m-1σx ∙ n=16660,1434845,24 ∙ 10=0,3190;
ma=Sостxi2σx ∙ n=16660,14348 ∙ 49352545,24 ∙10= 70,871.
Определим оценку дисперсии ошибки прогноза по формуле (11):
δ2=i=1n(yi- yi)2n-m=16660,143410-2=2082,52 (11)
5.Найдем параметры нормального распределения для статистик и .
Найдем t – критерии Стьюдента:
tb= bmb= 0,1160,23190=0,036;
ta= ama= 71,37670,871=1,007.
tтабл. при n – m – 1 = 10 – 1 – 1 = 8 tтабл. = 2,31
т.к. tb ≤ tтабл. и tа ≤ tтабл. признаем и статистическую незначимость параметраов а и b регрессии.
6.Найдем доверительные интервалы для и на основании оценок и при уровне значимости α = 0,05.
εa= tтабл ∙ ma=2,31 ∙70,871=163,71 и
εb= tтабл ∙ mb=2,31 ∙0,036=0,5083.
a- εa≤ a ≤ a+ εa
71,376-163,71 ≤ a ≤71,376+163,71
-92,05 a 234,80;
b- εb≤ b ≤ b+ εb
0,0116-0,5083 ≤ b≤0,0116+0,5083
-0,724 b 0,747.
7.Вычислим коэффициент детерминации и оценим качество выбранного уравнения регрессии.
Квадрат линейного коэффициента корреляции , называемый коэффициентом детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака , объясняемую регрессией, в общей дисперсии результативного признака:
Значит, уравнение регрессии объясняет 0,02% дисперсии результативного признака, а на долю прочих факторов приходятся 99,98%.
Оценим качество уравнения регрессии в целом с помощью -критерия Фишера. Рассчитаем фактическое значение -критерия. Так как коэффициент детерминации уже известен, проще всего использовать формулу (12):
F=rxy2n-m1-rxy2m-1=0,0002∙81-0,0002=0,0013 (12)
где m=2 – число оцениваемых параметров уравнения регрессии;
n=10 – число наблюдений.
Табличное значение -критерия k2=n-2=10-2=8; α=0,05; Fтабл=5,32. Так как Fтабл>Fфакт , поэтому признается статистическая незначимость уравнения в целом….
(20) Какая из двух зависимостей для временного ряда наиболее подходит для прогнозирования эндогенной переменной
(20)
Какая из двух зависимостей для временного ряда наиболее подходит для прогнозирования эндогенной переменной:
yx=1,88∙x0,26 ;
yx=1980,9+161,3∙x .
Известно, что n=12; i=1nx=78; i=1nx2=650;
i=1nx∙y=259362; i=1ny=36353 ; i=1ny2=114292347;
i=1ny-yx2=586584; i=1ny-yx2=4163963.
r=yx-y*xx2-x2y2-y2=25936212-7812*363531265012-78122*11429234712-36353122=0.945
Связь весьма тесная
По индексу корреляции для степенной
r=1-i=1ny-yx2i=1ny-yx2=1-5865844163963=0,927
Связь весьма тесная.
Уравнение линейной функции наиболее подходит для прогнозирования эндогенной переменной, т.к. связь между показателями теснее….
(20) Для уравнения линейной парной регрессии при количестве наблюдений n=15 известны следующие значения величин
(20)
Для уравнения линейной парной регрессии при количестве наблюдений n=15 известны следующие значения величин:
i=1nx=15, i=1nx2=85, i=1nx∙y=125, i=1ny=58, i=1ny2=120. Определите параметры уравнения регрессии. Оцените тесноту связи между параметрами.
b=yx-y*xx2-x2=12515-1515*58158515-15152=0,957
a=y-b*x=5815-0,957*1515=2,909
Получаем уравнение регрессии
yx=2,909+0.957*x
Теснота связи линейной регрессии оценивалась по коэффициенту корреляции:
rxy=b*σxσy=0,957*8515-1515212015-58152
12015-58152=-6.591,
должно быть неотриц. возможно ошибка в данных…
(20) Построить уравнение линейной парной регрессии описывающее зави-симость месячных объёмов продажи товаров (y) в млн
(20)
Построить уравнение линейной парной регрессии, описывающее зави-симость месячных объёмов продажи товаров (y) в млн. денежных ед. от вложенных в производство средств (x). Оценить степень тесноты связи между переменными.
Известно: n=8; i=1nx=23,4; i=1nx2=74,4;
i=1nx∙y=856,4; i=1ny=282 ; i=1ny2=10114.
b=yx-y*xx2-x2=856,48-23,48*282874,48-23,482=5,298
a=y-b*x=2828-5,298*23,48=19,753
Получаем уравнение регрессии
yx=19,753+5,298*x
Теснота связи
r=yx-y*xx2-x2y2-y2=856,48-23,48*282874,48-23,482*101148-28282=0.982
Связь весьма тесная….