Линейные регрессионные модели с гетероскедастичными и автокоррелированными остатками кратко

Обновлено: 04.07.2024

где Ώ – положительно определенная матрица.

Принимая, что дисперсия объясняющих переменных могут быть произвольными, мы получаем обобщенную линейную модель множественной регрессии (ОЛММР).

В этом случае оценка параметров модели осуществляется обобщенным методом наименьших квадратов (ОМНК):

Если модель гетероскедастична, то матрица Ώ – диагональная. Тогда имеем:

На практике, однако, значения σ_i почти никогда не бывают известны. Поэтому сначала находят оценку вектора параметров обычным методом наименьших квадратов. Затем находят регрессию квадратов остатков на квадратичные функции объясняющих переменных, т.о. уравнение

Где f(x) – квадратичная функция.

Далее по полученном уравнению рассчитывают теоретические значения и определяют набор весов Затем вводят новые переменных и находят уравнение . Полученная оценка и есть оценка взвешенного метода наименьших квадратов.

Проверить модель на гетероскедастичность можно с помощью следующих тестов: ранговой корреляции Спирмена; Голдфельда-Квандта; Уайта; Глейзера.

Рассмотрим тест на гетероскедастичность, применяемый в случае, если ошибки регрессии можно считать нормально распределенными случайными величинами, - тест Голдфельда-Квандта.

Все n наблюдений упорядочиваются в порядке возрастания значений фактора Х. затем выбираются m первых и m последних наблюдений.

Гипотеза о гомоскедастичности равносильна тому, что значения остатков e₁,…,e_m и e_n_-_m₊_l,…,e_n представляют собой выборочные наблюдения нормально распределенных случайных величин, имеющих одинаковые дисперсии.

Гипотеза о равенстве дисперсий двух нормально распределенных совокупностей проверяется с помощью F – критерия Фишера.

Расчетное значение вычисляется по формуле (в числителе всегда большая сумма квадратов):

Гипотеза о равенстве дисперсий двух наборов по m наблюдений (т.е. гипотеза об отсутствии гетероскедастичности остатков) отвергается, если расчетное значение превышает табличное F>F_α_;_m_-_p_;_m_-_p, где p – число регрессоров.

Мощность теста (вероятность отвергнуть гипотезу об отсутствии гетероскедастичности, когда гетероскедастичности действительно нет) максимальна, если выбирать m порядка n/3.

Тест Голдфельда – Квандта позволяет выявить факт наличия гетероскедастичности, но не позволяет описать характер зависимостей дисперсий ошибок регрессии количественно.

Если прослеживается влияние результатов предыдущих наблюдений на результаты последующих, случайные величины (ошибки) ε_i в регрессионной модели не оказываются независимыми. Такие модели называются моделями с наличием автокорреляции.

Как правило, если автокорреляция присутствует, то наибольшее влияние на последующее наблюдение оказывает результат предыдущего наблюдения. Наличие автокорреляции между соседними уровнями ряда можно определить с помощью теста Дарбина-Уотсона. Расчетное значение определяется по следующей формуле:

Значения критерия находятся в интервале от 0 до 4. По таблицам критических точек распределения Дарбина-Уотсона для заданного уровня значимости , числа наблюдений (n) и количества объясняющих переменных (m) находят пороговые значения d_н (нижняя граница) и d_в (верхняя граница).

Если расчетное значение:

, то гипотеза об отсутствии автокорреляции не отвергается (принимается);

или , то вопрос об отвержении или принятии гипотезы остается открытым (расчетное значение попадает в зону неопределенности);

, то принимается альтернативная гипотеза о наличии положительной автокорреляции;

, то принимается альтернативная гипотеза о наличии отрицательной автокорреляции.

Промежутки внутри интервала [0 - 4]

принимается альтернативная гипотеза о наличии положительнойавтокорреляции

вопрос об отвержении или принятии гипотезы остается открытым (расчетное значение попадает в зону неопределенности)

гипотеза об отсутствии автокорреляции не отвергается (принимается)

принимается альтернативная гипотеза о наличии отрицательной автокорреляции

Недостаток теста Дарбина – Уотсона заключается прежде всего в том, что он содержит зоны неопределенности. Во-вторых, он позволяет выявить наличие автокорреляции только между соседними уровнями, тогда как автокорреляция может существовать и между более отдаленными наблюдениями. Поэтому наряду с тестом Дарбина-Уотсона для проверки наличия автокорреляции используются тест серий (Бреуша – Годфри),Q- тест Льюинга – Бокса и другие. Наиболее распространенным приемом устранения автокорреляции во временных рядах является построение авторегрессионных моделей.

Итак, при исследовании остатков e_i должно проверяться наличие следующих пяти предпосылок МНК:

1) случайный характер остатков;

2) нулевая средняя величина остатков, не зависящая от х_i;

3) гомоскедастичность– дисперсия каждого отклонения e_i одинакова для всех значений х_i;

4) отсутствие автокорреляцииостатков – значения остатков e_i распределены независимо друг от друга;

5) остатки подчиняются нормальному распределению.

Если распределение случайных остатков e_i не соответствует некоторым предпосылкам МНК, то следует корректировать модель.

В случае нарушения первых двух предпосылок необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии.

Пятая предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t, F. Однако и при нарушении пятой предпосылки МНК оценки регрессии обладают достаточной состоятельностью.

Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.

Если не соблюдается гомоскедастичность, то имеет место гетероскедастичность.Наличие гетероскедастичности может привести к смещенности оценок коэффициентов регрессии, а также к уменьшению их эффективности. Вследствие вышесказанного все выводы, получаемые на основе соответствующихt- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющихся. В этом случае рекомендуется применять обобщенный метод наименьших квадратов, который заключается в том, что при минимизации суммы квадратов отклонений (5) отдельные ее слагаемые взвешиваются: наблюдениям с большей дисперсией придается пропорционально меньший вес. Чтобы убедиться в гетероскедастичности остатков и, следовательно, в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение, в частности, используют метод Гольдфельда – Квандта. Проиллюстрируем его на примере (табл.5.3).

Поступления налогов в бюджет (y_i – млн.руб.) в зависимости

от численности работающих (х_i – тыс.чел).Таблица 5.3

№ п/п	х_i	y_i	ŷ_х	e_i
4,4	-1,0	5,4
8,1	2,5	5,6
12,9	4,9	8,0
20,8	16,6	4,2
15,5	19,0	-3,5
28,8	22,5	6,3
37,5	41,4	-3,9
48,7	53,2	-4,5
68,6	66,1	2,5
104,6	82,6	22,0
90,5	88,5	2,0
88,3	107,4	-19,1
132,4	120,4	12,0
122,0	127,4	-5,4
99,1	131,0	-31,9
114,2	142,7	-28,5
150,6	151,0	-0,4
156,1	171,0	-14,9
209,5	180,5	29,0
342,9	327,8	15,1
итого	1855,5	1855,5	0,0

По выборочным данным строим уравнение регрессии

ŷ_х = – 4,565 + 1,178х.

Теоретические значения ŷ_хи отклонения от них фактических значений e_i приведены в четвертой и пятой колонке табл.5.3. Очевидно, что остаточные величины e_i обнаруживают тенденцию к росту по мере увеличения х и у. Этот вывод подтверждается и по критерию Гольдфельда – Квандта. Для его применения необходимо выполнить следующие шаги:

- упорядочить n наблюдений по мере возрастания переменной х (выполнено);

- исключить из рассмотрения k центральных наблюдений (рекомендовано при n=60 приниматьk=16, при n=30 принимать k=8, при n=20 принимать k=4), в данном случае исключаем строки 9–12;

- разделить совокупность на две группы (по ń=(n – k):2=8 наблюдений соответственно с малыми и большими значениями фактора х) и определить по каждой из групп уравнения регрессии (результаты в табл.5.4.);

- определить остаточные суммы квадратов для первой (S₁) и второй (S₂) групп и найти их отношение R=S₂:S₁. Чем больше величина R превышает табличное значение F–критерия с ń –2 степенями свободы (приложение 2), тем более нарушена предпосылка о равенстве дисперсий остаточных величин, т.е. наблюдается гетероскедастичность остатков.

№ п/п	х_i	y_i	ŷ_х	e_i	e_i 2
4,4	5,7	–1,3	1,69
8,1	8,5	–0,4	0,16
12,9	10,3	2,6	6,76
20,8	19,6	1,2	1,44
15,5	21,4	–5,9	34,81
28,8	24,2	4,6	21,16
37,5	38,9	–1,4	1,96
48,7	48,1	0,6	0,36
Уравнение регрессии: ŷ_х = 2,978 + 0,921х. Сумма S₁=68,34
132,4	110,7	21,7	470,89
122,0	118,7	3,3	10,89
99,1	122,7	–23,6	556,96
114,2	136,1	–21,9	479,61
150,6	145,4	5,2	27,04
156,1	168,2	–12,1	146,41
209,5	178,9	30,6	936,36
342,9	346,1	–3,2	10,24
Уравнение регрессии: ŷ_х = 31,142 + 1,338х. Сумма S₂ =2638,4

Величина R=2638,4 : 68,34=38.6 существенно превышает табличное значение F-критерия 4,28 при 5%-ном и 8,47 при 1%-ном уровне значимости для числа степеней свободы 8 – 2 = 6, подтверждая тем самым наличие гетероскедастичности.

Нарушение четвертой предпосылки МНК – автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Среди основных причин, вызывающих появление автокорреляции, можно выделить ошибки спецификации, инерцию в изменении экономических показателей, эффект паутины, сглаживание данных.

Ошибки спецификации.Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводит к системным отклонениям точек наблюдений от линии регрессии, что может обусловить автокорреляцию.

Инерция. Многие экономические показатели (например, инфляция, безработица, ВНП и т.п.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Действительно, экономический подъем приводит к росту занятости, сокращению инфляции, увеличению ВНП и т.д. Этот рост продолжается до тех пор, пока изменение конъюнктуры рынка и ряда экономических характеристик не приведет к замедлению роста, затем остановке и движению вспять рассматриваемых показателей. В любом случае эта трансформация происходит не мгновенно, а обладает определенной инертностью.

Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом). Например, предложение сельскохозяйственной продукции реагирует на изменение цены с запаздыванием (равным периоду созревания урожая). Большая цена сельскохозяйственной продукции в прошедшем году вызовет (скорее всего) ее перепроизводство в текущем году, а следовательно, цена на нее снизится и т.д.

Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его подинтервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может послужить причиной автокорреляции.

Последствия автокорреляции во многом сходны с последствиями гетероскедастичности. Среди них при применении МНК обычно выделяются следующие.

1. Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно, они перестают обладать свойствами наилучших линейных несмещенных оценок.

2. Дисперсии оценок являются смешенными. Часто дисперсии, вычисленные по стандартным формулам, являются заниженными, что влечет за собой увеличение t-статистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут не являться.

3. Оценка дисперсии регрессии является смещенной оценкой истинного значения дисперсии, во многих случаях занижая его.

В силу вышесказанного выводы по t- и F-статистикам, определяющим значимость коэффициентов регрессии и коэффициента детерминации, возможно, будут неверными. Вследствие этого ухудшаются прогнозные качества модели.

Для обнаружения автокорреляции необходимо наблюдения упорядочить по значению фактора х (как в предыдущем примере) и составить ряды с текущими и предыдущими остатками. Коэффициент корреляции r_e_i_e_j между e_i и e_j, где e_i – остатки текущих наблюдений, e_j – остатки предыдущих наблюдений (например, j=i–1) определяется по обычной формуле линейного коэффициента корреляции (2.1).Рассмотрим расчет коэффициента корреляции между e_i и e_j, взяв в качестве примера данные из табл.5.3 и перенеся их в табл. 5.5 (n=19).

№ п/п	e_i	e_i-1	e_ie_i-1
5,6	5,4	30.24
8,0	5,6	44.8
4,2	8,0	33.6
–3,5	4,2	–14.7
6,3	–3,5	–22.05
–3,9	6,3	–24.57
–4,5	–3,9	17.55
2,5	–4,5	–11.25
22,0	2,5
2,0	22,0
–19,1	2,0	–38.2
12,0	–19,1	–229.2
–5,4	12,0	–64.8
–31,9	–5,4	172.26
–28,5	–31,9	909.15
–0,4	–28,5	11.4
–14,9	–0,4	5.96
29,0	–14,9	–432.1
15,1	29,0
итого	–5.3998	–15.1031	922.09
среднее	–0,2842	–0,7949	48.5311

что при 17 степенях свободы явно незначимо и демонстрирует отсутствие автокорреляции остатков.

Автокорреляция остатков может быть вызвана несколькими причинами, имеющими различную природу. Во-первых, иногда она связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака. Во-вторых, причину следует искать в формулировке модели, которая может не включать существенный фактор, влияние которого отражается в остатках, вследствие чего они оказываются автокоррелированными. Очень часто этим фактором является фактор времени, поэтому проблема автокорреляции остатков весьма актуальна при исследовании динамических рядов, что мы рассмотрим в соответствующем разделе.

Итак, при исследовании остатков e_i должно проверяться наличие следующих пяти предпосылок МНК:

1) случайный характер остатков;

2) нулевая средняя величина остатков, не зависящая от х_i;

3) гомоскедастичность– дисперсия каждого отклонения e_i одинакова для всех значений х_i;

4) отсутствие автокорреляцииостатков – значения остатков e_i распределены независимо друг от друга;

5) остатки подчиняются нормальному распределению.

Если не соблюдается гомоскедастичность, то имеет место гетероскедастичность.Наличие гетероскедастичности может привести к смещенности оценок коэффициентов регрессии, а также к уменьшению их эффективности. Вследствие вышесказанного все выводы, получаемые на основе соответствующих t- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющихся. В этом случае рекомендуется применять обобщенный метод наименьших квадратов, который заключается в том, что при минимизации суммы квадратов отклонений (5) отдельные ее слагаемые взвешиваются: наблюдениям с большей дисперсией придается пропорционально меньший вес. Чтобы убедиться в гетероскедастичности остатков и, следовательно, в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение, в частности, используют метод Гольдфельда – Квандта. Проиллюстрируем его на примере (табл.7).

Поступления налогов в бюджет (y_i – млн.руб.) в зависимости

от численности работающих (х_i – тыс.чел).

№ п/п	х_i	y_i	ŷ_х	e_i
4,4	-1,0	5,4
8,1	2,5	5,6
12,9	4,9	8,0
20,8	16,6	4,2
15,5	19,0	-3,5
28,8	22,5	6,3
37,5	41,4	-3,9
48,7	53,2	-4,5
68,6	66,1	2,5
104,6	82,6	22,0
90,5	88,5	2,0
88,3	107,4	-19,1
132,4	120,4	12,0
122,0	127,4	-5,4
99,1	131,0	-31,9
114,2	142,7	-28,5
150,6	151,0	-0,4
156,1	171,0	-14,9
209,5	180,5	29,0
342,9	327,8	15,1
итого	1855,5	1855,5	0,0

По выборочным данным строим уравнение регрессии

ŷ_х = – 4,565 + 1,178х.

Теоретические значения ŷ_х и отклонения от них фактических значений e_i приведены в четвертой и пятой колонке табл.7. Очевидно, что остаточные величины e_i обнаруживают тенденцию к росту по мере увеличения х и у. Этот вывод подтверждается и по критерию Гольдфельда – Квандта. Для его применения необходимо выполнить следующие шаги:

- упорядочить n наблюдений по мере возрастания переменной х (выполнено);

- исключить из рассмотрения k центральных наблюдений (рекомендовано при n=60 принимать k=16, при n=30 принимать k=8, при n=20 принимать k=4), в данном случае исключаем строки 9–12;

№ п/п	х_i	y_i	ŷ_х	e_i	e_i 2
4,4	5,7	–1,3	1,69
8,1	8,5	–0,4	0,16
12,9	10,3	2,6	6,76
20,8	19,6	1,2	1,44
15,5	21,4	–5,9	34,81
28,8	24,2	4,6	21,16
37,5	38,9	–1,4	1,96
48,7	48,1	0,6	0,36
Уравнение регрессии: ŷ_х = 2,978 + 0,921х. Сумма S₁=68,34
132,4	110,7	21,7	470,89
122,0	118,7	3,3	10,89
99,1	122,7	–23,6	556,96
114,2	136,1	–21,9	479,61
150,6	145,4	5,2	27,04
156,1	168,2	–12,1	146,41
209,5	178,9	30,6	936,36
342,9	346,1	–3,2	10,24
Уравнение регрессии: ŷ_х = 31,142 + 1,338х. Сумма S₂ =2638,4

Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводит к системным отклонениям точек наблюдений от линии регрессии, что может обусловить автокорреляцию.

Для обнаружения автокорреляции необходимо наблюдения упорядочить по значению фактора х (как в предыдущем примере) и составить ряды с текущими и предыдущими остатками. Коэффициент корреляции r_ei_e_j между e_i и e_j, где e_i – остатки текущих наблюдений, e_j – остатки предыдущих наблюдений (например, j=i–1) определяется по обычной формуле линейного коэффициента корреляции (2).Рассмотрим расчет коэффициента корреляции между e_i и e_j, взяв в качестве примера данные из табл.7 и перенеся их в табл. 9 (n=19).

№ п/п	e_i	e_i-1	e_ie_i-1
5,6	5,4	30.24
8,0	5,6	44.8
4,2	8,0	33.6
–3,5	4,2	–14.7
6,3	–3,5	–22.05
–3,9	6,3	–24.57
–4,5	–3,9	17.55
2,5	–4,5	–11.25
22,0	2,5
2,0	22,0
–19,1	2,0	–38.2
12,0	–19,1	–229.2
–5,4	12,0	–64.8
–31,9	–5,4	172.26
–28,5	–31,9	909.15
–0,4	–28,5	11.4
–14,9	–0,4	5.96
29,0	–14,9	–432.1
15,1	29,0
итого	–5.3998	–15.1031	922.09
среднее	–0,2842	–0,7949	48.5311

σ_ei =15.1347, σ_e_j =14,7663 и в соответствие с (2)

что при 17 степенях свободы явно незначимо и демонстрирует отсутствие автокорреляции остатков.

1. Линейные регрессионные модели с гетероскедастичными и автокоррелированными остатками

1.
2.
3.
4.
Предпосылки метода наименьших квадратов
Гетероскедостичность, выявление и устранение
Автокорреляция, выявление и устранение
Мультиколлениарность, выявление и устранение
5. Проблемы спецификации модели

2. Автокорреляция, выявление и устранение

Автокорреляция (последовательная корреляция)
определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или
в пространстве (перекрестные данные).
Основных причин, вызывающих
появление автокорреляции
Ошибки
спецификации
Инерция
Эффект
паутины
Сглаживание
данных

4. Последствия автокорреляции:

1. Оценки параметров, оставаясь линейными и
несмещенными, перестают быть эффективными
2. Дисперсии оценок являются смещенными
3. Оценка дисперсии регрессии 2 является смещенной
оценкой истинного значения генеральной дисперсии, во
многих случаях занижая его
4. Выводы по t- и F-статистикам, определяющим
значимость коэффициентов регрессии и коэффициента
детерминации, возможно, будут неверными случаях
занижая его

5. Методы обнаружения автокорреляции:

1.
2.
3.
4.
5.
6.
графический анализ остатков
метод рядов
критерий Дарбина-Уотсона
тест серий Бреуша-Годфри
Q-тест Льюинга-Бокса
тест Льюинга-Бокса

Графический анализа остатков
0,04
εi2εi2
εi2
0,03
0,02
отсутствие автокорреляции
отклонения
0,01
0,00
t t
-0,01
t
Возрастающая
Случайные
остатки
тенденция в остатках
-0,02
Циклические колебания в остатках
-0,03
наличие автокорреляции
-0,04
-0,05
-0,06
0
2
4
6
8
10
t
12
14
16
18
95% confidence
20

Авторегрессионная схема первого порядка
Строят парное линейное уравнение регрессии:
Наблюдению с индексом t соответствует выражение:
Наблюдению с индексом t-1 соответствует выражение:
Отклонения подвержены воздействию авторегрессии первого порядка:
Последовательно заменяя
получим:

методы оценивания
коэффициента
на основе
статистики
ДарбинаУотсона
на основе
метода
КохранаОрката
на основе
метода
Хилдрета-Лу
на основе
метода
первых
разностей

Метод Кохрана-Орката
1 этап: Оценивается по МНК регрессия и для нее определяются
оценки отклонений t;
2 этап: Оценивается регрессионная зависимость:
3 этап: На основе данной оценки строится уравнение:
4 этап: Значения
в уравнение регрессии:
и
подставляются
Затем вновь вычисляются оценки t отклонений и
возвращаются ко второму этапу.

Определение на основе
статистики
Дарбина-Уотсона
Определение на основе
метода
Хилдрета-Лу
оценивается для каждого возможного значения из
отрезка [-1,1]

Итак, при исследовании остатков _i должно проверяться наличие следующих пяти предпосылок МНК:

случайный характер остатков;

нулевая средняя величина остатков, не зависящая от х_i;

гомоскедастичность – дисперсия каждого отклонения _i одинакова для всех значений х_i;

отсутствие автокорреляции остатков – значения остатков _i распределены независимо друг от друга;

остатки подчиняются нормальному распределению.

Если распределение случайных остатков _i не соответствует некоторым предпосылкам МНК, то следует корректировать модель.

Если не соблюдается гомоскедастичность, то имеет место гетероскедастичность. Наличие гетероскедастичности может привести к смещенности оценок коэффициентов регрессии, а также к уменьшению их эффективности. Вследствие вышесказанного все выводы, получаемые на основе соответствующих t- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющихся. В этом случае рекомендуется применять обобщенный метод наименьших квадратов, который заключается в том, что при минимизации суммы квадратов отклонений (5) отдельные ее слагаемые взвешиваются: наблюдениям с большей дисперсией придается пропорционально меньший вес. Чтобы убедиться в гетероскедастичности остатков и, следовательно, в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение, в частности, используют метод Гольдфельда – Квандта. Проиллюстрируем его на примере (табл.5.3).

Поступления налогов в бюджет (y_i – млн.руб.) в зависимости

от численности работающих (х_i – тыс.чел). Таблица 5.3

По выборочным данным строим уравнение регрессии

ŷ_х = – 4,565 + 1,178х.

Теоретические значения ŷ_х и отклонения от них фактических значений _i приведены в четвертой и пятой колонке табл.5.3. Очевидно, что остаточные величины _i обнаруживают тенденцию к росту по мере увеличения х и у. Этот вывод подтверждается и по критерию Гольдфельда – Квандта. Для его применения необходимо выполнить следующие шаги:

упорядочить n наблюдений по мере возрастания переменной х (выполнено);

исключить из рассмотрения k центральных наблюдений (рекомендовано при n=60 принимать k=16, при n=30 принимать k=8, при n=20 принимать k=4), в данном случае исключаем строки 9–12;

разделить совокупность на две группы (по ń=(n – k):2=8 наблюдений соответственно с малыми и большими значениями фактора х) и определить по каждой из групп уравнения регрессии (результаты в табл.5.4.);

определить остаточные суммы квадратов для первой (S₁) и второй (S₂) групп и найти их отношение R=S₂:S₁. Чем больше величина R превышает табличное значение F–критерия с ń –2 степенями свободы (приложение 2), тем более нарушена предпосылка о равенстве дисперсий остаточных величин, т.е. наблюдается гетероскедастичность остатков.

Уравнение регрессии: ŷ_х = 2,978 + 0,921х. Сумма S₁=68,34

Уравнение регрессии: ŷ_х = 31,142 + 1,338х. Сумма S₂ =2638,4

Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводит к системным отклонениям точек наблюдений от линии регрессии, что может обусловить автокорреляцию.

Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно, они перестают обладать свойствами наилучших линейных несмещенных оценок.

Дисперсии оценок являются смешенными. Часто дисперсии, вычисленные по стандартным формулам, являются заниженными, что влечет за собой увеличение t-статистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут не являться.

Оценка дисперсии регрессии является смещенной оценкой истинного значения дисперсии, во многих случаях занижая его.

Для обнаружения автокорреляции необходимо наблюдения упорядочить по значению фактора х (как в предыдущем примере) и составить ряды с текущими и предыдущими остатками. Коэффициент корреляции r__i__j между _i и _j, где _i – остатки текущих наблюдений, _j – остатки предыдущих наблюдений (например, j=i–1) определяется по обычной формуле линейного коэффициента корреляции (2.1).Рассмотрим расчет коэффициента корреляции между _i и _j, взяв в качестве примера данные из табл.5.3 и перенеся их в табл. 5.5 (n=19).

Читайте также: