Линейные регрессионные модели с гетероскедастичными и автокоррелированными остатками кратко

Обновлено: 04.07.2024

где Ώ – положительно определенная матрица.

Принимая, что дисперсия объясняющих переменных могут быть произвольными, мы получаем обобщенную линейную модель множественной регрессии (ОЛММР).

В этом случае оценка параметров модели осуществляется обобщенным методом наименьших квадратов (ОМНК):

Если модель гетероскедастична, то матрица Ώ – диагональная. Тогда имеем:

На практике, однако, значения σi почти никогда не бывают известны. Поэтому сначала находят оценку вектора параметров обычным методом наименьших квадратов. Затем находят регрессию квадратов остатков на квадратичные функции объясняющих переменных, т.о. уравнение

Где f(x) – квадратичная функция.

Далее по полученном уравнению рассчитывают теоретические значения и определяют набор весов Затем вводят новые переменных и находят уравнение . Полученная оценка и есть оценка взвешенного метода наименьших квадратов.

Проверить модель на гетероскедастичность можно с помощью следующих тестов: ранговой корреляции Спирмена; Голдфельда-Квандта; Уайта; Глейзера.

Рассмотрим тест на гетероскедастичность, применяемый в случае, если ошибки регрессии можно считать нормально распределенными случайными величинами, - тест Голдфельда-Квандта.

Все n наблюдений упорядочиваются в порядке возрастания значений фактора Х. затем выбираются m первых и m последних наблюдений.

Гипотеза о гомоскедастичности равносильна тому, что значения остатков e1,…,em и en-m+l,…,en представляют собой выборочные наблюдения нормально распределенных случайных величин, имеющих одинаковые дисперсии.

Гипотеза о равенстве дисперсий двух нормально распределенных совокупностей проверяется с помощью F – критерия Фишера.

Расчетное значение вычисляется по формуле (в числителе всегда большая сумма квадратов):

Гипотеза о равенстве дисперсий двух наборов по m наблюдений (т.е. гипотеза об отсутствии гетероскедастичности остатков) отвергается, если расчетное значение превышает табличное F>Fα;m-p;m-p, где p – число регрессоров.

Мощность теста (вероятность отвергнуть гипотезу об отсутствии гетероскедастичности, когда гетероскедастичности действительно нет) максимальна, если выбирать m порядка n/3.

Тест Голдфельда – Квандта позволяет выявить факт наличия гетероскедастичности, но не позволяет описать характер зависимостей дисперсий ошибок регрессии количественно.

Если прослеживается влияние результатов предыдущих наблюдений на результаты последующих, случайные величины (ошибки) εi в регрессионной модели не оказываются независимыми. Такие модели называются моделями с наличием автокорреляции.

Как правило, если автокорреляция присутствует, то наибольшее влияние на последующее наблюдение оказывает результат предыдущего наблюдения. Наличие автокорреляции между соседними уровнями ряда можно определить с помощью теста Дарбина-Уотсона. Расчетное значение определяется по следующей формуле:

Значения критерия находятся в интервале от 0 до 4. По таблицам критических точек распределения Дарбина-Уотсона для заданного уровня значимости , числа наблюдений (n) и количества объясняющих переменных (m) находят пороговые значения dн (нижняя граница) и dв (верхняя граница).

Если расчетное значение:

, то гипотеза об отсутствии автокорреляции не отвергается (принимается);

или , то вопрос об отвержении или принятии гипотезы остается открытым (расчетное значение попадает в зону неопределенности);

, то принимается альтернативная гипотеза о наличии положительной автокорреляции;

, то принимается альтернативная гипотеза о наличии отрицательной автокорреляции.

Промежутки внутри интервала [0 - 4]

принимается альтернативная гипотеза о наличии положительнойавтокорреляции вопрос об отвержении или принятии гипотезы остается открытым (расчетное значение попадает в зону неопределенности) гипотеза об отсутствии автокорреляции не отвергается (принимается) вопрос об отвержении или принятии гипотезы остается открытым (расчетное значение попадает в зону неопределенности) принимается альтернативная гипотеза о наличии отрицательной автокорреляции

Недостаток теста Дарбина – Уотсона заключается прежде всего в том, что он содержит зоны неопределенности. Во-вторых, он позволяет выявить наличие автокорреляции только между соседними уровнями, тогда как автокорреляция может существовать и между более отдаленными наблюдениями. Поэтому наряду с тестом Дарбина-Уотсона для проверки наличия автокорреляции используются тест серий (Бреуша – Годфри),Q- тест Льюинга – Бокса и другие. Наиболее распространенным приемом устранения автокорреляции во временных рядах является построение авторегрессионных моделей.

Итак, при исследовании остатков ei должно проверяться наличие следующих пяти предпосылок МНК:

1) случайный характер остатков;

2) нулевая средняя величина остатков, не зависящая от хi;

3) гомоскедастичность– дисперсия каждого отклонения ei одинакова для всех значений хi;

4) отсутствие автокорреляцииостатков – значения остатков ei распределены независимо друг от друга;

5) остатки подчиняются нормальному распределению.

Если распределение случайных остатков ei не соответствует некоторым предпосылкам МНК, то следует корректировать модель.

В случае нарушения первых двух предпосылок необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии.

Пятая предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t, F. Однако и при нарушении пятой предпосылки МНК оценки регрессии обладают достаточной состоятельностью.

Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.

Если не соблюдается гомоскедастичность, то имеет место гетероскедастичность.Наличие гетероскедастичности может привести к смещенности оценок коэффициентов регрессии, а также к уменьшению их эффективности. Вследствие вышесказанного все выводы, получаемые на основе соответствующихt- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющихся. В этом случае рекомендуется применять обобщенный метод наименьших квадратов, который заключается в том, что при минимизации суммы квадратов отклонений (5) отдельные ее слагаемые взвешиваются: наблюдениям с большей дисперсией придается пропорционально меньший вес. Чтобы убедиться в гетероскедастичности остатков и, следовательно, в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение, в частности, используют метод Гольдфельда – Квандта. Проиллюстрируем его на примере (табл.5.3).

Поступления налогов в бюджет (yi – млн.руб.) в зависимости

от численности работающих (хi – тыс.чел).Таблица 5.3

№ п/п хi yi ŷх ei
4,4 -1,0 5,4
8,1 2,5 5,6
12,9 4,9 8,0
20,8 16,6 4,2
15,5 19,0 -3,5
28,8 22,5 6,3
37,5 41,4 -3,9
48,7 53,2 -4,5
68,6 66,1 2,5
104,6 82,6 22,0
90,5 88,5 2,0
88,3 107,4 -19,1
132,4 120,4 12,0
122,0 127,4 -5,4
99,1 131,0 -31,9
114,2 142,7 -28,5
150,6 151,0 -0,4
156,1 171,0 -14,9
209,5 180,5 29,0
342,9 327,8 15,1
итого 1855,5 1855,5 0,0

По выборочным данным строим уравнение регрессии

ŷх = – 4,565 + 1,178х.

Теоретические значения ŷхи отклонения от них фактических значений ei приведены в четвертой и пятой колонке табл.5.3. Очевидно, что остаточные величины ei обнаруживают тенденцию к росту по мере увеличения х и у. Этот вывод подтверждается и по критерию Гольдфельда – Квандта. Для его применения необходимо выполнить следующие шаги:

- упорядочить n наблюдений по мере возрастания переменной х (выполнено);

- исключить из рассмотрения k центральных наблюдений (рекомендовано при n=60 приниматьk=16, при n=30 принимать k=8, при n=20 принимать k=4), в данном случае исключаем строки 9–12;

- разделить совокупность на две группы (по ń=(n – k):2=8 наблюдений соответственно с малыми и большими значениями фактора х) и определить по каждой из групп уравнения регрессии (результаты в табл.5.4.);

- определить остаточные суммы квадратов для первой (S1) и второй (S2) групп и найти их отношение R=S2:S1. Чем больше величина R превышает табличное значение F–критерия с ń –2 степенями свободы (приложение 2), тем более нарушена предпосылка о равенстве дисперсий остаточных величин, т.е. наблюдается гетероскедастичность остатков.

№ п/п хi yi ŷх ei ei 2
4,4 5,7 –1,3 1,69
8,1 8,5 –0,4 0,16
12,9 10,3 2,6 6,76
20,8 19,6 1,2 1,44
15,5 21,4 –5,9 34,81
28,8 24,2 4,6 21,16
37,5 38,9 –1,4 1,96
48,7 48,1 0,6 0,36
Уравнение регрессии: ŷх = 2,978 + 0,921х. Сумма S1=68,34
132,4 110,7 21,7 470,89
122,0 118,7 3,3 10,89
99,1 122,7 –23,6 556,96
114,2 136,1 –21,9 479,61
150,6 145,4 5,2 27,04
156,1 168,2 –12,1 146,41
209,5 178,9 30,6 936,36
342,9 346,1 –3,2 10,24
Уравнение регрессии: ŷх = 31,142 + 1,338х. Сумма S2 =2638,4

Величина R=2638,4 : 68,34=38.6 существенно превышает табличное значение F-критерия 4,28 при 5%-ном и 8,47 при 1%-ном уровне значимости для числа степеней свободы 8 – 2 = 6, подтверждая тем самым наличие гетероскедастичности.

Нарушение четвертой предпосылки МНК – автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Среди основных причин, вызывающих появление автокорреляции, можно выделить ошибки спецификации, инерцию в изменении экономических показателей, эффект паутины, сглаживание данных.

Ошибки спецификации.Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводит к системным отклонениям точек наблюдений от линии регрессии, что может обусловить автокорреляцию.

Инерция. Многие экономические показатели (например, инфляция, безработица, ВНП и т.п.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Действительно, экономический подъем приводит к росту занятости, сокращению инфляции, увеличению ВНП и т.д. Этот рост продолжается до тех пор, пока изменение конъюнктуры рынка и ряда экономических характеристик не приведет к замедлению роста, затем остановке и движению вспять рассматриваемых показателей. В любом случае эта трансформация происходит не мгновенно, а обладает определенной инертностью.

Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом). Например, предложение сельскохозяйственной продукции реагирует на изменение цены с запаздыванием (равным периоду созревания урожая). Большая цена сельскохозяйственной продукции в прошедшем году вызовет (скорее всего) ее перепроизводство в текущем году, а следовательно, цена на нее снизится и т.д.

Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его подинтервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может послужить причиной автокорреляции.

Последствия автокорреляции во многом сходны с последствиями гетероскедастичности. Среди них при применении МНК обычно выделяются следующие.

1. Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно, они перестают обладать свойствами наилучших линейных несмещенных оценок.

2. Дисперсии оценок являются смешенными. Часто дисперсии, вычисленные по стандартным формулам, являются заниженными, что влечет за собой увеличение t-статистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут не являться.

3. Оценка дисперсии регрессии является смещенной оценкой истинного значения дисперсии, во многих случаях занижая его.

В силу вышесказанного выводы по t- и F-статистикам, определяющим значимость коэффициентов регрессии и коэффициента детерминации, возможно, будут неверными. Вследствие этого ухудшаются прогнозные качества модели.

Для обнаружения автокорреляции необходимо наблюдения упорядочить по значению фактора х (как в предыдущем примере) и составить ряды с текущими и предыдущими остатками. Коэффициент корреляции reiej между ei и ej, где ei – остатки текущих наблюдений, ej – остатки предыдущих наблюдений (например, j=i–1) определяется по обычной формуле линейного коэффициента корреляции (2.1).Рассмотрим расчет коэффициента корреляции между ei и ej, взяв в качестве примера данные из табл.5.3 и перенеся их в табл. 5.5 (n=19).

№ п/п ei ei-1 eiei-1
5,6 5,4 30.24
8,0 5,6 44.8
4,2 8,0 33.6
–3,5 4,2 –14.7
6,3 –3,5 –22.05
–3,9 6,3 –24.57
–4,5 –3,9 17.55
2,5 –4,5 –11.25
22,0 2,5
2,0 22,0
–19,1 2,0 –38.2
12,0 –19,1 –229.2
–5,4 12,0 –64.8
–31,9 –5,4 172.26
–28,5 –31,9 909.15
–0,4 –28,5 11.4
–14,9 –0,4 5.96
29,0 –14,9 –432.1
15,1 29,0
итого –5.3998 –15.1031 922.09
среднее –0,2842 –0,7949 48.5311

что при 17 степенях свободы явно незначимо и демонстрирует отсутствие автокорреляции остатков.

Автокорреляция остатков может быть вызвана несколькими причинами, имеющими различную природу. Во-первых, иногда она связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака. Во-вторых, причину следует искать в формулировке модели, которая может не включать существенный фактор, влияние которого отражается в остатках, вследствие чего они оказываются автокоррелированными. Очень часто этим фактором является фактор времени, поэтому проблема автокорреляции остатков весьма актуальна при исследовании динамических рядов, что мы рассмотрим в соответствующем разделе.

Итак, при исследовании остатков ei должно проверяться наличие следующих пяти предпосылок МНК:

1) случайный характер остатков;

2) нулевая средняя величина остатков, не зависящая от хi;

3) гомоскедастичность– дисперсия каждого отклонения ei одинакова для всех значений хi;

4) отсутствие автокорреляцииостатков – значения остатков ei распределены независимо друг от друга;

5) остатки подчиняются нормальному распределению.

Если распределение случайных остатков ei не соответствует некоторым предпосылкам МНК, то следует корректировать модель.

В случае нарушения первых двух предпосылок необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии.

Пятая предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t, F. Однако и при нарушении пятой предпосылки МНК оценки регрессии обладают достаточной состоятельностью.

Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.

Если не соблюдается гомоскедастичность, то имеет место гетероскедастичность.Наличие гетероскедастичности может привести к смещенности оценок коэффициентов регрессии, а также к уменьшению их эффективности. Вследствие вышесказанного все выводы, получаемые на основе соответствующих t- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющихся. В этом случае рекомендуется применять обобщенный метод наименьших квадратов, который заключается в том, что при минимизации суммы квадратов отклонений (5) отдельные ее слагаемые взвешиваются: наблюдениям с большей дисперсией придается пропорционально меньший вес. Чтобы убедиться в гетероскедастичности остатков и, следовательно, в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение, в частности, используют метод Гольдфельда – Квандта. Проиллюстрируем его на примере (табл.7).

Поступления налогов в бюджет (yi – млн.руб.) в зависимости

от численности работающих (хi – тыс.чел).

№ п/п хi yi ŷх ei
4,4 -1,0 5,4
8,1 2,5 5,6
12,9 4,9 8,0
20,8 16,6 4,2
15,5 19,0 -3,5
28,8 22,5 6,3
37,5 41,4 -3,9
48,7 53,2 -4,5
68,6 66,1 2,5
104,6 82,6 22,0
90,5 88,5 2,0
88,3 107,4 -19,1
132,4 120,4 12,0
122,0 127,4 -5,4
99,1 131,0 -31,9
114,2 142,7 -28,5
150,6 151,0 -0,4
156,1 171,0 -14,9
209,5 180,5 29,0
342,9 327,8 15,1
итого 1855,5 1855,5 0,0

По выборочным данным строим уравнение регрессии

ŷх = – 4,565 + 1,178х.

Теоретические значения ŷх и отклонения от них фактических значений ei приведены в четвертой и пятой колонке табл.7. Очевидно, что остаточные величины ei обнаруживают тенденцию к росту по мере увеличения х и у. Этот вывод подтверждается и по критерию Гольдфельда – Квандта. Для его применения необходимо выполнить следующие шаги:

- упорядочить n наблюдений по мере возрастания переменной х (выполнено);

- исключить из рассмотрения k центральных наблюдений (рекомендовано при n=60 принимать k=16, при n=30 принимать k=8, при n=20 принимать k=4), в данном случае исключаем строки 9–12;

- разделить совокупность на две группы (по ń=(n – k):2=8 наблюдений соответственно с малыми и большими значениями фактора х) и определить по каждой из групп уравнения регрессии (результаты в табл.8.);

- определить остаточные суммы квадратов для первой (S1) и второй (S2) групп и найти их отношение R=S2:S1. Чем больше величина R превышает табличное значение F–критерия с ń –2 степенями свободы (приложение 2), тем более нарушена предпосылка о равенстве дисперсий остаточных величин, т.е. наблюдается гетероскедастичность остатков.

№ п/п хi yi ŷх ei ei 2
4,4 5,7 –1,3 1,69
8,1 8,5 –0,4 0,16
12,9 10,3 2,6 6,76
20,8 19,6 1,2 1,44
15,5 21,4 –5,9 34,81
28,8 24,2 4,6 21,16
37,5 38,9 –1,4 1,96
48,7 48,1 0,6 0,36
Уравнение регрессии: ŷх = 2,978 + 0,921х. Сумма S1=68,34
132,4 110,7 21,7 470,89
122,0 118,7 3,3 10,89
99,1 122,7 –23,6 556,96
114,2 136,1 –21,9 479,61
150,6 145,4 5,2 27,04
156,1 168,2 –12,1 146,41
209,5 178,9 30,6 936,36
342,9 346,1 –3,2 10,24
Уравнение регрессии: ŷх = 31,142 + 1,338х. Сумма S2 =2638,4

Величина R=2638,4 : 68,34=38.6 существенно превышает табличное значение F-критерия 4,28 при 5%-ном и 8,47 при 1%-ном уровне значимости для числа степеней свободы 8 – 2 = 6, подтверждая тем самым наличие гетероскедастичности.




Нарушение четвертой предпосылки МНК – автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Среди основных причин, вызывающих появление автокорреляции, можно выделить ошибки спецификации, инерцию в изменении экономических показателей, эффект паутины, сглаживание данных.

Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводит к системным отклонениям точек наблюдений от линии регрессии, что может обусловить автокорреляцию.

Инерция. Многие экономические показатели (например, инфляция, безработица, ВНП и т.п.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Действительно, экономический подъем приводит к росту занятости, сокращению инфляции, увеличению ВНП и т.д. Этот рост продолжается до тех пор, пока изменение конъюнктуры рынка и ряда экономических характеристик не приведет к замедлению роста, затем остановке и движению вспять рассматриваемых показателей. В любом случае эта трансформация происходит не мгновенно, а обладает определенной инертностью.

Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом). Например, предложение сельскохозяйственной продукции реагирует на изменение цены с запаздыванием (равным периоду созревания урожая). Большая цена сельскохозяйственной продукции в прошедшем году вызовет (скорее всего) ее перепроизводство в текущем году, а следовательно, цена на нее снизится и т.д.

Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его подинтервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может послужить причиной автокорреляции.

Последствия автокорреляции во многом сходны с последствиями гетероскедастичности. Среди них при применении МНК обычно выделяются следующие.

1. Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно, они перестают обладать свойствами наилучших линейных несмещенных оценок.

2. Дисперсии оценок являются смешенными. Часто дисперсии, вычисленные по стандартным формулам, являются заниженными, что влечет за собой увеличение t-статистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут не являться.

3. Оценка дисперсии регрессии является смещенной оценкой истинного значения дисперсии, во многих случаях занижая его.

В силу вышесказанного выводы по t- и F-статистикам, определяющим значимость коэффициентов регрессии и коэффициента детерминации, возможно, будут неверными. Вследствие этого ухудшаются прогнозные качества модели.

Для обнаружения автокорреляции необходимо наблюдения упорядочить по значению фактора х (как в предыдущем примере) и составить ряды с текущими и предыдущими остатками. Коэффициент корреляции reiej между ei и ej, где ei – остатки текущих наблюдений, ej – остатки предыдущих наблюдений (например, j=i–1) определяется по обычной формуле линейного коэффициента корреляции (2).Рассмотрим расчет коэффициента корреляции между ei и ej, взяв в качестве примера данные из табл.7 и перенеся их в табл. 9 (n=19).

№ п/п ei ei-1 eiei-1
5,6 5,4 30.24
8,0 5,6 44.8
4,2 8,0 33.6
–3,5 4,2 –14.7
6,3 –3,5 –22.05
–3,9 6,3 –24.57
–4,5 –3,9 17.55
2,5 –4,5 –11.25
22,0 2,5
2,0 22,0
–19,1 2,0 –38.2
12,0 –19,1 –229.2
–5,4 12,0 –64.8
–31,9 –5,4 172.26
–28,5 –31,9 909.15
–0,4 –28,5 11.4
–14,9 –0,4 5.96
29,0 –14,9 –432.1
15,1 29,0
итого –5.3998 –15.1031 922.09
среднее –0,2842 –0,7949 48.5311

σei =15.1347, σej =14,7663 и в соответствие с (2)

что при 17 степенях свободы явно незначимо и демонстрирует отсутствие автокорреляции остатков.

Автокорреляция остатков может быть вызвана несколькими причинами, имеющими различную природу. Во-первых, иногда она связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака. Во-вторых, причину следует искать в формулировке модели, которая может не включать существенный фактор, влияние которого отражается в остатках, вследствие чего они оказываются автокоррелированными. Очень часто этим фактором является фактор времени, поэтому проблема автокорреляции остатков весьма актуальна при исследовании динамических рядов, что мы рассмотрим в соответствующем разделе.

1. Линейные регрессионные модели с гетероскедастичными и автокоррелированными остатками

1.
2.
3.
4.
Предпосылки метода наименьших квадратов
Гетероскедостичность, выявление и устранение
Автокорреляция, выявление и устранение
Мультиколлениарность, выявление и устранение
5. Проблемы спецификации модели

2. Автокорреляция, выявление и устранение

Автокорреляция (последовательная корреляция)
определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или
в пространстве (перекрестные данные).
Основных причин, вызывающих
появление автокорреляции
Ошибки
спецификации
Инерция
Эффект
паутины
Сглаживание
данных

4. Последствия автокорреляции:

1. Оценки параметров, оставаясь линейными и
несмещенными, перестают быть эффективными
2. Дисперсии оценок являются смещенными
3. Оценка дисперсии регрессии 2 является смещенной
оценкой истинного значения генеральной дисперсии, во
многих случаях занижая его
4. Выводы по t- и F-статистикам, определяющим
значимость коэффициентов регрессии и коэффициента
детерминации, возможно, будут неверными случаях
занижая его

5. Методы обнаружения автокорреляции:

1.
2.
3.
4.
5.
6.
графический анализ остатков
метод рядов
критерий Дарбина-Уотсона
тест серий Бреуша-Годфри
Q-тест Льюинга-Бокса
тест Льюинга-Бокса

Графический анализа остатков
0,04
εi2εi2
εi2
0,03
0,02
отсутствие автокорреляции
отклонения
0,01
0,00
t t
-0,01
t
Возрастающая
Случайные
остатки
тенденция в остатках
-0,02
Циклические колебания в остатках
-0,03
наличие автокорреляции
-0,04
-0,05
-0,06
0
2
4
6
8
10
t
12
14
16
18
95% confidence
20

Авторегрессионная схема первого порядка
Строят парное линейное уравнение регрессии:
Наблюдению с индексом t соответствует выражение:
Наблюдению с индексом t-1 соответствует выражение:
Отклонения подвержены воздействию авторегрессии первого порядка:
Последовательно заменяя
получим:

методы оценивания
коэффициента
на основе
статистики
ДарбинаУотсона
на основе
метода
КохранаОрката
на основе
метода
Хилдрета-Лу
на основе
метода
первых
разностей

Метод Кохрана-Орката
1 этап: Оценивается по МНК регрессия и для нее определяются
оценки отклонений t;
2 этап: Оценивается регрессионная зависимость:
3 этап: На основе данной оценки строится уравнение:
4 этап: Значения
в уравнение регрессии:
и
подставляются
Затем вновь вычисляются оценки t отклонений и
возвращаются ко второму этапу.

Определение на основе
статистики
Дарбина-Уотсона
Определение на основе
метода
Хилдрета-Лу
оценивается для каждого возможного значения из
отрезка [-1,1]

Итак, при исследовании остатков i должно проверяться наличие следующих пяти предпосылок МНК:

случайный характер остатков;

нулевая средняя величина остатков, не зависящая от хi;

гомоскедастичность – дисперсия каждого отклонения i одинакова для всех значений хi;

отсутствие автокорреляции остатков – значения остатков i распределены независимо друг от друга;

остатки подчиняются нормальному распределению.

Если распределение случайных остатков i не соответствует некоторым предпосылкам МНК, то следует корректировать модель.

В случае нарушения первых двух предпосылок необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии.

Пятая предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t, F. Однако и при нарушении пятой предпосылки МНК оценки регрессии обладают достаточной состоятельностью.

Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.

Если не соблюдается гомоскедастичность, то имеет место гетероскедастичность. Наличие гетероскедастичности может привести к смещенности оценок коэффициентов регрессии, а также к уменьшению их эффективности. Вследствие вышесказанного все выводы, получаемые на основе соответствующих t- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющихся. В этом случае рекомендуется применять обобщенный метод наименьших квадратов, который заключается в том, что при минимизации суммы квадратов отклонений (5) отдельные ее слагаемые взвешиваются: наблюдениям с большей дисперсией придается пропорционально меньший вес. Чтобы убедиться в гетероскедастичности остатков и, следовательно, в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение, в частности, используют метод Гольдфельда – Квандта. Проиллюстрируем его на примере (табл.5.3).

Поступления налогов в бюджет (yi – млн.руб.) в зависимости

от численности работающих (хi – тыс.чел). Таблица 5.3

По выборочным данным строим уравнение регрессии

ŷх = – 4,565 + 1,178х.

Теоретические значения ŷх и отклонения от них фактических значений i приведены в четвертой и пятой колонке табл.5.3. Очевидно, что остаточные величины i обнаруживают тенденцию к росту по мере увеличения х и у. Этот вывод подтверждается и по критерию Гольдфельда – Квандта. Для его применения необходимо выполнить следующие шаги:

упорядочить n наблюдений по мере возрастания переменной х (выполнено);

исключить из рассмотрения k центральных наблюдений (рекомендовано при n=60 принимать k=16, при n=30 принимать k=8, при n=20 принимать k=4), в данном случае исключаем строки 9–12;

разделить совокупность на две группы (по ń=(n – k):2=8 наблюдений соответственно с малыми и большими значениями фактора х) и определить по каждой из групп уравнения регрессии (результаты в табл.5.4.);

определить остаточные суммы квадратов для первой (S1) и второй (S2) групп и найти их отношение R=S2:S1. Чем больше величина R превышает табличное значение F–критерия с ń –2 степенями свободы (приложение 2), тем более нарушена предпосылка о равенстве дисперсий остаточных величин, т.е. наблюдается гетероскедастичность остатков.

Уравнение регрессии: ŷх = 2,978 + 0,921х. Сумма S1=68,34

Уравнение регрессии: ŷх = 31,142 + 1,338х. Сумма S2 =2638,4

Величина R=2638,4 : 68,34=38.6 существенно превышает табличное значение F-критерия 4,28 при 5%-ном и 8,47 при 1%-ном уровне значимости для числа степеней свободы 8 – 2 = 6, подтверждая тем самым наличие гетероскедастичности.

Нарушение четвертой предпосылки МНК – автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Среди основных причин, вызывающих появление автокорреляции, можно выделить ошибки спецификации, инерцию в изменении экономических показателей, эффект паутины, сглаживание данных.

Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводит к системным отклонениям точек наблюдений от линии регрессии, что может обусловить автокорреляцию.

Инерция. Многие экономические показатели (например, инфляция, безработица, ВНП и т.п.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Действительно, экономический подъем приводит к росту занятости, сокращению инфляции, увеличению ВНП и т.д. Этот рост продолжается до тех пор, пока изменение конъюнктуры рынка и ряда экономических характеристик не приведет к замедлению роста, затем остановке и движению вспять рассматриваемых показателей. В любом случае эта трансформация происходит не мгновенно, а обладает определенной инертностью.

Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом). Например, предложение сельскохозяйственной продукции реагирует на изменение цены с запаздыванием (равным периоду созревания урожая). Большая цена сельскохозяйственной продукции в прошедшем году вызовет (скорее всего) ее перепроизводство в текущем году, а следовательно, цена на нее снизится и т.д.

Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его подинтервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может послужить причиной автокорреляции.

Последствия автокорреляции во многом сходны с последствиями гетероскедастичности. Среди них при применении МНК обычно выделяются следующие.

Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно, они перестают обладать свойствами наилучших линейных несмещенных оценок.

Дисперсии оценок являются смешенными. Часто дисперсии, вычисленные по стандартным формулам, являются заниженными, что влечет за собой увеличение t-статистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут не являться.

Оценка дисперсии регрессии является смещенной оценкой истинного значения дисперсии, во многих случаях занижая его.

В силу вышесказанного выводы по t- и F-статистикам, определяющим значимость коэффициентов регрессии и коэффициента детерминации, возможно, будут неверными. Вследствие этого ухудшаются прогнозные качества модели.

Для обнаружения автокорреляции необходимо наблюдения упорядочить по значению фактора х (как в предыдущем примере) и составить ряды с текущими и предыдущими остатками. Коэффициент корреляции rij между i и j, где i – остатки текущих наблюдений, j – остатки предыдущих наблюдений (например, j=i–1) определяется по обычной формуле линейного коэффициента корреляции (2.1).Рассмотрим расчет коэффициента корреляции между i и j, взяв в качестве примера данные из табл.5.3 и перенеся их в табл. 5.5 (n=19).

Читайте также: