Отбор факторов при построении множественной регрессии кратко

Обновлено: 04.07.2024

Основной целью множественной регрессии является построение модели с большим числом факторов и определение при этом влияния каждого из факторов в отдельности на результат, а так же определение совокупного воздействия факторов на моделированный показатель.

Спецификация модели множественной регрессии включает в себя отбор фактора и выбор вида математической функции (выбор вида уравнения регрессии). Факторы, включаемые во множественную регрессию должны быть количественно измеримы и не должны быть интеркоррелированы и тем более находиться в точной функциональной связи (т.е. должны в меньшей степени влиять друг на друга, а в большей степени на результативный признак).

Включаемые во множественную регрессию факторы должны объяснять вариацию независимой переменной. Например, если строится модель с набором - факторов, то для нее находится значение показателя детерминации , который фиксирует долю объясненной вариации результативного признака за счет - факторов.

Влияние других неучтенных факторов в модели оценивается как соответствующей остаточной дисперсии .

При включении в модель дополнительного фактора значение показателя детерминации должно возрастать, а значение остаточной дисперсии должно уменьшиться. Если этого не происходит, то дополнительный фактор не улучшает модель и практически является лишним, причем введение такого фактора может привести к статистической не значимости параметров регрессии по - критерию Стьюдента.

Отбор факторов для множественной регрессии осуществляется в две стадии:

1. Подбираются факторы, исходя из сущности проблемы.

2. На основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты корреляции между объясняющими переменными , которые еще называют коэффициентами интеркорреляции, позволяют исключить из модели дублирующие факторы.

Две переменные и называют явно коллинеарными, если коэффициент корреляции .

Если переменные явно коллинеарны, то они находятся в сильной линейной зависимости.

При наличии явно коллинеарных переменных предпочтение отдается не фактору более тесно связанному с результатом, а фактору, который при этом имеет наименьшую тесноту связи с другими факторами.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллениарность факторов.

При использовании множественной регрессии может возникнуть мультиколлениарность фактов, т.е. более чем два фактора связаны между собой линейной зависимостью. В таких случаях менее надежным становится МНК при оценке отдельных факторов, результатом чего становится затруднение интерпретации параметров множественной регрессии как характеристик действия фактора в чистом виде. Параметры линейной регрессии теряют экономический смысл, оценки параметров ненадежны, возникают большие стандартные ошибки, которые при этом могут изменяться с изменением объема наблюдений, т.е. модель становится непригодной для анализа и прогнозирования экономической ситуации. Для оценки мультиколлениарности фактора используют следующие методы:

1. Определение матрицы парных коэффициентов корреляции между факторами, например, если задана линейная модель множественной регрессии , то определитель матрицы парных коэффициентов примет вид:

Если значение данного определителя равно 1

то факторы являются неколлинеарными между собой.

Если между факторами существует полная линейная зависимость, то все коэффициенты парной корреляции равны 1, в результате чего

2. Метод испытания гипотезы о независимости переменных. В этом случае нулевая гипотеза , доказано, что величина имеет приближенное распределение с числом степеней свободы .

Если , то нулевая гипотеза отклоняется.

Определяя и сравнивая между собой коэффициенты множественной детерминации фактора, используя в качестве зависимой переменной последовательно каждой из факторов можно определить факторы, ответственные за мультиколлениарность, т.е. фактор с наибольшим значением величины .

Существуют следующие способы преодоления сильной межфакторной корреляции:

1) исключение из модели одного или несколько данных;

2) преобразование факторов для уменьшения корреляции;

3) совмещение уравнения регрессии, которые будут отражать не только факторы, но и их взаимодействие;

4) переход уравнения приведенной формы и др.

При построении уравнения множественной регрессии одним из важнейших этапов является отбор факторов, включаемых в модель. Различные подходы к отбору факторов на основе показателей корреляции к различным методам, среди которых наиболее применимы:

1) Метод исключения – производится отсев данных;

2) Метод включения – вводят дополнительный фактор;

3) Шаговый регрессионный анализ – исключают ранее введенный фактор.

При отборе факторов применяют следующее правило: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строится модель.

Параметр не подлежит экономической интерпретации. В степенной модели нелинейное уравнение множественной регрессии коэффициенты , ,…, являются коэффициентами эластичности, которые показывают насколько, в среднем, изменится результат при изменении соответствующего фактора на 1% при неизменном воздействии остальных факторов.

Процесс отбора факторов в достаточно сложных ситуациях является ите­рационной процедурой, предполагающей, в частности, построение уравнений регрессии, и включает два этапа.

Первоначально отбор факторов осуществляет­ся на основе качественных соображений, исходя из представлений о природе взаимосвязи моделируемого показателя с другими экономическими показате­лями. На следующем этапе отобранные факторы подвергаются проверке на ста­тистическую значимость. Окончательное решение о включении фактора в мо­дель основывается на количественной оценке степени влияния фактора на изу­чаемый показатель.

К факторам, включаемым в модель, предъявляются следующие требования:

1. Факторы не должны быть взаимно коррелированы и, тем более, нахо­диться в точной функциональной связи. Наличие высокой степени коррелиро- ванности между факторами может привести к неустойчивости и ненадежности оценок коэффициентов регрессии, а также к невозможности выделить изоли­рованное влияние факторов на результативный показатель.

2. Включение фактора в модель должно приводить к существенному уве­личению доли объясненной части в общей вариации зависимой переменной. Так как данная величина характеризуется таким показателем, как коэффициент детерминации Я , включение фактора в модель должно приводить к заметному изменению последнего. Формальная проверка существенности вклада фактора в модель выполняется с помощью оценки значимости соответствующего част­ного коэффициента корреляции либо значимости коэффициента в уравнении регрессии.

1о%У = -1,03 + 0,17 Хо^К + 0,93 1о^ + 0,024?,

(2,33) (0,66) (0,17) 0,016)

а без учета имеет вид

1о%У = - 4,50+ 1,19 1о%К + 0,77 1о^,

где У - индекс объема выпуска частного сектора; К - индекс затрат капитала; Ь - индекс затрат труда; 1 - время, равное единице в 1948 г. и т. д. Без учета за­мещающей переменной коэффициент при 1ogK неправдоподобно велик.

При отборе факторов в модель следует, по возможности, стремиться к ми­нимизации количества факторов, так как неоправданное их увеличение приво­дит к затруднениям в интерпретации модели и снижению достоверности ре­зультатов.

Под мультиколлинеарностью понимается высокая взаимная коррелиро- ванность объясняющих переменных. Следствием мультиколлинеарности явля­ется линейная зависимость между столбцами наблюдений Ху в таблице 3.1 или между столбцами матрицы У (3.11). В результате, матрица XX становится пло­хо обусловленной, что приводит к неустойчивости оценок коэффициентов рег­рессии, когда незначительные изменения данных наблюдений приводят к зна­чительным изменениям оценок.

Мультиколлинеарность имеет место, если определитель матрицы межфакторной корреляции близок к нулю:

.
Если же определитель матрицы межфакторной корреляции близок к единице, то мультиколлинеарности нет.Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R 2 y(x1. xm) снизится несущественно).

Определение факторов, ответственных за мультиколлинеарность, может быть основано на анализе матрицы межфакторной корреляции. При этом определяют пару признаков-факторов, которые сильнее всего связаны между собой (коэффициент линейной парной корреляции максимален по модулю). Из этой пары в наибольшей степени ответственным за мультиколлинеарность будет тот признак, который теснее связан с другими факторами модели (имеет более высокие по модулю значения коэффициентов парной линейной корреляции).

Еще один способ определения факторов, ответственных за мультиколлинеарность основан на вычислении коэффициентов множественной детерминации (R 2 xj(x1. xj-1,xj+1. xm)), показывающего зависимость фактора xj от других факторов модели x1. xj-1, xj+1. xm. Чем ближе значение коэффициента множественной детерминации к единице, тем больше ответственность за мультиколлинеарность фактора, выступающего в роли зависимой переменной. Сравнивая между собой коэффициенты множественной детерминации для различных факторов можно проранжировать переменные по степени ответственности за мультиколлинеарность.
При выборе формы уравнения множественной регрессии предпочтение отдается линейной функции:
yi =a+b1·x1i+ b2·x2i+. + bm·xmi+ui
в виду четкой интерпретации параметров.
Данное уравнение регрессии называют уравнением регрессии в естественном (натуральном) масштабе. Коэффициент регрессии bjпри факторе хjназывают условно-чистым коэффициентом регрессии. Он измеряет среднее по совокупности отклонение признака-результата от его средней величины при отклонении признака-фактора хj на единицу, при условии, что все прочие факторы модели не изменяются (зафиксированы на своих средних уровнях).
Если не делать предположения о значениях прочих факторов, входящих в модель, то это означало бы, что каждый из них при изменении хj также изменялся бы (так как факторы связаны между собой), и своими изменениями оказывали бы влияние на признак-результат.

Расчет параметров уравнения линейной множественной регрессии

(фактор х1 фиксирован).
Это коэффициенты частной корреляции 1-ого порядка (порядок определяется числом факторов, влияние которых устраняется).
Частные коэффициенты корреляции, рассчитанные по таким формулам изменяются от –1 до +1. Они используются не только для ранжирования факторов модели по степени влияния на результат, но и также для отсева факторов. При малых значениях ryxm/x1,x2…xm-1 нет смысла вводить в уравнение m-ый фактор, т.к. его чистое влияние на результат несущественно.
Коэффициенты множественной детерминации и корреляции характеризуют совместное влияние всех факторов на результат.
По аналогии с парной регрессией можно определить долю вариации результата, объясненной вариацией включенных в модель факторов (d 2 ), в его общей вариации (s 2 y). Ее количественная характеристика – теоретический множественный коэффициент детерминации (R 2 y(x1. xm)). Для линейного уравнения регрессии данный показатель может быть рассчитан через b-коэффициенты, как:
.
- коэффициент множественной корреляции. Он принимает значения от 0 до 1 (в отличии от парного коэффициента корреляции, который может принимать отрицательные значения). Поэтому R не может быть использован для интерпретации направления связи. Чем плотнее фактические значения yiрасполагаются относительно линии регрессии, тем меньше остаточная дисперсия и, следовательно, больше величина Ry(x1. xm). Таким образом, при значении Rблизком к 1, уравнение регрессии лучше описывает фактические данные и факторы сильнее влияют на результат. При значении Rблизком к 0 уравнение регрессии плохо описывает фактические данные и факторы оказывают слабое воздействие на результат.
Оценка значимости полученного уравнения множественной регрессии .
Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о равенстве нулю коэффициент детерминации рассчитанного по данным генеральной совокупности: или b1=b2=…=bm=0 (гипотеза о незначимости уравнения регрессии, рассчитанного по данным генеральной совокупности).
Для ее проверки используют F-критерий Фишера.
При этом вычисляют фактическое (наблюдаемое) значение F-критерия, через коэффициент детерминации R 2 y(x1. xm), рассчитанный по данным конкретного наблюдения:
, где n-число наблюдений; h – число оцениваемых параметров (в случае двухфакторной линейной регрессии h=3).
По таблицам распределения Фишера-Снедоккора находят критическое значение F-критерия (Fкр). Для этого задаются уровнем значимости a (обычно его берут равным 0,05) и двумя числами степеней свободы k1=h-1 и k2=n-h.
Сравнивают фактическое значение F-критерия (Fнабл) с табличным Fкр(a;k1;k2). Если Fнабл Fкр(a;k1;k2), то выдвинутую гипотезу отвергают и принимают альтернативную гипотезу о статистической значимости уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями.

Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости районам присваиваются ранги);

Факторы не должны быть взаимно коррелированы и тем более находиться в точной функциональной связи. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результа-

тивный показатель, и параметры уравнения регрессии оказываются не- интерпретируемыми.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором р факторов, то для нее рассчитывается показатель детерминации R2, который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других, не учтенных в модели, факторов оценивается как 1 - R2 с соответствующей остаточной дисперсией S2.

При дополнительном включении в регрессию (р + 1)-фактора хр+1 коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться, т. е.

R2 > R2 и S2 . ? S2.

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор хР+1 не улучшает модель и практически является лишним фактором.

Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по ґ-критерию Стью- дента.

Отбор факторов производится на основе качественного теоретико- экономического анализа и обычно осуществляется в две стадии:

на первой подбираются факторы исходя из сущности проблемы;

на второй - на основе матрицы показателей корреляции определяют ґ-статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.

е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарные, т. е. находятся между собой в линейной зависимости, если г > 0,7 .

Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Пусть, например, при изучении зависимости 7 = f (х, z, v) матрица парных коэффициентов корреляции оказалась следующей:\r\n У x z v\r\nУ 1 \r\nx 0,85 1 \r\nz 0,75 0,8 1 \r\nv 0,5 0,4 0,3 1\r\n

Очевидно, что факторы х и z дублируют друг друга. В анализ целесообразно включить фактор z, а не х, хотя корреляция z с результатом у слабее, чем корреляция фактора х (ryz с2абл(df а), то гипотеза Н0 откло

няется. Это означает, что DE^R Ф 1, недиагональные ненулевые коэффициенты

корреляции указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение коэффициента множественной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов

V х1 I х2 х3 . V х2 I х1 х3 . хр \'

можно выделить переменные, ответственные за мультиколлинеарность, следо-вательно, можно решать проблему отбора факторов, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации.

Существует ряд подходов преодоления сильной межфакторной корреляции:

исключение из модели одного или нескольких факторов;

преобразование факторов, при котором уменьшается корреляция между ними. Например, переходят от исходных переменных к их линейным комбина-циям, не коррелированным друг с другом (метод главных компонент). При построении модели на основе рядов динамики переходят от первоначальных данных к первым разностям уровней Ay = yt - y-1, чтобы исключить влияние

переход к совмещенным уравнениям регрессии, т. е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если y = f(x1, x2, x3), то возможно построение следующего совмещенного уравнения:

y = a + b1 • x1 + b2 • x2 + b3 • x3 + b12 • x1 • x2 + b13 • x1 • x3 + b23 • x2 • x3 + e.

Рассматриваемое уравнение включает взаимодействие первого порядка (взаимодействие двух факторов). Часть этих взаимодействий могут оказаться несущественными, поэтому нецелесообразно полное включение в модель взаимодействий всех факторов.

Так, если анализ совмещенного уравнения показал значимость только взаимодействия факторов х1 и x3, то уравнение будет иметь вид

y = a + b1 • x1 + b2 • x2 + b3 • x3 + b13 • x1 • x3 + e.

После исключения коллинеарных факторов осуществляется процедура отбора факторов, наиболее влияющих на изменение результативного признака (факторов, включаемых в регрессию). Подходы к отбору факторов на основе показателей корреляции могут быть разные.

Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:

шаговый регрессионный анализ.

Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты - отсев факторов из полного его набора (метод исключения), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).

В процедуре отсева факторов наиболее широко используется матрица частных коэффициентов корреляции (см. п. 2.7).

При отборе факторов рекомендуется, кроме всего прочего, пользоваться следующим правилом: число включаемых факторов должно быть в 6-7 раз меньше объема совокупности, по которой строится регрессия.

Читайте также: