Оценка адекватности уравнения регрессии реферат

Обновлено: 05.07.2024

При отсутствии линейной зависимости между зависимой и объясняющими (ей) переменными случайные величины sr = Qr /(т ~ О и s1=Qe/(n—m) имеют /^-распределение соответственно с т— 1 и п~т степенями свободы, а их отношение —-распределение с теми же степенями свободы (см. § 2.3). Поэтому уравнение регрессии значимо на уровне а, если фактически наблюдаемое значение статистики. Средние квадраты и s… Читать ещё >

Оценка значимости уравнения регрессии. Коэффициент детерминации ( реферат , курсовая , диплом , контрольная )

Проверить значимость уравнения регрессии — значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.

В математической статистике дисперсионный анализ рассмотрен как самостоятельный инструмент (метод) статистического анализа.

Здесь же он применяется как вспомогательное средство для изучения качества регрессионной модели.

Согласно основной идее дисперсионного анализа (см., § 2.9)

Оценка значимости уравнения регрессии. Коэффициент детерминации.

где Q — общая сумма квадратов отклонений зависимой переменной от средней, a Qr и Qe — соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов1.

где Q — общая сумма квадратов отклонений зависимой переменной от средней, a Qr и Qe соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов 1 .

Убедимся в том, что пропущенное в (3.41) третье слагаемое

Q, =2^(>>, -y)(yiУ/) равно 0. Учитывая (3.28), (3.11), имеем:

Оценка значимости уравнения регрессии. Коэффициент детерминации.

/=1 [1] [2]

Теперь 2

(с учетом соотношения (3.31)).

(с учетом соотношения (3.31)).

Схема дисперсионного анализа имеет вид, представленный в табл. 3.3.

Число степеней свободы

Oi g II.

Средние квадраты и s (табл. 3.3) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессий или объясняющей переменной X и воздействием неучтенных случайных факторов и ошибок; т — число оцениваемых параметров уравнения регрессии; п — число наблюдений.

Замечание. При расчете общей суммы квадратов Q полезно иметь в виду, что.

Оценка значимости уравнения регрессии. Коэффициент детерминации.

  • (Формула (3.42) следует из разложения
  • ?? = Х (У/ )='Zy? +пу с учетом (3.8).)

При отсутствии линейной зависимости между зависимой и объясняющими (ей) переменными случайные величины s r = Qr /( т ~ О и s 1 = Qe/(n—m) имеют /^-распределение соответственно с т— 1 и п~т степенями свободы, а их отношение — -распределение с теми же степенями свободы (см. § 2.3). Поэтому уравнение регрессии значимо на уровне а, если фактически наблюдаемое значение статистики.

Оценка значимости уравнения регрессии. Коэффициент детерминации.

где Fa.*,.*2 — табличное значение /'-критерия Фишера—.

Снедекора, определенное на уровне значимости, а при к=т~ и ki=n—m степенях свободы.

Учитывая смысл величин si и $ 2 , можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

В случае линейной парной регрессии т = 2, и уравнение регрессии значимо на уровне а, если.

Оценка значимости уравнения регрессии. Коэффициент детерминации.

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии Ь, который, как отмечено в § 3.4. имеет /-распределение Стьюдента с к—п—2 степенями свободы.

Оценка значимости уравнения регрессии. Коэффициент детерминации.

больше критического (по абсолютной величине), т. е.

Можно показать, что для парной линейной модели оба способа проверки значимости с использованием F- и /-критериев равносильны, ибо эти критерии связаны соотношением F= / 2 .

В ряде прикладных задач требуется оценить значимость коэффициента корреляции г (§ 3.3). При этом исходят из того, что.

при отсутствии корреляционной связи статистика / - —=;

имеет /-распределение Стьюдента с п — 2 степенями свободы.

Коэффициент корреляции г значим на уровне, а (иначе — гипотеза Я0 о равенстве генерального коэффициента корреляции р нулю, т. е. Но: р=0, отвергается), если.

Оценка значимости уравнения регрессии. Коэффициент детерминации.

Легко показать, что получаемые значения /-критерия для проверки гипотез р=0 по (3.45) и р=0 по (3.46) одинаковы.

По данным табл. 3.1 оценить на уровне а=0,05 значимость уравнения регрессии У по X

Решение. 1-й способ. Выше, в примерах 3.1, 3.2 были 10 10.

найдены:? У, — = 68, = 49(3.

Вычислим необходимые суммы квадратов по формулам (3.40), (3.42):

Оценка значимости уравнения регрессии. Коэффициент детерминации.

Оценка значимости уравнения регрессии. Коэффициент детерминации.

По таблице /^распределения (табл. IV приложений) /o.o5;i;8 = 4,20. Так как />/Ь, о5;1;8> то Уравнение регрессии значимо.

2-й способ. Учитывая, что />i = l, 016, ^(jc, -х) = 24,40,.

s 2 = 1,049 (см. пример 3.3, табл. 3.2), по формуле (3.45).

Оценка значимости уравнения регрессии. Коэффициент детерминации.

По таблицам /-распределения (табл. II приложений) /0 95:8 = 2,31. Так как / > /Ь, 95;8> то коэффициент регрессии Ь9 а значит, и уравнение парной линейной регрессии Кпо X значимы.? Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, (или, как [3]

говорят, мерой качества подгонки регрессионной модели к наблюденным значениям уд, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле.

Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

Величина R 2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

Так как 0 2 2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R 2 = 1, то эмпирические точки (х, уд лежат на линии регрессии (см. рис. 3.3) и между переменными Y и X существует линейная функциональная зависимость. Если R 2 = 0, то вариация зависимой переменной полностью обусловлена воздействием неучтенных в модели переменных, и линия регрессии параллельна оси абсцисс (см. рис. 3.4).

Заметим, что коэффициент R 2 имеет смысл рассматривать только при наличии свободного члена в уравнении регрессии, так как лишь в этом случае, как уже отмечалось, верно равенство (3.41), а следовательно, и (3.47).

Если известен коэффициент детерминации /? 2 , то критерий значимости (3.43) уравнения регрессии или самого коэффициента детерминации может быть записан в виде.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, т. е. R2 = r2. Действительно, учитывая (3.12), (3.17),.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, т. е. R 2 = r 2 . Действительно, учитывая (3.12), (3.17),.

Оценка значимости уравнения регрессии. Коэффициент детерминации.

По данным табл. 3.1 найти коэффициент детерминации и пояснить его смысл.

Решение. В примере 3.4 было получено Qr =25,21, 0= 33,6.

По формуле (3.47) R 2 =^- = ^^- = 0,750. (Коэффициент детерминации можно было вычислить и иначе, если учесть, что в примере 3.2 был вычислен коэффициент корреляции /-0,866. Тогда Д 2 =Я=0,866 2 =0,750.).

Это означает, что вариация зависимой переменной У — сменной добычи угля на одного рабочего — на 75,0% объясняется изменчивостью объясняющей переменной X — мощностью пласта. ?

Наиболее популярными показателями оценки адекватности модели в целом являются: средняя ошибка аппроксимации и критерии Фишера.

Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую:

Желательно, чтобы средняя ошибка аппроксимации не превышала 12% ( ).

Значимость регрессионного уравнения в целом оценивается также с помощью F – критерия Фишера. F – отношение или F – критерий Фишера получают путем сопоставления факторной (объясненной) и остаточной дисперсии в расчете на одну степень свободы. Величина F – критерия Фишера связана с коэффициентом детерминации, поэтому значение критерия можно выразить и другой формулой.

F-критерий используется для проверки нулевой гипотезы Н0: равенство между факторной (объясненной) и остаточной дисперсии.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Если расчетное значение критерия выше табличного, то в этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи.

Если же величина окажется меньше табличной, то нулевая гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым.

При анализе достоверности регрессионного уравнения оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка по формуле:

Оценка значимости каждого коэффициента регрессии проводится по t – критерию Стьюдента: , где

bi – коэффициент регрессии при факторе xi; mbi- стандартная ошибка коэффициента регрессии bi.

Расчетное значение критерия Стьюдента сравнивается с табличным и делается вывод о значимости коэффициентов регрессии. Также, как и для критерия Фишера, параметр регрессионной модели признается значимым, если табличное значение критерия Стьюдента выше табличного.

На основе показателей адекватности и достоверности уравнения регрессии делается вывод о возможности использования данной функции в анализе, прогнозировании и принятии решения.

После проверки значимости коэффициентов регрессии проверяется общее качество уравнения регрессии, т.е. проверяется, насколько хорошо эмпирическое уравнение регрессии согласуется со статистическими данными. Для подтверждения факта непротиворечивости формы зависимости опытным данным либо опровержения предложенного вида зависимости как не соответствующей этим данным разработаны различные статистические критерии.

Линейность регрессии проверяется, используя следующий прием. Пусть — групповое среднее, соответствующее -му значению переменной , вычисляемое по формуле

Оценка адекватности регрессионной модели

где — число значений переменной , относящихся к .

Как отмечалось, сумму

Оценка адекватности регрессионной модели

можно представить в виде четырех слагаемых: . Тогда если в генеральной совокупности существует линейная регрессия и условные распределения переменной хотя бы приблизительно нормальны, то отношение средних квадратов отклонений

Оценка адекватности регрессионной модели

имеет -распределение с и степенями свободы. Расчетное значение сравнивается с квантилем , найденным по таблице -распределения при заданном уровне значимости и степенях свободы. Если , то линейная регрессионная зависимость не противоречит опытным данным. В противном случае, т.е. если , гипотеза о линейной зависимости между переменными несостоятельна.

Для проверки статистической адекватности уравнения регрессии (общего качества уравнения регрессии) обычно используют три критерия:

Оценка адекватности регрессионной модели

1) проводят анализ дисперсии зависимой переменной ;

2) определяют стандартную ошибку по формуле

Оценка адекватности регрессионной модели

3) вычисляют среднюю абсолютную процентную ошибку аппроксимации:

Оценка адекватности регрессионной модели

1) Анализ дисперсии зависимой переменной состоит в том, что сумма

Оценка адекватности регрессионной модели

представляется в виде суммы двух слагаемых:

Оценка адекватности регрессионной модели

Затем составляется отношение средних значений этих сумм:

Оценка адекватности регрессионной модели

которое используется в качестве статистики для проверки гипотезы , состоящей в том, что . Эта выборочная статистика характеризуется -распределением с и степенями свободы. По таблице -распределения для заданного уровня значимости и числа степеней свободы и находим квантиль с которым сравниваем . Если , то уравнение регрессии признается значимым, т.е. доля вариации, отнесенная за счет уравнения регрессии, больше, чем за счет случайных неучтенных факторов. Считается, что уравнение регрессии адекватно изучаемому экономическому процессу, если в 4 раза больше квантиля -распределения.

Построенное уравнение регрессии можно использовать для прогнозирования значений зависимой переменной по значениям переменной . Для этого конкретное значение подставляем в эмпирическое уравнение регрессии и находим значение Значение является оценкой условного математического ожидания переменной при . При этом возникает вопрос , на сколько отклоняется прогнозное значение от соответствующего условного математического ожидания . Ответ на этот вопрос дается на основе интервальной оценки, построенной с заданной надежностью . Соответствующий доверительный интервал для условного математического ожидания имеет вид:

Оценка адекватности регрессионной модели

Оценка адекватности регрессионной модели

2) Ясно, что действительные значения рассеяны вокруг линии регрессии. Первым и наиболее очевидным фактором, во многом определяющим надежность получаемых по уравнению регрессии прогностических оценок, является рассеяние наблюдений вокруг линии регрессии. В качестве меры рассеяния принимается величина

Оценка адекватности регрессионной модели

Она является выборочной оценкой дисперсии случайных чисел , содержащихся в теоретической модели . Ясно, что чем меньше , тем модель будет более адекватной изучаемому экономическому процессу.

3) Средняя абсолютная процентная ошибка характеризует в процентах среднее отклонений значений зависимой переменной от уравнения регрессии. Если , то модель имеет высокую точность; если , то модель имеет хорошую точность (допустимую); при , точность модели удовлетворительная. Если , то точность модели неудовлетворительная и ее использование недопустимо. Модель считается адекватной, если не превосходит 20%.

Оценка адекватности регрессионной модели

Чтобы иметь полную уверенность в адекватности модели, нужно выполнить проверку случайности остатков .

Эти страницы возможно вам будут полезны:

Помощь студентам в учёбе
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal
lfirmal

Образовательный сайт для студентов и школьников

© Фирмаль Людмила Анатольевна — официальный сайт преподавателя математического факультета Дальневосточного государственного физико-технического института

Д ля практического использования моделей регрессии большое значение имеет их адекватность, т.е. соответствие фактическим статистическим данным. При анализе адекватности уравнения регрессии (модели) исследуемому процессу, возможны следующие варианты:
1. Построенная модель на основе F-критерия Фишера в целом адекватна и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и осуществления прогнозов.
2. Модель по F-критерию Фишера адекватна, но часть коэффициентов не значима. Модель пригодна для принятия некоторых решений, но не для прогнозов.
3. Модель по F-критерию адекватна, но все коэффициенты регрессии не значимы. Модель полностью считается неадекватной. На ее основе не принимаются решения и не осуществляются прогнозы.
Корреляционный и регрессионный анализ, как правило, проводится для ограниченной по объёму совокупности. Поэтому показатели регрессии и корреляции – параметры уравнения регрессии, коэффициент корреляции и коэффициент детерминации могут быть искажены действием случайных факторов. Чтобы проверить, на сколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенных статистических моделей.
Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Чтобы иметь общее суждение о качестве модели, из относительных отклонений по каждому наблюдению определяют среднюю ошибку аппроксимации. Проверка адекватности уравнения регрессии (модели) осуществляется с помощью средней ошибки аппроксимации, величина которой не должна превышать 10-12% (рекомендовано).

Схема дисперсионного анализа имеет следующий вид (n –число наблюдений, m–число параметров при переменной x):

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-критерия Фишера. Фактическое значение F -критерия Фишера сравнивается стабличным значением F табл. (α, k 1 , k 2 ) при заданном уровне значимости α и степенях свободы k 1 = m и k 2 =n-m-1. При этом, если фактическое значение F-критерия больше табличного F факт > F теор , то признается статистическая значимость уравнения в целом. Для парной линейной регрессии m=1 , поэтому:

Эта формула в общем виде может выглядеть так:



Отношение объясненной части дисперсии переменной (у) к общей дисперсии называют коэффициентом детерминации и используют для характеристики качества уравнения регрессии или соответствующей модели связи. Соотношение между объясненной и необъясненной частями общей дисперсии можно представить в альтернативном варианте:

Коэффициент детерминации R 2 принимает значения в диапазоне от нуля до единицы 0≤ R 2 ≤1. Коэффициент детерминации R 2 показывает, какая часть дисперсии результативного признака (y) объяснена уравнением регрессии.Чем больше R 2 , тем большая часть дисперсии результативного признака (y) объясняется уравнением регрессии и тем лучше уравнение регрессии описывает исходные данные. При отсутствии зависимости между (у) и (x) коэффициент детерминации R 2 будет близок к нулю. Таким образом, коэффициент детерминации R 2 может применяться для оценки качества (точности) уравнения регрессии. Возникает вопрос, при каких значениях R 2 уравнение регрессии следует считать статистически незначимым, что делает необоснованным его использование в анализе? Ответ на этот вопрос дает F - критерий Фишера F факт > F теор - делаем вывод о статистической значимости уравнения регрессии. Величина F - критерия связана с коэффициентом детерминации R 2 xy ( r 2 xy ), и ее можно рассчитать по следующей формуле:

Либо при оценке значимости индекса (аналог коэффициента) детерминации:


где: i 2 - индекс (коэффициент) детерминации, который рассчитывается:


Использование коэффициента множественной детерминации R 2 для оценки качества модели, обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину R 2 . Поэтому, при большом количестве факторов, предпочтительнее использовать, так называемый, улучшенный, скорректированный коэффициент множественной детерминации R 2 , определяемый соотношением:

где p – число факторов в уравнении регрессии, n – число наблюдений. Чем больше величина p, тем сильнее различия между множественным коэффициентом детерминации R 2 и скорректированным R 2 . При использовании скорректированного R 2 , для оценки целесообразности включения фактора в уравнение регрессии, следует учитывать, что увеличение его величины (значения), при включении нового фактора, не обязательно свидетельствует о его значимости, так как значение увеличивается всегда, когда t-статистика больше единицы (|t|>1). При заданном объеме наблюдений и при прочих равных условиях, с увеличением числа независимых переменных (параметров), скорректированный коэффициент множественной детерминации убывает. При небольшом числе наблюдений, скорректированная величина коэффициента множественной детерминации R 2 имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации R 2 может быть обусловлено следующими причинами: в регрессионную модель не включены существенные факторы; неверно выбрана форма аналитической зависимости, не реально отражающая соотношения между переменными, включенными в модель.

Для оценки значимости парного коэффициента корреляции (корень квадратный из коэффициента детерминации), при условии линейной формы связи между факторами, можно использовать t-критерий Стьюдента:


При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатами действия случайных причин. Значимость коэффициентов простой линейной регрессии (применительно к совокупностям, у которых n 0 а 1 :


n-число наблюдений, m-число параметров уравнения регрессии, σ ε -(остаточное) среднее квадратическое отклонение результативного признака от выровненных значений ŷ; σ х -среднее квадратическое отклонение факторного признака от общей средней.

Вычисленные, по вышеприведенным формулам, значения сравнивают с критическими t, которые определяют по таблице значений Стьюдента с учетом принятого уровня значимости α и числа степеней свободы вариации k (ν)=n-2. В социально-экономических исследованиях уровень значимости α обычно принимают равным 0,05. Параметр признаётся значимым (существенным) при условии, если t расч. > t табл. В этом случае, практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.

Читайте также: