Оценка существенности параметров линейной регрессии и корреляции кратко

Обновлено: 02.07.2024

Линейная регрессия и корреляция ------ (1) Регрессия и связанные с ней концепции и линейная регрессия

1. Регрессия и связанные с ней концепции

(1) Функциональная взаимосвязь и статистическая взаимосвязь: взаимосвязь между двумя или более переменными можно разделить на две категории: Функциональная взаимосвязь и статистическая взаимосвязь

Функциональная связь - это детерминированная связь, то есть любая переменная переменной должна соответствовать определенному значению другой переменной. Связь между ними полностью определена, и функциональная связь не содержит интерференции ошибок, которая обычна в физике, химии и т. Д.

Статистическая взаимосвязь - это недетерминированная взаимосвязь, то есть на значение одной переменной влияет другая переменная. Между ними существует взаимосвязь, но нет полностью определенной функциональной взаимосвязи. В экспериментальной науке два типа переменных подвержены ошибкам и проявляются в виде статистических соотношений, которые являются общими в агрономии и биологии.

(2) Независимая переменная и зависимая переменная: две переменные со статистической зависимостью могут быть представлены символами Y и X соответственно. В соответствии с характеристиками двух переменных статистическая связь делится на причинную связь и корреляционную связь.

Если связь между двумя переменными имеет характер причины и отражения (следствия), тогда говорят, что существует причинная связь между двумя переменными, и переменная причины определяется как независимая переменная (независимая переменная), представленная X; переменная результата определяется как зависимая переменная ( зависимая переменная), - сказал Y.

Если две переменные не являются связью между причиной и следствием, но показывают характеристику общего изменения, говорят, что существует корреляция между двумя переменными. В корреляции нет различия между независимыми и зависимыми переменными. X и Y могут соответственно представлять любую переменную.

отношения: Относится к нестрогим и неопределенным зависимостям между явлениями. Характеристики этой взаимосвязи: изменение количества явления повлияет на изменение количества другого явления, и это изменение имеет определенную случайность, то есть, когда определенному явлению присваивается значение, другое явление будет Им соответствуют несколько числовых значений, и они всегда подчиняются определенным правилам. Среднее число этих числовых значений колеблется вверх и вниз. Причина в том, что существует более одного фактора, влияющего на явление.

Корреляция - это не то же самое, что причинность. Корреляция означает, что две переменные изменяются одновременно. Причинность заключается в том, что одна переменная вызывает изменение другой переменной.

Отношение функции регрессии: Относится к отношению зависимости между явлениями, для каждого значения переменной существует другое значение переменной, соответствующее ему, и это отношение зависимости может быть отражено математическим выражением.

(3) Регрессионный анализ и корреляционный анализ: фундаментальное различие между статистической зависимостью и функциональной зависимостью состоит в том, что первая изучает данные с ошибками выборки, тогда как экспериментальные данные должны обрабатываться статистическими методами. Для двух переменных, которые имеют причинно-следственную связь, задача статистического анализа состоит в том, чтобы вывести уравнение, представляющее изменение Y при изменении X из экспериментальных данных.

  • Все исследования корреляционного анализа представляют собой случайные переменные, при этом независимые переменные и зависимые переменные не различаются. Переменные исследования регрессионного анализа делятся на независимые переменные и зависимые переменные, а независимые переменные определяются как обычные переменные, а зависимые переменные являются случайными величинами.
  • Корреляционный анализ в основном описывает близость линейной связи между двумя переменными.Регрессионный анализ может не только выявить влияние переменной X на переменную Y, но также может быть предсказан с помощью регрессионной модели.

Коэффициент корреляции - это мера силы линейной корреляции между переменными.

Для двух переменных, которые имеют корреляцию, цель статистического анализа - вычислить целевые Y и X Степень актуальности Статистика и проверка ее значимости. Эта статистика по двум переменным Линейная корреляция Когда называется Коэффициент корреляции (Коэффициент корреляции), вызываемый, когда множественная корреляция Коэффициент множественной корреляции (Множественная корреляция) в двух переменных Кривая корреляции Время Связанный указатель (correalion index)。

Таблица соответствия коэффициента корреляции и степени корреляции
Коэффициент корреляции | r | диапазон Актуальность
Низкая корреляция
Умеренно связанные
Сильно коррелирован

регрессионный анализ: РасчетУравнение регрессииНа основе методов статистического анализа. Модели регрессионного анализа включают линейную регрессию (простую линейную регрессию и множественную линейную регрессию) и нелинейную регрессию (логарифмическое преобразование в линейную регрессию).

  1. В соответствии с целью прогноза определите независимую переменную и зависимую переменную.
  2. Нарисуйте диаграмму рассеяния, чтобы определить тип регрессионной модели
  3. Оценить параметры модели и построить регрессионную модель
  4. Протестируйте регрессионную модель
  5. Используйте регрессионные модели для прогнозов

связанный анализ: РасчетКоэффициент корреляцииМетод статистического анализа, основанный на изучении взаимозависимости двух или более случайных величин.Направление и близостьМетоды.

В принципе, регрессионный анализ подчеркивается, когда Y и X содержат ошибки теста в двух переменных; и корреляционный анализ подчеркивается, когда Y и X оба содержат ошибки теста. Однако граница между ними не очень строгая, потому что регрессионный анализ содержит соответствующую аналитическую информацию, а корреляционный анализ также включает информацию регрессионного анализа.

(4) Диаграмма разброса двух переменных данных (диаграмма сакттера): простой и эффективный метод предварительного исследования двух переменных данных со статистической взаимосвязью.

Свойства, связанные с X и Y (положительные или отрицательные) и близость.

Связь между X и Y линейна или нелинейна?

Есть ли какие-то особые моменты, указывающие на вмешательство других факторов и т. Д.

Два, линейная регрессия

(1) Уравнение линейной регрессии

Для в Диаграмма разброса Разместить Прямая линия тренда Для двух переменных, если вы хотите суммировать закон взаимного изменения количества, то есть спрогнозировать или оценить изменение количества Y на основе изменения количества X, тогда используйте Уравнение линейной регрессии Описать.

читать: y зависит от уравнения линейной регрессии x (regression equation of Y on X )

x - независимая переменная,Точечная оценка зависимой переменной соответствует количеству x; a - это когда x = 0Значение, точка пересечения линии регрессии на оси Y, точка пересечения регрессии; b - каждый раз, когда x увеличивается на одну единицу,Количество единиц, которое в среднем будет увеличиваться или уменьшаться, называется коэффициентом регрессии / наклоном.

Принцип наименьших квадратов:Самый маленький

Возьмите частные производные от a и b соответственно и установите их равными 0, чтобы получить нормальные уравнения:


Прямая линия должна пройтиКоординатные точки?

and a=

(2) Расчет уравнения линейной регрессии



(3) Стандартная ошибка линейной регрессии.

Когда Q является наименьшим уравнением линейной регрессии и измеренные точки наблюдения не совпадают, это означает, что уравнение регрессии все еще имеет случайные ошибки.

Q - мера ошибки, называемая суммой квадратов из-за отклонения от регрессии или остаточной суммой квадратов.

Поскольку при построении уравнения регрессии используются два статистических числа a и b, степень свободы Q равна v = n-2 (степень свободы: количество независимых и свободно изменяемых отклонений в выборке).

Расчетная стандартная ошибка уравнения регрессии :

Особенности: чем ближе каждая точка наблюдения к линии регрессии,Чем меньше, когда каждая точка наблюдения попадает на линию регрессии,= 0; чем дальше точки наблюдения разбросаны по линии регрессии,Больше. ОбразецМера точности регрессии,Чем меньше, тем выше точность уравнения регрессии для оценки y.


В последних трех методах расчета есть три уровня данных a и b, поэтому есть ошибки.

(4) Математическая модель и основные предположения линейной регрессии.

В основе регрессионного анализа лежит модель линейной регрессии. В этой модели каждое значение популяции Y состоит из следующих трех частей: пересечение регрессии, Коэффициенты регрессии, Случайная ошибка переменной Y。

Математическая модель общей линейной регрессии может быть выражена как: из их,

Линейный состав образца:

При выполнении регрессионного анализа по указанной выше модели предполагается, что:

(1) Переменная Y - случайная величина, а переменная X - фиксированная переменная без ошибок. По крайней мере, ошибка X незначительна по сравнению с переменной Y.

(2) Существует Y-популяция (условная популяция) на любом X, которая нормально распределена, и ее среднееЯвляется линейной функцией от X, и его дисперсия не имеет ничего общего с X.

Примерная оценка,Связь с X - это уравнение линейной регрессии。

(3) Все популяции Y имеют общую дисперсию, Эта дисперсия не меняется с X, и популяция линейной регрессии имеет. Набор наблюдений (xi, yi), полученных из эксперимента, простоСлучайная выборка в формате.

(4) Случайная ошибкаНезависимые друг от друга и нормально распределенные, с。

Параметры в модели являются общими, Которая является точкой пересечения линии;, Наклон прямой;Дисперсия ошибки. Соответствующие оценки выборки: a, b и。

Основываясь на приведенных выше моделях и предположениях, полезно правильно выполнить регрессионный анализ.

Три, множественная линейная регрессия

Множественная линейная регрессия относится к регрессионной модели, которая включает зависимую переменную и несколько независимых переменных.

Многомерная линейная регрессия относится к регрессионной модели, содержащей две или более зависимых переменных.

Корреляционный и регрессионный анализ обычно проводится для ограниченной по объёму совокупности. Поэтому показатели регрессии и корреляции - параметры уравнения регрессии, коэффициенты корреляции и детерминации могут быть искажены действием случайных факторов. Чтобы проверить, насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенных статистических моделей.

После построения уравнения линейной регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров. Проверить значимость уравнения регрессии - значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Значение линейного коэффициента корреляции важно для исследования социально-экономических явлений и процессов, распределение которых близко к нормальному. Он принимает значения в интервале: -1≤ r ≤ 1.

По степени тесноты связи различают количественные критерии оценки тесноты связи. Оценка линейного коэффициента корреляции может быть произведена по таблице 1, либо укрупненно по таблице 2.

Таблица 1 Количественные критерии оценки тесноты связи

Величина коэффициента корреляции

Практически отсутствует связь

Очень высокая связь

Таблица 2 Укрупненные критерии оценки тесноты связи

Величина коэффициента корреляции

Отрицательные значения указывают на обратную связь, положительные - на прямую. При r = 0 линейная связь отсутствует. Чем ближе коэффициент корреляции по абсолютной величине к единице, тем теснее связь между признаками. И, наконец, при r = ±1 - связь функциональная.

По направлению выделяют связь прямую и обратную. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака.

По аналитическому выражению выделяют связи прямолинейные и криволинейные. Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, показательной и др.), то такую связь называют криволинейной.

Графически взаимосвязь двух признаков отображается с помощью поля корреляции. В системе координат по оси абсцисс откладываются значения факторного признака, а на оси ординат - результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи.

Квадрат линейного коэффициента корреляции r2 называется линейным коэффициентом детерминации. Из определения коэффициента детерминации очевидно, что его числовое значение всегда заключено в пределах от 0 до 1, то есть 0 ≤ r2 ≤ 1. Степень тесноты связи полностью соответствует теоретическому корреляционному отношению, которое является более универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции. Факт совпадений и несовпадений значений теоретического корреляционного отношения η и линейного коэффициента корреляции r используется для оценки формы связи.

Для оценки значимости коэффициента корреляции r используют t-критерий Стьюдента, который применяется при t-распределении, отличном от нормального. Полученное значение tрасч сравнивают с табличным значением t-критерия (для α = 0,05 и 0,01). Если рассчитанное значение tрасч превосходит табличное значение критерия tтабл, то практически невероятно, что найденное значение обусловлено только случайными колебаниями (то есть отклоняется гипотеза о его случайности).

Оценка значимости уравнения регрессии в целом дается с помощью F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, следовательно, фактор х не оказывает влияния на результат у. Величина F-отношения (F-критерий) получается при сопоставлении факторной и остаточной дисперсии в расчете на одну степень свободы.

F-критерий проверки для нулевой гипотезы Н0: Dфакт = Dост.

Если нулевая гипотеза справедлива, то факторная и остаточная дисперсии не отличаются друг от друга. Для Н0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F-отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия - это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения признается достоверным (отличным от 1), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о существенности этой связи: Fфакт > Fтабл Н0 отклоняется.

Спецификация, смысл и оценка параметров линейной регрессии и корреляции. Оценка существенности параметров линейной регрессии и корреляции. Интервалы прогноза по линейному уравнению регрессии. Критерии оценки тесноты связи. Нелинейная регрессия.

Рубрика Экономико-математическое моделирование
Вид реферат
Язык русский
Дата добавления 21.04.2010
Размер файла 76,9 K

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

  • Введение
  • 1. Спецификация, смысл и оценка параметров линейной регрессии и корреляция
  • 2. Оценка существенности параметров линейной регрессии и корреляции
  • 3. Интервалы прогноза по линейному уравнению регрессии
  • 4. Нелинейная регрессия
  • Заключение
  • Список использованной литературы

Введение

Проблема изучения взаимосвязей экономических показателей является одной из важнейших в экономическом анализе. Любая экономическая политика заключается в регулировании экономических переменных, и она должна основываться на знании того, как эти переменные влияют на другие переменные, являющиеся ключевыми для принимающего решение политика. Так, в рыночной экономике нельзя непосредственно регулировать темп инфляции, но на него можно воздействовать средствами бюджетно-налоговой и кредитно-денежной политики.

В наиболее общем виде в области изучения взаимосвязей исследователя интересует количественная оценка их наличия и направления, а также характеристика силы и формы влияния одних факторов на другие. Для ее решения применяется две группы методов, одна из которых включает в себя методы корреляционного анализа, а другого - регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно - регрессионный анализ, что объясняется наличием целого ряда вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак. Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.

Решение задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей. При этом инструментарием их базового анализа являются методы статистики и эконометрики.

1. Спецификация, смысл и оценка параметров линейной регрессии и корреляция

Для решения задач экономического анализа и прогнозирования очень часто используются статистические, отчетные или наблюдаемые данные. При этом полагают, эти данные являются значениями случайной величины.

Случайной величиной называется переменная величина, которая в зависимости от случая принимает различные значения с некоторой вероятностью. Закон распределения случайной величины показывает частоту ее тех или иных значений в общей их совокупности.

Раздел эконометрики, посвященный изучению взаимосвязей между случайными величинами называется корреляционным анализом. Основная задача корреляционного анализа - это установление характера и тесноты связи между результативными (зависимыми) и факторными (независимыми) показателями (признаками) в данном явлении или процессе. Корреляционную связь можно обнаружить только при массовом сопоставлении фактов.

Корреляционная связь существует там, где взаимосвязанные явления характеризуются только случайными величинами. При такой связи среднее значение (математическое ожидание) случайной величины результативного признака у закономерно изменяется в зависимости от изменения другой величины х или других случайных величин х12 …хn. Корреляционная связь проявляется не в каждом отдельном случае, а во всей совокупности в целом. Только при достаточно большом количестве случаев каждому значению случайного признака х будет соответствовать распределение средних значений случайного признака у. Наличие корреляционных связей присуще многим общественным явлениям.

Корреляционная связь - понятие более узкое, чем стохастическая связь. Последняя может отражаться не только в изменении средней величины, но и в вариации одного признака в зависимости от другого, то есть любой другой характеристики вариации. Таким образом, корреляционная связь является частным случаем стохастической связи.

Задачи корреляционного анализа сводятся к измерению тесноты известной связи между варьирующими признаками, определению неизвестных причинных связей (причинный характер которых должен быть выяснен с помощью теоретического анализа) и оценки факторов, оказывающих наибольшее влияние на результативный признак.

Задачами регрессионного анализа являются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчётных значений зависимой переменной (функции регрессии).

Решение всех названных задач приводит к необходимости комплексного использования этих методов.

Наиболее разработанной в теории статистики является методология так называемой парной корреляции, рассматривающая влияние вариации факторного анализа х на результативный признак у и представляющая собой однофакторный корреляционный и регрессионный анализ. Овладение теорией и практикой построения и анализа двухмерной модели корреляционного и регрессионного анализа представляет собой исходную основу для изучения многофакторных стохастических связей.

Важнейшим этапом построения регрессионной модели (уравнения регрессии) является установление в анализе исходной информации математической функции. Сложность заключается в том, что из множества функций необходимо найти такую, которая лучше других выражает реально существующие связи между анализируемыми признаками. Выбор типов функции может опираться на теоретические знания об изучаемом явлении, опят предыдущих аналогичных исследований, или осуществляться эмпирически - перебором и оценкой функций разных типов и т.п.

При изучении связи экономических показателей производства (деятельности) используют различного вида уравнения прямолинейной и криволинейной связи. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчётов преобразуют (путём логарифмирования или замены переменных) в линейную форму. Доугерти К. Введение в эконометрику. - М.: Финансы и статистика, 1999. - С. 10.

Регрессия - это линия, характеризующая наиболее общую тенденцию во взаимосвязи факторного и результативного признаков.

Простая регрессия представляет собой регрессию между двумя переменными - у и х, т.е. модель вида , где у - результативный признак; х - признак-фактор.

Множественная регрессия представляет собой регрессию результативного признака с двумя и большим числом факторов, т. е. модель вида .

Спецификация модели - формулировка вида модели, исходя из соответствующей теории связи между переменными. В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией. где yj - фактическое значение результативного признака;

yxj -теоретическое значение результативного признака.

- случайная величина, характеризующая отклонения реального значения результативного признака от теоретического.

Случайная величина е называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения.

От правильно выбранной спецификации модели зависит величина случайных ошибок: они тем меньше, чем в большей мере теоретические значения результативного признака подходят к фактическим данным у.

К ошибкам спецификации относятся неправильный выбор той или иной математической функции для, и недоучет в уравнении регрессии какого-либо существенного фактора, т. е. использование парной регрессии вместо множественной.

Ошибки выборки - исследователь чаще всего имеет дело с выборочными данными при установлении закономерной связи между признаками.

Ошибки измерения практически сводят на нет все усилия по количественной оценке связи между признаками. Основное внимание в эконометрических исследованиях уделяется ошибкам спецификации модели.

В парной регрессии выбор вида математической функции может быть осуществлен тремя методами: графическим, аналитическим и экспериментальным.

Графический метод основан на поле корреляции. Аналитический метод основан на изучении материальной природы связи исследуемых признаков.

Экспериментальный метод осуществляется путем сравнения величины остаточной дисперсии Dост, рассчитанной при разных моделях. Если фактические значения результативного признака совпадают с теоретическими у =, то Docm =0. Если имеют место отклонения фактических данных от теоретических (у - ) то

Чем меньше величина остаточной дисперсии, тем лучше уравнение регрессии подходит к исходным данным. Число наблюдений должно в 6-7 раз превышать число рассчитываемых параметров при переменной х.

На практике чаще всего применяются следующие формы регрессионных моделей:

Линейная регрессия находит широкое применение в эконометрике ввиду четкой экономической интерпретации ее параметров.

Линейная регрессия сводится к нахождению уравнения вида

Уравнение вида позволяет по заданным значениям фактора x находить теоретические значения результативного признака, подставляя в него фактические значения фактора x.

Построение линейной регрессии сводится к оценке ее параметров – a и b. Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного признака y от теоретических минимальна:

Чтобы найти минимум функции, надо вычислить частные производные по каждому из параметров a и b и приравнять их к нулю.

Обозначим через S(a,b): , тогда

После несложных преобразований, получим следующую систему линейных уравнений для оценки параметров a и b:

Решая систему уравнений, найдем искомые оценки параметров a и b:

Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы.

Параметр b называется коэффициентом регрессии. Он имеет смысл показателя силы связи между вариацией x и вариацией y. Его величина показывает среднее изменение результата с изменением фактора на одну единицу.

Коэффициент a может не иметь экономического содержания, интерпретировать можно только знак, он показывает направления связи.

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции rxy, который можно рассчитать по следующим формулам:

Линейный коэффициент корреляции находится в пределах: -1£rxy£1.

Если r>0, то прямая связь

Если r 0, то 0£rxy£1, если b tтабл, то делается вывод о значимости параметра.

Читайте также: