Линейная парная регрессия реферат

Обновлено: 05.07.2024

Построить линейную парную регрессию (регрессию вида ỹ= a+bx). Вычисление коэффициентов выполнить методом наименьших квадратов, дать интерпретацию в терминах задачи.
Построить корреляционное поле и линию регрессии линейного типа.
Вычислить выборочный коэффициент корреляции и проверить гипотезу о его значимости.
Проверить значимость коэффициентов регрессии, построить для них 95%-е доверительные интервалы.
Используя построенное уравнение, спрогнозировать значение ỹр при хр= (х7+х8)/2.
Построить доверительный интервал для зависимой переменной для хр= (х7+х8)/2 с надежностью γ= 0,95.
Определить, есть или нет автокорреляция остатков с помощью критерия Дарбина-Уотсона.
Вычислить коэффициент детерминации и проверить его значимость.
Оценить прогнозные качества модели.

Содержание работы

Задание №1: Парная линейная регрессия……………………………….3
Задание №2: Нелинейная регрессия……………………. …………….11
Задание №3: Множественная регрессия……………………. ………..31

Содержимое работы - 1 файл

курсовая работа по эконометрике.doc

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное агентство по образованию

Рубцовский индустриальный институт (филиал) ГОУ ВПО

Алтайский государственный технический университет им. И.И. Ползунова

курсовая работа

по дисциплине: эконометрика

Выполнила : студентка группы

ФиК-61д Конькова М.В.

Проверил: Рассказова Н.В.

  1. Задание №1: Парная линейная регрессия……………………………….3
  2. Задание №2: Нелинейная регрессия……………………. …………….11
  3. Задание №3: Множественная регрессия……………………. ………..31

Задание №1: Парная линейная регрессия

Исследуется зависимость себестоимости 1т. литья Y (руб.) от выработки литья на одного работающего Х (т) по 11 литейным цехам заводов:

Количество X Y
4,2 239
5,5 254
6,7 262
7,7 251
1,2 158
2,2 101
8,4 259
6,4 186
4,2 204
3,2 198
11 3,1 170

1. График зависимости переменных X и Y строится в прямоугольной системе координат. На оси абсцисс откладывается значения факторного признака Х, а по оси ординат – результативного признака Y.

На график наносятся точки, координаты которых соответствуют значениям X и Y.

Характер расположения точек на графике показывает, что связь между переменными может выражаться линейным уравнением регрессии.

2. Параметры уравнения регрессии находим методом наименьших квадратов.

Для проведения всех расчетов строится вспомогательная таблица.

Количество xy x 2 y 2
1003,8 17,64 57121
1397 30,25 64516
1755,4 44,89 68644
1932,7 59,29 63001
189,6 1,44 24964
222,2 4,84 10201
2175,6 70,56 67081
1190,4 40,96 34596
856,8 17,64 41616
633,6 10,24 39204
11 527 9,61 28900
Среднее 1080,373 27,9418 45440,36

В таблице все средние находятся по формуле средней арифметической простой: Хср. = ∑х / N.

Параметры уравнения регрессии находятся по формуле:

a = yср – b*xср = 207, 4545-17, 257*4, 8 = 124, 6207

ỹ = 124, 6207 + 17, 257* x

Коэффициент b = 17, 257 показывает, на какую величину измениться себестоимость 1т литья, если брак от литья возрастет на единицу.

Коэффициент a = 124, 6207 говорит о том, что при нулевом браке от литья себестоимость 1т литья составит в среднем 124,6207 условные единицы.

3. При линейной зависимости, степень тесноты связи между переменными X и Y определяется с помощью коэффициента корреляции:

Так как значение коэффициента корреляции близко к единице, то между признаками связь сильная, прямая, близкая к линейной функциональной.

Так как исходные данные являются выборочными, то необходимо оценить существенность или значимость величины коэффициента корреляции. Выдвигаем нулевую гипотезу: коэффициент корреляции в генеральной совокупности равен нулю, и изучаемый фактор не влияет на результативный признак, Н0: r=0, при Н1: r≠0

Для проверки нулевой гипотезы применим t-критерий Стьюдента. Найдем расчетное значение t-критерия:

Теоретическое значение t находится по таблицам t-распределения Стьюдента при уровне значимости α=0,05 и числе степеней свободы ν=9,

Сравниваем tрасч с tтеор, т.к. tрасч> tтеор, то нулевая гипотеза отвергается, коэффициент корреляции существенно отличен от нуля в генеральной совокупности. Значит, выработка литья на одного работающего оказывает статистически существенное влияние на себестоимость 1 т. литья, т.е. коэффициент корреляции статистически значим.

4. Статистическая значимость коэффициентов регрессии также проводится с использованием t-критерия Стьюдента. Для этого добавляются необходимые данные:

Y-Yср X-Xср i ei ei ei - ei-1
31,54545 -0,6 197,1003 41,89968 41,89968
46,54545 0,7 219,5345 34,46552 34,46552 -7,43416
54,54545 1,9 240,2429 21,75706 21,75706 -12,7085
43,54545 2,9 257,5 -6,49998 -6,49998 -28,257
-49,4545 -3,6 145,3292 12,67083 12,67083 19,17081
-106,455 -2,6 162,5862 -61,5862 -61,5862 -74,257
51,54545 3,6 269,5799 -10,5799 -10,5799 51,00631
-21,4545 1,6 235,0658 -49,0658 -49,0658 -38,4859
-3,45455 -0,6 197,1003 6,899683 6,899683 55,9655
-9,45455 -1,6 179,8433 18,15673 18,15673 11,25705
-37,4545 -1,7 178,1176 -8,11756 -8,11756 -26,2743
СУММКВ 26432,73 53,92 10375,04 10375,04 14928,87

Они рассчитываются по формуле:

S 2 a = S 2 b * (x 2 )ср = 21,3795*27,9418 = 597,3821

где Sa ,Sb – стандартные ошибки

Находится расчетное значение критерия:

tрасч (b) = b/ Sb = 17,257 / 21,3795 0.5 = 3,732224

tрасч (a) = a/ Sa = 124,6207 / 597,3821 0.5 = 5,098755

Т.к. [tрасч b] > tтеор b, то коэффициент b статистически значим.

Т.к. [tрасч a] > tтеор a, то коэффициент a статистически значим.

5. а) Определяем доверительный интервал для коэффициентов регрессии a и b.

(17,257 - 2,262159*21,3795 0.5 ; 17,257 + 2,262159*21,3795 0.5 ) = (6,797291;27,7168)

т.о. коэффициент b=17,25705 с вероятностью 0.95 находится в найденном интервале.

(124,6207 - 2,262159*597,3821 0.5 ; 124,6207 - 2,262159*597,3821 0.5 ) =

т.о. коэффициент a=124,6207 с вероятностью 0.95 находится в найденном интервале

б) Прогнозное значение результатирующего признака определятся путем подстановки в уравнение регрессии прогнозного или возможного факторного признака (хр).

p = 124,6207 + 17,257* 7,4 = 252,3229

в) Построить доверительный интервал для зависимой переменной для

xp = с надежностью γ = 0,95.

p=252,3229 с вероятностью 0.95 находится в интервале (224,9452816;279,7005184).

Тогда прогнозное значение себестоимости 1т. литья составит ỹр=a+bхр=252,32297. Значит, при выработке литья на одного работающего =7,4 возможная себестоимость 1т. литья составляет 252,3229.

7. Определим автокорреляцию остатков

Для критерия d найдены критические границы, позволяющие принять и отвергнуть гипотезу об отсутствии автокорреляции остатков

Так как d попадает в интервал (d2; 4-d2), то означает, что автокорреляция остатков отсутствует. Отсутствие автокорреляции остатков является одним из подтверждений высокого качества модели.

8. Вычислить коэффициент детерминации и проверить его значимость.

Коэффициент детерминации рассчитывается, как R 2 =

R 2 = = 0, 607492; R=0,77942

Коэффициент детерминации R=0,77942 показывает, что 77,94% различий в себестоимости 1т. литья объясняется вариацией выработки литья на одного работающего, а 22,06% другими неучтенными факторами.

Статистическая надежность уравнения регрессии проверяется с использованием критерия F-Фишера.

Расчетное значение F-критерия находится по формуле:

При уровни значимости α=0,05 и числе степеней свободы ν1=1; ν2=9 по таблице находится теоретическое значение F-критерия, Fтеор= F(0,05;1;9)=5,117355. Так как Fрасч> Fтеор, то уравнение регрессии статистически значимое или надежное.

1. Смысл регрессионного анализа - построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y - откликом.

Сегодня мы разберем наиболее простой случай - установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.

2. Построение модели

Этап 1. Исходные данные: заранее известные (экспериментальные, наблюденные) значения фактора хi - экзогенная переменная и соответствующие им значения отклика yi, (i = 1,…,n) - эндогенная переменная;

Активный и пассивный эксперимент.

Выборочные характеристики - позволяют кратко охарактеризовать выборку, т. е., получить ее модель, хотя и очень грубую:

а) среднее арифметическое:

Пример: средняя продолжительность жизни в России и США

Эта величина обнуляется из-за того, что отрицательные значения отклонений и положительные взаимно погашаются.

Чтобы избежать этого, возведем их в квадрат, получив так называемую выборочную дисперсию:

Выборочная дисперсия характеризует разброс (вариацию) элементов выборки вокруг их среднего арифметического. Важно иметь в виду, что сами элементы выборки и их дисперсия имеют разные порядок: если элементы выборки измеряются в метрах, то дисперсия - в квадратных метрах.

Полезное свойство дисперсии:

Характеристики генеральной совокупности:

математическое ожидание М(Х)

Несмещенная оценка дисперсии:

Для простоты, мы будем использовать смещенную оценку - выборочную дисперсию - при достаточно больших n они практически равны.

Этап 2. Постановка задачи: предположим, что значение каждого отклика yi как бы состоит из двух частей:

- во-первых, закономерный результат того, что фактор х принял конкретное значение хi;

- во-вторых, некоторая случайная компонента i, которая никак не зависит от значения хi.

Таким образом, для любого i = 1,…,n

Смысл случайной величины (ошибки) :

а) внутренне присущая отклику у изменчивость;

б) влияние прочих, не учитываемых в модели факторов;

в) ошибка в измерениях

Этап 3. Предположения о характере регрессионной функции

Возможный вид функции f(xi)

Методы подбора вида функции:

Этап 4. Оценка параметров линейной регрессионной модели

1. Имея два набора значений: x1, x2, …, xn и y1, y2, …, yn, предполагаем, что между ними существует взаимосвязь вида:

т. н. функция регрессии

Истинные значения параметров функции регрессии мы не знаем, и узнать не можем.

Задача: построить линейную функцию:

так, чтобы вычисленные значения yi(xi) были максимально близки к экспериментальным уi (иначе говоря, чтобы остатки (yi - yi) были минимальны).

Экономическая интерпретация коэффициентов:

b - степень влияния фактора на отклик (случаи отрицательного)

2. Метод наименьших квадратов (МНК):

подставим в задачу формулу (2.2):

В данном случае у нас a и b - переменные, а х и у - параметры. Для нахождения экстремума функции, возьмем частные производные по a и b и приравняем их к нулю.

Получили систему из двух линейных уравнений. Разделим оба на 2n:

Из первого уравнения выразим неизвестную а:

и подставим это выражение во второе уравнение:

Несложно заметить, что оказалось. Так должно быть всегда:

Кроме того, вычислим т. н. случайные остатки и рассчитаем их вероятностные характеристики.

Оказалось, . Это также закономерно:

Таким образом, дисперсия случайных остатков будет равна:

Мы произвели вычисления, и построили регрессионное уравнение, позволяющее нам построить некую оценку переменной у (эту оценку мы обозначили y). Однако, если бы мы взяли другие данные, по другим областям (или за другой период времени), то исходные, экспериментальные значения х и у у нас были бы другими и, соответственно, а и b, скорее всего, получились бы иными.

Этап 5. Исследование регрессионной модели

1. Теснота связи между фактором и откликом

Мерой тесноты связи служит линейный коэффициент корреляции:

Отрицательное значение КК означает, что увеличение фактора приводит к уменьшению отклика и наоборот:

2. Доля вариации отклика у, объясненная полученным уравнением регрессии характеризуется коэффициентом детерминации R 2 . Путем математических преобразований можно выразить:

где - оценка дисперсии случайных остатков в модели,

Таким образом, R 2 - это доля дисперсии у, объясненной с помощью регрессионного уравнения в дисперсии фактически наблюденного у.

3. Проверка статистической значимости уравнения регрессии

Мы получили МНК-оценки коэффициентов уравнения регрессии и рассчитали коэффициент детерминации. Однако, осталось неясным, достаточно ли он велик, чтобы говорить о существовании значимой связи между величинами х и у. Иначе говоря, достаточно ли сильна эта связь, чтобы на основании построенной нами модели можно было бы делать выводы?

Для ответа на этот вопрос можно провести т. н. F-тест.

Формулируется гипотеза Н0: предположим, что yi + xi + i

Обратить внимание: выписаны не а, а , т. е., не оценки коэффициентов регрессии, а их истинные значения.

Мы не можем однозначно подтвердить или опровергнуть гипотезу Н0, мы можем лишь принять или отвергнуть ее с определенной вероятностью.

Выберем некоторый уровень значимости , такой что 0 1 - вероятность того, что мы сделаем неправильный вывод, приняв или отклонив гипотезу Н0.

Соответственно, величина Р = 1 - - доверительная вероятность - вероятность того, что мы в итоге сделаем правильный вывод.

Для проверки истинности гипотезы Н0, с заданным уровнем значимости , рассчитывается F-статистика:

Значение F-статистики в случае парной регресии подчиняется т. н.

F-распределению Фишера с 1 степенью свободы числителя и (n - 2) степенями свободы знаменателя.

Для проверки Н0 величина F-статистики сравнивается с табличным значением F (1, n-2).

Если F > F (1, n-2) - гипотеза Н0 отвергается, т. е. мы считаем, что с вероятностью 1- можно утверждать, что регрессия имеет место и:

В противном случае гипотеза Н0 не отвергается, принимаем:

Вопрос: почему бы нам не взять поменьше? Чем меньше , тем больше соответствующее табличное значение F-статистики, т. е., тем меньше шансов, что появятся основания отвергнуть гипотезу Н0.

Ошибки первого и второго рода

Ошибка первого рода: отвергается Н0, которая на самом деле верна.

Ошибка второго рода: принимается H0, которая на самом деле не верна.

Очевидно, чем меньше , тем меньше наши шансы отвергнуть гипотезу Н0, т. е., совершить ошибку первого рода. Соответственно, шансы совершить ошибку второго рода увеличиваются.

4. Характеристика оценок коэффициентов уравнения регрессии

1) математическое ожидание

Теорема: М(а) = , M(b) = - несмещенность оценок

Это означает, что при увеличении количества наблюдений значения МНК-оценок a и b будут приближаться к истинным значениям и ;

2) дисперсия

Теорема:

Благодаря этой теореме, мы можем получить представление о том, как далеко, в среднем, наши оценки a и b находятся от истинных значений и .

Будем называть эти величины стандартными ошибками a и b соответственно.

5. Построение доверительных интервалов

Пусть мы имеем оценку а. Реальное значение коэффициента уравнения регрессии лежит где-то рядом, но где точно, мы узнать не можем. Однако, мы можем построить интервал, в который это реальное значение попадет с некоторой вероятностью. Доказано, что:

с вероятностью Р = 1 -

где t /2(n-1) - /2-процентная точка распределения Стьюдента с (n-1) степенями свободы - определяется из специальных таблиц.

При этом уровень значимости устанавливается произвольно.

Неравенство можно преобразовать следующим образом:

или, что то же самое:

Аналогично, с вероятностью Р = 1 - :

откуда следует:

Уровень значимости - это вероятность того, что на самом деле истинные значения и лежат за пределами построенных доверительных интервалов. Чем меньше его значение, тем больше величина t /2(n-1), соответственно, тем шире будет доверительный интервал.

6. Проверка статистической значимости коэффициентов регрессии

Мы получили МНК-оценки коэффициентов, рассчитали для них доверительные интервалы. Однако мы не можем судить, не слишком ли широки эти интервалы, можно ли вообще говорить о значимости коэффициентов регрессии.

Гипотеза Н0: предположим, что =0, т. е. на самом деле независимой постоянной составляющей в отклике нет (альтернатива - гипотеза Н1: 0).

Для проверки этой гипотезы, с заданным уровнем значимости , рассчитывается t-статистика, для парной регрессии:

Значение t-статистики сравнивается с табличным значением t /2(n-1) - /2-процентной точка распределения Стьюдента с (n-1) степенями свободы.

Если t DWU - делаем вывод об отсутствии автокорреляции (с вероятностью 1-);

в) если DWL DW DWU - нельзя сделать никакого вывода;

а) если (4 - DW) DWU - делаем вывод об отсутствии автокорреляции (с вероятностью 1-);

в) если DWL (4 - DW) DWU - нельзя сделать никакого вывода;

8. Гетероскедастичность остатков.

- ошибки в исходных данных;

Обнаружение - возможны различные тесты. Наиболее простой:

(упрощенный тест Голдфелда - Куандта)

1) упорядочиваем выборку по возрастанию одной из объясняющих переменных;

2) формулируем гипотезу Н0: остатки гомоскедастичны

6) рассчитываем дисперсионное соотношение:

7) определяем табличное значение F-статистики Фишера с (k-m-1) степенями свободы числителя и (k - m - 1) степенями свободы знаменателя при заданном уровне значимости

8) если дисперсионное соотношение не превышает табличное значение F-статистики (т. е., оно подчиняется F-распределению Фишера с (k-m-1) степенями свободы числителя и (k - m - 1) степенями свободы знаменателя), то гипотеза Н0 не отвергается - делаем вывод о гомоскедастичности остатков. Иначе - предполагаем их гетероскедатичность.

Метод устранения: взвешенный МНК.

Например, если предположить, что величина остатка i пропорциональна значению xi (т. е., дисперсия остатков пропорциональна xi 2 ), то можно перестроить модель следующим образом:

т. е. перейдем к модели наблюдений

Таким образом, задача оценки параметров уравнения регрессии методом наименьших квадратов сводится к минимизации функции:

Реферат - Регрессионный анализ. Парная регрессия

Реферат
Тема: Регрессионный анализ. Парная регрессия.

Содержание:
Построение регрессионных моделей.
Построение модели.
Проверка статистической значимости уравнения регрессии.
Характеристика оценок коэффициентов уравнения регрессии.

Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом.
Сегодня мы разберем наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией

Дежурко Л.Ф. Эконометрика

  • формат doc
  • размер 176.48 КБ
  • добавлен 27 октября 2010 г.

Мн.: БГЭУ, 2009 г. , 41 стр. Учебно-методическое пособие. Содержание: Основные понятия эконометрики. Парная линейная регрессия. Нелинейная регрессия. Множественная регрессия. Временные ряды. Эконометрический анализ при нарушении предпосылок. метода наименьших квадратов.

Лабораторная работа

  • формат doc
  • размер 210.13 КБ
  • добавлен 25 апреля 2009 г.

Парная регрессия. Множественная регрессия. Системы эконометрических уравнений. Анализ временных рядов. Таблица значений F-критерия Фишера при уровне значимости. Критические значения t-критерия Стьюдента при уровне значимости 0,10; 0,05; , 0,01(двухсторонний). Критические значения корреляции для уровней значимости 0,05 и 0,01 Значения статистик Дарбина – Уотсона

Лабораторная работа - Построение и анализ моделей линейной регрессии

  • формат xls, doc
  • размер 294.82 КБ
  • добавлен 24 февраля 2011 г.

Исследуется зависимость размера дивидендов акций группы компаний от доходности акций, дохода компании и объема инвестиций в расширение и модернизацию производства. Исходные данные представлены выборкой объема Парная линейная регрессия Множественная линейная регрессия

Лекции - Эконометрика

  • формат doc
  • размер 745 КБ
  • добавлен 28 октября 2009 г.

Введение. Эконометрика и эконометрическое моделирование: основные понятия и определения Парная корреляция и регрессия Ковариация. Выборочный коэффициент парной корреляции Оценка значимости выборочного коэффициента парной корреляции Модель парной регрессии. Основные понятия. Линейная парная регрессия Определение параметров линейной парной модели методом МНК Проверка значимости параметров парной линейной модели Проверка выполнения предпосылок МНК.

Лекции по эконометрике

  • формат doc
  • размер 759.37 КБ
  • добавлен 05 мая 2009 г.

Днепропетровский университет экономики и права Эконометрика Конспект лекций. Для всех специальностей направлений. Предмет и задачи эконометрии Простейшие примеры эконометрических моделей Основные сведения из теории вероятностей и математической статистики Парная регрессия Линейная регрессия Анализ уравнений линейной регрессии. Коэффициент корреляции и его свойства. Проверка адекватности нелинейной корреляционной модели. Коэффициент детерминации.

Общий вариант фондовых лекций(методичка) 2 курс

  • формат doc
  • размер 1.67 МБ
  • добавлен 14 апреля 2011 г.

Парная регрессия и корреляция. Множественная регрессия и корреляция. Метод наименьших квадратов. системы эконометрических уравнений. и. т. д. Вэпи 2 курс.

Расчетная работа по эконометрике (43 стр. с приложениями)

  • формат doc
  • размер 1.44 МБ
  • добавлен 15 февраля 2010 г.

3 задачи: парная линейная регрессия (построение модели, анализ качества, точечный и интервальный прогнозы), множественная регрессия (построение модели с помощью метода многошагового регрессионного анализа, прогноз), сглаживание временного ряда - все подробно описано, приведены результаты промежуточных расчетов, сделаны выводы. Сдано для специальности "Математические методы в экономике"

Реферат - Метод Наименьших Квадратов (МНК)

  • формат rtf
  • размер 8.2 МБ
  • добавлен 20 июня 2010 г.

Оглавление Введение История Постановка задачи Примеры Свойства оценок на основе МНК Парная линейная регрессия. Метод наименьших квадратов Взвешенный метод наименьших квадратов Системы одновременных уравнений Нелинейная регрессия Авторегрессионное преобразование Применение МНК в экономике Заключение Список литературы КИГМС, Организация и Технология Защиты Информации,2 курс/4семестр

Решение эконометрических задач в EXCEL(примеры)

  • формат doc
  • размер 235.21 КБ
  • добавлен 04 августа 2011 г.

В данном файле, приводится решения двух задач по дисциплине "эконометрика". Примеры взяты из двух тем: -парная множественная регрессия -парная линейная регрессия страниц:16 Год: 2010

Сидоренко М.Г. Эконометрика

  • формат pdf
  • размер 1001.03 КБ
  • добавлен 21 декабря 2011 г.

Учебное пособие. - Томск: ТУСУР, 2004. - 119 с. Парная линейная регрессия. Множественная линейная регрессия. Нелинейная регрессия. Гетероскедастичность. Автокорреляция. Фиктивные переменные в регрессионных моделях. Динамические модели. Системы одновременных уравнений.

или M y ( X ) = ( у ), где ( x )  const, ( у )  const.

В регрессионном анализе рассматривается односторонняя зависимость случайной переменной Y от одной (или нескольких) неслучайной независимой переменной Х . Такая зависимость Y от X (иногда ее называют регрессионной ) может быть также представлена в виде модельного уравнения регрессии Y от X (1). При этом зависимую переменную Y называют также функцией отклика (объясняемой, выходной, результирующей, эндогенной переменной, результативным признаком), а независимую переменную Х – объясняющей (входной, предсказывающей, предикторной, экзогенной переменной, фактором, регрессором, факторным признаком).

Для точного описания уравнения регрессии необходимо знать условный закон распределения зависимой переменной Y при условии, что переменная Х примет значение х , т.е. Х = х . В статистической практике такую информацию получить, как правило, не удается, так как обычно исследователь располагает лишь выборкой пар значений ( x i , y i ) ограниченного объема n . В этом случае речь может идти об оценке (приближенном выражении, аппроксимации) по выборке функции регрессии. Такой оценкой является выборочная линия (кривая) регрессии :

= ( x , b 0 , b 1 , …, b p ) (2)

где  условная (групповая) средняя переменной Y при фиксированном значении переменной X = x ; b 0 , b 1 , …, b p – параметры кривой.

Уравнение (2) называется выборочным уравнением регрессии .

В дальнейшем рассмотрим линейную модель и представим ее в виде

Для решения поставленной задачи определим формулы расчета неизвестных параметров уравнения линейной регрессии ( b 0 , b 1 ).

Согласно методу наименьших квадратов (МНК) неизвестные параметры b 0 и b 1 выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений y i от значений , найденных по уравнению регрессии (3), была минимальной:

На основании необходимого условия экстремума функции двух переменных S = S ( b 0 , b 1 ) (4) приравняем к нулю ее частные производные, т.е.

откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии:

Теперь, разделив обе части уравнений (5) на n , получим систему нормальных уравнений в следующем виде:

где соответствующие средние определяются по формулам:

Решая систему (6), найдем

где  выборочная дисперсия переменной Х :

 выборочный корреляционный момент или выборочная ковариация:

Коэффициент b 1 называется выборочным коэффициентом регрессии Y по X .

Коэффициент регрессии Y по X показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной X на одну единицу.

Отметим, что из уравнения регрессии следует, что линия регрессии проходит через точку , т.е. = b 0 + b 1 .

На первый взгляд, подходящим измерителем тесноты связи Y от Х является коэффициент регрессии b 1 . Однако b 1 зависит от единиц измерения переменных. Очевидно, что для "исправления" b 1 как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Если представить уравнение в эквивалентном виде:

В этой системе величина называется выборочный коэффициент корреляции и является показателем тесноты связи.

Если r > 0 ( b 1 > 0), то корреляционная связь между переменными называется прямой, если r b 1 ; (15)

Выборочный коэффициент корреляции обладает следующими свойствами:

1. Коэффициент корреляции принимает значения на отрезке [1: 1], т.е. 1 ≤ r ≥ 1.

2. При r =±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдения располагаются на прямой линии.

3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси ОХ .

В силу воздействия неучтенных факторов и причин отдельные наблюдения переменной Y будут в большей или меньшей мере отклоняться от функции регрессии ( Х ). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде:

где   случайная переменная (случайный член), характеризующая отклонение от функции регрессии.

Рассмотрим линейный регрессионный анализ, для которого унция ( Х ) линейна относительно оцениваемых параметров:

M x ( Y ) =  0 +  1 x . (17)

Предположим, что для оценки параметров линейной функции регрессии (17) взята выборка, содержащая п пар значений переменных ( x i , y i ), где i = 1, 2, …, п . В этом случае линейная парная регрессионная модель имеет вид:

y i =  0 +  1 x i +  i . (18)

Отметим основные предпосылки регрессионного анализа (условия Гаусса-Маркова) .

1. В модели y i =  0 +  1 x i +  i возмущение  i есть величина случайная, а объясняющая переменная x i – величина неслучайная.

2. Математическое ожидание возмущения  i равно нулю:

3. Дисперсия возмущения  i постоянна для любого i :

4. Возмущения  i и  j не коррелированны:

M ( i  j ) = 0 ( i  j ). (21)

5. Возмущения  i есть нормально распределенная случайная величина.

Оценкой модели (18) по выборке является уравнение регрессии
= b 0 + b 1 x . Параметры этого уравнения b 0 и b 1 определяются на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели (18) определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии (см. табл. 1).

Теорема Гаусса  Маркова . Если регрессионная модель
y i =  0 +  1 x i +  i удовлетворяет предпосылкам 15, то оценки b 0 , b 1 имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Таким образом, оценки b 0 и b 1 в определенном смысле являются наиболее эффективными линейными оценками параметров  0 и  1 .

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров. Вспомним основные понятия и определения необходимые для анализа значимости параметров регрессии.

Статистическая гипотеза – это предположение о свойствах случайных величин или событий, которое мы хотим проверить по имеющимся данным.

Нулевая гипотеза Н 0 – это основное проверяемое предположение, которое обычно формулируется как отсутствие различий, отсутствие влияние фактора, отсутствие эффекта, равенство нулю значений выборочных характеристик и т.п.

Другое проверяемое предположение (не всегда строго противоположное или обратное первому) называется конкурирующей или альтернативной гипотезой.

Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость проверить ее. Так как проверку производят статистическими методами, то данная проверка называется статистической.

При проверке статистических гипотез возможны ошибки (ошибочные суждения) двух видов:

 можно отвергнуть нулевую гипотезу, когда она на самом деле верна (так называемая ошибка первого рода );

 можно принять нулевую гипотезу, когда она на самом деле не верна (так называемая ошибка второго рода ).

Допустимая вероятность ошибки первого рода может быть равна 5% или 1% (0,05 или 0,01).

Уровень значимости – это вероятность ошибки первого рода при принятии решения (вероятность ошибочного отклонения нулевой гипотезы).

Альтернативные гипотезы принимаются тогда и только тогда, когда опровергается нулевая гипотеза. Это бывает в случаях, когда различия в средних арифметических экспериментальной и контрольной групп настолько значимы (статистически достоверны), что риск ошибки отвергнуть нулевую гипотезу и принять альтернативную не превышает одного из трех принятых уровней значимости статистического вывода:

1-й уровень  5% ( = 0,05), где допускается риск ошибки в выводе в пяти случаях из ста теоретически возможных таких же экспериментов при строго случайном отборе для каждого эксперимента;

2-й уровень  1% ( = 0,01), т. е. соответственно допускается риск ошибиться только в одном случае из ста;

3-й уровень  0,1% ( = 0,01), т. е. допускается риск ошибиться только в одном случае из тысячи.

Последний уровень значимости предъявляет очень высокие требования к обоснованию достоверности результатов эксперимента и потому редко используется. В эконометрических исследованиях, не нуждающихся в очень высоком уровне достоверности, представляется разумным принять 5%-й уровень значимости.

Статистика критерия  некоторая функция от исходных данных, по значению которой проверяется нулевая гипотеза. Чаще всего статистика критерия является числовой функцией.

Всякое правило, на основе которого отклоняется или принимается нулевая гипотеза, называется критерием проверки данной гипотезы. Статистический критерий – это случайная величина, которая служит для проверки статистических гипотез.

Критическая область – совокупность значений критерия, при котором нулевую гипотезу отвергают. Область принятия нулевой гипотезы (область допустимых значений) – совокупность значений критерия, при котором нулевую гипотезу принимают. При справедливости нулевой гипотезы вероятность того, что статистика критерия попадает в область принятия нулевой гипотезы должна быть равна 1 .

Похожие страницы:

Парная регрессия (3)

. , обратной, гиперболической парной регрессий. Рассчитаем параметры уравнений линейной парной регрессии. Для расчета параметров a и b линейной регрессии y=a+b*x решаем .

Построение модели парной регрессии

. частных задачи. Рассчитаны параметры уравнения линейной парной регрессии. Оценена теснота связи зависимой переменной . средняя ошибка аппроксимации статистических данных линейным уравнением парной регрессии, которая составила 2,86 %. Полученное .

Линейный множественный регрессивный анализ

. = 4,49765806824428 b1= 0,59705785159018 Составим уравнение парной линейной регрессии: По критерию Гольдфельда-Квандта найдем . = 0,166147 b5= 0,412251 Получаем уравнение линейной парной регрессии: Расчетное значение критерия для параметра .

Парная регрессия (4)

. курсу: Эконометрика На тему: Парная регрессия (Вариант №9) Выполнил студент . оценки параметров , уравнения парной линейной регрессии. Оцените тесноту связи между . Фишера - Снедекора значимость уравнения линейной регрессии (α = 0,1). Рассчитайте выпуск валовой .

Функциональная зависимость и регрессия (1)

. Функциональная, статистическая и корреляционная зависимости 4 1.2 Линейная парная регрессия 7 1.3 Коэффициент корреляции 11 1.4 Основные положения . с ее средней. В случае линейной парной регрессии m=2 и уравнение регрессии значимо на уровне , если В .

Читайте также: