Интервальное оценивание коэффициента корреляции и коэффициентов регрессии реферат

Обновлено: 04.07.2024

Название работы: Анализ точности определения оценок коэффициентов регрессии

Предметная область: Математика и математический анализ

Описание: Анализ точности определения оценок коэффициентов регрессии В силу случайного отбора элементов данных в выборку случайными являются также оценки и коэффициентов и теоретического уравнения регрессии. Их математические ожидания при выполнении предпосылок об отклон

Дата добавления: 2013-04-03

Размер файла: 69.28 KB

Работу скачали: 39 чел.

Анализ точности определения оценок коэффициентов регрессии

В силу случайного отбора элементов данных в выборку, случайными являются также оценки и коэффициентов и теоретического уравнения регрессии. Их математические ожидания при выполнении предпосылок об отклонении равны соответственно . При этом оценки тем надежнее, чем меньше их разброс вокруг и , т.е. чем меньше дисперсии и оценок. Очевидно, надежность полученных оценок тесно связана с дисперсией случайных отклонений . Фактически ] является дисперсией переменной относительно линии регрессии (дисперсией , очищенной от влияния X ). Полагая все измерения равноточными, считаем, что все эти дисперсии равны между собой .

Покажем связь дисперсий коэффициентов и с дисперсией случайных отклонений . С этой целью представим зависимости коэффициентов и (формулы (11.7) и (11.8)) в виде линейных функций относительно значений зависимой переменной :

Так как , и введя обозначение

Обозначим , тогда окончательно получим:

Полагая, что дисперсия постоянная и не зависит от значений , можно рассматривать и как некоторые постоянные. Следовательно,

Из (12.3) и (12.4) можно сделать ряд выводов.

  1. Дисперсии и прямо пропорциональны дисперсии случайного отклонения .
  2. Чем больше дисперсия независимой (объясняющей) переменной (разброс значений ), тем меньше дисперсия оценок коэффициентов.

Ввиду того, что случайные отклонения по выборке определены быть не могут, при анализе надежности оценок коэффициентов регрессии они заменяются отклонениями значений переменной от оцененной линии регрессии. Дисперсия случайных отклонений заменяется ее несмещенной оценкой.

В этих выражениях – необъясненная дисперсия (мера разброса зависимой переменной относительно линии регрессии). Корень квадратный из необъясненной дисперсии, т.е. , называется стандартной ошибкой оценки ( стандартной ошибкой регрессии ). Стандартные отклонения случайных величин и называются стандартными ошибками коэффициентов регрессии .

Проверка гипотез относительно коэффициентов линейной регрессии

Эмпирическое уравнение регрессии определяется на основе конечного числа статистических данных. Поэтому коэффициенты эмпирического уравнения регрессии являются СВ, изменяющимися от выборки к выборке. При проведении статистического анализа перед исследователем зачастую возникает необходимость сравнения эмпирических коэффициентов регрессии и с некоторыми теоретически ожидаемыми значениями и этих коэффициентов.

Данный анализ производится в рамках статистической проверки параметрических гипотез.

Показано, что в предположении нормальности распределения при данном значении , оценки и являются несмещенными оценками и соответственно. Их выборочные распределения связаны с
распределением (Стьюдента), которое имеет степени свободы.

На первом этапе анализа наиболее важной является задача установления линейной зависимости между переменными и . С этой целью сформулируем гипотезы:

линейная зависимость отсутствует, коэффициент угла наклона прямой незначимо отличается от нуля;

линейная зависимость значительная и коэффициент угла наклона не равен нулю.

При проверке гипотезы воспользуемся статистикой:

Аналогичным образом проверяется гипотеза о статистической значимости нулю коэффициента регрессии (свободный член линейного уравнения равен нулю):

Интервальные оценки коэффициентов линейной регрессии

Как указывалось выше, коэффициенты регрессии и являются нормально распределенными СВ, с соответствующими дисперсиями, т.е. . Тогда следующие статистики

имеют распределение Стьюдента с числом степеней свободы . Тогда, для построения доверительного интервала с заданной доверительной вероятностью найдем по статистическим таблицам критические значения:

С учетом (12.10) получим:

Если разрешить неравенства в формулах (12.12) относительно неизвестных коэффициентов регрессии и то получим соответствующие доверительные интервалы

Которые с доверительной вероятностью накрывают определяемые параметры (теоретические коэффициенты регрессии).

Особый интерес представляет выборочное распределение при конкретном значении . Так как ведет себя как СВ, распределенная по нормальному закону, для нее тоже можно построить доверительный интервал. Соответствующая статистика имеет вид:

В выражении (12.14) величина это выборочное стандартное отклонение наблюденного значения от предсказанного , равное

Т.о. формулы (12.13 – 12.15) дают возможность построить доверительные интервалы для неизвестных параметров , и , по оценкам и .

Пример 1. ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Имеется, выборка пар чисел рост студента (сантиметры), вес (масса) (килограммы).

  1. Определим прямую регрессию, задающую линейный прогноз средней массы студента по его росту.
  2. Найдем также 95% доверительный интервал для средней массы студентов, имеющих рост 178 см.

По формуле (11.8) вычислим

По формуле (11.7) находим .

Т.о. прямая регрессии, оценивающая среднюю массу студента по его росту, имеет вид:

Отсюда, для роста получим . Теперь для построения доверительного интервала для средней массы по оценке вычислим

Теперь по формуле (12.14) Вычислим 95% доверительный интервал:

А также другие работы, которые могут Вас заинтересовать

Анализ точности оценки коэффициентов регрессии. Стандартные ошибки регрессии и коэффициентов регрессии. Проверка гипотез относительно коэффициентов регрессии. Интервальные оценки коэффициентов регрессии. Показатели качества уравнения регрессии. Коэффициент детерминации. Критерий Фишера. Интервалы прогноза по уравнению регрессии.

§5.2. АНАЛИЗ ТОЧНОСТИ ОЦЕНОК КОЭФФИЦИЕНТОВ
РЕГРЕССИИ

5.2.1. Оценка дисперсии случайного отклонения s 2

Проведем статистический анализ построенного уравнения регрессии, т.е. выясним насколько надёжны полученные оценки коэффициентов регрессии; как хорошо полученное уравнение регрессии описываем имеющиеся статистические данные, может быть следует изменить спецификацию модели; оценить точность прогноза, т.е. построить доверительный интервал для зависимой переменной. Для того чтобы провести такой статистический анализ модели, нужно, как мы видели в предыдущей лекции, знать закон распределения случайной величины e. При построении уравнения регрессии МНК такой информации не требовалось (в этом одно из преимуществ МНК), однако для проведения статистического анализа такая информация востребована. В дальнейшем мы будем работать в рамках нормальной классической регрессионной модели, т.е. выполняются все условия Гаусса-Маркова и, в частности, e подчиняется нормальному закону распределения. Вообще говоря, выполнимость этих условий ещё надо проверить, в данной лекции мы будем предполагать, что эти условия априори выполняются.

Сформулированные выше статистические свойства МНК-оценок коэффициентов регрессии справедливы и без предположения о нормальности случайного отклонения e. Однако, даже располагая информацией о состоятельности, несмещённости и оптимальности оценок, мы не можем решить задачи о построении доверительных интервалов для истинных значений рассматриваемых параметров, так же как и для неизвестных значений функции регрессии. Необходимой базой для решения этих задач является знание законов распределения вероятностей используемых оценок. Именно в рамках нормальной классической линейной регрессионной модели можно решить вопросы о значимости коэффициентов регрессии и построении для них доверительных интервалов, о качестве построенного уравнения регрессии в целом, о точности прогноза по этому уравнению.

В силу того, что случайные отклонения ei по выборке определены быть не могут, при анализе надежности оценок коэффициентов регрессии они заменяются отклонениями значений yi переменной Y от оцененной линии регрессии. Не следует путать эмпирические отклонения ei с теоретическими отклонениями ei. И те и другие являются случайными величинами, однако разница состоит в том, что эмпирические отклонения, в отличие от теоретических, наблюдаемы.

Кажется вполне естественной гипотеза, что оценка s 2 связана с суммой квадратов остатков регрессии . В самом деле,

Вычислим математическое ожидание .

Используя соотношение , получаем

Отсюда следует, что

является несмещенной оценкой дисперсии случайного отклонения s 2 . Отметим, что S называется стандартной ошибкой регрессии,

Отметим, что в математической статистике для получения несмещенной оценки дисперсии случайной величины соответствующую сумму квадратов отклонений от средней делят не на число наблюдений n, на число степеней свободы n–m, равное разности между числом независимых наблюдений случайной величины n и числом связей, ограничивающих свободу их измерения, т.е. число m уравнений, связывающих эти наблюдения. Поэтому в знаменателе выражения (5.34) стоит число степеней свободы n–2, т.к. две степени свободы теряются при определении двух параметров прямой из системы нормальных уравнений.

5.2.2.Проверка гипотез относительно коэффициентов
регрессии

Эмпирическое уравнение регрессии определяется на основе конечного числа статистических данных. Поэтому коэффициенты эмпирического уравнения регрессии являются случайными величинами, изменяющимися от выборки к выборке. Наиболее важной на начальном этапе статистического анализа построенной модели является задача установления значимости коэффициентов регрессии. Данный анализ осуществляется по схеме статистической проверки гипотез.

Можно показать, что в случае классической нормальной линейной регрессионной модели оценка дисперсии S 2 случайных отклонений является независимой от b0 и b1 случайной величиной. Это позволяет построить статистики для проверки статистических гипотез.

В предыдущей лекции мы получили дисперсии оценок b0 и b1 коэффициентов регрессии в том случае, если s 2 известно. На практике, как правило, дисперсия отклонений s 2 неизвестна и оценивается по наблюдениям одновременно с коэффициентами регрессии b0 и b1. В этом случае вместо дисперсий оценок b0 и b1 мы можем получить лишь оценки дисперсий b0 и b1, заменив s 2 на S 2 . Тогда

Величины и называются стандартными ошибками коэффициентов регрессии коэффициентов b0 и b1, соответственно.

Для проверки гипотезы H0:b1=b1 при альтернативной гипотезе H1:b1¹b1 используется статистика

которая при справедливости H0 имеет распределение Стьюдента с числом степеней свободы k=n–2. Следовательно, H0 отклоняется на основании данного критерия, если

где a – требуемый уровень значимости. При невыполнении (5.39) считается, что нет оснований для отклонения H0.

Наиболее важной на начальном этапе статистического анализа построенной модели является проверка гипотезы H0:b1=0 при альтернативной гипотезе H1:b1¹0. Гипотеза в такой постановке называется гипотезой о статистической значимости коэффициента регрессии. При этом, если гипотеза H0 принимается, то есть все основания считать, что величина Y не зависит от X. В этом случае говорят, что коэффициент b1 статистически незначим. При отклонении гипотезы H0 коэффициент b1 считается статистически значимым, что указывает на наличие линейной зависимости между Y и X. В данном случае рассматривается двусторонняя критическая область, т.к. важным является именно отличие от нуля коэффициента регрессии, а он может быть как положительным, так и отрицательным.

Поскольку полагается, b1=0, то формальная значимость оцененного коэффициента регрессии b1 проверяется при помощи критерия

который называется t-статистикой (t-тестом).

По аналогичной схеме на основе t-статистики проверяется гипотеза о статистической значимости коэффициента b0:

Отметим, что для парной регрессии более важным является анализ статистической значимости коэффициента b1, т.к. именно в нем скрыто влияние объясняющей переменной X на зависимую переменную Y.

Отметим также, что значения критериев (5.40) и (5.41) приводят всеми компьютерными пакетами в результатах регрессии. В учебниках и монографиях по эконометрике наблюдаемые значения t-критерия Стьюдента (или стандартные ошибки) указываются вместе с уравнением регрессии под соответствующим коэффициентом:

Пример 5.3. Проверить значимость коэффициентов регрессии, полученных в
примере 5.1 (см. лекцию 4).

Решение. По данным таблицы 5.2 найдем оценку дисперсии случайного отклонения, т.е. квадрат стандартной ошибки регрессии:

Следовательно, наблюдаемое значение t-критерия Стьюдента коэффициента b1 равно

Критическое значение t-критерия Стьюдента на уровне значимости a=0,05 равно

Поскольку , то нулевая гипотеза отвергается в пользу альтернативной при выбранном уровне значимости. Это подтверждает статистическую значимость коэффициента регрессии b1.

Аналогично проверяется статистическая значимость коэффициента b0:

Тогда наблюдаемое значение t-критерия Стьюдента коэффициента b0 будет равно

Поскольку , то нет оснований отклонять гипотезу о статистической незначимости коэффициента b0.

Таким образом, результаты анализа можно представить в виде

Интервальные оценка коэффициентов регрессии

Предположение о нормальном распределении случайных отклонений ei с нулевым математическим ожиданием и постоянной дисперсией, т.е. , позволяет получать не только наилучшие линейные несмещенные точечные оценки (BLUE-оценки) b0 и b1 коэффициентов b0 и b1 коэффициентов линейного уравнения регрессии, но и находить их интервальные оценки.

Здесь исходят из того, что случайные величины b0 и b1 при указанных выше предположениях имеют нормальные распределения:

будут иметь стандартное нормальное распределение. Однако в выражениях для b0 и b1 дисперсия заменяется ее оценкой S 2 . Поэтому выражения

будут иметь t-распределение Стьюдента с k=n–2 степенями свободы.

Для построения доверительных интервалов с помощью таблиц критических точек распределения Стьюдента по доверительной вероятности g=1–a и числу степеней свободы k=n–2 определяют критическое значение , удовлетворяющее условию

Подставив сюда каждую из формул (5.36), получим

После преобразований выражений, стоящих в скобках, имеем:

Таким образом, доверительные интервалы для коэффициентов регрессии будут иметь следующий вид

которые с вероятностью g=1–a накрывают определяемые параметры b0 и b1.

Пример 5.4. Найти интервальные оценки для примера 5.1, 5.3 с уровнем надёжности a=0,05.

Решение. В примерах 5.1-5.2 было найдено:

Тогда по формулам (5.46) находим для коэффициента b0:

Таким образом, с вероятностью 0,95 коэффициент регрессии b0 принимает значения из интервала . Поскольку ноль также попадает в этот интервал, то, как и следовало ожидать, коэффициент b0 не является значимым.

Для коэффициента b1 получаем следующие результаты:

Таким образом, с вероятностью 0,95 коэффициент регрессии b1 принимает значения из интервала . Поскольку D1 значительно меньше b1, то точность прогноза, связанного с этим коэффициентом будет достаточно высокой. â

Анализ экспериментальных данных, полученных в виде набора значений двух зависимых величин. Вывод о связи между величинами на основании вычисления коэффициента корреляции, построение уравнения линейной регрессии. Прогнозирование зависимой величины.

Рубрика Экономико-математическое моделирование
Вид реферат
Язык русский
Дата добавления 30.01.2018
Размер файла 555,9 K

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Оглавление

    Введение
  • Корреляция и регрессия
  • Вычисление коэффициента корреляции
  • Уравнение линии регрессии
  • Таблицы результатов
  • Структура программы и результаты её работы
  • Заключение
  • Список литературы

Введение

В данной работе будет произведён анализ экспериментальных данных, полученных в виде набора значений двух зависимых величин. Будет сделан вывод о связи между ними на основании вычисления коэффициента корреляции и построено уравнение линейной регрессии. Полученная зависимость будет использована для прогнозирования зависимой величины.

Коэффициент корреляции используется для обозначения силы линейных взаимоотношений между двумя переменными. Регрессионный анализ используют для оценки уравнения, которое в наибольшей степени соответствует совокупности наблюдений зависимых и независимых переменных. С помощью оцененного таким образом уравнения можно предсказать, каково будет значение зависимой переменной для данного значения независимой переменной.

Структура и объем работы. Расчетно-графическая работа состоит из введения, 5 разделов, заключения и библиографического списка. Она содержит 4 рисунка и 5 таблиц. Объем работы - 20 страниц машинописного текста. Библиографический список включает 3 наименования.

Корреляция и регрессия

Одним из важных методов анализа экспериментальных данных является корреляционный анализ. Он позволяет установить наличие и степень связи между случайными величинами [1].

Простая связь означает наличие двух случайных переменных. Множественная связь предполагает действие нескольких переменных.

Корреляционный анализ отвечает на следующие вопросы:

1. Существует ли связь между переменными?

2. Какой тип имеет эта связь?

3. Насколько сильна эта связь?

4. Какой прогноз можно сделать с учётом этой связи?

Примером простой связи является измерение роста и веса пациентов при врачебном осмотре, или зависимость годового объема продаж от средств, потраченных на рекламу. В качестве множественной связи можно представить зависимость ощущения температуры человеком в зависимости от температуры воздуха и влажности. Кроме того, важно установить и направление связи. Какая переменная оказывает влияние, а какая является зависимой? Например, при установлении связи между затратами на рекламу и прибылью, очевидно, независимой переменной являются затраты на рекламу.

Независимая переменная - это та, значение которой можно изменять. Зависимая переменная - это переменная, которую нельзя менять по желанию исследователя.

Её значение является следствием определённого числа скрытых причин. Для выявления зависимости переменных можно строить графическое представление данных и визуально определять, имеет место зависимость и каково её направление.

корреляция регрессия зависимая величина

Предположим, что в результате эксперимента измеряются две случайные величины и . Их выборки представляют собой пары чисел (точки):

где - число испытаний. Вместе с анализом величин и по отдельности, нужно исследовать их возможную зависимость. Является ли эти величины независимыми? Если же между ними имеется зависимость, то какого рода?

Если между переменными имеется связь, то говорят, что и коррелированы. Для определения такого рода зависимости вычисляют величину, называемую коэффициентом корреляции . В случаях, когда других переменных нет, его обозначают просто . Эта величина помогает установить характер связи между исследуемыми переменными:

Чем ближе значение к нулю, тем слабее корреляция. Если же близок к или , тем корреляция сильнее, то есть зависимость между и близка к линейной. В случае, если или , все точки выборки лежат на одной прямой.

Таким образом, коэффициент корреляции отражает степень именно линейной зависимости между исследуемыми величинами. При наличии зависимости другого вида (например, кубической) он может быть близок к нулю.

Приведём формулы для вычисления .

Существует общепринятая шкала для интерпретации значений коэффициента корреляции.

Таблица 1.1 Шкала интерпретации

Уровень связи между переменными

Очень высокая положительная

Очень высокая отрицательная

Если коэффициент корреляции близок к единице, то линейная зависимость существует, и этим можно воспользоваться для прогнозирования числа зрителей. Для этого применяется регрессионный анализ, тесно связанный с корреляционным.

Когда установлена линейная связь между переменными, исследователи должны рассмотреть возможные виды связи и выбрать ту, которая диктуется логикой данного исследования. Существует несколько видов связи.

Прямая причинно-следственная связь между исследуемыми переменными. В этом случае переменная влияет на переменную . Например, наличие воды ускоряет рост растений, а яд вызывает смерть.

Обратная причинно-следственная связь. В этом случае переменная влияет на значение . Можно предположить, что употребление большого количества чая вызывает нервозность. Но также может быть, что нервный человек пьет чай, чтобы успокоиться.

Связь между исследуемыми переменными может быть вызвана третьей переменной. Например, исследователем установлено, что существует определённая корреляция между числом посещений магазинов вечером в холодную погоду и уменьшением продаж прохладительных напитков. Очевидно, несмотря на зависимость, причиной обоих этих явлений является третье явление - холодная погода.

Взаимосвязь между несколькими переменными. Можно обнаружить связь между оценками студентов в академии и их оценками в школе. Но в этом случае могут действовать и другие переменные: уровень мотивации, жизненные обстоятельства, значимость предмета для студента.

Кроме всего вышеперечисленного, зависимость между событиями может быть случайна. Исследователь может найти значимую зависимость между уменьшением числа мышей весной и ростом солнечной активности. Но здравый смысл говорит о том, что связь между этими переменными случайна.

Таким образом, коэффициент корреляции показывает исследователю не причинно-следственную связь между событиями, а наличие линейной связи между ними и степень этой связи.

На рисунке 1 (с линейно расположенными точками) видно, что зависимость имеет приближенно линейный характер. Значения переменных расположены вокруг некоей прямой линии. Она называется линией регрессии. Для её построения несколько способов. Один из них - непосредственный. Если представить натянутую нить между двумя точками на рисунке, то можно выбрать визуально наиболее подходящее положение. Если после этого нарисовать эту нить, то при помощи измерений можно определить уравнение этой прямой. Эта грубая оценка пригодна в некоторых случаях. Также для этой цели существует несколько методов. Рассмотрим один из них, называемый методом наименьших квадратов.

Если установлена линейная связь между переменными и , то можно отыскать функцию вида , выражающую зависимость от .

Пусть даны пары чисел (иначе говоря, точек)

Требуется найти такую прямую, чтобы сумма квадратов отклонений координат этих точек от прямой была как можно меньше.

Это означает, что выражение

должно быть минимальным.

Рисунок 1.1 Иллюстрация метода наименьших квадратов

Это выражение представляет собой функцию двух переменных и , поскольку результаты наблюдений и заданы. Это выражение принимает минимальное значение, если величины и связаны соотношениями

Эта система имеет единственное решение

Отыскав значения и , мы сможем записать уравнение прямой, наилучшим образом выражающую статистическую связь между переменными и . Эта прямая называется прямой регрессии на .

После отыскания коэффициентов линии регрессии, можно оценить качество приближения результатов наблюдений. Подставив в выражение

Найденные значения и , вычислим среднюю квадратичную погрешность, иначе называемую ошибкой уравнения регрессии.

Эта величина отражает среднюю длину вертикальных отклонений исследуемых точек от прямой регрессии. Чем меньше , тем ближе результаты наблюдений к прямой регрессии.

Вычисление коэффициента корреляции

Рассмотрим задачу, решаемую администрацией концертного зала, в котором проходят массовые мероприятия. Перед каждым мероприятием нужно организовать работу вспомогательных служб. Для этого необходимо оценить, сколько зрителей посетит мероприятие. Один из способов решения этой задачи - учёт предыдущего опыта. Например, можно предположить, что число зрителей в определённый день зависит от того, сколько билетов было продано за день до мероприятия. Разумеется, зрителей будет больше, чем продано билетов днём раньше, но можно предположить, что в день самого мероприятия зависимость числа купленных билетов от времени сохранит линейный вид, Иными словами, билеты покупаются равномерно. Пусть данные первых шести мероприятий в этом месяце следующие:

Гост

ГОСТ

Исследование явлений и процессов экономического характера во многом базируется на изучении характеризующих их статистических связей между переменными. Чаще всего, исследователи в данном случае обращаются к методам корреляционного и регрессионного анализа.

Сущность корреляционного анализа и особенности его проведения

Корреляционный анализ позволяет дать оценку силе статической связи. То есть с помощью этого метода можно установить существование связи между изучаемыми экономическими явлениями или её отсутствие, а также определить её силу. Если один признак изменяется в соответствии с изменением другого признака, то говорят о существовании между ними корреляционной связи (то есть согласованного изменения признаков).

Корреляция бывает парной, когда изучается взаимосвязь между двумя признаками, и множественной, когда изучается взаимосвязь между тремя или большим числом признаков.

Математической мерой корреляции изучаемых величин служит коэффициент корреляции или корреляционное отношение. Чаще всего в корреляционном анализе используют коэффициент корреляции, который представляет собой количественную оценку направления и тесноты связи величин, являющихся объектами экономического исследования.

Коэффициент корреляции изменяется в пределах от -1 до 1. Если он равен нулю, то какая-либо связь отсутствует. Положительное значение связи говорит о наличии прямой связи, отрицательное – обратной связи. Чем связь сильнее, тем значение коэффициента ближе к единице. Обычно высокой степени взаимосвязи (тесной связи) соответствует значение коэффициента, превышающее 0,7.

Наибольшее распространение в статистике и экономике нашёл линейный коэффициент корреляции (или коэффициент корреляции Пирсона). Конкретное значение этого коэффициента представляет собой отношение ковариации изучаемых величин к произведению их средних квадратичных отклонений. Хотя также может использовать прием ранжирования, который имеет место быть в коэффициентах ранговой корреляции Кендалла и Спирмена.

Готовые работы на аналогичную тему

Регрессионный анализ и особенности его проведения

Использование регрессионного анализа позволяет определить характер взаимосвязи между изучаемыми явлениями. В процессе построения математической (регрессионной) модели определяется форма зависимости между случайными величинами, которая затем подвергается исследованию.

Регрессионный анализ – это раздел математической статистики, в рамках которого изучается связь между зависимой переменной и одной или несколькими независимыми переменными.

Проведение регрессионного анализа ориентировано на достижение следующих целей:

  • установление степени детерминированности вариации зависимой (критериальной) переменной от независимых переменных (предикторов);
  • предсказание значения зависимой переменной при конкретных значениях независимых переменных;
  • определение того, какой вклад отдельные независимые переменные вносят в вариацию зависимой переменной.

В общем случае регрессионная модель имеет вид y = f (x, b0, b1, b2 … bk), где x – независимая переменная, y – зависимая переменная, а параметры b0, b1, b2 … bk называются коэффициентами регрессии. Оценка последних является одной из главных задач регрессионного анализа. Для этого используют метод наименьших квадратов. Он заключается в подборе таких параметров, при которых сумма квадратов отклонений наблюдаемых значений от рассчитанных по регрессионной модели приобретает минимальное значение.

Наиболее часто используется регрессионная модель, в рамках которой связь (зависимость) между переменными принимается в линейном виде. Это означает, что формула приобретает вид y = b0 + b1 ⋅ x + e, где b0 и b1 – это коэффициенты линейной регрессии. Значения этих коэффициентов определяются в результате решения следующей системы уравнений:

b0 • a + b1 ⋅ Σx = Σy

b0 • Σx + b1 ⋅ Σ(x^2) = Σ(x ⋅ y)

где а – это количество пар значений изучаемых переменных.

Коэффициент b1 показывает то, насколько изменится переменная y при изменении показателя x на единицу. Коэффициент b0 считается независимой частью переменной y, то есть при отсутствии какого-либо действия всех других факторов переменная у будет равна b0.

Стоит также обратить внимание на то, что в формуле линейной регрессии имеет место такое слагаемое, как е. Им обозначается та часть переменной у, которая определяется не переменной х, а другими факторами. Значение данного параметра может быть получено в результате вычитания из значения рассчитанной переменной у (по формуле y = b0 + b1 ⋅ x) фактического значения переменной у при данном значении переменной х.

Интерпретированное подобным образом значение е может быть также рассмотрено как отклонение, или абсолютная ошибка аппроксимации. Для того, чтобы избежать отрицательных или нулевых значений это отклонение возводят в модуль. Если данное отклонение поделить на фактическое значение у и умножить на 100%, то будет получена относительная ошибка аппроксимации.

Сумма этих относительных ошибок, деленная на количество изучаемых явлений, представляет собой среднюю ошибку аппроксимации. Она позволяет оценить то, насколько хорошо сформированная регрессионная модель характеризует взаимосвязь явлений. Как правило, допустимый предел значения средней ошибки аппроксимации находится на уровне 10%.

Значимость коэффициента b1 определим с помощью t-критерия Стьюдента (табличные значения критерия приведены в Приложении 4). Рассчитаем опытное значение критерия:


При этом среднеквадратическое отклонение коэффициента b1 найдем по формуле:


,

где остаточное среднеквадратическое отклонение найдем:





Поскольку , то и коэффициент b1, как и все уравнение регрессии, является значимым.

Таким образом, можно считать, что предполагаемая зависимость стоимости квартиры от ее размера подтвердилась и статистически установлена.

Проверим значимость выбранного коэффициента с помощью критерия Фишера:




Наблюдаемое значение F–критерия превышает табличное: 34,083 > 4,75, т.е. выполнено неравенство , а значит, в 95 % случаев уравнение регрессии статистически значимо и отражает существенную зависимость между размером цены квартиры от ее жилой площади. Уравнение можно признать надежным и значимым, доказывающим наличие исследуемой зависимости.


Доверительный интервал для рассчитывается по формуле:


При выбранной надежности g=0,95 получим:

, откуда .

Таким образом, с надежностью 95% можно утверждать, что истинное значение параметра b1 будет заключено в пределах от 0,3227 до 0,7193.

7. Рассчитаем прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от среднего уровня.

Полученные оценки уравнения регрессии позволяют использовать его для прогноза численных значений стоимости жилой площади. Но как уже говорилось, точность модели невысока.


В случае увеличения фактора на 10 % от своего среднего значения размер данного увеличения составит:


Прогнозное значение фактора при этом составит:



Т.е. по модели предсказываем, что если жилая площадь квартиры, увеличившись на 10 % от своего среднего значения, составит 42,12 условных единиц, то ожидаемая (прогнозная) величина ее стоимости составит 31,25 условных единиц.

Доверительный интервал для среднего размера стоимости квартиры при условии, что ее жилая площадь составляет х = 42,12 условных единиц с надежностью g=0,95:



где стандартная ошибка для средних значений:


Т.е. средний размер стоимости жилой площади размером 42,1223 условные единицы находится в границах от 27,2719 до 35,2375 условные единицы.

Доверительный интервал для индивидуальных значений размера стоимости квартир с жилой площадью 42,1223 условные единицы с надежностью g=0,95:



,

где стандартная ошибка для индивидуальных значений:


Таким образом, если размер жилой площади будет находиться на уровне 42,1223 условные единицы, то возможный размер ее стоимости в 95% случаев может находиться внутри интервала от 16.046 до 46.463 условные единицы. Этот интервал определяет границы, за пределами которых могут оказаться не более 5% значений стоимости квартир, которые могли быть зафиксированы при размере их жилой площади в 42,1223 условные единицы.

Выводы, сделанные ранее подтвердились. Интервальный прогноз не отличается высокой точностью, но вполне пригоден для практического использования.

8. Полученные результаты позволяют сделать следующие выводы:

Статистически значимый коэффициент регрессии b1 и коэффициент корреляции rух свидетельствуют о наличии сильной зависимости стоимости квартиры от размера ее жилой площади. Можно считать, что наличие этой зависимости статистически доказано, направление и общая тенденция отражена уравнением регрессии верно и согласуется с экономической теорией. Высокое значение коэффициента детерминации R 2 указывает, что на формирование стоимости квартир существенное влияние оказывает именно размер их жилой площади и в значительно меньшей мере (порядка 26 %) - другие экономические факторы.

С другой стороны, относительная ошибка аппроксимации свидетельствует, что модель подобрана не точно: в среднем теоретические (смоделированные данные) отличаются от фактических на 19,8 %. В целом применение полученного уравнения регрессии возможно в случае повышения его прогностической силы и практической ценности за счет увеличения объема выборки.

Задача 2

В исходной таблице (вариант 8) представлены статистические данные о различных параметрах уровня жизни населения в 2004 г.:

Читайте также: