Измерение тесноты связи между показателями анализ матрицы коэффициентов парной корреляции реферат

Обновлено: 05.07.2024

Чем меньше теоретическая линия регрессии, рассчитанная по уравнению, отклоняется от фактической (эмпиричной), тем меньше средняя ошибка аппроксимации. В экономических расчетах допускается погрешность до 5−8%, в этом случае исследуемое уравнение связи довольно точно описывает изучаемые зависимости. Средняя разрывная нагрузка полосы подкладочной ткани равна = 229 Н, среднее квадратическое… Читать ещё >

Корреляционный анализ ( реферат , курсовая , диплом , контрольная )

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

6 курса Страздина С.Ю.

Корреляционный анализ Корреляционный анализ — это совокупность методов обнаружения так называемой корреляционной зависимости между случайными величинами.

Задачи корреляционного анализа сводятся к измерению тесноты известной связи между варьирующими признаками, определению неизвестных причинных связей (причинный характер которых должен быть выяснен с помощью теоретического анализа) и оценки факторов, оказывающих наибольшее влияние на результативный признак.

Этапы проведения корреляционного анализа

Многофакторный корреляционный анализ позволяет установить наличие, тесноту и форму связи между факторами и изучаемым показателем. Он состоит из нескольких этапов, деление на которые условно, так как отдельные стадии тесно связаны между собой.

1. На первом этапе определяются цели и задачи исследования и на основе качественного анализа подбираются факторы, которые предположительно влияют на изучаемый показатель.

При их подборе необходимо учитывать:

— наличие причинно-следственных связей между показателями;

— значимость факторов, то есть степень их влияния на результативный показатель;

— возможность количественного измерения фактора.

2. На втором этапе осуществляется сбор и первичная обработка исходной информации.

Совокупность данных должна быть достаточно большой. Информация должна соответствовать закону нормального распределения, согласно которому основная масса наблюдений по каждому показателю должна быть сгруппирована около его среднего значения.

Исходные данные должны быть качественно и количественно однородны. Качественная однородность предполагает приблизительно одинаковые условия и специфику формирования факторных и результативного признаков. Количественная однородность заключается в отсутствии таких наблюдений, которые значительно (аномально) отличаются от основной массы данных.

Критерием однородности информации служит среднеквадратическое отклонение и коэффициент вариации, которые рассчитываются по каждому факторному и результативному показателю. Среднеквадратическое отклонение показывает абсолютное отклонение индивидуальных значений от среднеарифметической, а коэффициент вариации характеризует относительную меру отклонения отдельных значений от среднеарифметической. Причем, чем больше коэффициент вариации, тем относительно больший разброс данных в совокупности.

Изменчивость вариационного ряда принято считать:

незначительной, если вариация не превышает 10%;

средней, если вариация составляет 10−20%;

значительной, если она больше 20%, но не превышает 33%. Если вариация больше 33%, то следует исключить из выборки нетипичные наблюдения.

3. На третьем этапе осуществляется моделирование связей между факторами и результативным признаком, т. е. решается вопрос о выборе формы связи.

На основе экономического и логического анализа природы и сущности изучаемого явления подбирается тип математического уравнения, которое наилучшим образом отражает характер изучаемых зависимостей.

Обоснование уравнения связи проводится с помощью группировки данных, построения графика и т. д.

Размещение точек на графике показывает, какая зависимость образовалась: прямолинейная или криволинейная.

Для парной корреляции прямолинейную зависимость описывает уравнение прямой

для множественной корреляции — уравнение линейной функции

где у — результативный показатель;

ао — постоянная величина, которая не связана с изменением факторов;

аi — коэффициенты при переменных в уравнении регрессии;

хi — факторные показатели (переменные).

Криволинейные зависимости в экономических исследованиях встречаются реже. Они могут быть описаны уравнением

параболы (у = а + bх + сх І);

гиперболы (у = а + b/х);

степенной, показательной и других функций.

Например, при увеличении возраста рабочих до определенного уровня наблюдается рост их производительности, а затем ее снижение. Такая зависимость может быть описана уравнением параболы второго порядка:

у = а + bх + схІ.

В случаях, когда трудно обосновать форму зависимости, решение задачи можно провести по разным моделям и сравнить полученные результаты. Наилучший вариант выбирается после оценки их по специальным критериям.

4. На четвертом этапе проводится расчет численных значений параметров регрессионного уравнения. Он осуществляется методом наименьших квадратов, при котором в случае прямолинейной зависимости прямая на графике пройдет наиболее близко к точкам фактических наблюдений. Для того решается система нормальных уравнений.

Построение уравнения регрессии проходит шаговым способом. При этом существуют два варианта:

а) сначала в расчет принимается один фактор, который является наиболее значимым, потом добавляется второй, третий и т. д. На каждом шаге рассчитываются уравнение связи, множественный коэффициент корреляции, коэффициент детерминации и статистические показатели, характеризующие надежность уравнения связи. Чем выше величины коэффициентов корреляции и лучше статистические характеристики, тем точнее уравнение связи описывает изучаемые зависимости. Если добавление новых факторов не улучшает оценочные показатели, то их надо отбросить и остановиться на том уравнении, где эти показатели наиболее оптимальны.

б) при втором варианте решение модели происходит в обратном порядке путем последовательного исключения наименее значимых факторов.

5. На пятом этапе дается статистическая оценка уравнения связи и экономическая интерпретация результатов корреляционного анализа (24, "https://referat.bookap.info").

Показатели оценки уравнения связи и экономическая интерпретация результатов корреляционного анализа

Показатели корреляции и регрессии, рассчитанные для определенного количества наблюдений, могут быть искажены действием случайных факторов. Для оценки надежности уравнения связи используют следующие критерии:

критерий Стьюдента (t);

критерий Фишера (F);

средняя ошибка аппроксимации;

коэффициенты множественной корреляции и детерминации.

Как уже отмечалось, эти показатели рассчитываются на каждом шаге построения уравнения регрессии.

Для оценки значимости коэффициентов корреляции используется t — критерий Стьюдента. При этом для каждого коэффициента расчетное значение t-критерия сравнивается с табличным, которое находится по таблице значений критериев Стьюдента. Если расчетное значение выше табличного, то величина коэффициента корреляции является значимой, а изучаемая связь между результативным показателем и факторами надежной. Также t-критерий Стьюдента используется для оценки значимости параметров уравнения регрессии. В этом случае его расчет проводится по другим формулам, а выводы делаются аналогично предыдущим.

Значимость и существенность регрессионного уравнения оценивается с помощью F-критерия Фишера, определяемого отношением общей дисперсии к остаточной. Для этого фактическая (рассчитанная) величина F-критерия сравнивается с табличной. Табличное значение определяется для принятого уровня значимости б (обычно б = 0,05) и количестве степеней свободы, которое рассчитывают по формуле

(m-1) / (n-m),

n — количество наблюдений.

Если F-критерий фактический больше F-критерия табличного, то уравнение регрессии значимо, а связь между изучаемым показателем и факторами существенна.

Средняя ошибка аппроксимации используется для статистической оценки точности уравнения связи и характеризует степень совпадения фактических (наблюдаемых) и расчетных значений результативного показателя.

Чем меньше теоретическая линия регрессии, рассчитанная по уравнению, отклоняется от фактической (эмпиричной), тем меньше средняя ошибка аппроксимации. В экономических расчетах допускается погрешность до 5−8%, в этом случае исследуемое уравнение связи довольно точно описывает изучаемые зависимости.

При изучении влияния количества наполнителя ?% на прочность пластика? МПа были получены следующие результаты:

Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований — от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.

Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.

В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.

Среди основных методов планирования, применяемых на разных этапах исследования, используют:

- планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;

- планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;

- планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);

- планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;

- планирование при изучении динамических процессов и т.д.

Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.

Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.

1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи различаютсяпо форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.


Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак[1].


Рисунок 2 – Прямая корреляция


Рисунок 3 – Обратная корреляция


Рисунок 4 – Отсутствие корреляции

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

1.2 Общая классификация корреляционных связей

В зависимости от коэффициента корреляции различают следующие корреляционные связи:

- сильная, или тесная при коэффициенте корреляции r>0,70;

Рассчитываем эмпирическую величину коэффициента корреляции по формуле расчета коэффициента корреляции Браве–Пирсона:


Определяем критические значения для полученного коэффициента корреляции по таблице. При нахождении критических значений для вычисленного коэффициента линейной корреляции Пирсона число степеней свободы рассчитывается как f = n – 2 = 8. rкрит =0,72 > 0,54 , следовательно, гипотеза Н1 отвергается и принимается гипотеза H0 , иными словами, связь между временем решения наглядно-образных и вербальных заданий теста не доказана[1].

1.7 Коэффициент ранговой корреляции Спирмена


Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборка (xi и yi) получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена ():


где dx и dy – ранги показателей xi и yi; n – число коррелируемых пар.


Коэффициент ранговой корреляции также имеет пределы 1 и –1. Если ранги одинаковы для всех значений xi и yi, то все разности рангов (dx - dy) = 0 и = 1. Если ранги xi и yi расположены в обратном порядке, то = -1. Таким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений xi и yi .

Когда ранги всех значений xi и yi строго совпадают или расположены в обратном порядке, между случайными величинами Х и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве-Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений xi и yi совпадают и = 1; если зависимость монотонно убывающая, то ранги обратны и = –1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами Х и Y.

Из формулы видно, что для вычисления необходимо сначала проставить ранги (dx и dy) показателей xi и yi, найти разности рангов (dx - dy) для каждой пары показателей и квадраты этих разностей (dx - dy) 2 . Зная эти значения, находятся суммы , учитывая, что всегда равна нулю. Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве-Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.

Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:


- если экспериментальные данные представляют собой точно измеренные значения признаков Х и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве-Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента при больших объемах выборки составляет 91,2% по отношению к точности оценки по коэффициенту корреляций;

- когда значения xi и (или) yi заданы в порядковой шкале (например, оценки судей в баллах, места на соревнованиях, количественные градации качественных признаков), т. е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут быть расставлены в определенном порядке.

Пример 2. Определить достоверность взаимосвязи между показателями веса и максимального количества сгибания и разгибания рук в упоре лежа у 10 исследуемых с помощью расчета рангового коэффициента корреляции, если данные выборок таковы:

xi ,кг~55; 45; 43; 47; 47; 51; 48; 60; 53;50

yi , кол-во раз ~ 26; 20; 25; 22; 27; 28; 16; 15; 18; 24

1. Расчет рангового коэффициента корреляции Спирмена произведем по формуле:


где: dx и dy — ранги показателей х и у ;

n — число коррелируемых пар или исследуемых.

2 Данные тестирования занести в рабочую таблицу и сделать необходимые расчеты.

Таблица 2 – Данные тестирования

xi dx yi dy

55 9 26 9 0 0
45 2 20 4 -2 4
43 1 25 7 -6 36
47 3.5 22 5 -1.5 2.25
47 3.5 7 8 -4.5 20.25
51 7 28 10 -3 9
48 5 16 2 3 9
60 10 15 1 9 81
53 8 18 3 5 25
50 6 24 6 0 0





= 0

= 186,5


Тогда

3. Сравнить расчетное значение рангового коэффициента корреляции(rф =-0,13) с табличным значением для n = 10 при α = 5% и сделать вывод.

Анализ взаимосвязей, присущих изучаемым процессам и явлениям, является важнейшей задачей статистических исследований. В тех случаях, когда речь идет о явлениях и процессах, обладающих сложной структурой и многообразием свойственных им связей, такой анализ представляет собой сложную задачу. Прежде всего, необходимо установить наличие взаимосвязей и их характер. Вслед за этим возникает вопрос о тесноте взаимосвязей и степени воздействия различных факторов (причин) на интересующий исследователя результат. Если черты и свойства изучаемых объектов могут быть измерены и выражены количественно, то анализ взаимосвязей может вестись на основе применения математических методов.

Содержание работы

Введение…………………………………………………………………………. 3
1. Основные понятия корреляционного и регрессионного анализа………..….4
2. Корреляционно-регрессионный метод анализа………………. …………. 7
3. Непараметрические показатели связи……………………………………….13
Заключение…………………………………………………………………….…20Список использованной литературы…………………………………………. 22

Содержимое работы - 1 файл

измерение тесноты связи.doc

1. Основные понятия корреляционного и регрессионного анализа………..….4

2. Корреляционно-регрессионный метод анализа………………. …………. 7

3. Непараметрические показатели связи……………………………………….13

Заключение…………………………………………………… ……………….…20Список использованной литературы…………………………………………. 22

Анализ взаимосвязей, присущих изучаемым процессам и явлениям, является важнейшей задачей статистических исследований. В тех случаях, когда речь идет о явлениях и процессах, обладающих сложной структурой и многообразием свойственных им связей, такой анализ представляет собой сложную задачу. Прежде всего, необходимо установить наличие взаимосвязей и их характер. Вслед за этим возникает вопрос о тесноте взаимосвязей и степени воздействия различных факторов (причин) на интересующий исследователя результат. Если черты и свойства изучаемых объектов могут быть измерены и выражены количественно, то анализ взаимосвязей может вестись на основе применения математических методов. Использование этих методов позволяет проверить гипотезу о наличии или отсутствии взаимосвязей между теми или иными признаками, выдвигаемую на основе содержательного анализа. Далее, лишь посредством математических методов можно установить тесноту и характер взаимосвязей или выявить силу (степень) воздействия различных факторов на результат.

Наиболее разработанными в математической статистике методами анализа взаимосвязей являются корреляционный и регрессионный анализ.

Анализ статистической, или корреляционной, связи предполагает выявление формы связи, а также оценку тесноты связи. Первая задача решается методами регрессионного анализа, вторая — методами корреляционного анализа. Регрессионный анализ сводится к описанию статистической связи с помощью подходящей функциональной зависимости. Корреляционный анализ позволяет оценивать тесноту связи посредством специальных показателей, причем выбор их зависит от вида функциональной зависимости, пригодной для адекватного описания рассматриваемой статистической взаимосвязи.

Целью данной работы является изучение тесноты связи. Для этого перед нами стоит ряд задач: для начала необходимо рассмотреть основные понятия анализа взаимосвязей, их цели и задачи. После чего остановимся на каждом конкретном методе измерения связи и выявим их основные направления и способы вычисления.

Основные понятия корреляционного и регрессионного анализа

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается – увеличение массы внесенных удобрений ведет к росту урожайности.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные – множественной.

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле – когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле – когда исследуется сила связи, и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными.

Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.

Корреляционно-регрессионный метод анализа

Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х.

Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии).

Могут иметь место различные формы связи:

прямолинейная

криволинейная в виде:

  • параболы второго порядка (или высших порядков)

Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений, которые должны отвечать требованию метода наименьших квадратов (МНК):

Если связь выражена параболой второго порядка ( ), то систему нормальных уравнений для отыскания параметров a0 , a1 , a2 (такую связь называют множественной, поскольку она предполагает зависимость более чем двух факторов) можно представить в виде

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции r.

Линейный коэффициент корреляции характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.

В теории разработаны и на практике применяются различные модификации формулы расчета данного коэффициента:

Производя расчет по итоговым значениям исходных переменных, линейный коэффициент корреляции можно вычислить по формуле:

Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выражаемая формулой:

Теснота связи между изучаемыми показателями при множественной корреляции определяется на основе различных коэффициентов. Чтобы уравнение регрессии достаточно адекватно отражало (аппроксимировало) реальные моделируемые социально-экономические процессы или явления должны быть соблюдены условия и требования множественного корреляционно-регрессионного анализа.

Корреляционно - регрессионный анализ: аналитическое выражение уравнения (прямолинейной, криволинейной) регрессии для многофакторной корреляционно-регрессионной модели. Определение параметров и их интерпретация.

Теснота связи между них измеряется отношением факторной дисперсии к общей дисперсии результативного признака, называемым индексом детерминации. Индекс детерминации характеризует долю вариации результативного признака под влиянием факторного признака в общей колеблемости результативного признака. Если между признаками имеется корреляционная связь, то по мере ее усиления, т.е. повышения тесноты связи между результативным и факторным признаками, индекс детерминации увеличивается, а по мере ослабления – уменьшается. Таким образом, индекс детерминации характеризует тесноту связи, близость корреляционной связи к функциональной.

Корень квадратный из индекса детерминации есть индекс корреляции или теоретическое корреляционное отношение. Индекс корреляции, или теоретическое корреляционное отношение, характеризует тесноту связи при любой форме зависимости. Остаточная дисперсия необходима для выбора наилучшей функции, которая в наибольшей степени выравнивает (аппроксимирует) эмпирическую линию регрессии. Аппроксимирующую функцию выбирают по минимуму остаточной дисперсии s 2 ост = S(yt–) 2 /nили .

При линейной форме связи параметр уравнения прямой – коэффициент регрессии а1 и коэффициент корреляции r взаимосвязаны следующим образом:

а1 = rsy/sx. При прямолинейной связи линейный коэффициент корреляции тождествен индексу корреляции, они численно равны: .

Линейный коэффициент корреляции r применяется для оценки тесноты связи при линейной зависимости: уравнения прямой = а01х

Для упрощения расчетов линейного коэффициента корреляции пользуются преобразованной формулой: .

Характер связи определятся величиной коэффициента корреляции:

r величина коэффициента корреляции характер связи
r = 0 до 0,3 практически отсутствует
0 tкрит.

при n при n 50), то нормальность распределения может быть подтверждена на основе расчета и анализа критериев Пирсона, Ястремского, Колмогорова, Боярского и др.;

· моделируемое явление или процесс описывается количественно (параметры должны иметь цифровое выражение) одним или несколькими уравнениями причинно-следственных связей. Причинно-следственные связи целесообразно описывать линейными или близкими к линейной форме зависимостями;

· постоянство территориальной и временной структуры изучаемой совокупности, отсутствие количественных ограничений на параметры модели;

· достаточность единиц совокупности: их количество должно быть в несколько раз больше, чем число факторов, включаемых в модель. На каждый фактор должно приходиться, как минимум, 5–6 наблюдений, т.е. число факторных признаков должно быть в 5–6 раз меньше объема изучаемой совокупности.

Основными этапами корреляционно-регрессионного анализа являются:

· предварительный теоретический анализ сущности явления, позволяющий установить причинно-следственные связи между признаками, выбрать наиболее важные факторы, решить вопрос об измерении результативного и факторных признаков;

· подготовка исходной информации, включающая вопросы достаточности единиц наблюдения, однородности совокупности изучаемых признаков и близости их распределения к нормальному;

· выбор формы связи между результативным признаком и факторами на основе перебора нескольких аналитических функций;

· исследование тесноты связи между результативным признаком и факторами, а также между факторами на основе построения матрицы парных линейных коэффициентов корреляции и отсев мультиколлинеарных факторов;

· отбор существенных (значимых) факторов, включаемых в многофакторную модель – уравнение множественной регрессии, на основе соответствующих статистических методов;

· расчет параметров уравнения множественной регрессии и оценка значимости отобранных факторов, коэффициентов корреляции и регрессии с помощью критериев t – Стьюдента и F – Фишера;

· анализ полученных результатов.

Взаимосвязи между признаками анализируются, как правило, на материале выборочных наблюдений, поэтому для проверки того, что полученные зависимости носят закономерный, а не случайный характер, оценивается значимость (существенность) показателей корреляции и регрессии.

Корреляционно - регрессионный анализ служит для оценки показателей бизнес–плана и нормативных уровней экономических показателей, отражающих эффективность использования производственных ресурсов, выявления имеющихся резервов производства, проведения сравнительного анализа, оценки потенциальных возможностей предприятий, краткосрочного прогнозирования развития производства.

Уравнение множественной регрессии позволяет найти теоретическое, возможное значение результативного показателя при определенных значениях факторных признаков.

Параметры уравнения множественной регрессии рассчитываются методом наименьших квадратов на основе решения системы нормальных уравнений. Для линейного уравнения регрессии с n факторами строится система из (n+1) нормальных уравнений:

Теснота связи между изучаемыми показателями при множественной корреляции определяется на основе различных коэффициентов.

Парные коэффициенты корреляции r измеряют тесноту линейной связи между факторами и между результативным признаком и каждым из рассматриваемых факторов без учета их взаимодействия с другими факторами

Частные коэффициенты корреляции характеризуют степень влияния факторов на результативный признак при условии, что остальные факторы закреплены на постоянном уровне. В зависимости от количества факторов, влияние которых исключается, частные коэффициенты корреляции могут быть первого порядка (при исключении влияния одного фактора), второго порядка (при исключении влияния двух факторов) и т.д.

Частный коэффициент корреляции первого порядка между y и х1 при исключении влияния х2 в двухфакторной модели рассчитывается по формуле: ,

где ryx1, ryx2, rx1x2– парные коэффициенты корреляции между соответствующими признаками.

Совокупный коэффициент множественной корреляции R оценивает тесноту связи между результативным признаком и всеми факторами. Это основной показатель линейной множественной корреляции. Для двухфакторной модели совокупный коэффициент множественной корреляции рассчитывается по формуле:

. Совокупный коэффициент корреляции R изменяется от 0 до 1. Чем меньше эмпирические значения результативного признака отличаются от выравненных по линии множественной регрессии, тем корреляционная связь между исследуемыми показателями теснее и совокупный коэффициент множественной корреляции ближе к единице.

Совокупный коэффициент множественной детерминации, равный R 2 , показывает, какая часть вариации результативного признака обусловлена влиянием факторов, включенных в модель.

Совокупный индекс множественной корреляции характеризует тесноту связи между результативным признаком и всеми факторами при криволинейной зависимости:

=, где – дисперсия результативного признака под влиянием факторов, включенных в модель; – остаточная дисперсия результативного признака, вызванная влиянием не учтенных моделью факторов. При линейной форме связи совокупный коэффициент и индекс множественной корреляции равны между собой.

Значимость коэффициента множественной корреляции R определяется по F – критерию Фишера. Определяется расчетное значение Fрасч, которое сравнивается с табличным значением Fкрит. Коэффициент множественной корреляции считается значимым при соблюдении соотношения: Fрасч > Fкрит.

n - число наблюдений, m - число параметров уравнения.

Оценка существенности включения фактора в модель осуществляется по частному F – критерию Фишера. Фактор считается значимым при соблюдении соотношения: Fрасч > Fкрит.

Для фактора х1 : ;

Для фактора х2 : .

Читайте также: