Частные коэффициенты корреляции реферат

Обновлено: 05.07.2024

В данном разделе мы обсуждаем чрезвычайно важное понятие корреляции и частных корреляций. Именно эти понятия лежат в основе статистических выводов, направленных на анализ зависимостей и взаимозависимостей, что является решающим для применения статистических методов на практике.

Действительно, сила статистических методов состоит в том, что они позволяют исследовать зависимость факторов. Материалы этого раздела основаны в основном на книге Кендалла и Стьюарта "Статистические выводы и связи" и снабжены нашими комментариями.

Эти материалы могут показаться техническими, однако они содержат вывод формул, позволяющих непосредственно вычислить частные коэффициенты корреляции, а также позволяют почувствовать саму идею частных корреляций. С помощью STATISTICA Вы можете вычислить частные корреляции двумя щелчками мыши.

Итак, перейдем к систематическому изложению теории частных корреляций.

1. В случае двух нормальных или почти нормальных величин коэффициент корреляции между ними может быть использован в качестве меры взаимозависимости и это подтверждено множеством практических результатов.

Однако при интерпретации "взаимозависимости" часто встречаются следующие трудности: если одна величина коррелирована с другой, то это может быть всего лишь отражением того факта, что они обе коррелированы с некоторой третьей величиной или с совокупностью величин, которые, грубо говоря, остаются за кадром и не введены в модель.

Указанная ситуация приводит к рассмотрению условных корреляций между двумя величинами при фиксированных значениях остальных величин. Это так называемые частные корреляции.

Далее имеют место следующие естественные рассуждения.

Если корреляция между двумя величинами уменьшается, если мы фиксируем некоторую другую случайную величину, то это означает, что их взаимозависимость возникает частично через воздействие этой величины; если же частная корреляция равна нулю или очень мала, то мы делаем вывод, что их взаимозависимость целиком обусловлена собственным воздействием и никак не связана с третьей величиной.

Наоборот, если частная корреляция больше первоначальной корреляции между двумя величинами, то мы заключаем, что другие величины ослабили связь, или, можно сказать, "скрыли" (замазали) корреляцию.

Еще одна тонкость состоит в том, что корреляция не есть причинность. Иными словами, следует помнить, что даже в последнем случае нашего рассуждения мы не имеем права безапелляционно говорить о наличии причинной связи: некоторая совершенно отличная от рассматриваемых в нашем анализе величина может быть источником этой корреляции.

Как при обычной корреляции, так и при частных корреляциях предположение о причинности должно всегда иметь собственные внестатистические основания.

2. В этой области статистики временами трудно достигнуть недвусмысленных и гибких обозначений без того, чтобы они были крайне громоздкими.

Основываясь на системе обозначений Юла (1907), мы будем придерживаться среднего курса, но иногда от читателя потребуется терпение к индексам.

Попутно мы будем рассматривать также линейную регрессию.

Частная корреляция трех величин

3. Вначале естественно рассмотреть три величины, имеющие трехмерное нормальное распределение и в этом простейшем случае выписать формулу для вычисления частных корреляций, т.е. корреляции пары переменных при фиксированном значении третьей.

Исключим вырожденный случай и без потери общности, поскольку мы касаемся лишь корреляций, будем считать величины нормированными.

Тогда их матрица рассеяния совпадает с матрицей их корреляций, которую назовем корреляционной матрицей и обозначим C. Таким образом, если корреляция между xi и xj есть pij, то функция плотности распределения этих трех величин имеет вид

где Cij - алгебраическое дополнение (i, j)-го элемента в симметричном корреляционном определителе

есть элемент матрицы, обратной к C. Мы будем иногда записывать определитель или матрицу корреляций в таком виде, когда оставлено свободным место ниже главной диагонали, которое должно заполняться по симметрии.

Находим характеристическую функцию (х. ф.) этого распределения

4. Рассмотрим корреляцию между x1 и x2 при фиксированном значении x3. Условное распределение x1 и x2 при заданном x3 равно

Из (4) видно, что при заданном x3 величины x1 и x2 имеют двумерное нормальное распределение с коэффициентом корреляции

Ясно, что p12.3 не зависит от фиксируемого значения величины x3. Кроме того, сокращая на общий множитель |C| из (2) находим

p12.3 называется частным коэффициентом корреляции между x1 и x2 при фиксированном x3. Он симметричен относительно первичных индексов 1, 2. Его вторичный индекс 3 относится к переменной, которая фиксирована.

Хотя (5) выведено в предположении нормальности, мы теперь для любого исходного распределения определим частный коэффициент корреляции с помощью (5). Итак, по определению, для величин, отличных от нормальных, частная корреляция также вычисляется по формуле (5).

Рассмотрим теперь общий случай.

Частная корреляция больше чем трех величин

5. В соответствии с общей концепцией мы рассуждаем следующим образом.

Пусть имеется p-мерное невырожденное нормальное распределение, фиксируем p-2 случайных величины, то получаем частную корреляцию оставшихся двух (скажем, x1 и x2):

где Cij - алгебраическое дополнение для pij в определителе

Подобно (5), (6) следует рассматривать как общее определение частного коэффициента корреляции между x1 и x2 при фиксированных x3, . xp.

6. Полезно рассмотреть ту же задачу с другой точки зрения. Обозначим f(x1, . xk | xk+1, . xp) условную совместную плотность распределения величин x1, . xk, когда xk+1, . xp фиксированы, а g(xk+1, . xp) - совместное маргинальное распределение xk+1, . xp.

Совместная х. ф. всех p величин есть

где - условная совместная х. ф. для x1, . xk. Из многомерной теоремы обращения следует, что

Если в (8) положить t1=t2=. =tk=0, то из равенства единице получаем

Следовательно, после деления (8) на (9) находим

Этот общий результат вытекает из теоремы Барлетта (1938).

Предположим теперь, что наши p величин имеют многомерное нормальное распределение.

Тогда, используя их х. ф., преобразуем подынтегральную функцию числителя в (10):

Теперь интеграл относительно tk+1, . tp от двух последних множителей в правой части (11) является обратным преобразованием многомерной нормальной х. ф. величин xk+1, . xp, причем xj отсчитывается от значения . Это изменение начал координат не влияет на корреляции.

Если обозначить D корреляционную матрицу величин xk+1, . xp, то с точностью до постоянного множителя интеграл от (11) будет равен

Учитывая сказанное, из (10) имеем

Таким образом, если обозначает ковариацию между xu и xv в условном распределении величин x1, . xk, а - их безусловную ковариацию, то, сравнивая в (12) коэффициенты при tu и tv находим

Это выражение получено в предположении, что исходные величины нормированы. Если теперь отказаться от нормировки, так что xi будет иметь дисперсию , то каждое p заменится на соответствующие ему , , D lj - на , и мы получим более общую формулу соотношения (13):

Равенство (14) не зависит от фиксируемых значений xk+1, . xp.

Если обозначить безусловную (k×k)-матрицу рассеяния <> через A, (k×(p-k))-матрицу <> через B' и ((p-k)×(p-k))- матрицу рассеяния, из которой D получается в результате нормировки, через E, то (14) утверждает, что условная матрица рассеяния равна

7. В частности, если зафиксировать только одну переменную, скажем xp, то Dpp=1, и условная ковариация (14) тогда равна

При u=v из (15) находим условную дисперсию u:

Из двух последних формул получаем условный коэффициент корреляции того же вида, что и (5):

Если зафиксируем все переменные, кроме двух, скажем x1 и x2, то из (14) будем иметь

Рассматривая (7), находим, что минор элемента p12, а именно

может быть разложен по его первой строке и столбцу в виде

и аналогично для миноров элементов p11, p22. Таким образом, (16) представимо в форме

Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований — от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.

Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.

В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.

Среди основных методов планирования, применяемых на разных этапах исследования, используют:

- планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;

- планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;

- планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);

- планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;

- планирование при изучении динамических процессов и т.д.

Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.

Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.

1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи различаютсяпо форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.


Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак[1].


Рисунок 2 – Прямая корреляция


Рисунок 3 – Обратная корреляция


Рисунок 4 – Отсутствие корреляции

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

1.2 Общая классификация корреляционных связей

В зависимости от коэффициента корреляции различают следующие корреляционные связи:

- сильная, или тесная при коэффициенте корреляции r>0,70;

Рассчитываем эмпирическую величину коэффициента корреляции по формуле расчета коэффициента корреляции Браве–Пирсона:


Определяем критические значения для полученного коэффициента корреляции по таблице. При нахождении критических значений для вычисленного коэффициента линейной корреляции Пирсона число степеней свободы рассчитывается как f = n – 2 = 8. rкрит =0,72 > 0,54 , следовательно, гипотеза Н1 отвергается и принимается гипотеза H0 , иными словами, связь между временем решения наглядно-образных и вербальных заданий теста не доказана[1].

1.7 Коэффициент ранговой корреляции Спирмена


Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборка (xi и yi) получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена ():


где dx и dy – ранги показателей xi и yi; n – число коррелируемых пар.


Коэффициент ранговой корреляции также имеет пределы 1 и –1. Если ранги одинаковы для всех значений xi и yi, то все разности рангов (dx - dy) = 0 и = 1. Если ранги xi и yi расположены в обратном порядке, то = -1. Таким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений xi и yi .

Когда ранги всех значений xi и yi строго совпадают или расположены в обратном порядке, между случайными величинами Х и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве-Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений xi и yi совпадают и = 1; если зависимость монотонно убывающая, то ранги обратны и = –1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами Х и Y.

Из формулы видно, что для вычисления необходимо сначала проставить ранги (dx и dy) показателей xi и yi, найти разности рангов (dx - dy) для каждой пары показателей и квадраты этих разностей (dx - dy) 2 . Зная эти значения, находятся суммы , учитывая, что всегда равна нулю. Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве-Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.

Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:


- если экспериментальные данные представляют собой точно измеренные значения признаков Х и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве-Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента при больших объемах выборки составляет 91,2% по отношению к точности оценки по коэффициенту корреляций;

- когда значения xi и (или) yi заданы в порядковой шкале (например, оценки судей в баллах, места на соревнованиях, количественные градации качественных признаков), т. е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут быть расставлены в определенном порядке.

Пример 2. Определить достоверность взаимосвязи между показателями веса и максимального количества сгибания и разгибания рук в упоре лежа у 10 исследуемых с помощью расчета рангового коэффициента корреляции, если данные выборок таковы:

xi ,кг~55; 45; 43; 47; 47; 51; 48; 60; 53;50

yi , кол-во раз ~ 26; 20; 25; 22; 27; 28; 16; 15; 18; 24

1. Расчет рангового коэффициента корреляции Спирмена произведем по формуле:


где: dx и dy — ранги показателей х и у ;

n — число коррелируемых пар или исследуемых.

2 Данные тестирования занести в рабочую таблицу и сделать необходимые расчеты.

Таблица 2 – Данные тестирования

xi dx yi dy

55 9 26 9 0 0
45 2 20 4 -2 4
43 1 25 7 -6 36
47 3.5 22 5 -1.5 2.25
47 3.5 7 8 -4.5 20.25
51 7 28 10 -3 9
48 5 16 2 3 9
60 10 15 1 9 81
53 8 18 3 5 25
50 6 24 6 0 0





= 0

= 186,5


Тогда

3. Сравнить расчетное значение рангового коэффициента корреляции(rф =-0,13) с табличным значением для n = 10 при α = 5% и сделать вывод.

Понятие корреляции, сущность корреляции между двумя случайными величинами. Параметрические и непараметрические показатели корреляции. Свойства коэффициента корреляции, понятие ложной корреляции. Оценка корреляционной связи по коэффициенту корреляции.

Рубрика Математика
Вид реферат
Язык русский
Дата добавления 30.10.2015
Размер файла 171,7 K

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Министерство образования и науки Российской Федерации

Институт математики, естествознания и техники

Кафедра математики и методики её преподавания

Оценка значимости линейного коэффициента корреляции и связанные с ним задачи

Елец - 2015

СОДЕРЖАНИЕ:

  • Введение
  • §1. Корреляция и взаимосвязь величин
  • §2. Показатели корреляции
  • 2.1 Параметрические показатели корреляции
  • 2.2 Непараметрические показатели корреляции
  • §3. Свойства коэффициента корреляции
  • §4. Корреляционный анализ, ложная корреляция

§5. Оценка корреляционной связи по коэффициенту корреляции

ВВЕДЕНИЕ

Математической мерой корреляции двух случайных величин служит корреляционное отношение , либо коэффициент корреляции или . В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

§1. Корреляция и взаимосвязь величин

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором -- также и её направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция -- корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях -- это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи -- например, для независимых случайных величин.

§2. ПОКАЗАТЕЛИ КОРРЕЛЯЦИИ

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или ф(тау) Кендалла. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими -- четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, когда связь между ними линейна (однонаправлена).

2.1 Параметрические показатели корреляции

Важной характеристикой совместного распределения двух случайных величин является ковариация (или корреляционный момент). Ковариация является совместным центральным моментом второго порядка. Ковариация определяется как математическое ожидание произведения отклонений случайных величин. корреляция величина параметрический коэффициент

где -- математическое ожидание.

1) Ковариация двух независимых случайных величин и равна нулю.

Так как и -- независимые случайные величины, то и их отклонения и также независимы. Пользуясь тем, что математическое ожидание произведения независимых случайных величин равно произведению математических ожиданий сомножителей, а математическое ожидание отклонения равно нулю, имеем:

2) Абсолютная величина ковариации двух случайных величин и не превышает среднего геометрического их дисперсий:

Введём в рассмотрение случайную величину (где -- среднеквадратическое отклонение) и найдём её дисперсию .

Выполнив выкладки получим: .

Любая дисперсия неотрицательна, поэтому:

Введя случайную величину , аналогично .

Объединив полученные неравенства имеем .

3) Ковариация имеет размерность, равную произведению размерности случайных величин, то есть величина ковариации зависит от единиц измерения независимых величин. Данная особенность ковариации затрудняет её использование в целях корреляционного анализа.

Для устранения недостатка ковариации был введен линейный коэффициент коррелляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле:

где - среднее значение выборок.

Коэффициент корреляции изменяется в пределах (-1; 1).

Разделив обе части двойного неравенства на получим .

Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости: , где - коэффициент регрессии, - среднеквадратическое отклонение соответствующего факторного признака.

2.2 Непараметрические показатели корреляции

Коэффициент ранговой корреляции Кендалла.

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя и рассчитывают коэффициент корреляции Кендалла:

-- суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов .

-- суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов . (равные ранги не учитываются)

Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:

-- число связанных рангов в ряду и соответственно.

Коэффициент ранговой корреляции Спирмена.

Степень зависимости двух случайных величин (признаков) и может характеризоваться на основе анализа получаемых результатов Каждому показателю и присваивается ранг. Ранги значений расположены в естественном порядке . Ранг записывается как и соответствует рангу той пары , для которой ранг равен. На основе полученных рангов и рассчитываются их разности и вычисляется коэффициент корреляции Спирмена:

Значение коэффициента меняется от ?1 (последовательности рангов полностью противоположны) до +1 (последовательности рангов полностью совпадают). Нулевое значение показывает, что признаки независимы.

Коэффициент корреляции знаков Фехнера.

Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.

-- число пар, у которых знаки отклонений значений от их средних совпадают.

-- число пар, у которых знаки отклонений значений от их средних не совпадают.

Коэффициент множественной ранговой корреляции (конкордации).

-- число групп, которые ранжируются.

- ранг -фактора у -единицы.

то гипотеза об отсутствии связи отвергается.

В случае наличия связанных рангов:

§3. СВОЙСТВА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

1) Неравенство Коши -- Буняковского: если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши -- Буняковского будет: .

где . Более того в этом случае знаки и совпадают: .

Рассмотрим случайные величины и c нулевыми средними, и дисперсиями, равными, соответственно, и . Подсчитаем дисперсию случайной величины : .

Если предположить, что коэффициент корреляции , то предыдущее выражение перепишется в виде

Поскольку всегда можно выбрать числа и так, чтобы (например, если , то берём произвольное и , то при этих и дисперсия , и значит . Но это и означает линейную зависимость между и . Доказательство очевидным образом обобщается на случай величин и с ненулевыми средними, только в вышеприведённых выкладках надо будет заменить на , и -- на .

3) Если независимые случайные величины, то . Обратное в общем случае неверно.

§4. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ, ЛОЖНАЯ КОРРЕЛЯЦИЯ

Ограничения корреляционного анализа:

1) Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5-6 раз превышать число факторов (также встречается рекомендация использовать пропорцию, не менее чем в 10 раз превышающую количество факторов). В случае если число наблюдений превышает количество факторов в десятки раз, в действие вступает закон больших чисел, который обеспечивает взаимопогашение случайных колебаний.

2) Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. В случае если объём совокупности недостаточен для проведения формального тестирования на нормальность распределения, то закон распределения определяется визуально на основе корреляционного поля. Если в расположении точек на этом поле наблюдается линейная тенденция, то можно предположить, что совокупность исходных данных подчиняется нормальному закону распределения.

3) Исходная совокупность значений должна быть качественно однородной.

4) Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора.

Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.

В современной количественной методологии социальных наук, фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.

§5. ОЦЕНКА КОРРЕЛЯЦИОННОЙ СВЯЗИ ПО КОЭФФИЦИЕНТУ КОРРЕЛЯЦИИ

При изучении корреляционной связи важным направлением анализа является оценка степени тесноты связи. Понятие степени тесноты связи между двумя признаками возникает вследствие того, что в реальной действительности на изменение результативного признака влияют несколько факторов. При этом влияние одного из факторов может выражаться более заметно и четко, чем влияние других факторов. С изменением условий в качестве главного, решающего фактора может выступать другой.

Теснота связи - степень связи между признаками при наличии корреляционной зависимости, когда средняя величина значений одного признака меняется в зависимости от изменения другого признака.

При статистическом изучении взаимосвязей, как правило, учитываются только основные факторы. А вопрос необходимо ли вообще изучать более подробно данную связь и практически ее использовать, решается с учетом степени тесноты связи. Зная количественную оценку тесноты корреляционной связи, таким образом можно решить следующую группу вопросов: необходимо ли глубокое изучение данной связи между признаками и целесообразно ли ее практическое применение; сопоставляя оценки тесноты связи для различных условий, можно судить о степени различий в ее проявлении в конкретных условиях; последовательное рассмотрение и сравнение признака у с различными факторами позволяет выявить, какие из этих факторов в данных конкретных условиях являются главными, решающими факторами, а какие второстепенными, незначительными факторами.

Показатели тесноты связи должны удовлетворять ряду основных требований: величина показателя степени тесноты связи должна быть равна или близка к нулю, если связь между изучаемыми признаками (процессами, явлениями) отсутствует; при наличии между изучаемыми признаками ( и ) функциональной связи величина степень тесноты связи равна единице; при наличии между признаками ( и ) корреляционной связи показатель тесноты связи выражается правильной дробью, которая по величине тем больше, чем теснее связь между изучаемыми признаками (стремится к единице); при прямолинейной корреляционной связи показатели тесноты связи отражают и направление связи: знак (+) означает наличие прямой (положительной)связи; а знак (-) - обратной (отрицательной).

Для характеристики степени тесноты корреляционной связи могут применяться различные статистические показатели: коэффициент Фехнера (КФ), коэффициент линейной (парной) корреляции (), коэффициент детерминации, корреляционное отношение (), индекс корреляции, коэффициент множественной корреляции (), коэффициент частной корреляции () и др. В данном вопросе рассмотрим коэффициент линейной корреляции () и корреляционное отношение.

Более совершенным статистических показателем степени тесноты корреляционной связи является линейный коэффициент корреляции (), предложенный в конце XIX в. При расчете коэффициента корреляции сопоставляются абсолютные значения отклонений индивидуальных величин факториального признака х и результативного признака у от их средних.

Есть случаи, когда корреляция может говорить о причинно-следственной связи. Это случаи, когда одна из переменных объективна, а вторая субъективна. К объективным переменным относятся возраст, стаж, рост, которые просто не могут зависеть от субъективных переменных: настроения, особенностей личности, мотивации и т.д. Однако, такие объективные переменные, как вес, количество детей в семье, частота смены места работы, количество контактов и т.п. могут и часто зависят от субъективных психологических показателей.

К примеру, профессионализм рабочего повышается со стажем. Стаж и профессионализм коррелируют и мы можем быть уверены, что для повышения профессионализма стаж является объективной причиной. Объективные переменные, основанные на времени всегда являются причиной при наличии корреляции с субъективными характеристиками. В остальных случаях нужно очень осторожно относиться к причинно-следственным интерпретациям коэффициента корреляции.

Если причинно-следственная связь обоснована в теоретической части работы и подтверждается многими авторами, то корреляцию так же можно интерпретировать как причинно-следственную связь.

1) прямая положительная и отрицательная взаимосвязь. Два явления непосредственно совпадают, поэтому взаимосвязаны. Интеллект и успеваемость в школе, общительность и застенчивость - яркие примеры прямой взаимосвязи;

2) косвенная взаимосвязь. Два явления сильно коррелируют с третьим, поэтому между собой так же имеют корреляцию. К примеру, стиль общения ребенка взаимосвязан со стилем воспитания в семье за счет третьей переменной - установок личности. Очевидно, что воспитание в семье формирует установки ребенка, в свою очередь установки влияют на поведение;

3) нулевая корреляция. Предполагает отсутствие закономерной взаимосвязи между переменными;

4) случайная взаимосвязь. Корреляция может быть случайной! Очень многие процессы происходят одновременно и совпадают.

Достоинства корреляционного отношения:

Корреляционное отношение служит мерой тесноты связи любой, в том числе и линейной. В этом его достоинство перед коэффициентом корреляции, который оценивает степень тесноты только линейной связи.

Недостатки корреляционного отношения:

Корреляционное отношение не позволяет судить на сколько близко расположены точки найденным по данным наблюдения к кривой определенного вида (гипербола, парабола, синусоида и т.д.). Это объясняется тем, что при определении корреляционного отношения вид связи не учитывается.

ЗАКЛЮЧЕНИЕ

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

СПИСОК ЛИТЕРАТУРЫ

1) Елисеева, И.И. Общая теория статистики: Учебник. 4-е издание / Под ред. И.И. Елисеевой - Москва: Финансы и Статистика, 2002 - 480 с.

2) Гмурман, В.Е. Теория вероятностей и математическая статистика: Учебное пособие для ВУЗов. 10-е издание - Москва: Высшая школа, 2004. - 479 с.

3) Общая теория статистики: Учебник. 3-е издание / Под ред. Р.А. Шмойловой - Москва: Финансы и Статистика, 2002 - 560 с.

Подобные документы

Сортировка размера пенсии по возрастанию прожиточного минимума. Параметры уравнений парных регрессий. Значения параметров логарифмической регрессии. Оценка гетероскедастичности линейного уравнения с помощью проведения теста ранговой корреляции Спирмена.

контрольная работа [178,0 K], добавлен 23.11.2013

Установление корреляционных связей между признаками многомерной выборки. Статистические параметры регрессионного анализа линейных и нелинейных выборок. Нахождение функций регрессии и проверка гипотезы о значимости выборочного коэффициента корреляции.

курсовая работа [304,0 K], добавлен 02.03.2017

Понятие и примеры шкалы отношений. Что такое стратифицированная (или расслоенная) выборка. Определение медианы и мощности критерия. Характеристика термина "процентиль". Влияние коэффициента корреляции на зависимость между исследуемыми величинами.

контрольная работа [51,0 K], добавлен 29.09.2010

Механизм и основные этапы нахождения необходимых параметров методом наименьших квадратов. Графическое сравнение линейной и квадратичной зависимостей. Проверка гипотезы о значимости выборочного коэффициента корреляции при заданном уровне значимости.

курсовая работа [782,6 K], добавлен 19.05.2014

Вычисление по классической формуле вероятности. Определение вероятности, что взятая наугад деталь не соответствует стандарту. Расчет и построение графиков функции распределения и случайной величины. Вычисление коэффициента корреляции между величинами.

Гост

ГОСТ

Понятие корреляции

Корреляция – это статистическая зависимость двух и более величин, которые выбираются случайным образом.

В переводе с латинского, корреляция дословно обозначает связь, соотношение. Если в этой зависимости происходит изменение одной из величин, то это ведет к изменению других, связанных с нею величин. Для определения степени взаимосвязи величин используется математический инструмент – коэффициент корреляции. Обычно он обозначается латинской буквой R. Корреляционная связь возникает только тогда, когда осуществляется закономерное изменение другой величины. Если этого не происходит, но имеется изменение какой-либо другой статистической характеристики, то связь между величинами будет называться статистической, но не корреляционной.

Примечательно, что термин «корреляция" был введён палеонтологом, который установил связь между различными органами доисторических животных с целью восстановления их образа. В математике и статистике этот термин стал использоваться в конце 19-го века благодаря Фрэнсису Гальтону.

Корреляционная связь не всегда имеет причинно-следственный характер. Коэффициент устанавливает лишь взаимосвязь со статистической точки зрения. Однако, наличие корреляции может говорить о том, что у двух случайных величин может быть схожая первопричина. Если корреляции между двумя величинами нет, то это не означает полного отсутствия связей между ними. В случае сложной связи, установленной между объектами, корреляция неспособна ее выявить.

Коэффициент корреляции

Степень взаимосвязи двух величин и их влияния друг на друга определяется с помощью коэффициента корреляции. Он может принимать значения от -1 до 1. При этом:

Готовые работы на аналогичную тему

  • Значение -1 говорит о полном отсутствии корреляционной связи между величинами.
  • 0 показывает нулевую корреляцию.
  • +1 демонстрирует полную взаимосвязь между величинами.

Чем ближе значение коэффициента к +1, тем прочнее и сильнее связь между двумя исследуемыми величинами. Как правило, коэффициент выражает линейную зависимость двух объектов. Значения коэффициентов могут быть как положительными, так и отрицательными. Положительное значение показывает степень связи, а отрицательное направление этой связи между величинами.

В экономике коэффициент корреляции используется для того, чтобы отслеживать взаимное влияние колебания тех или иных величин. Примером может быть колебание доходности пенсионного фонда в зависимости от текущего индекса цен, применяемого для его расчёта. Чем ближе значение к единице, тем сильнее коррелируют показатели.

Коэффициент корреляции частный, его значения

Частные коэффициенты корреляции используются для отслеживания взаимосвязи изменения величины от множества факторов. Можно сказать, то частный коэффициент показывает степень тесноты связи в случае, когда все остальные признаки исключены из рассматриваемого множества.

Частые коэффициенты могут применяться при отборе факторов воздействия, определении степени их значимости при воздействии на изучаемый объект. Для этих целей строится уравнение репрессии, которое отслеживает факторы по размеру их коэффициента. На каждом шаге исключается частный корреляционный коэффициент с наименьшим значением.

Перед применением частных коэффициентов множество данных тестируется на установление линейных связей. Если связи отсутствуют, то далее осуществляет анализ связи исследуемого объекта и факторов. Частные коэффициенты взаимосвязей позволяют сопоставить взаимное влияние величин и факторов друг на друга для общих отношений и частных соприкосновений.

Значения частного коэффициента корреляции означают следующее:

  • Если R = 0, то взаимосвязь нейтральная, влияния нет.
  • Значение коэффициента в промежутке от 0,09 до 0,19 говорит о незначительной слабой связи.
  • Слабая связь устанавливается в диапазоне от 0,19 до 0,49
  • Средняя взаимосвязь от 0,49 до 0,69
  • Сильная связь от 0,69 до 0, 99.

Частный коэффициент корреляции применяется в эконометрике для того, чтобы отслеживать изменение экономического процесса или явления под воздействием внутренних и внешних факторов.

Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции. Коэффициент корреляции – двумерная описательная статистика, количественная мера взаимосвязи (совместной изменчивости) двух переменных. Таким образом, корреляционный анализ это совокупность методов обнаружения корреляционной зависимости между случайными величинами или признаками.

Содержание работы
Файлы: 1 файл

referat_po_kompam.docx

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Тема: Корреляционный анализ

  1. Введение………………………………………………………… ……….…3
  2. Реферативная справка……………………………………………………. 5
  3. Отбор факторов для корреляционного анализа……………………..…. 9
  4. Постановка задачи………………………………………………………. 11
  5. Пример……………………………………………………………… …..…12
  6. Выводы……………………………………………………………… ….…19
  7. Список использованной литературы………………………………….…20

Статистические методы применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в экспериментах, при опросе и наблюдениях, возможно больше полезной информации. Одним самых из распространенных методов статистики является корреляционный анализ.

Термин "корреляция" впервые применил французский палеонтолог Ж. Кювье, который вывел "закон корреляции частей и органов животных" (этот закон позволяет восстанавливать по найденным частям тела облик всего животного). В статистику указанный термин ввел английский биолог и статистик Ф. Гальтон (не просто связь – relation, а "как бы связь " – corelation).

Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции. Коэффициент корреляции – двумерная описательная статистика, количественная мера взаимосвязи (совместной изменчивости) двух переменных. Таким образом, корреляционный анализ это совокупность методов обнаружения корреляционной зависимости между случайными величинами или признаками. Корреляционный анализ для двух случайных величин заключает в себе:

1) построение корреляционного поля и составление корреляционной таблицы;

2) вычисление выборочных коэффициентов корреляции и корреляционных отношений;

3) проверка статистической гипотезы значимости связи.

Основное назначение корреляционного анализа – выявление корреляционной связи между двумя или более изучаемыми переменными. Корреляционная связь это совместное согласованное изменение двух изучаемых характеристик. Данная изменчивость обладает тремя основными характеристиками: формой, направлением и силой.

Корреляционный анализ - совокупность основанных на математической теории корреляции методов обнаружения корреляционной зависимости между двумя случайными признаками или факторами. Корреляционный анализ экспериментальных данных заключает в себе следующие основные практические приёмы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции или корреляционного отношения; 3) проверка статистической гипотезы значимости связи. Дальнейшее исследование заключается в установлении конкретного вида зависимости между величинами. Зависимость между тремя и большим числом случайных признаков или факторов изучается методами многомерного корреляционного анализа. (вычисление частных и множественных коэффициентов корреляции и корреляционных отношений).

Корреляционное поле и корреляционная таблица являются вспомогательными средствами при анализе выборочных данных. При нанесении на координатную плоскость выборочных точек получают корреляционное поле. По характеру расположения точек поля можно составить предварительное мнение о форме зависимости случайных величин (например, о том, что одна величина в среднем возрастает или убывает при возрастании другой). Для численной обработки результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке корреляционной таблицы приводятся численности гц; тех пар (х, у), компоненты которых попадают в соответствующие интервалы группировки по каждой переменной.

Предполагая длины интервалов группировки (по каждому из переменных) равными между собой, выбирают центры xi (соответственно yj) этих интервалов и числа nij в качестве основы для расчётов.

Коэффициент корреляции и корреляционное отношение дают более точную информацию о характере и силе связи, чем картина корреляционного поля. Выборочный коэффициента корреляции определяют по формуле:

При большом числе независимых наблюдений, подчиняющихся одному и тому же распределению, и при надлежащем выборе интервалов группировки коэффициент ρ̂ близок к истинному коэффициенту корреляции ρ. Поэтому использование ρ̂ как меры связи имеет четко определённый смысл для тех распределений, для которых естественной мерой зависимости служит ρ (т. е. для нормальных или близких к ним распределений). Во всех др. случаях в качестве характеристики силы связи рекомендуется использовать корреляционное отношение η, интерпретация которого не зависит от вида исследуемой зависимости.

Коэффициенты корреляции является общепринятой в математической статистике характеристикой связи между двумя случайными величинами. Коэффициент корреляции - показатель степени взаимозависимости, статистической связи двух переменных; изменяется в пределах от -1 до +1. Значение коэффициента корреляции 0 указывает на возможное отсутствие зависимости, значение +1 свидетельствует о согласованности переменных.

Различают следующие коэффициенты корреляции:

- дихотомический - показатель связи признаков (переменных) измеряемых по дихотомическим шкалам наименований;

- Пирсона (Pearson product-moment correlation) - коэффициент корреляции, используемый для континуальных переменных;

- ранговой корреляции Спирмена (Spearmen's rank-order correlation) - коэффициент корреляции для переменных, измеренных в порядковых (ранговых) шкалах;

- точечно-бисериальной корреляции (point-biserial correlation) - коэффициент корреляции, применяемый в случае анализа отношения переменных, одна из которых измерена в континуальной шкале, а другая - в строго дихотомической шкале наименований;

- j - коэффициент корреляции, используемый в случае, если обе переменные измерены в дихотомической шкале наименований.

- тетрахорический ( четырехпольный) (tetrachoric) - коэффициент корреляции, используемый в случае, если обе переменные измерены в континуальных шкалах[4].

Линейная связь между переменными Xi и Xj оценивается коэффициентом корреляции:

где Xi и Xj – исследуемые переменные; mXi и mXj – математические ожидания переменных; σX и σX – дисперсии переменных.

Выборочный коэффициент корреляции определяют по формуле:

или по преобразованной формуле:

где i =1, 2, ., n, j = 1, 2, ., m, u = 1, 2, ., N; N – число опытов(объем выборки); xi, xj – оценки математических ожиданий; SXi, SXj – оценки среднеквадратических отклонений.

Только при совместной нормальной распределенности исследуемых случайных величин Xi и Xj коэффициент корреляции имеет определенный смысл связи между переменными. В противном случае коэффициент корреляции может только косвенно характеризовать эту связь[5].

Применение корреляционного анализа позволяет решить следующие задачи:

2) установить относительную степень зависимости результативного показателя от каждого фактора.

Исследование корреляционных зависимостей имеет огромное значение в АХД. Это проявляется в том, что значительно углубляется факторный анализ, устанавливаются место и роль каждого фактора в формировании уровня исследуемых показателей, углубляются знания об изучаемых явлениях, определяются закономерности их развития и как итог — точнее обосновываются планы и управленческие решения, более объективно оцениваются итоги деятельности предприятий и более полно определяются внутрихозяйственные резервы.

Отбор факторов для корреляционного анализа

Отбор факторов для корреляционного анализа — очень важный момент: от того, насколько правильно отобраны факторы, зависят конечные результаты анализа. Главная роль при отборе факторов принадлежит теории, а также практическому опыту анализа. При этом необходимо придерживаться следующих правил.

1. В первую очередь следует учитывать причинно-следственные связи между показателями, ибо только они раскрывают сущность изучаемых явлений. Анализ же таких факторов, которые находятся только в математических соотношениях с результативным показателем, не имеет практического смысла.

2. При создании многофакторной корреляционной модели необходимо отбирать самые значимые факторы, которые оказывают решаюшее воздействие на результативный показатель, так как охватить все условия и обстоятельства практически невозможно. Факторы, которые имеют критерий надежности по Стьюденту меньше табличного, не рекомендуется принимать в расчет.

3. В корреляционную модель линейного типа не рекомендуется включать факторы, связь которых с результативным показателем имеет криволинейный характер.

4. Нельзя включать в корреляционную модель взаимосвязанные факторы. Если парный коэффициент корреляции между двумя факторами больше 0,85, то по правилам корреляционного анализа один из них необходимо исключить, иначе это приведет к искажению результатов анализа.

5. Не рекомендуется включать в корреляционную модель факторы, связь которых с результативным показателем носит функциональный характер.

Большую помощь при отборе факторов для корреляционной модели оказывают аналитические группировки, способ сравнения параллельных и динамических рядов, линейные графики. С их помощью можно определить наличие, направление и форму зависимости между изучаемыми показателями. Отбор факторов можно производить также в процессе решения задачи корреляционного анализа на основе оценки их значимости по критерию Стьюдента.

Учитывая перечисленные требования и используя названные способы отбора факторов, для многофакторной корреляционной модели уровня рентабельности (Y) подобраны следующие факторы, оказывающие наиболее существенное влияние на ее уровень:

x1 - материалоотдача, руб.;

x2 - фондоотдача, коп.;

x3 - производительность труда (среднегодовая выработка продукции на одного работника), млн руб.;

x4 - продолжительность оборота оборотных средств предприятия, дни;

x5 - удельный вес продукции высшей категории качества, %.

Поскольку корреляционная связь достаточно полно проявляется только в массе наблюдений, объем выборки данных должен быть достаточно большим, так как только в массе наблюдений сглаживается влияние других факторов. Чем большая совокупность объектов исследуется, тем точнее результаты анализа.

Имеется матрица наблюдений вида(пример 1 ,2)

Необходимо определить оценки коэффициентов корреляции для всех или только для заданных пар параметров и оценить их значимость. Незначимые оценки приравниваются к нулю.

  • Выборка имеет достаточный объем. Понятие достаточного объема зависит от целей анализа, требуемой точности и надежности оценки коэффициентов корреляции, от количества факторов. Минимально допустимым считается объем, когда количество наблюдений не менее чем в 5–6 раз превосходит количество факторов;
  • выборки по каждому фактору являются однородными. Это допущение обеспечивает несмещенную оценку средних величин;
  • матрица наблюдений не содержит пропусков.

Если необходима проверка значимости оценки коэффициента корреляции, то требуется соблюдение дополнительного условия – распределение вариант должно подчиняться нормальному закону.

Читайте также: