Корреляционный анализ кратко и понятно

Обновлено: 02.07.2024

Корреляция – это статистическая зависимость между случайными величинами, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

Различают парную, частную и множественную корреляцию.

Парная корреляция – это связь между двумя признаками (результативным и факторным или между двумя факторными).

Частная корреляция – это связь между двумя признаками (результативным и факторным или между двумя факторными) при фиксированном значении других факторных признаков.

Множественная корреляция – это связь между результативным и двумя или более факторными признаками, включенными в исследование.

В зависимость от количества признаков, включенных в модель, корреляционная связь может быть однофакторной (или парной) и многофакторной (или множественной).

Корреляционный анализ – это раздел математической статистики, посвященный изучению взаимосвязей между случайными величинами. Корреляционный анализ заключается в количественном определении тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции. Построение коэффициентов корреляции основано на сумме произведений отклонений индивидуальных значений признаков xi и yi от их средних значений и :

Эта величина, деленная на число единиц совокупности n, называется ковариацией:

где n – объем исследуемой совокупности;

xii-е значение независимой переменной (i=1, 2, …, n);

yii-е значение зависимой переменной (i=1, 2, …, n).

Ковариация показывает, есть ли линейная взаимосвязь между двумя случайными величинами. При прямой связи между признаками ковариация положительна, при обратной связи – принимает отрицательное значение. При отсутствии линейной связи между признаками x и y ковариация близка к нулю.

Размер ковариации зависит от масштаба признаков x и y. Для получения относительной характеристики связи ковариацию делят на произведение средних квадратических отклонений двух признаков, получая, тем самым, линейный коэффициент корреляции:

где – средние квадратические отклонения случайных величин x и y (или стандартные отклонения, стандартные ошибки).

Средние квадратические отклонения вычисляются по формулам:

Среднее квадратическое отклонение, возведенное в квадрат, называют дисперсией. Дисперсия характеризуют степень разброса значений () вокруг своего среднего (, соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений.

Для расчета линейного (парного) коэффициента корреляции можно воспользоваться также следующей формулой:

Коэффициент корреляции принимает значения от -1 до +1. Положительное значение коэффициента корреляции свидетельствует о наличии прямой связи, отрицательное – обратной. Если , то связь между признаками представляет собой линейную функциональную зависимость. При линейная корреляционная зависимость между исследуемыми признаками отсутствует.

Характеристика тесноты связи между признаками в зависимости от значения линейного коэффициента корреляции приведена в таблице:

Корреляция – это статистическая зависимость между случайными величинами, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

Различают парную, частную и множественную корреляцию.

Парная корреляция – это связь между двумя признаками (результативным и факторным или между двумя факторными).

Частная корреляция – это связь между двумя признаками (результативным и факторным или между двумя факторными) при фиксированном значении других факторных признаков.

Множественная корреляция – это связь между результативным и двумя или более факторными признаками, включенными в исследование.

В зависимость от количества признаков, включенных в модель, корреляционная связь может быть однофакторной (или парной) и многофакторной (или множественной).

Корреляционный анализ – это раздел математической статистики, посвященный изучению взаимосвязей между случайными величинами. Корреляционный анализ заключается в количественном определении тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).




Теснота связи количественно выражается величиной коэффициентов корреляции. Построение коэффициентов корреляции основано на сумме произведений отклонений индивидуальных значений признаков xi и yi от их средних значений и :

Эта величина, деленная на число единиц совокупности n, называется ковариацией:

где n – объем исследуемой совокупности;

xii-е значение независимой переменной (i=1, 2, …, n);

yii-е значение зависимой переменной (i=1, 2, …, n).

Ковариация показывает, есть ли линейная взаимосвязь между двумя случайными величинами. При прямой связи между признаками ковариация положительна, при обратной связи – принимает отрицательное значение. При отсутствии линейной связи между признаками x и y ковариация близка к нулю.

Размер ковариации зависит от масштаба признаков x и y. Для получения относительной характеристики связи ковариацию делят на произведение средних квадратических отклонений двух признаков, получая, тем самым, линейный коэффициент корреляции:

где – средние квадратические отклонения случайных величин x и y (или стандартные отклонения, стандартные ошибки).

Средние квадратические отклонения вычисляются по формулам:

Среднее квадратическое отклонение, возведенное в квадрат, называют дисперсией. Дисперсия характеризуют степень разброса значений () вокруг своего среднего (, соответственно), или вариабельность (изменчивость) этих переменных на множестве наблюдений.

Для расчета линейного (парного) коэффициента корреляции можно воспользоваться также следующей формулой:

Коэффициент корреляции принимает значения от -1 до +1. Положительное значение коэффициента корреляции свидетельствует о наличии прямой связи, отрицательное – обратной. Если , то связь между признаками представляет собой линейную функциональную зависимость. При линейная корреляционная зависимость между исследуемыми признаками отсутствует.

Характеристика тесноты связи между признаками в зависимости от значения линейного коэффициента корреляции приведена в таблице:

Корреля́ция — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.

Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен.

Автокорреляция — статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса — со сдвигом по времени.

Метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции) между переменными, называется корреляционным анализом.

Содержание

Коэффициент корреляции

Коэффицие́нт корреля́ции или парный коэффицие́нт корреля́ции в теории вероятностей и статистике — это показатель характера изменения двух случайных величин. Коэффициент корреляции обозначается латинской буквой R и может принимать значения между -1 и +1. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи (при коэффициенте корреляции равном единице говорят о функциональной связи), а если ближе к 0, то слабой.

Коэффициент корреляции Пирсона

Для метрических величин применяется коэффициент корреляции Пирсона, точная формула которого была введена Фрэнсисом Гальтоном:

Пусть X,Y — две случайные величины, определённые на одном вероятностном пространстве. Тогда их коэффициент корреляции задаётся формулой:

\R_<X,Y></p>
<p> = \frac<\mathrm<cov>(X,Y)><\sqrt<\mathrm<D>[X]> \cdot \sqrt<\mathrm<D>[Y]>>
,

где cov обозначает ковариацию, а D — дисперсию, или, что то же самое,

\R_<X,Y></p>
<p> = \frac<\mathbb[XY]-\mathbbX \cdot \mathbbY> <\sqrt<(\mathbb[X^2]-(\mathbbX)^2)> \cdot \sqrt< (\mathbb[Y^2]-(\mathbbY)^2)>>
,

\mathbb<E></p>
<p>где символ
обозначает математическое ожидание.

Метод вычисления коэффициента корреляции зависит от вида шкалы, к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена).

Коэффициент корреляции Кенделла

Используется для измерения взаимной неупорядоченности.

Коэффициент корреляции Спирмена

Свойства коэффициента корреляции

Корреляционный анализ

Корреляционный анализ — метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.

Цель корреляционного анализа — обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная, если одна переменная растёт, а вторая уменьшается, корреляция отрицательная.

Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = sin(x) и B = cos(x) , то он будет близок к нулю, т. е. зависимость между величинами отсутствует. Между тем, величины A и B очевидно связаны функционально по закону sin 2 (x) + cos 2 (x) = 1 .

Ограничения корреляционного анализа


Графики распределений пар (x,y) с соответствующими коэффициентами корреляций x и y для каждого из них. Обратите внимание, что коэффициент корреляции отражает линейную зависимость (верхняя строка), но не описывает кривую зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка).

  1. Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений.
  2. Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных. Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость нелинейна (выражена, например, в виде параболы).
  3. Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора.

Область применения

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Ложная корреляция

Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.

В современной количественной методологии социальных наук, фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.

См. также

Wikimedia Foundation . 2010 .

Полезное

Смотреть что такое "Корреляционный анализ" в других словарях:

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — см. АНАЛИЗ КОРРЕЛЯЦИОННЫЙ. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — раздел математической статистики, объединяющий практические методы исследования корреляционной зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция (в математической статистике) … Большой Энциклопедический словарь

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — КОРРЕЛЯЦИОННЫЙ АНАЛИЗ, раздел математической статистики, объединяющий практические методы исследования корреляционной зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция (см. КОРРЕЛЯЦИЯ (взаимная связь … Энциклопедический словарь

Корреляционный анализ — (в экономике) [correlation analysis] ветвь математической статистики, изучающая взаимосвязи между изменяющимися величинами (корреляция соотношение, от латинского слова correlatio). Взаимосвязь может быть полная (т.е. функциональная) и неполная,… … Экономико-математический словарь

корреляционный анализ — (в психологии) (от лат. correlatio соотношение) статистический метод оценки формы, знака и тесноты связи исследуемых признаков или факторов. При определении формы связи рассматривается ее линейность или нелинейность (т. е. как в среднем… … Большая психологическая энциклопедия

корреляционный анализ — — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN correlation analysis … Справочник технического переводчика

корреляционный анализ — koreliacinė analizė statusas T sritis Kūno kultūra ir sportas apibrėžtis Statistikos metodas, kuriuo įvertinami tiriamųjų asmenų, reiškinių požymiai arba veiksnių santykiai. atitikmenys: angl. correlation studies vok. Analyse der Korrelation, f;… … Sporto terminų žodynas

Корреляционный анализ — совокупность основанных на математической теории корреляции (См. Корреляция) методов обнаружения корреляционной зависимости между двумя случайными признаками или факторами. К. а. экспериментальных данных заключает в себе следующие… … Большая советская энциклопедия

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ — раздел матем. статистики, объединяющий практич. методы исследования корреляц. зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция … Большой энциклопедический политехнический словарь

Корреляционный анализ — Один из основных методов социолингвистики, целью которого является установление соотношений между языковыми явлениями и социальными параметрами. См. также: Социолингвистическая корреляция, Социолингвистическая переменная … Словарь социолингвистических терминов

В статье рассматриваются определения корреляции,корреляционного анализа и коэффициента корреляции. Дается определение корреляционной связи и ее основных характеристик.

Ключевые слова

Текст научной работы

Исследователей нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, такая связь может наблюдаться между погрешностью аппаратной обработки экспериментальных данных и величиной скачков сетевого напряжения. Другим примером может служить связь между пропускной способностью канала передачи данных и соотношением сигнал/шум.

Зависимости между величинами (факторами, признаками) разделяют на два вида: функциональную и статистическую.

При функциональных зависимостях каждому значению одной переменной величины соответствует определенное значение другой переменной. Кроме того, функциональная связь двух факторов возможна только при условии, что вторая величина зависит только от первой и не зависит ни от каких других величин. В случае зависимости величины от множества факторов, функциональная связь возможна, если первая величина не зависит ни от каких других факторов, кроме входящих в указанное множество.

При статистической зависимости изменение одной из величин влечёт изменение распределения других величин, которые с определенными вероятностями принимают некоторые значения.

Значительно больший интерес представляет другой частный случай статистической зависимости, когда существует взаимосвязь значений одних случайных величин со средним значением других, при той особенности, что в каждом отдельном случае любая из взаимосвязанных величин может принимать различные значения.

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией.

Корреляционный анализ — метод, позволяющий обнаружить зависимость между несколькими случайными величинами.

Корреляционный анализ решает две основные задачи:

  • Первая задача заключается в определении формы связи, т.е. в установлении математической формы, в которой выражается данная связь. Это очень важно, так как от правильного выбора формы связи зависит конечный результат изучения взаимосвязи между признаками;
  • Вторая задача состоит в измерении тесноты, т.е. меры связи между признаками с целью установить степень влияния данного фактора на результат. Она решается математически путем определения параметров корреляционного уравнения.

Затем проводятся оценка и анализ полученных результатов при помощи специальных показателей корреляционного метода (коэффициентов детерминации, линейной и множественной корреляции и т.д.), а также проверка существенности связи между изучаемыми признаками.

Методами корреляционного анализа решаются следующие задачи:

  1. Взаимосвязь. Есть ли взаимосвязь между параметрами?
  2. Прогнозирование. Если известно поведение одного параметра, то можно предсказать поведение другого параметра, коррелирующего с первым;
  3. Классификация и идентификация объектов. Корреляционный анализ помогает подобрать набор независимых признаков для классификации.

Корреляция — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). Суть ее заключается в том, что при изменении значения одной переменной происходит закономерное изменение (уменьшению или увеличению) другой переменной.

Для определения наличия взаимосвязи между двумя свойствами используется коэффициент корреляции.

Коэффициент корреляции р для генеральной совокупности, как правило, неизвестен, поэтому он оценивается по экспериментальным данным, представляющим собой выборку объема n пар значений (xi, yi), полученную при совместном измерении двух признаков Х и Y. Коэффициент корреляции, определяемый по выборочным данным, называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции). Его принято обозначать символом r.

К основным свойствам коэффициента корреляции относятся:

  1. Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи;
  2. Значения коэффициентов корреляции — это отвлеченные числа, лежащее в пределах от -1 до +1, т.е. -1 r_= \frac< \sqrt< [n\sum x^2- (\sum x)^2]*[n \sum y^2-(\sum y)^2]>>

где x — значение факторного признака; y — значение результативного признака; n — число пар данных.

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения xi,yi двух признаков x,y. Если экспериментальных данных сравнительно немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений xi,yi . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал, то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x и y графически в виде геометрического места точек в системе прямоугольных координат. Эта графическая зависимость называется диаграммой рассеивания или корреляционным полем.

Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров:

  • математических ожиданий E[x], E[y] величин x,y;
  • стандартных отклонений px, py случайных величин x,y;
  • коэффициента корреляции p, который является мерой связи между случайными величинами, х и у. Приведем примеры корреляционных полей.

Если р = 0, то значения xi,yi, полученные из двумерной нормальной совокупности, располагаются на графике в пределах области, ограниченной окружностью. В этом случае между случайными величинами x и y отсутствует корреляция, и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин x и y.

Если р = 1 или р = -1, то говорят о полной корреляции, то есть между случайными величинами x и y существует линейная функциональная зависимость.

При р = 1 значения xi,yi определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xi значения yi также увеличиваются).

При р = -1 прямая имеет отрицательный наклон.

По форме корреляционная связь может быть линейной или нелинейной.

Линейной может быть, например, связь между уровнем подготовки студента и оценками итоговой аттестации. Пример нелинейной связи — уровень мотивации и эффективность выполнения поставленной задачи. (При повышении мотивации эффективность выполнения задачи сначала возрастает, затем, при определённом уровне мотивации, достигается максимальная эффективность; но дальнейшему повышению мотивации сопутствует уже снижение эффективности.)

По направлению корреляционная связь может быть положительной (прямой) и отрицательной (обратной).

При положительной линейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака — более низкие значения другого. При отрицательной корреляции соотношения обратные.

Знак коэффициента корреляции зависит от направления корреляционной связи: при положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции — отрицательный знак.

Список литературы

  1. Аблеева, А. М. Формирование фонда оценочных средств в условиях ФГОС [Текст] / А. М. Аблеева, Г. А. Салимова // Актуальные проблемы преподавания социально-гуманитарных, естественно - научных и технических дисциплин в условиях модернизации высшей школы : материалы международной научно-методической конференции, 4-5 апреля 2014 г. / Башкирский ГАУ, Факультет информационных технологий и управления. - Уфа, 2014. - С. 11-14.
  2. Ганиева, А.М. Статистический анализ занятости и безработицы [Текст] / А.М. Ганиева, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры "Статистики и информационных систем в экономике" / Башкирский ГАУ. - Уфа, 2011. - С. 315-316.
  3. Исмагилов, Р. Р. Творческая группа - эффективная форма организации научных исследований в высшей школе [Текст] / Р. Р. Исмагилов, М. Х. Уразлин, Д. Р. Исламгулов // Научно-технический и научно-образовательный комплексы региона : проблемы и перспективы развития : материалы научно-практической конференции / Академия наук РБ, УГАТУ. - Уфа, 1999. - С. 105-106.
  4. Исламгулов, Д.Р. Компетентностный подход в обучении: оценка качества образования [Текст] / Д.Р. Исламгулов, Т.Н. Лубова, И.Р. Исламгулова // Современный научный вестник. – 2015. – Т. 7. - № 1. – С. 62-69.
  5. Исламгулов, Д. Р. Научно-исследовательская работа студентов - важнейший элемент подготовки специалистов в аграрном вузе [Текст] / Д. Р. Исламгулов // Проблемы практической подготовки студентов в вузе на современном этапе и пути их решения : сб. материалов науч.-метод. конф., 24 апреля 2007 года / Башкирский ГАУ. - Уфа, 2007. - С. 20-22.
  6. Лубова, Т.Н. Основа реализации федерального государственного образовательного стандарта – компетентностный подход [Текст] / Т.Н. Лубова, Д.Р. Исламгулов, И.Р. Исламгулова// БЪДЕЩИТЕ ИЗСЛЕДОВАНИЯ – 2016: Материали за XII Международна научна практична конференция, 15-22 февруари 2016. – София: Бял ГРАД-БГ ООД, 2016. – Том 4 Педагогически науки. – C. 80-85.
  7. Лубова, Т.Н. Новые образовательные стандарты: особенности реализации [Текст] / Т.Н. Лубова, Д.Р. Исламгулов // Современный научный вестник. – 2015. – Т. 7. - № 1. – С. 79-84.
  8. Лубова, Т.Н. Организация самостоятельной работы обучающихся [Текст] / Т.Н. Лубова, Д.Р. Исламгулов // Реализация образовательных программ высшего образования в рамках ФГОС ВО: материалы Всероссийской научно-методической конференции в рамках выездного совещания НМС по природообустройству и водопользованию Федерального УМО в системе ВО. / Башкирский ГАУ. - Уфа, 2016. - С. 214-219.
  9. Лубова, Т.Н. Основа реализации федерального государственного образовательного стандарта – компетентностный подход [Текст] / Т.Н. Лубова, Д.Р. Исламгулов, И.Р. Исламгулова // Современный научный вестник. – 2015. – Т. 7. - № 1. – С. 85-93.
  10. Саубанова, Л.М. Уровень демографической нагрузки [Текст] / Л.М. Саубанова, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры "Статистики и информационных систем в экономике" / Башкирский ГАУ. - Уфа, 2011. - С. 321-322.
  11. Фахруллина, А.Р. Статистический анализ инфляции в России [Текст] / А.Р. Фахруллина, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры "Статистики и информационных систем в экономике" / Башкирский ГАУ. - Уфа, 2011. - С. 323-324.
  12. Фархутдинова, А.Т. Рынок труда в Республике Башкортостан в 2012 году [Электронный ресурс] / А.Т. Фархутдинова, Т.Н. Лубова // Студенческий научный форум. Материалы V Международной студенческой электронной научной конференции: электронная научная конференция (электронный сборник). Российская академия естествознания. 2013.

Цитировать

Апдейт для тех, кто сочтет статью полезной и занесет в избранное. Есть приличный шанс, что пост уйдет в минуса, и я буду вынужден унести его в черновики. Сохраняйте копию!


Краткий и несложный материал для неспециалистов, рассказывающий в наглядной форме о различных методах поиска регрессионных зависимостей. Это все и близко не академично, зато надеюсь что понятно. Прокатит как мини-методичка по обработке данных для студентов естественнонаучных специальностей, которые математику знают плохо, впрочем как и автор. Расчеты в Матлабе, подготовка данных в Экселе — так уж повелось в нашей местности

Введение

Зачем это вообще надо? В науке и около нее очень часто возникает задача предсказания какого-то неизвестного параметра объекта исходя из известных параметров этого объекта (предикторов) и большого набора похожих объектов, так называемой учебной выборки. Пример. Вот мы выбираем на базаре яблоко. Его можно описать такими предикторами: красность, вес, количество червяков. Но как потребителей нас интересует вкус, измеренный в попугаях по пятибалльной шкале. Из жизненного опыта нам известно, что вкус с приличной точностью равен 5*красность+2*вес-7*количество червяков. Вот про поиск такого рода зависимостей мы и побеседуем. Чтобы обучение пошло легче, попробуем предсказать вес девушки исходя из ее 90/60/90 и роста.

Исходные данные

Обозначения

W — вес реальный
W_p — вес, предсказанный нашей моделью
S — бюст
T — талия
B — бедра
L — рост
E — ошибка модели

Как оценить качество модели?

Простая линейная регрессия

Самый простой случай. У нас одна переменная-предиктор и одна зависимая переменная. В нашем случае это может быть например рост и вес. Нам надо построить уравнение W_p = a*L+b, т.е. найти коэффициенты a и b. Если мы проведем этот расчет для каждого образца, то W_p будет максимально совпадать с W для того же образца. То есть у нас для каждой девушки будет такое уравнение:
W_p_i = a*L_i+b
E_i = (W_p-W)^2

Общая ошибка в таком случае составит sum(E_i). В результате, для оптимальных значений a и b sum(E_i) будет минимальным. Как же найти уравнение?

Матлаб

Графичек



Мда, негусто. Это график W_p(W). Формула на графике показывает связь W_p и W. В идеале там будет W_p = W*1 + 0. Вылезла дискретизация исходных данных — облако точек клетчатое. Коэффициент корреляции ни в дугу — данные слабо коррелированы между собой, т.е. наша модель плохо описывает связь веса и роста. По графику это видно как точки, расположенные в форме слабо вытянутого вдоль прямой облака. Хорошая модель даст облако растянутое в узкую полосу, еще более плохая — просто хаотичный набор точек или круглое облако. Модель необходимо дополнить. Про коэффициент корреляции стоит рассказать отдельно, потому что его часто используют абсолютно неправильно.

Расчет в матричном виде

Мультилинейная регрессия

В русскоязычной литературе прошлых лет упоминается как ММНК — метод множественных наименьших квадратов. Это расширение метода наименьших квадратов для нескольких предикторов. То есть у нас в дело идет не только рост, но и все остальные, так сказать, горизонтальные размеры. Подготовка данных точно такая же: обе матрицы в матлаб, добавление столбца единиц, расчет по той же самой формуле. Для любителей функций есть b = regress(y,X) . Эта функция также требует добавления столбца единиц. Повторяем расчет по формуле из раздела про матрицы, пересылаем в Эксель, смотрим.

Попытка номер два



А так получше, но все равно не очень. Как видим, клетчатость осталась только по горизонтали. Никуда не денешься, исходные веса были целыми числами в фунтах. То есть после конверсии в килограммы они ложатся на сетку с шагом около 0.5. Итого финальный вид нашей модели:

W_p = 0.2271*S + 0.1851*T + 0.3125*B + 0.3949*L — 72.9132

Объемы в сантиметрах, вес в кг. Поскольку у нас все величины кроме роста в одних единицах измерения и примерно одного порядка по величине (кроме талии), то мы можем оценить их вклады в общий вес. Рассуждения примерно в таком духе: коэффициент при талии самый маленький, равно как и сами величины в сантиметрах. Значит, вклад этого параметра в вес минимален. У бюста и особенно у бедер он больше, т.е. сантиметр на талии дает меньшую прибавку к массе, чем на груди. А больше всего на вес влияет объем задницы. Впрочем, это знает любой интересующийся вопросом мужчина. То есть как минимум, наша модель реальной жизни не противоречит.

Валидация модели


Название громкое, но попробуем получить хотя бы ориентировочные веса тех девушек, для которых есть полный набор размеров, но нет веса. Их 7: с мая по июнь 1956 года, июль 1957, март 1987, август 1988. Находим предсказанные по модели веса: W_p=X*repr

Что ж, по крайней мере в текстовом виде выглядит правдоподобно. А насколько это соответствует реальности — решать вам

Применимость

Если вкратце — полученная модель годится для объектов, подобных нашему набору данных. То есть по полученным корреляциям не стоит считать параметры фигур женщин с весом 80+, возрастом, сильно отличающимся от среднего по больнице итд. В реальных применениях можно считать, что модель пригодна, если параметры изучаемого объекта не слишком отличаются от средних значений этих же параметров для исходного набора данных. Могут возникнуть (и возникнут) проблемы, если у нас предикторы сильно коррелированы между собой. То есть, например это рост и длина ног. Тогда коэффициенты для соответствующих величин в уравнении регрессии будут определены с малой точностью. В таком случае надо выбросить один из параметров, или воспользоваться методом главных компонент для снижения количества предикторов. Если у нас малая выборка и/или много предикторов, то мы рискуем попасть в переопределенность модели. То есть если мы возьмем 604 параметра для нашей выборки (а в таблице всего 604 девушки), то сможем аналитически получить уравнение с 604+1 слагаемым, которое абсолютно точно опишет то, что мы в него забросили. Но предсказательная сила у него будет весьма невелика. Наконец, далеко не все объекты можно описать мультилинейной зависимостью. Бывают и логарифмические, и степенные, и всякие сложные. Их поиск — это уже совсем другой вопрос.

Планы на будущее


Если хорошо пойдет, то постараюсь в том же стиле изложить метод главных компонент для снижения размерности данных, регрессию на главные компоненты, метод PLS, начала кластерного анализа и методов классификации объектов. Если хабрапублика не очень хорошо примет, то буду стараться учесть замечания. Если вообще никак — то забью на просвещение ширнармасс вообще, мне и своих студентов хватит. До новых встреч!

Наука становится наукой только тогда, когда в ней есть место математике. Опираясь на такое высказывание, многие считают, что психология — это дисциплина эфемерная, в которой нет места точным расчетам. На самом деле, в психологических исследованиях применяются математические и статистические методы. Например, корреляция — это в психологии инструмент, позволяющий не просто отследить в ходе эксперимента какое-либо явление, но и подтвердить его взаимосвязь с внутренними и внешними факторами, влияние на объект наблюдения.

метод корреляции в психологии

Корреляция — это, простыми словами, числовое подтверждение или опровержение гипотезы психологического эксперимента.

Корреляция в психологическом исследовании

Корреляционный метод в психологии дает исследователям возможность получить максимум полезной информации из экспериментальных данных, выявить взаимосвязи между ними и степень влияния факторов друг на друга.

Корреляция в психологических исследованиях может выявить зависимость между показателями:

  • прямую (положительную);
  • обратную (отрицательную).

Корреляция между показателями выражается цифрами в диапазоне от 1 до -1. Коэффициенты корреляции, имеющие статистическую ценность, выводятся путем сравнения полученного в ходе эксперимента показателя с критическим значением. Его определяют по объему выборки. Чем она больше, тем меньше показатель критического значения.

Корреляционный анализ

Корреляционный анализ — это в психологии метод выявления взаимосвязи двух или более величин. Ими могут быть показатели переменных, изучаемые свойства объектов. Статистический анализ в психологии проводится с целью расчета коэффициента корреляции.

Полученный в результате расчетов знак коэффициента указывает на направление корреляционной связи, а его цифровое значение — на ее силу. В зависимости от того, какие шкалы измерения переменных применяются в ходе исследования (интервальная или отношений), проводится расчет корреляционного момента или ковариации, линейного коэффициента (Пирсона).

Чтобы оценить силу и направление связей между показателями, измерение которых проводилось по порядку, применяются ранговые корреляционные коэффициенты Кендалла, Спирмена, Фехнера, Конкордации.

Корреляционный анализ в исследованиях психологов дает достоверные данные в случае, если экспериментаторы не просто просчитывают корреляцию, но и проверяют ее значимость, основываясь на гипотезе исследования. Обязательным условием получения достоверных данных анализа также является проведение интервальной оценки результатов. При соблюдении этих условий с помощью корреляционного анализа удается выявить особенности взаимосвязи между изучаемыми свойствами объекта, предсказать значения переменных.

Корреляционная связь

В психологических исследованиях обычно изучается несколько показателей, связанных с основным изучаемым признаком. Корреляционные связи демонстрируют, сколько дополнительных параметров имеют отношение к изучаемому признаку. Например, при изучении реакций тела на стрессовые ситуации выявляются корреляционные связи между интенсивностью стрессора, уровнем артериального давления, частотой дыхания и сердцебиения.

Уровень статистической значимости

В экспериментальной психологии под уровнем значимости имеется в виду вероятность различий, которые исследователь счел важными при том, что они являются случайными.

Если экспериментатор указывает 5% уровень значимости, то имеется в виду вероятность их недостоверности 0,05. При указанной достоверности различия на уровне 1% подразумевается, что вероятность недостоверности составляет 0,01.

То есть, под уровнем значимости подразумевается вероятность отказа от верной нулевой гипотезы.

Такую ошибку, допущенную при выявлении коэффициентов корреляции, называют “ошибкой 1 рода”. Ее обозначают числом α. Чем оно меньше, тем выше вероятность получения правильного результата.

В психологических исследованиях рассматривают несколько уровней статистической значимости:

  • низший — 5% (0,05);
  • достаточный — 1% (0,01);
  • высший — 0,1% (0,001).

Исследователь не может отказаться от нулевой гипотезы до тех пор, пока статистическая значимость не достигнет уровня 5%.

Коэффициент корреляции

Коэффициентом корреляции называют показатель, отражающий изменения двух или нескольких параметров. Корреляционный подход при психологических исследованиях помогает сохранить многозначность выводов об исследуемом параметре, не нарушая логических нормативов.

Взаимосвязь между исследуемыми объектами может быть положительной или отрицательной. В случае, если исследуется случайная независимая величина, корреляция может отсутствовать.

Что отражает корреляция — взаимосвязь или влияние

В корреляционном исследовании определяется взаимосвязь психологических параметров. Если в результате исследования выявлена корреляция, то у автора исследования есть возможность говорить о наличии причинно-следственной связи между исследуемыми явлениями.

Например, когда речь идет о тревожности и агрессивности, психолог не может утверждать, что тревожность вызывает агрессию, как не может настаивать на обратном. Если корреляционный анализ показывает значимую статистическую связь между двумя эмоциональными состояниями, то психолог может утверждать, что тревожность является причиной агрессивности (проявляется взаимосвязь), чем выше уровень тревожности, тем выше уровень агрессии и наоборот (проявляется влияние).

Однако, опираясь на результаты корреляционного анализа, исследователи не делают окончательное заключение о наличии связи и влияния. Полученные данные указывают, что между исследуемые переменные связаны между собой больше, чем при случайном выборе.

Этапы проведения корреляционного анализа

Корреляционные исследования проводятся с целью выявить тесноту связи между изучаемыми признаками и определить, в какой форме она проявляется.

Корреляционный анализ проходит в несколько этапов:

  1. осуществляется первичный анализ предмета исследования;
  2. проводится сбор информации, ее первичная обработка;
  3. строится уравнение регрессии;
  4. определяются параметры уравнения;
  5. проводится оценка модели корреляции.

На этапе первичного анализа исследователь решает вопрос о целесообразности выявления тесноты связи. Перед тем, как приступить к анализу, необходимо определить, какой параметр нужно выбрать для получения максимально полной и достоверной информации.

На втором этапе к анализируемой информации выставляются требования:

  • однородность совокупности;
  • прослеживание четкой корреляционной связи при большой совокупности (не менее 300).

Третий этап посвящен выбору математической формулы и просчету по ней взаимосвязи исследуемых параметров.

Корреляционное исследование

Корреляционные исследования проводятся, чтобы оценить взаимосвязь между параметрами (переменными), которые исследователь не контролирует. Анализ всегда осуществляется в естественной среде.

Наиболее результативными корреляционные исследования являются те, в которых собирается большое число данных. Например, при изучении, как и насколько понимают распоряжения начальника его подчиненные. В таком исследовании изучаются личностные качества начальника:

  • уравновешенность;
  • настойчивость;
  • требовательность;
  • оптимизм;
  • дисциплинированность;
  • скромность;
  • доброта;
  • справедливость.

Во время исследования рассматривается зависимость восприятия начальника, понимания его распоряжений от демографических характеристик подчиненных (возраста, пола, семейного положения), а также их статуса в коллективе.

Данные, полученные в результате корреляционного исследования, становятся субстратом для формирования гипотезы, которая позже более детально изучается при эмпирическом исследовании.

Корреляционный анализ позволяет выявить взаимосвязь между независимыми переменными, на которые психолог никак не влияет. Результаты анализа часто берутся в основу гипотезы дальнейших эмпирических исследований.

Читайте также: