Ковариация и корреляция реферат

Обновлено: 05.07.2024

Определение. Начальным моментом порядка системы двух случайных величин называется действительное число , определяемое по формуле:

если – система двух дискретных случайных величин;

если – система двух непрерывных случайных величин.

Определение. Центральным моментом порядка системы двух случайных величин называется действительное число , определяемое по формуле:

если – система двух дискретных случайных величин;

если – система двух непрерывных случайных величин.

На практике чаще всего встречаются моменты первого и второго порядков. Очевидно, что начальные моменты первого порядка есть не что иное, как математические ожидания компонент X и Y:

Точка с координатами на плоскости xOy представляет собой характеристику положения случайной точки , а ее рассеивание (разброс) происходит вокруг .

Центральные моменты первого порядка, очевидно, равны нулю, т.е.

Имеются три начальных момента второго порядка – , и . Причем первые два из них есть не что иное, как начальные моменты второго порядка компонент X и Y:

Имеются три центральных момента второго порядка , и . Первые два из них представляют собой дисперсии компонент X и Y соответственно:

Определение. Центральный момент второго порядка называется ковариацией случайной величины .

Для момента используется обозначение .

Замечание. По определению ковариации: .

В механической интерпретации, когда распределение вероятностей на плоскости xOy трактуется как распределение единичной массы на этой плоскости, точка есть не что иное, как центр масс распределения; дисперсии и – моменты инерции распределения относительно точки в направлении осей Ox и Oy соответственно, а ковариация – это центробежный момент инерции распределения масс.

Теорема. Если случайные величины X и Y независимы, то .

Замечание.Как правило, удобнее вычислять по формуле

Ковариация характеризует не только степень зависимости двух случайных величин , но также их рассеивание вокруг точки . Однако размерность ковариации равна произведению размерностей случайных величин X и Y. Чтобы получить безразмерную величину, характеризующую только зависимость, а не разброс, ковариацию делят на произведение :

Определение. Величина называется коэффициентом корреляции случайных величин X и Y.

Коэффициент корреляции характеризует степень зависимости случайных величин X и Y, причем не любой зависимости, а только линейной, проявляющейся в том, что при возрастании одной случайной величины другая проявляет тенденцию также возрастать (или убывать). В первом случае и говорят, что случайные величины X и Y связаны положительной корреляцией, во втором случае и говорят, что случайные величины X и Y связаны отрицательной корреляцией. Модуль коэффициента корреляции случайных величин X и Y характеризует степень тесноты линейной зависимости между ними. Если линейной зависимости нет, то .

Теорема. Если случайные величины X и Y связывает линейная зависимость , то при , при .

Пример 2.2.14. Найти коэффициент корреляции между случайными величинами: 1) X и ; 2) X и .

Решение. Согласно теореме 3.5.2: 1) , т.к. , ; 2) , т.к. , .

Ответ: 1) ; 2) .

Пример 2.2.15. Игральная кость размечена таким образом, что сумма очков на противоположных гранях равна 7 (т.е. 1 и 6, 2 и 5, 3 и 4). Пусть X – число очков на верхней грани, Y – число очков на нижней грани. Построить совместный закон распределения случайных величин X и Y, найти коэффициент корреляции между ними.

Решение. По условию задачи . Поэтому . Следовательно, для построения таблицы распределения случайного вектора остается вычислить вероятности:

Аналогично можно показать, что

Тогда закон распределения случайного вектора задается следующей таблицей:

Y X

Поскольку между случайными величинами X и Y имеется линейная связь , то .

Ответ: .

Теорема. Для любых случайных величин X и Y:

Определение. Случайные величины X и Y называются некоррелированными, если (или ), иначе X и Y называются коррелированными.

Замечание. Из независимости случайных величин следует их некоррелированность. Но из некоррелированности ( ) не вытекает их независимость. Действительно, если , то это означает только отсутствие линейной связи между случайными величинами, однако любой другой вид связи может при этом присутствовать.

Пример 2.2.16. Закон распределения случайного вектора задан таблицей:

Y X
0,1 0,2
0,3
0,1 0,3

Выяснить, зависимы или нет случайные величины X и Y. Найти: .

Решение. Найдем законы распределения компонент X и Y:

Y X
0,1 0,2 0,3
0,3 0,3
0,1 0,3 0,4
0,2 0,6 0,2 

Очевидно, что компоненты X и Y являются зависимыми, т.к.

Так как , то это показывает, что между случайными величинами X и Y существует отрицательная линейная зависимость, т.е. при увеличении одной из них другая имеет тенденцию уменьшаться.

Пример 2.2.17. Закон распределения случайного вектора задан таблицей:

Y X
–1 0,15 0,05
0,3 0,05
0,35 0,1

Выяснить, являются ли случайные величины X и Y: 1) зависимыми; 2) коррелированными.

Решение. Найдем законы распределения компонент X и Y:

Y X
–1 0,15 0,05 0,2
0,3 0,05 0,35
0,35 0,1 0,45
0,8 0,2 

Очевидно, что компоненты X и Y являются зависимыми, т.к.

Этот пример показывает, что случайные величины X и Y могут быть некоррелированными, но при этом являться зависимыми.

Пример 2.2.18. Двумерный случайный вектор подчинен закону распределения с плотностью

Область D – треугольник, ограниченный прямыми , , .

Найти: коэффициент а, . Выяснить, зависимы или нет случайные величины X и Y.

Решение. Коэффициент a находится из уравнения

Опуская промежуточные выкладки (в этом примере будем делать так и в дальнейшем), получаем . Далее:

Заметим, что в силу симметрии по переменным x и y, можно не вычислять математическое ожидание и дисперсию компоненты Y, т.е. , . Тогда .

Вычислим ковариацию и коэффициент корреляции:

Поскольку компоненты X и Y коррелированны, следовательно, они зависимы.

Ответ: , , , , , . Компоненты X и Y зависимы.

Пример 2.2.19. Двумерный случайный вектор равномерно распределен на множестве случайных точек Q, задаваемых неравенством . Выяснить, являются ли случайные величины X и Y: 1) зависимыми; 2) коррелированными.

Решение. Множество точек Q, задаваемых неравенством , является квадратом (рис. 2.2.6). Поскольку двумерный случайный вектор равномерно распределен на множестве Q, его плотность имеет вид

Из условия нормировки найдем константу C:

где – площадь квадрата Q, равная 2. Отсюда , а значит,

1) Найдем вначале плотность распределения компоненты X.

Если , то, очевидно, для всех .

Аналогично находится плотность распределения компоненты Y:

Равенство не выполняется для точек координатной плоскости, принадлежащих заштрихованным областям (рис. 2.2.7), поскольку в этих точках , а и . Суммарная площадь заштрихованных областей равна 2, значит, компоненты X и Y зависимы.

2) Вычислим математические ожидания компонент X и Y:

т.к. интеграл от нечетной функции в симметричных пределах равен нулю. Аналогично .

Определим начальный момент :

Таким образом, ковариация . Значит, компоненты X и Y некоррелированные.

Ответ: компоненты X и Y зависимы, но некоррелированны.

Ковариация и корреляция — это два термина, которые в точности противоположны друг другу, они оба используются в статистике и регрессионном анализе, ковариация показывает нам, как две переменные отличаются друг от друга, тогда как корреляция показывает нам взаимосвязь между двумя переменными и как они связаны.

Корреляция и ковариация — это две статистические концепции, которые используются для определения взаимосвязи между двумя случайными величинами. Корреляция определяет, как изменение одной переменной повлияет на другую, а ковариация определяет, как два элемента изменяются вместе. Сбивает с толку? Давайте углубимся дальше, чтобы понять разницу между этими тесно связанными терминами.

Что такое ковариация?

Ковариация измеряет, как две переменные движутся относительно друг друга, и является расширением концепции дисперсии (которая говорит о том, как изменяется одна переменная). Может принимать любое значение от -∞ до + ∞.

  • Чем выше это значение, тем более зависимы отношения. Положительное число означает положительную ковариацию и указывает на прямую связь. Фактически это означает, что увеличение одной переменной также приведет к соответствующему увеличению другой переменной, если другие условия останутся постоянными.
  • С другой стороны, отрицательное число означает отрицательную ковариацию, которая указывает на обратную связь между двумя переменными. Хотя ковариация идеально подходит для определения типа отношений, она плохо подходит для интерпретации их величины.

Что такое корреляция?

Корреляция — это шаг впереди ковариации, поскольку она количественно определяет взаимосвязь между двумя случайными величинами. Проще говоря, это единичная мера того, как эти переменные изменяются относительно друг друга (нормализованное значение ковариации).

  • В отличие от ковариации, у корреляции есть верхний и нижний предел диапазона. Он может принимать только значения от +1 до -1. Корреляция +1 указывает на то, что случайные величины имеют прямую и сильную связь.
  • С другой стороны, корреляция -1 указывает на то, что существует сильная обратная зависимость, и увеличение одной переменной приведет к равному и противоположному уменьшению другой переменной. 0 означает, что эти два числа независимы.

Формула ковариации и корреляции

Выразим эти две концепции математически. Для двух случайных величин A и B со средними значениями как Ua и Ub и стандартным отклонением как Sa и Sb соответственно:

Фактически отношения между ними можно определить как:

И корреляции, и ковариация находят применение в областях статистического и финансового анализа. Поскольку корреляция стандартизирует отношения, она полезна при сравнении любых двух переменных. Это помогает аналитику придумывать такие стратегии, как парная торговля и хеджирование, не только для обеспечения эффективной доходности портфеля, но и для защиты этой доходности от неблагоприятных движений на фондовом рынке.

Инфографика корреляции и ковариации

Давайте посмотрим на главную разницу между корреляцией и ковариацией.

Ключевые отличия

  • Ковариация — это показатель степени изменения двух случайных величин относительно друг друга. С другой стороны, корреляция измеряет силу этой связи. Величина корреляции ограничена сверху +1, а снизу -1. Таким образом, это определенный диапазон. Однако диапазон ковариации неопределен. Может принимать любое положительное или отрицательное значение (теоретически диапазон от -∞ до + ∞). Вы можете быть уверены, что корреляция 0,5 больше, чем 0,3, и первый набор чисел (с корреляцией 0,5) более зависим друг от друга, чем второй набор (с корреляцией 0,3). Интерпретировать такой результат с помощью ковариационных расчетов будет сложно.
  • Изменение масштаба влияет на ковариацию. Например, если значение двух переменных умножается на одинаковые или разные константы, это влияет на вычисленную ковариацию этих двух чисел. Однако применение того же механизма корреляции умножение на константы не меняет предыдущий результат. Это связано с тем, что изменение масштаба не влияет на корреляцию.
  • В отличие от ковариации, корреляция — это безразмерная мера взаимозависимости двух переменных. Это упрощает сравнение вычисленных значений корреляции между любыми двумя переменными независимо от их единиц измерения и размеров.
  • Ковариацию можно рассчитать только для двух переменных. С другой стороны, корреляцию можно рассчитать для нескольких наборов чисел. Еще один фактор, который делает корреляцию желательной для аналитиков по сравнению с ковариацией.

Ковариация против сравнительной таблицы корреляции

Основа Ковариация Корреляция
Имея в виду Ковариация — это показатель степени зависимости двух случайных величин друг от друга. Более высокое число означает более высокую зависимость. Корреляция — это показатель того, насколько сильно связаны эти две переменные, при условии, что другие условия постоянны. Максимальное значение +1, что означает идеальную зависимость.
Отношения Корреляцию можно вывести из ковариации. Корреляция обеспечивает меру ковариации по стандартной шкале. Он выводится путем деления вычисленной ковариации на стандартное отклонение.
Значения Значение ковариации лежит в диапазоне от -∞ до + ∞. Корреляция ограничена значениями в диапазоне от -1 до +1.
Масштабируемость Влияет на ковариацию На корреляцию не влияет изменение шкалы или умножение на константу.
Единицы Ковариация имеет определенную единицу, поскольку она выводится путем умножения двух чисел и их единиц. Корреляция — это безразмерное абсолютное число от -1 до +1, включая десятичные значения.

Заключение

Корреляция и ковариация очень тесно связаны друг с другом, но все же сильно отличаются. Ковариация определяет тип взаимодействия, но корреляция определяет не только тип, но и силу этой связи. По этой причине корреляцию часто называют частным случаем ковариации. Однако, если нужно выбирать между двумя, большинство аналитиков предпочитают корреляцию, поскольку на нее не влияют изменения размеров, местоположения и масштаба. Кроме того, поскольку он ограничен диапазоном от -1 до +1, полезно проводить сравнения между переменными по доменам. Однако важным ограничением является то, что обе эти концепции измеряют единственную линейную зависимость.

Ковариацией $cov\left(X,\ Y\right)$ случайных величин $X$ и $Y$ называется математическое ожидание произведения случайных величин $X-M\left(X\right)$ и $Y-M\left(Y\right)$, то есть:

Бывает удобно вычислять ковариацию случайных величин $X$ и $Y$ по следующей формуле:

которая может быть получена из первой формулы, используя свойства математического ожидания. Перечислим основные свойства ковариации.

1. Ковариация случайной величины с самой собой есть ее дисперсия.

2. Ковариация симметрична.

$$cov\left(X,\ Y\right)=cov\left(Y,\ X\right).$$

3. Если случайные величины $X$ и $Y$ независимы, то:

4. Постоянный множитель можно выносить за знак ковариации.

$$cov\left(cX,\ Y\right)=cov\left(X,\ cY\right)=c\cdot cov\left(X,\ Y\right).$$

5. Ковариация не изменится, если к одной из случайных величин (или двум сразу) прибавить постоянную величину:

$$cov\left(X+c,\ Y\right)=cov\left(X,\ Y+c\right)=cov\left(X+x,\ Y+c\right)=cov\left(X,\ Y\right).$$

6. $cov\left(aX+b,\ cY+d\right)=ac\cdot cov\left(X,\ Y\right)$.

8. $\left|cov\left(X,\ Y\right)\right|=\sqrt\Leftrightarrow Y=aX+b$.

9. Дисперсия суммы (разности) случайных величин равна сумме их дисперсий плюс (минус) удвоенная ковариация этих случайных величин:

$$D\left(X\pm Y\right)=D\left(X\right)+D\left(Y\right)\pm 2cov\left(X,\ Y\right).$$

Пример 1. Дана корреляционная таблица случайного вектора $\left(X,\ Y\right)$. Вычислить ковариацию $cov\left(X,\ Y\right)$.

$\begin<|c|c|>
\hline
X\backslash Y & -6 & 0 & 3 \\
\hline
-2 & 0,1 & 0 & 0,2 \\
\hline
0 & 0,05 & p_ & 0 \\
\hline
1 & 0 & 0,2 & 0,05 \\
\hline
7 & 0,1 & 0 & 0,1 \\
\hline
\end$

События $\left(X=x_i,\ Y=y_j\right)$ образуют полную группу событий, поэтому сумма всех вероятностей $p_$, указанных в таблице, должна быть равна 1. Тогда $0,1+0+0,2+0,05+p_+0+0+0,2+0,05+0,1+0+0,1=1$, отсюда $p_=0,2$.

$\begin<|c|c|>
\hline
X\backslash Y & -6 & 0 & 3 \\
\hline
-2 & 0,1 & 0 & 0,2 \\
\hline
0 & 0,05 & 0,2 & 0 \\
\hline
1 & 0 & 0,2 & 0,05 \\
\hline
7 & 0,1 & 0 & 0,1 \\
\hline
\end$

Пользуясь формулой $p_ =\sum _p_ $, находим ряд распределения случайной величины $X$.

$\begin<|c|c|>
\hline
X & -2 & 0 & 1 & 7 \\
\hline
p_i & 0,3 & 0,25 & 0,25 & 0,2 \\
\hline
\end$

Пользуясь формулой $q_ =\sum _p_ $, находим ряд распределения случайной величины $Y$.

$$M\left(Y\right)=\sum^n_=-6\cdot 0,25+0\cdot 0,4+3\cdot 0,35=-0,45.$$

Поскольку $P\left(X=-2,\ Y=-6\right)=0,1\ne 0,3\cdot 0,25$, то случайные величины $X,\ Y$ являются зависимыми.

Определим ковариацию $cov\ \left(X,\ Y\right)$ случайных величин $X,\ Y$ по формуле $cov\left(X,\ Y\right)=M\left(XY\right)-M\left(X\right)M\left(Y\right)$. Математическое ожидание произведения случайных величин $X,\ Y$ равно:

$$M\left(XY\right)=\sum_x_iy_j>=0,1\cdot \left(-2\right)\cdot \left(-6\right)+0,2\cdot \left(-2\right)\cdot 3+0,05\cdot 1\cdot 3+0,1\cdot 7\cdot \left(-6\right)+0,1\cdot 7\cdot 3=-1,95.$$

Тогда $cov\left(X,\ Y\right)=M\left(XY\right)-M\left(X\right)M\left(Y\right)=-1,95-1,05\cdot \left(-0,45\right)=-1,4775.$ Если случайные величины независимы, то их ковариации равна нулю. В нашем случае $cov(X,Y)\ne 0$.

Коэффициентом корреляции случайных величин $X$ и $Y$ называется число:

Перечислим основные свойства коэффициента корреляции.

1. $\rho \left(X,\ X\right)=1$.

2. $\rho \left(X,\ Y\right)=\rho \left(Y,\ X\right)$.

3. $\rho \left(X,\ Y\right)=0$ для независимых случайных величин $X$ и $Y$.

5. $\left|\rho \left(X,\ Y\right)\right|\le 1$.

6. $\left|\rho \left(X,\ Y\right)\right|=1\Leftrightarrow Y=aX+b$.

Ранее было сказано, что коэффициент корреляции $\rho \left(X,\ Y\right)$ отражает степень линейной зависимости между двумя случайными величинами $X$ и $Y$.

При $\rho \left(X,\ Y\right)>0$ можно сделать вывод о том, что с ростом случайной величины $X$ случайная величина $Y$ имеет тенденцию к увеличению. Это называется положительной корреляционной зависимостью. Например, рост и вес человека связаны положительной корреляционной зависимостью.


Ковариация и корреляция - это две математические концепции, которые довольно часто используются в бизнес-статистике. Оба из этих двух определяют взаимосвязь и измеряют зависимость между двумя случайными переменными. Несмотря на некоторые сходства между этими двумя математическими терминами, они отличаются друг от друга. Корреляция - это когда изменение одного элемента может привести к изменению другого элемента.

Корреляция считается лучшим инструментом для измерения и выражения количественных отношений между двумя переменными в формуле. С другой стороны, ковариация - это когда два элемента меняются вместе. Прочитайте данную статью, чтобы узнать различия между ковариацией и корреляцией.

Сравнительная таблица

Основа для сравненияковариациикорреляция
Имея в видуКовариация - это мера, показывающая степень изменения двух случайных величин в тандеме.Корреляция - это статистическая мера, которая показывает, насколько сильно связаны две переменные.
Что это?Мера корреляцииМасштабная версия ковариации
ЦенностиЛежат между -∞ и + ∞Лежат между -1 и +1
Изменение масштабаВлияет на ковариациюНе влияет на корреляцию
Единица измерениянетда

Определение ковариации

Ковариация - это статистический термин, определяемый как систематическое соотношение между парой случайных величин, в которой изменение одной переменной взаимно заменяется эквивалентным изменением другой переменной.

Ковариация может принимать любое значение в диапазоне от -∞ до + ∞, причем отрицательное значение является индикатором отрицательных отношений, тогда как положительное значение представляет собой положительные отношения. Кроме того, он устанавливает линейную связь между переменными. Поэтому, когда значение равно нулю, это указывает на отсутствие связи. В дополнение к этому, когда все наблюдения одной и той же переменной совпадают, ковариация будет равна нулю.

В Covariance, когда мы меняем единицу наблюдения по любой или обеим переменным, тогда не изменяется сила взаимосвязи между двумя переменными, но изменяется значение ковариации.

Определение корреляции

Корреляция описывается как мера в статистике, которая определяет степень, в которой две или более случайных величин движутся в тандеме. Во время изучения двух переменных, если было замечено, что движение одной переменной взаимно эквивалентно движению другой переменной, так или иначе, то переменные называются коррелированными.

Корреляция бывает двух типов: положительная или отрицательная. Говорят, что переменные имеют положительную или прямую корреляцию, когда две переменные движутся в одном направлении. Напротив, когда две переменные движутся в противоположном направлении, корреляция является отрицательной или обратной.

Значение корреляции лежит в диапазоне от -1 до +1, где значения, близкие к +1, представляют собой сильную положительную корреляцию, а значения, близкие к -1, являются показателем сильной отрицательной корреляции. Существует четыре показателя корреляции:

  • Корреляционная диаграмма
  • Коэффициент продукт-момент корреляции
  • Коэффициент ранговой корреляции
  • Коэффициент одновременных отклонений

Ключевые различия между ковариацией и корреляцией

Следующие пункты заслуживают внимания, поскольку речь идет о разнице между ковариацией и корреляцией:

  1. Мера, используемая для указания степени изменения двух случайных переменных в тандеме, называется ковариацией. Мера, используемая для представления, насколько сильно связаны две случайные величины, известная как корреляция.
  2. Ковариация - это не что иное, как мера корреляции. Наоборот, корреляция относится к масштабированной форме ковариации.
  3. Значение корреляции имеет место между -1 и +1. Наоборот, значение ковариации лежит между -∞ и + ∞.
  4. На ковариацию влияет изменение масштаба, т.е. если все значение одной переменной умножается на постоянную, а все значение другой переменной умножается на аналогичную или другую постоянную, то ковариация изменяется. В отличие от этого, на корреляцию не влияет изменение масштаба.
  5. Корреляция безразмерна, т. Е. Это единичная мера взаимосвязи между переменными. В отличие от ковариации, где значение получается произведением единиц двух переменных.

сходства

Оба измеряют только линейные отношения между двумя переменными, то есть когда коэффициент корреляции равен нулю, ковариация также равна нулю. Кроме того, две меры не зависят от изменения местоположения.

Заключение

Корреляция - это особый случай ковариации, который может быть получен при стандартизации данных. Теперь, когда дело доходит до выбора, который является лучшей мерой взаимосвязи между двумя переменными, корреляция предпочтительнее ковариации, поскольку она не зависит от изменения местоположения и масштаба, а также может использоваться для сравнения между две пары переменных.

Читайте также: