Реферат на тему алгоритмы группировки наблюдений с использованием корреляционного метода

Обновлено: 05.07.2024

Учебно-методическое пособие “Методы изучения корреляционных связей.” подготовлено кафедрой гигиены, общественного здоровья и здравоохранения Пензенского государственного университета (заведующий кафедрой, к.м.н. Дмитриев А.П.).

В составлении принимали участие: к.м.н. Зубриянова Н.С. , Дмитриев А.П. (ответственный за подготовку Зубриянова Н.С.).

Учебно-методическое пособие подготовлено в соответствии с «Программой по общественному здоровью и здравоохранению ” для студентов лечебных факультетов высших медицинских учебных заведений”, разработанной Всероссийским учебно-научно-методическим Центром по непрерывному медицинскому и фармацевтическому образованию Минздрава России и УМЦпкп и утвержденной Руководителем департамента образовательных медицинских учреждений и кадровой политики Н.Н. Володиным в 2000 г.

Данное Учебно-методическое пособие подготовлено для студентов для самостоятельной подготовки к практическим занятиям по указанной теме.

Тема: Методы изучения корреляционных связей

- Корреляционный анализ (основные понятия)

- Коэффициент парной корреляции

- Ранговый коэффициент (Спирмена)

- Определение тесноты связи между качественными признаками (коэффициенты Шарлье, Юла, Пирсона)

Продолжительность занятия: 4 часа

Самостоятельная работа: лабораторная работа №7

В различных областях медицины, биологии, организации здравоохранения, социально-гигиенических и клинических исследованиях проводятся статистический анализ связей, изучение закономерностей и влияющих факторов.

Существуют два вида проявления количественных взаимосвязанностей между признаками (явлениями, факторами) – функциональные и корреляционные.

При функциональных зависимостях каждому значению одной переменной величины соответствует одно вполне определенное значение другой переменной. Такие зависимости наблюдаются в математике и физике. Различные измерительные приборы основаны на функциональной зависимости (высота ртутного столбика дает однозначный ответ о температуре).

Корреляционные или статистические связи, при которых численному значению одной переменной соответствует много значений другой переменной. Пример, между ростом и весом детей существует бесспорная зависимость, но это не значит, что определенному росту строго соответствует определенный вес. В силу участия в формировании веса многих других факторов, каждому значению роста соответствует несколько значений веса, которые могут быть выражены в виде распределения.

Функциональная связь имеет место по отношению к каждому конкретному наблюдению. Корреляционная проявляется в среднем для всей совокупности наблюдений. выявления взаимодействия факторов, определение силы и направленности Практическое использование корреляционного анализа: выявление взаимодействия факторов, определение силы и направления влияния одних факторов на другие.

Следует подчеркнуть, что определение наличия связи между явлениями и факторами – дело специалистов. Статистика лишь измеряет эту связь.

Форма связи может быть прямолинейной и криволинейной. Прямолинейная связь – равномерные изменения одного признака соответствуют равномерным изменениям второго признака при незначительных отклонениях. Криволинейная связь – равномерные изменения одного признака соответствуют неравномерным изменениям второго признака.

Направление связи может быть прямое (положительное) или обратное (отрицательное). Если с увеличением одного признака второй также увеличивается или с уменьшением одного другой тоже уменьшается, зависимость прямая, положительная. Если с увеличением одного признака другой уменьшается или с уменьшением первого признака второй увеличивается, зависимость обратная, отрицательная.

По силе связи зависимость может быть сильная (сильно выражена), средняя (умеренно выражена), слабая (слабо выражена).

Оценка силы связи по величине коэффициента корреляции

Размер связи Характер связи
Прямая (+) Обратная (-)
Отсутствует 0 0
Слабая От 0 до +0,29 От 0 до -0,29
Средняя От +0,3 до +0,69 От -0,3 до -0,69
Сильная От +0,7 до +0,99 От -0,7 до -0,99
Полная (функциональная) +1,0 -1,0

Количественная характеристика взаимосвязи изучаемых признаков может быть дана на основании вычисления показателей силы связи между ними (коэффициенты корреляции) и определения зависимости одного признака от изменения другого (коэффициент регрессии).

Коэффициент парной корреляции

Коэффициент парной корреляции вычисляется по формуле:

или

Алгоритм расчета коэффициента парной корреляции:

1) записывают исходные данные в два вариационных ряда – x и y;

2) вычисляют среднюю арифметическую ряда x и y;

3) определяют разность между членом ряда и средними величинами;

4) перемножают разности ряда x и y между собой;

5) находят сумму перемножаемых разностей (с учетом арифметического знака);

6) возводят в квадрат каждую разность (отклонение) ряда х и у;

7) определяют сумму квадратов отклонений (разностей) для ряда х и у отдельно;

8) подставляют полученные данные в исходную формулу и вычисляют коэффициент парной корреляции.

Пример. Определить корреляционную связь между строками введения противодифтерийной сыворотки и летальностью от этого заболевания.

Исследование объективно существующих связей между явлениями – важнейшая задача общей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие существенное влияние на вариацию изучаемых явлений и процессов.

Особо важным, при исследовании причинно-следственных связей считается первый этап, а это непосредственно выявление наличия связей между явлениями. Методы, пользуясь которыми в статистике определяется наличие связи, и стали объектом рассмотрения в данной работе.

Цель работы – это рассмотрение существующих в статистике методов, более детальное изучение некоторых из них и применение изученных методов на практике.

Необходимость выполнения работы, изучения данного материала возникла в связи с изучением курса статистики.

  1. Виды взаимосвязей, изучаемых в статистике.

Известно, что все явления в мире, в том числе общественные, взаимосвязаны и взаимообусловлены. Изучение взаимосвязей явлений – важнейшая задача статистического анализа. Связи между признаками и явлениями отличаются разнообразием.

По содержанию, прежде всего, выделяют причинно-следственные связи, выражающиеся в действии признаков (причин) на следствие (явление). Причинно-следственные связи позволяют раскрыть сущность явлений, к ним приковано основное внимание исследователей.

Связи, проявляющиеся как воздействие факторных признаков, могут быть названы факторно обусловленными.

По числу взаимодействующих факторов выделяют связи однофакторные и многофакторные. При однофакторных связях результативный признак связывается с одним фактором, а при многофакторных – с двумя и большим числом факторных признаков.

По направлению связи могут быть прямые и обратные. При прямых связях с увеличением факторного признака увеличивается и признак результативный, при обратных – с увеличением факторного признака результативный уменьшается.

Выделяют так же связи прямолинейные и криволинейные. Прямолинейные связи описываются уравнением прямой, криволинейные – уравнением какой-либо кривой (гиперболы, параболы и т.п.).

Различают связи функциональные и корреляционные.

Функциональные – это такие связи, когда изменению факторного признака на единицу соответствует изменение результативного признака на строго определенную величину. Например, с увеличением радиуса окружности на 1 см длина окружности всегда увеличивается на 6, 28 см, так как длина окружности определяется по формуле . Функциональная связь проявляется как в совокупности в целом, так и в каждой ее единице.

Корреляционные – это такие связи, когда при одном и том же значении факторного признака значения результативного признака различны, однако изменение факторного признака вызывает средние изменения результативного признака. В отличие от функциональной зависимости корреляция возникает тогда, когда зависимость результативного признака от факторного осложняется наличием ряда случайных факторов. В корреляционной связи между изменением факторного и результативного признака нет такого полного соответствия, воздействие факторов проявляется лишь в среднем при массовом наблюдении фактических данных.

Поскольку связи в экономике относятся, как правило, к многофакторным, то для принятия практических решений учитываются только так называемые основные. В свою очередь сами факторные признаки могут зависеть от изменения ряда причин (факторов). Отсюда одному и тому же значению признака-фактора соответствует целый ряд значений результативного признака. Ведь в каждом конкретном случае степень зависимости тоже может измениться.

При изучении причинно-следственных связей решающее слово должно принадлежать теории (сущности) изучаемого явления. Теоретический анализ должен показать о наличии или возможности связи между данными признаками, какие факторы влияют на формирование и изменение данного результативного признака.

При исследовании корреляционных зависимостей решается широкий круг вопросов:

1) предварительный анализ свойств изучаемой совокупности;

2) установленные факта наличия связи, определение ее направления и формы;

3) измерение степени тесноты связи между признаками;

4) нахождение аналитического (математического) выражения связи или построение регрессионной модели;

5) оценка адекватности модели, ее интерпретации и практическое использование.

  1. Статистические методы выявления наличия корреляционной связи между явлениями.

Корреляционная связь, характеризуется согласованностью в вариации значений признаков. Однако согласованность эта не всегда свидетельствует о наличии причинно-следственной связи между рассматриваемыми признаками. Так, например, согласованность в вариации значений признаков может быть следствием какой-либо одной, общей для них причины, или отражать случайное совпадение в изменениях признаков, не находящихся между собой в какой-либо связи. Неправильно возлагать полностью на статистику задачу установления наличия связи. Статистика только обнаруживает и характеризует фактическое проявление связи, указание на возможность которой дает теория изучаемого явления.

Именно теоретический анализ указывает на вытекающую из существа изучаемого явления возможность связи между признаками, процессами, сопровождающими это явление. Однако теория не может дать ответ на вопрос, проявляется ли в действительности и как проявляется теоретически возможная связь в данных конкретных условиях.

При статистическом изучении корреляционной связи между признаками исходным материалом являются данные об индивидуальных значениях этих признаков в изучаемой статистической совокупности.

Статистическая наука в настоящее время располагает большим набором приемов (методов) выявления корреляционной связи. Одни приемы можно отнести к элементарным (простейшим), другие предусматривают использование специального сложного математического аппарата.

К элементарным приемам (методам) выявления наличия корреляционной связи относятся:

  1. параллельное сопоставление рядов значений факторного и результативного признаков,
  2. графическое изображение фактических данных с помощью поля корреляции,
  3. построение групповой и корреляционной таблиц,
  4. факторные (аналитические) группировки и исчисление групповых средних.

К сложным методам изучения взаимосвязей относятся: балансовые таблицы, дисперсионный анализ, методы теории корреляции и регрессии, методы многомерного анализа, методы распознавания образов, метод главных компонентов и др.

Рассмотрим некоторые из данных методов.

При отсутствии ярко выраженной причинной связи между факторным и результативным признаками наличие и характер связи можно установить при помощи метода параллельных рядов: в одной таблице приводятся упорядоченные значения факторного признака, который обычно обозначается символом х , и соответствующие им значения результативного признака, который обычно обозначается символом у .

Наличие и характер связи определяется по степени согласованности вариации данных рядов.

Метод параллельных рядов обычно используется для установления характера связи при относительно небольшом объеме исходного материала. С помощью этого метода можно дать лишь самую общую характеристику связи. Однако при наличии большого числа значений признаков, когда одному и тому же значению признака-фактора, как правило, соответствует несколько различных значений результативного признака, восприятие параллельных рядов сильно затрудняется. В этих случаях целесообразно для установления наличия связи воспользоваться методом построения корреляционных таблиц.

Построение корреляционной таблицы начинают с группировки значений факторного и результативного признаков. В корреляционной таблице, как правило, в подлежащем указывается факторный признак х, а в сказуемом – результативный признак у.

В корреляционной таблице указываются частоты: сколько раз данная величина одного признака повторяется в сочетании с соответствующей величиной другого признака. Итоговые графа и строка отражают распределение единиц совокупности по рассматриваемым признакам.

Корреляционная таблица позволяет сжато, компактно и достаточно наглядно изложить исходный материал. Поэтому даже расчеты по методам корреляции и регрессии можно вести по корреляционной таблице.

Корреляционная зависимость устанавливается и на основе факторных (аналитических) группировок. Для этого необходимо изучаемую совокупность расчленить на группы по величине факторного признака и по каждой группе вычислить групповые средние значения результативного признака. Эти средние величины, исчисленные на единицу совокупности по каждой группе, являются сопоставимыми, и в зависимости от направления их изменения можно установить наличие и направление связи между исследуемыми признаками.

Важную роль в статистических исследованиях взаимосвязей явлений играет индексный метод. Как известно, в любой системе индексов отображается связь между результативным и факторным признаками явлений, посредством индексов устанавливается влияние отдельных причин (факторов) на изменение результативного признака.

На исследовании вариации (количественных различий) факторных и результативных признаков основан регрессионно-корреляционный метод. При анализе корреляционных зависимостей решаются две практические задачи: во-первых, необходимо обнаружить саму зависимость в фактическом материале, а во-вторых, измерить силу, или тесноту, связи, то есть степень ее приближения к связи функциональной. Первая задача решается соответствующей обработкой фактического материала и составлением уравнения корреляционной связи – чего вполне достаточно для выявления наличия связи. Тип уравнения выбирается на основе теоретического анализа и исследования исходных фактических данных.

В большинстве случаев связи изучаются по уравнению прямой вида: , где – результативный признак, – факторный, и – параметры уравнения прямой. Уравнение прямой, описывающей корреляционную связь является уравнением связи, или регрессии, а сама прямая – линией регрессии. Параметры уравнения прямой находятся выравниванием по способу наименьших квадратов, которое приводит к системе двух уравнений.

  1. Примеры выявления корреляционной связи различными методами.

Более наглядным является рассмотрение изученных методов на примере конкретных данных. Примерим на практике следующие методы:

  1. метод параллельных рядов;
  2. метода факторных (аналитических) группировок;
  3. регрессионно-корреляционный метод.

Рассмотрим метод параллельных рядов на примере данных по 24 хозяйствам района о массе внесенных органических удобрений и уровнях урожайности зерновых . Данные представим в виде таблицы.

Таблица 1. Масса внесенных органических удобрений и уровни урожайности зерновых в хозяйствах района

Как и исследование единичных случаев, и опрос, естественное наблюдение не объясняет поведение. Оно просто описывает его. Хотя описание может объяснять! Наблюдение имеет несколько вариантов, которые различается по целому ряду признаков.

1. Первый критерий - объективность-субъективность, по нему можно выделить внешнее и внутреннее наблюдение. Внешнее наблюдение — это наблюдения со стороны. Внутреннее наблюдение - это самонаблюдение, оно применяется тогда, когда психолог-исследователь ставит перед собой задачу изучить интересующее его явление в том виде, в каком оно непосредственно представлено в сознании.

2. По характеру контакта с наблюдаемым объектом – непосредственное и опосредованное (что означают эти виды наблюдения, мы рассмотрели в классификации Пирьова).

3. По упорядоченности проведения – свободное и стандартизированное. Свободное наблюдение не имеет заранее установленных рамок, программы, процедуры его проведения. Оно может менять предмет или объект наблюдения, его характер в ходе самого наблюдения в зависимости от пожелания наблюдателя. Стандартизированное наблюдение, напротив, заранее определено и четко ограничено в плане того, что наблюдается. Оно ведется по определенной, предварительно продуманной программе и строго следует ей, независимо от того, что происходит в процессе наблюдения с объектом или самим наблюдателем.

4. По упорядоченности во времени – сплошные, выборочные. В случае сплошных наблюдений исследователь наблюдает за обследуемыми фиксированный промежуток времени, не делая перерывов.

5. По характеру взаимодействия с объектом – включенное и стороннее наблюдение. При включенном наблюдении (оно чаще всего используется в общей, возрастной, педагогической и социальной психологии) исследователь выступает в качестве непосредственного участника того процесса, за ходом которого он ведет наблюдение. Стороннее наблюдение в отличие от включенного не предполагает личного участия наблюдателя в том процессе, который он изучает. Также различается открытое(объект знает, что за ним наблюдают) и скрытое наблюдение (объект не знает, что за ним наблюдают).

6. По условиям осуществления – полевое и лабораторное. Полевое наблюдение – это наблюдение в естественной среде обследуемых. Например, психолог может придти в детский садик и наблюдать за детьми там. Лабораторное – это наблюдение в условиях лаборатории. Например, психолог может пригласить обследуемых к себе в кабинет и там провести наблюдение.

7. По целям - целенаправленное и случайное.

Каждый из названных видов наблюдения имеет свои особенности и применяется там, где он может дать наиболее достоверные результаты. Внешнее наблюдение, например, менее субъективно, чем самонаблюдение, и обычно применяется там, где признаки, за которыми необходимо наблюдать, легко могут быть выделены и оценены извне. Внутреннее наблюдение незаменимо и часто выступает как единственно доступный метод сбора психологических данных в тех случаях, когда отсутствуют надежные внешние признаки интересующего исследователя явления. Свободное наблюдение целесообразно проводить в тех случаях, когда невозможно точно определить, что следует наблюдать, когда признаки изучаемого явления и его вероятный ход заранее не известны исследователю. Стандартизированное наблюдение, напротив, лучше использовать тогда, когда у исследователя имеется точный и достаточно полный перечень признаков, относимых к изучаемому феномену. Включенное наблюдение полезно в том случае, когда психолог может дать правильную оценку явлению, лишь прочувствовав его на самом себе. Однако если под влиянием личного участия исследователя его восприятие и понимание события может быть искажено, то лучше обращаться к стороннему наблюдению, применение которого позволяет более объективно судить о наблюдаемом.

Описание поведения через наблюдение или черз опрос - это лишь первый шаг к предсказанию поведения. Когда мы наблюдаем, что определенные черты или поведение сопутствуют друг другу, то мы говорим, что они коррелируют. Корреляция - это статистическая мера связи; она раскрывает насколько близко две вещи взаимодействуют и, таким образом, насколько сильно по появлению одной можно предсказать появление другой. Положительная корреляция показывает прямую связь, означающую, что две вещи либо увеличиваются вместе, либо уменьшаются вместе. Если количество просмотренных сцен насилия в TV-программах положительно коррелирует с агрессивным поведением (что действительно так), тогда привычка человека смотреть TV будут предсказывать его агрессивность. Отрицательная корреляция показывает обратную связь: когда одно обстоятельство увеличивается, другое - уменьшается. Наблюдения за самооценкой и депрессией иллюстрируют отрицательную корреляцию: люди с низким уровнем самооценки имеют тенденцию к высокому уровню депрессии.

Наблюдение позволяет нам провести корреляционный анализ - установить, что между переменными есть связь. Преимущества корреляционного анализа очевидны: он позволяет получить за очень короткое время множество данных для значительного числа испытуемых. Кроме того, этот метод можно применять в ряде особых случаев, в которых экспериментальный подход сопряжен с трудностями или даже невозможен (главным образом по этическим соображениям); примерами служит сбор данных о самоубийствах, о наркомании или о воспитании детей в неблагоприятных условиях. И, наконец, корреляционный анализ позволяет получать информацию, основанную на более разнообразных выборках и более близкую к существующей в обществе реальности в отличие от результатов экспериментов, проводимых в лаборатории, где часто используют одну и ту же популяцию студентов.

Этот метод, однако, не позволяет решить одну проблему, связанную с возможной интерпретацией зависимости, существующей между переменными, он не дает ответа на вопрос, какая из двух переменных служит причиной, а какая – следствием. Таким образом, хотя корреляция делает возможным предсказание, она не дает объяснение. Знание того, что 2 события коррелируют, не говорит нам ничего об их причинно-следственной зависимости. Люди с высокой агрессивностью часто смотрят насилие по телевизору, но вызывают ли сцены насилия по TV агрессию? Вызывает ли низкий уровень самооценки депрессию? Если вы думаете, что это так, то вы не одиноки в своем мнении. Это самая непреодолимая ошибка мышления, которая допускается как непрофессионалами, так и профессиональными психологами. Но корреляция не означает причинно-следственных отношений! Если просмотр сцен насилия по TV положительно коррелирует с агрессивностью, значит ли это, что просмотр сцен насилия по TV влияет на агрессивное поведение? Возможно. Но могут ли неагрессивные люди предпочитать программы со сценами насилия?

И какова отрицательная корреляция между самооценкой и депрессией? Возможно, низкий уровень самооценки является причиной депрессии. Но может быть депрессия вызывает у людей низкую самооценку. Или, может быть, самооценка и депрессия причинно не связаны. Как низкий уровень самооценки, так и депрессия могут вызываться неким, лежащим в основе третьим фактором, таким как травмирующее событие или биологическая предрасположенность.

Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции. Коэффициент корреляции – двумерная описательная статистика, количественная мера взаимосвязи (совместной изменчивости) двух переменных. Таким образом, корреляционный анализ это совокупность методов обнаружения корреляционной зависимости между случайными величинами или признаками.

Содержание работы
Файлы: 1 файл

referat_po_kompam.docx

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Тема: Корреляционный анализ

  1. Введение………………………………………………………… ……….…3
  2. Реферативная справка……………………………………………………. 5
  3. Отбор факторов для корреляционного анализа……………………..…. 9
  4. Постановка задачи………………………………………………………. 11
  5. Пример……………………………………………………………… …..…12
  6. Выводы……………………………………………………………… ….…19
  7. Список использованной литературы………………………………….…20

Статистические методы применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в экспериментах, при опросе и наблюдениях, возможно больше полезной информации. Одним самых из распространенных методов статистики является корреляционный анализ.

Термин "корреляция" впервые применил французский палеонтолог Ж. Кювье, который вывел "закон корреляции частей и органов животных" (этот закон позволяет восстанавливать по найденным частям тела облик всего животного). В статистику указанный термин ввел английский биолог и статистик Ф. Гальтон (не просто связь – relation, а "как бы связь " – corelation).

Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции. Коэффициент корреляции – двумерная описательная статистика, количественная мера взаимосвязи (совместной изменчивости) двух переменных. Таким образом, корреляционный анализ это совокупность методов обнаружения корреляционной зависимости между случайными величинами или признаками. Корреляционный анализ для двух случайных величин заключает в себе:

1) построение корреляционного поля и составление корреляционной таблицы;

2) вычисление выборочных коэффициентов корреляции и корреляционных отношений;

3) проверка статистической гипотезы значимости связи.

Основное назначение корреляционного анализа – выявление корреляционной связи между двумя или более изучаемыми переменными. Корреляционная связь это совместное согласованное изменение двух изучаемых характеристик. Данная изменчивость обладает тремя основными характеристиками: формой, направлением и силой.

Корреляционный анализ - совокупность основанных на математической теории корреляции методов обнаружения корреляционной зависимости между двумя случайными признаками или факторами. Корреляционный анализ экспериментальных данных заключает в себе следующие основные практические приёмы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции или корреляционного отношения; 3) проверка статистической гипотезы значимости связи. Дальнейшее исследование заключается в установлении конкретного вида зависимости между величинами. Зависимость между тремя и большим числом случайных признаков или факторов изучается методами многомерного корреляционного анализа. (вычисление частных и множественных коэффициентов корреляции и корреляционных отношений).

Корреляционное поле и корреляционная таблица являются вспомогательными средствами при анализе выборочных данных. При нанесении на координатную плоскость выборочных точек получают корреляционное поле. По характеру расположения точек поля можно составить предварительное мнение о форме зависимости случайных величин (например, о том, что одна величина в среднем возрастает или убывает при возрастании другой). Для численной обработки результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке корреляционной таблицы приводятся численности гц; тех пар (х, у), компоненты которых попадают в соответствующие интервалы группировки по каждой переменной.

Предполагая длины интервалов группировки (по каждому из переменных) равными между собой, выбирают центры xi (соответственно yj) этих интервалов и числа nij в качестве основы для расчётов.

Коэффициент корреляции и корреляционное отношение дают более точную информацию о характере и силе связи, чем картина корреляционного поля. Выборочный коэффициента корреляции определяют по формуле:

При большом числе независимых наблюдений, подчиняющихся одному и тому же распределению, и при надлежащем выборе интервалов группировки коэффициент ρ̂ близок к истинному коэффициенту корреляции ρ. Поэтому использование ρ̂ как меры связи имеет четко определённый смысл для тех распределений, для которых естественной мерой зависимости служит ρ (т. е. для нормальных или близких к ним распределений). Во всех др. случаях в качестве характеристики силы связи рекомендуется использовать корреляционное отношение η, интерпретация которого не зависит от вида исследуемой зависимости.

Коэффициенты корреляции является общепринятой в математической статистике характеристикой связи между двумя случайными величинами. Коэффициент корреляции - показатель степени взаимозависимости, статистической связи двух переменных; изменяется в пределах от -1 до +1. Значение коэффициента корреляции 0 указывает на возможное отсутствие зависимости, значение +1 свидетельствует о согласованности переменных.

Различают следующие коэффициенты корреляции:

- дихотомический - показатель связи признаков (переменных) измеряемых по дихотомическим шкалам наименований;

- Пирсона (Pearson product-moment correlation) - коэффициент корреляции, используемый для континуальных переменных;

- ранговой корреляции Спирмена (Spearmen's rank-order correlation) - коэффициент корреляции для переменных, измеренных в порядковых (ранговых) шкалах;

- точечно-бисериальной корреляции (point-biserial correlation) - коэффициент корреляции, применяемый в случае анализа отношения переменных, одна из которых измерена в континуальной шкале, а другая - в строго дихотомической шкале наименований;

- j - коэффициент корреляции, используемый в случае, если обе переменные измерены в дихотомической шкале наименований.

- тетрахорический ( четырехпольный) (tetrachoric) - коэффициент корреляции, используемый в случае, если обе переменные измерены в континуальных шкалах[4].

Линейная связь между переменными Xi и Xj оценивается коэффициентом корреляции:

где Xi и Xj – исследуемые переменные; mXi и mXj – математические ожидания переменных; σX и σX – дисперсии переменных.

Выборочный коэффициент корреляции определяют по формуле:

или по преобразованной формуле:

где i =1, 2, ., n, j = 1, 2, ., m, u = 1, 2, ., N; N – число опытов(объем выборки); xi, xj – оценки математических ожиданий; SXi, SXj – оценки среднеквадратических отклонений.

Только при совместной нормальной распределенности исследуемых случайных величин Xi и Xj коэффициент корреляции имеет определенный смысл связи между переменными. В противном случае коэффициент корреляции может только косвенно характеризовать эту связь[5].

Применение корреляционного анализа позволяет решить следующие задачи:

2) установить относительную степень зависимости результативного показателя от каждого фактора.

Исследование корреляционных зависимостей имеет огромное значение в АХД. Это проявляется в том, что значительно углубляется факторный анализ, устанавливаются место и роль каждого фактора в формировании уровня исследуемых показателей, углубляются знания об изучаемых явлениях, определяются закономерности их развития и как итог — точнее обосновываются планы и управленческие решения, более объективно оцениваются итоги деятельности предприятий и более полно определяются внутрихозяйственные резервы.

Отбор факторов для корреляционного анализа

Отбор факторов для корреляционного анализа — очень важный момент: от того, насколько правильно отобраны факторы, зависят конечные результаты анализа. Главная роль при отборе факторов принадлежит теории, а также практическому опыту анализа. При этом необходимо придерживаться следующих правил.

1. В первую очередь следует учитывать причинно-следственные связи между показателями, ибо только они раскрывают сущность изучаемых явлений. Анализ же таких факторов, которые находятся только в математических соотношениях с результативным показателем, не имеет практического смысла.

2. При создании многофакторной корреляционной модели необходимо отбирать самые значимые факторы, которые оказывают решаюшее воздействие на результативный показатель, так как охватить все условия и обстоятельства практически невозможно. Факторы, которые имеют критерий надежности по Стьюденту меньше табличного, не рекомендуется принимать в расчет.

3. В корреляционную модель линейного типа не рекомендуется включать факторы, связь которых с результативным показателем имеет криволинейный характер.

4. Нельзя включать в корреляционную модель взаимосвязанные факторы. Если парный коэффициент корреляции между двумя факторами больше 0,85, то по правилам корреляционного анализа один из них необходимо исключить, иначе это приведет к искажению результатов анализа.

5. Не рекомендуется включать в корреляционную модель факторы, связь которых с результативным показателем носит функциональный характер.

Большую помощь при отборе факторов для корреляционной модели оказывают аналитические группировки, способ сравнения параллельных и динамических рядов, линейные графики. С их помощью можно определить наличие, направление и форму зависимости между изучаемыми показателями. Отбор факторов можно производить также в процессе решения задачи корреляционного анализа на основе оценки их значимости по критерию Стьюдента.

Учитывая перечисленные требования и используя названные способы отбора факторов, для многофакторной корреляционной модели уровня рентабельности (Y) подобраны следующие факторы, оказывающие наиболее существенное влияние на ее уровень:

x1 - материалоотдача, руб.;

x2 - фондоотдача, коп.;

x3 - производительность труда (среднегодовая выработка продукции на одного работника), млн руб.;

x4 - продолжительность оборота оборотных средств предприятия, дни;

x5 - удельный вес продукции высшей категории качества, %.

Поскольку корреляционная связь достаточно полно проявляется только в массе наблюдений, объем выборки данных должен быть достаточно большим, так как только в массе наблюдений сглаживается влияние других факторов. Чем большая совокупность объектов исследуется, тем точнее результаты анализа.

Имеется матрица наблюдений вида(пример 1 ,2)

Необходимо определить оценки коэффициентов корреляции для всех или только для заданных пар параметров и оценить их значимость. Незначимые оценки приравниваются к нулю.

  • Выборка имеет достаточный объем. Понятие достаточного объема зависит от целей анализа, требуемой точности и надежности оценки коэффициентов корреляции, от количества факторов. Минимально допустимым считается объем, когда количество наблюдений не менее чем в 5–6 раз превосходит количество факторов;
  • выборки по каждому фактору являются однородными. Это допущение обеспечивает несмещенную оценку средних величин;
  • матрица наблюдений не содержит пропусков.

Если необходима проверка значимости оценки коэффициента корреляции, то требуется соблюдение дополнительного условия – распределение вариант должно подчиняться нормальному закону.

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.



Основы корреляционного анализа

Задание 3
Основы корреляционного анализа

Корреляционный анализ, разработанный К.Пирсоном и Дж.Юлом, является одним из методов статистического анализа взаимозависимости нескольких признаков - компонент слу­чайного вектора x . Основная задача корреляционного анализа состоит в оценке степени зави­симости между случайными величинами. Степень линейной зависимости между количест­венными переменными характеризуется с помощью парных, частных и множественных ко­эффициентов корреляции и детерминации.

Парный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными на фоне действия всех остальных показателей, входящих в модель. Частный коэффициент корреляции характеризует тесноту линейной зависимости между двумя переменными при исключении влияния всех остальных показателей, входя­щих в модель. Данные коэффициенты корреляции изменяются в пределах от -1 до +1, при­чем чем ближе коэффициент корреляции к +1, тем сильнее зависимость между перемен­ными. Если коэффициент корреляции больше 0, то связь положительная, а если меньше нуля - отрицательная.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной (результативной) и остальными, входящими в модель; изменя­ется в пределах от 0 до 1. Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных переменных (ар­гументов), входящих в модель.

Исходной для анализа является матрица:

размерности ( n x k ), i -я строка которой характеризует i -е наблюдение (объект) по всем k -м показателям (/=1, 2, . k ).

В корреляционном анализе матрицу X рассматривают как выборку объема n из k -мерной генеральной совокупности, подчиняющейся k -мерному нормальному закону рас­пределения.

По выборке определяют оценки параметров генеральной совокупности, а именно: вектор средних (х ), вектор средне-квадратических отклонений s и корреляционную мат­рицу ( R ) порядка ( k * k ):

Матрица R является симметричной и положительно определенной:

где - значение i -го наблюдения j -го фактора; Гц - выборочный парный коэффи­циент корреляции, характеризует тесноту линейной связи между показателями x j и x /. При этом г -/ является оценкой генерального парного коэффициента корреляции.

Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка. Например, частный коэффициент корреляции (к-2)-го поряд­ка между факторами и равен:

где - алгебраическое дополнение элемента корреляционной матрицы R . При

этом где M - - минор, определитель матрицы, получаемой из матрицы R путем вычеркивания j- й строки и l-го столбца.

Множественный коэффициент корреляции (к-1 )-го порядка фактора (результатив­ного признака) X 1 определяется по формуле:

где - определитель матрицы R .
Задание 1


По данным n=10 машиностроительных предприятий методами корреляционного анализа исследуется взаимосвязь между следующими показателями: X 1 - рентабельность (%); Х2 - премии и вознаграждения на одного работника (млн.руб.); X3 - фондоотдача.

а) рассчитать вектора средних и среднеквадратнческих отклонений, матрицу пар­ных коэффициентов корреляции

б) проверить при α=0,05 значимость парного коэффициента корреляции ρ 12 и найти его интервальную оценку с доверительной вероятностью γ=0,95;

в) по корреляционной матрице R рассчитать частный коэффициент корреляции ;

г) проверить при α=0,05 значимость частного коэффициента корреляции ρ 12/3 и определить его интервальную оценку при γ=0,95 ;

д) по корреляционной матрице R вычислить оценку множественного коэффициента корреляции и при α=0,05 проверить гипотезу Н 0 : .
Решение:

а) рассчитаем вектора средних и средне – квадратических отклонений, матрицу парных коэффициентов корреляции .

Расчет представлен в таблице 1.

В результате получим:

б) проверим при значимость парного коэффициента корреляции .

Здесь для парного коэффициента корреляции.

Так как , то гипотеза отвергается, т.е. предположение о его равенстве нулю отвергается, противоречит наблюдениям, но мало. Найдем интервальную оценку для при .

По таблице преобразования Фишера для будет иметь .

По таблице нормального распределения из условия найдем .

По таблице Z – преобразования для и найдем интервальную оценку для :

Полученная интервальная оценка подтверждает вывод о не значимости парного коэффициента корреляции , т.к. ноль находится внутри доверительного интервала.

в) рассчитываем частный коэффициент корреляции :

г) проверим при значимость частного коэффициента корреляции и определим его интервальную оценку при .

, значит, отвергаем гипотезу о равенстве нулю.

По таблице преобразования Фишера для будем иметь .

По таблице Z – преобразования для и найдем интервальную оценку для :

Интервальная оценка подтверждает вывод о значимости частного коэффициента корреляции.

д) вычисляем оценку множественного коэффициента корреляции .

Критическое значение по таблице F – распределения

Так как , то гипотеза отвергается, то есть множественный коэффициент корреляции не равен нулю .

Читайте также: