Реферат меры центральной тенденции

Обновлено: 07.07.2024

— различные способы осмысления центральной или средней позиции группы наблюдений, чисел и т.д.

Меры центральной тенденции обобщенные характеристики распределения некоторого признака в данной совокупности индивидов. Их называют также средними, оперируя которыми, мы теряем часть информации, но отражаем типичное для изучаемой совокупности в определенных условиях. Чтобы средняя была характеристикой, улавливающей тенденцию, закономерность, она должна применяться к достаточно однородной совокупности.

Имеются три меры: мода, медиана и среднее. Мода — наиболее частое значение. Медиана — значение, занимающее центральное положение, имея множество величин как ниже, так и выше себя. Среднее (чаще называемое средней величиной) вычисляется путем суммирования всех индивидуальных значений и деления суммы на число случаев или наблюдений. Иногда совокупность наблюдений выдает бимодальное распределение (где две разные величины встречаются наиболее часто). Кроме того, при наличии равного числа наблюдений центрального значения медианы нет. В этом случае ее проводят на полпути между двумя центрально расположенными значениями.

Меры изменчивости

Меры изменчивости – численное выражение между индивидуальной вариацией признака.

1) пределы разнообразия – наибольшая и наименьшая величина признака среди всех представителей выборки.

2) размах – разность между максимальной и минимальной величиной признака.

3) дисперсия – сумма квадратов отклонений измеренного признака от их среднего; степень рассеивания значений признака вокруг среднего значения.

4) стандартное (среднее квадратичное) отклонение – она имеет ту же размерность, представлена в тех же единицах измерения, что и исходный массив данных.

5) Коэффициент вариации – отношение стандартного отклонения к среднему значению выраженный в процентах.

- количественные показатели тесноты и направления связи. Регрессия и корреляция относятся к тем способам, к-рые чаще всего используются для описания связей между переменными. Два разных измерения, полученных по каждому элементу выборки, можно отобразить в виде точек в декартовой системе координат (х, у) — диаграммы рассеяния, являющейся графическим представлением связи между этими измерениями. Часто эти точки образуют почти прямую линию, свидетельствующую о линейной связи между переменными. Для получения линии регрессии — мат. уравнения линии наилучшего соответствия множеству точек диаграммы рассеяния — используются численные методы. После выведения линии регрессии появляется возможность предсказывать значения одной переменной по известным значениям другой и, к тому же, оценивать точность предсказания.

Коэффициент корреляции (r) — это количественный показатель тесноты линейной связи между двумя переменными. Методики вычисления коэффициентов корреляции исключают проблему сравнения разных единиц измерения переменных. С.М. конструируются таким образом, чтобы их значения изменялись в интервале [0; 1] или [-1; 1]. Значение коэффициента, равное нулю, может свидетельствовать как об отсутствии связи между переменными, так и о том, что выбранная модель не соответствует характеру изучаемой связи. Положительные значения коэффициента свидетельствует о прямой (положительной) либо о ненаправленной связи между переменными; отрицательные значения - об обратной (отрицательной) связи ( Анализ корреляционный) . Чем ближе значение коэффициента к 1 или -1, тем теснее связь. Значение, равное 1 или -1, свидетельствует о полной связи, позволяющей по значению одной переменной точно предсказывать значение другой переменной. Для связей между номинальными переменными, анализируемыми посредством таблицы сопряженности , наиболее общей является модель "хи-квадрат" . Коэффициенты тесноты связи, основанные на критерии "хи-квадрат" , могут принимать значения в интервале от 0 до 1 ( Корреляция качественных переменных). Значение коэффициента, равное нулю, означает полное отсутствие связи между переменными. Главными недостатками модели являются отсутствие каких-либо представлений о характере связи, а также конструктивные особенности коэффициентов, которые даже при полной связи не всегда достигают значения 1.

Теория статистического вывода

Этот раздел С. включает систему методов получения выводов о больших группах (фактически, генеральных совокупностях) на основе наблюдений, проведенных в группах меньшего размера, называемых выборками. В психологии статистический вывод служит двум главным целям: 1) оценить параметры генеральной совокупности по выборочным статистикам; 2) оценить шансы получения определенного паттерна результатов исследования при заданных характеристиках выборочных данных.

Среднее является наиболее часто оцениваемым параметром генеральной совокупности. В силу самого способа вычисления стандартной ошибки, выборки большего объема обычно дают меньшие стандартные ошибки, что делает статистики, вычисленные по большим выборкам, несколько более точными оценками параметров генеральной совокупности. Пользуясь стандартной ошибкой среднего и нормированными (стандартизованными) распределениями вероятностей (такими как t-распределение), можно построить доверительные интервалы — области значений с известными шансами попадания в них истинного генерального среднего.

Оценивание результатов исследования. Теорию статистического вывода можно использовать для оценки вероятности того, что частные выборки принадлежат известной генеральной совокупности. Процесс статистического вывода начинается с формулирования нулевой гипотезы (H0), состоящей в предположении, что выборочные статистики получены из определенной совокупности. Нулевая гипотеза сохраняется или отвергается в зависимости от того, насколько вероятным яв-ся полученный результат. Если наблюдаемые различия велики относительно величины изменчивости выборочных данных, исследователь обычно отвергает нулевую гипотезу и делает вывод о крайне малых шансах того, что наблюдаемые различия обязаны своим происхождением случаю: результат является статистически значимым. Вычисляемые критериальные статистики с известными распределениями вероятностей выражают отношение между наблюдаемыми различиями и изменчивостью (вариабельностью).

Содержание и особенности корреляционного, факторного и кластерного видов статистического анализа психологических данных.

Расчет коэффициентов корреляции является инструментом, позволяющим осуществить корреляционный, факторный и кластерный анализ эмпирических данных.
Корреляционный анализ — метод исследования взаимозависимости признаков в генеральной совокупности, являющихся случайными величинами, имеющими нормальное многомерное распределение. Для наглядности интеркорреляционные показатели представляются в виде таблиц корреляций переменных, матриц и графов.

При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.

Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.

С этой целью можно использовать два разных способа: параметрический метод расчета коэффициента Браве-Пирсона (r) и вычисление коэффициента корреляции рангов Спирмена (rs), который применяется к порядковым данным, т.е. является непараметрическим.
Факторный анализ раздел многомерного статистического анализа, сущность которого заключается в выявлении непосредственно неизмеряемого признака, являющегося "главной компонентой" (производной) группы измеренных тестовых показателей.

Факторный анализ - статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных, поэтому факторный анализ используется как метод сокращения данных или как метод структурной классификации.

Важное отличие факторного анализа от всех описанных выше методов заключается в том, что его нельзя применять для обработки первичных, или, как говорят, "сырых", экспериментальных данных, т.е. полученных непосредственно при обследовании испытуемых. Материалом для факторного анализа служат корреляционные связи, а точнее - коэффициенты корреляции Пирсона, которые вычисляются между переменными (т.е. психологическими признаками), включенными в обследование. Иными словами, факторному анализу подвергают корреляционные матрицы, или, как их иначе называют, матрицы интеркорреляций. Наименования столбцов и строк в этих матрицах одинаковы, так как они представляют собой перечень переменных, включенных в анализ. По этой причине матрицы интеркорреляций всегда квадратные, т.е. число строк в них равно числу столбцов, и симметричные, т.е. на симметричных местах относительно главной диагонали стоят одни и те же коэффициенты корреляции.

Главное понятие факторного анализа - фактор. Это искусственный статистический показатель, возникающий в результате специальных преобразований таблицы коэффициентов корреляции между изучаемыми психологическими признаками, или матрицы интеркорреляций. Процедура извлечения факторов из матрицы интеркорреляций называется факторизацией матрицы. В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, выделяемые в результате факторизации, как правило, неравноценны по своему значению.

С помощью выявленных факторов объясняют взаимозависимость психологических явлений.

Чаще всего в итоге факторного анализа определяется не один, а несколько факторов, по-разному объясняющих матрицу интеркорреляций переменных. В таком случае факторы делят на генеральные, общие и единичные. Генеральными называются факторы, все факторные нагрузки которых значительно отличаются от нуля (нуль нагрузки свидетельствует о том, что данная переменная никак не связана с остальными и не оказывает на них никакого влияния в жизни). Общие - это факторы, у которых часть факторных нагрузок отлична от нуля. Единичные - это факторы, в которых существенно отличается от нуля только одна из нагрузок.

Факторный анализ может быть уместен, если выполняются следующие критерии.

1. Нельзя факторизовать качественные данные, полученные по шкале наименований, например, такие, как цвет волос (черный / каштановый / рыжий) и т.п.

2. Все переменные должны быть независимыми, а их распределение должно приближаться к нормальному.

3. Связи между переменными должны быть приблизительно линейны или, по крайней мере, не иметь явно криволинейного характера.

4. В исходной корреляционной матрице должно быть несколько корреляций по модулю выше 0,3. В противном случае достаточно трудно извлечь из матрицы какие-либо факторы.

5. Выборка испытуемых должна быть достаточно большой. Рекомендации экспертов варьируют. Наиболее жесткая точка зрения рекомендует не применять факторный анализ, если число испытуемых меньше 100, поскольку стандартные ошибки корреляции в этом случае окажутся слишком велики.

Однако если факторы хорошо определены (например, с нагрузками 0,7, а не 0,3), экспериментатору нужна меньшая выборка, чтобы выделить их. Кроме того, если известно, что полученные данные отличаются высокой надежностью (например, используются валидные тесты), то можно анализировать данные и по меньшему числу испытуемых.

В настоящее время факторный анализ широко используется в дифференциальной психологии и психодиагностике. С его помощью можно разрабатывать тесты, устанавливать структуру связей между отдельными психологическими характеристиками, измеряемыми набором тестов или заданиями теста.

Факторный анализ используется также для стандартизации тестовых методик, которая проводится на репрезентативной выборке испытуемых.
Кластерный анализ — совокупность статистических (и иных, в том числе качественных) методов, предназначенных для дифференциации относительно отдаленных друг от друга групп и близких между собой объектов по информации о связях (мерах близости) между ними.

Кластерный анализ (англ. Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке

Задачи кластерного анализа можно объединить в следующие группы:

1. Разработка типологии или классификации.

2. Исследование полезных концептуальных схем группирования объектов.

3. Представление гипотез на основе исследования данных.

4. Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач.

Методы кластерного анализа можно разделить на две группы:

Каждая из групп включает множество подходов и алгоритмов.

Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением. Рассмотрим иерархические и неиерархические методы подробно.

Иерархические методы кластерного анализа

Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие.

14. Назначение и содержание стандартизации психологических измерений.

Стандартизация психологами понимается в двух аспектах:

- стандартизация процедуры и условий проведения тестирования, способов обработки и интерпретации результатов, которые должны привести к созданию равных условий для испытуемых и минимизировать случайные ошибки и погрешности как на этапе проведения, так и на этапе обработки результатов и интерпретации данных;

- стандартизация результатов, то есть получение нормы, шкалы оценки, которая служит основанием для определения уровня овладения тем, что выясняет данный тест; при этом не важно, какого рода нормы получаются и какие шкалы используются.

С. т. — это установление унифицированных процедур для а) его проведения и б) подсчета получаемых с его помощью показателей. Первые стандартизированные тесты появились в начале XX столетия, когда Э. Л. Торндайк, занимающийся эксперим. психологией, наряду с др. учеными, распространили принципы, полученные в лабораториях, на психол. измерения.

Наиболее распространенными преобразованиями в психометрике первичных оценок являются центрирование и нормирование посредством среднеквадратических отклонений. Центрирование — это линейная трансформация величин измеренного признака, при которой средняя величина распределения становится равной нулю. Процедура нормирования заключается в переходе к другому масштабу (единицам) измерения (Sc), который базируется на принципе нормальности распределения эмпирических показателей при переходе к стандартным величинам и осуществляется по формуле:

Sc = (х i — Мх / δх) A + M,

где х i - величина показателя теста;

Мх - среднее арифметическое показателей;

δх - среднее квадратичное отклонение показателей;

А - заданное среднее квадратическое отклонение;

М - заданное среднее значение.

В качестве функции Sc обычно используют Z-показатель (стандартный показатель), выражающий отклонение индивидуального результата, хi в единицах, пропорциональных стандартному отклонению единичного нормального распределения. То есть М = 0; А = 1. Z-показатель (z) определяется по формуле:

На практике психологи наиболее часто используют накопленные проценты (в шкале наименований); процентили (перцентили) — типичные стандартные оценки (М = 50, А = 34); стандартные IQ-баллы (М = 100, А = 15); T-показатели (М = 50, А = 10) и стеновую шкалу (М = 5.5, А = 2).

Раскрытие назначения мер центральной тенденции: моды, медианы, среднего арифметического. Приведение примеров и оценка сложности их вычисления. Описание условий применения коэффициента корреляции Фехнера и коэффициента линейной зависимости Пирсона.

Рубрика Математика
Вид контрольная работа
Язык русский
Дата добавления 27.02.2016
Размер файла 349,1 K

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

1. Раскрыть меры центральной тенденции (Мода, медиана, среднее арифметическое)

Меры центральной тенденции

Мода -- это просто наиболее часто встречающееся в определенной совокупности наблюдений значение переменной. При сгруппированных данных мода определяется как середина интервала группирования, содержащего наибольшее число значений наблюдаемой переменной.

Медиана -- это значение переменной, делящее упорядоченную совокупность наблюдений пополам, так что одна половина значений в этой совокупности лежит ниже медианы, а др. их половина -- выше медианы. Если совокупность образована нечетным числом значений наблюдаемой переменной, то медиана равна значению переменной, являющемуся серединой упорядоченной совокупности наблюдений. Если же совокупность образована четным числом значений, то медиана определяется значением, лежащим посередине между двумя значениями, находящимися в центре упорядоченной совокупности наблюдений. Медиана -- более полезная мера, чем мода, и часто используется в случае скошенного (асимметричного) распределения данных. Следует, однако, отметить, что медиана нечувствительна к величине крайних значений упорядоченной совокупности наблюдений.

мода медиана фехнер корреляция

2.Укажите в каких случаях используются коэффициент корреляции Фехнера, коэффициент корреляции Пирсона, приведите пример

Коэффициент Фехнера. Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения. Коэффициент это отношение разницы количества совпадения и количества несовпадений к их сумме.

Пример. На большой выборке был проведён тест, где по шкале 0 - 10 были оценены Застенчивость и Депрессивность опрашиваемых.

Для наглядности, задаём систему координат, на которой по X будет застенчивость, а по Y -- депрессивность. Таким образом, каждый человек из выборки исследования может быть изображен точкой на этой системе координат. Посчитаем среднее выборок по Застенчивости и среднее выборок по Депрессивности. Посчитаем, у скольки человек при отклонении выборки от среднего по шкале Застенчивости отклонение выборки от среднего по шкале Депрессивности совпадает по знаку. Из десяти опрошенных человек таких оказалось, допустим, 8. Тех, у кого такие отклонения не совпали по знаку, оказалось 2. Тогда коэффициент Фехнера r = (8 - 2)/(8+2) = 0.6.

Таким образом, коэффициент корреляции больший от 0 до 1 говорит о прямопропорциональной связи (чем больше… тем больше…), а коэффициент от -1 до 0 о обратнопропорциональной (чем больше… тем меньше…)

Делаем вывод: между Застенчивостью и Депрессивностью имеется прямопрпорциональная связь, но не полная, а средняя.

Коэффициент линейной корреляции отражает меру линейной зависимости между двумя переменными. Используя этот коэффициент, следует учитывать, что лучше всего он подходит для оценки взаимосвязи между двумя нормальными переменными. Если распределение переменных отличается от нормального, то он по-прежнему продолжает характеризовать степень взаимосвязи между ними, но к нему уже нельзя применять методы проверки на значимость. Также коэффициент корреляции Пирсона не очень устойчив к выбросам - при их наличии можно ошибочно сделать вывод о наличии корреляции между переменными.

Где xi и yi - сравниваемые количественные признаки, n - число сравниваемых наблюдений/

Для применения коэффициента корреляции Пирсона, необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть получены в интервальной шкале или шкале отношений.

2. Распределения переменных X и Y должны быть близки к нормальному.

3. Число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

4. Таблицы уровней значимости для коэффициента корреляции Пирсона рассчитаны от n = 5 до n = 1000. Оценка уровня значимости по таблицам осуществляется при числе степеней свободы k = n - 2.

Меры центральной тенденции

В статистике наиболее распространенными являются следующие меры центральной тенденции: мода, медиана, среднее значение.

Мода - это такое значение в выборке, которое встречается наиболее часто. хmod . Например: 4, 2, 8, 8, 4, 8, 10. В данном случае хmod=8, т.к. 8 встречается наиболее часто во всей выборке. Возникают различные ситуации, в которых необходимо найти моду.

1 ситуация. В случае, когда все значения выборки встречаются одинаково часто, то принято считать, что выборка не имеет моды.

4, 2, 6, 7, 5, 10 - не имеет моды.

4, 2, 4, 2, 4, 2, 6, 6, 6 - не имеет моды.

4, 2, 4, 2, 4, 2, - не имеет моды.

4, 4, 4, 4, 4 - мода равняется 4 хmod=4.

2 ситуация. Когда два соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае мода равняется среднему значению этих двух соседних величин.

1, 4, 3, 3, 6, 2, 8, 2, 10

1, 2, 2, 3, 3, 4, 6, 8, 10 - упорядоченная выборка.

1, 2, 2, 5, 5, 7, 9 (если между ними нет других значений - то соседние значения) хmod= (2+5):2=3,5

1, 4, 3, 3, 6, 6, 8, 2, 10 - это не вторая ситуация, а третья. Выборка здесь не упорядочена.

3 ситуация. Если два не соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае говорят, что выборка имеет две моды и называют выборку бимодальной (тримодальной).

Пример: 4, 2, 3, 6, 4, 2

2, 2, 3, 4, 4, 6, 6 хmod1=2; xmod2=(4+6):2=5

2, 2, 4, 4, 6, 6, 10, 12 хmod=(2+4+6):3=4

4, 4, 4, 8, 8, 8, 11, 11 xmod=(4+8):2=6

Например: xmod=108 (IQ). Значит, в этой группе наиболее часто встречается 108, но не говорится сколько.

4, 4, 4, 2, 6, 7 - хmod=4

Медиана - это такое значение, которое делит упорядоченную выборку пополам, т.е. половина значений выборки меньше медианы, а вторая половина больше медианы, хmed или Md.

При вычислении медианы возможны две ситуации:

1 ситуация. Количество наблюдений в выборке нечетно. В этом случае медиана равна значению, расположенному точно в серединеупорядоченной выборки.

3, 4, 5. 6. 8 - сначала упорядочиваем выборку, Хmed=5.

2 ситуация. Количество наблюдений в выборке четно. В этом случае в качестве медианы выбирается среднее значение двух центральных значений упорядоченной выборки.

хmed=108. это говорит о том, что половина клиентов имеет IQ 108 и меньше, а вторая -108 и больше.

Если исходная выборка представлена в виде таблицы, полученной в результате табулирования данных, то медиану можно найти, рассматривая накопленные частоты. Пример: в результате табулирования получилась таблица:

Мера центральной тенденции (Central Tendency) — это число, характеризующее выборку по уровню выраженности измеренного признака.

Существуют три способа определения центральной тенденции, каждому из которых соответствует своя мера: мода, медиана и выборочное среднее.

Мода (Mode) — наиболее часто встречающееся значение в ряду данных. Моде, или модальному интервалу признака, соответствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным.

Среди 8 значений признака (3, 7, 3, 5, 7, 8, 7, 6) мода Мо=7 как наиболее часто встречающееся значение.

Когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений.

Распределение может иметь и не одну моду. Когда все значения встречаются одинаково часто, принято считать, что такое распределение не имеет моды.

Бимодальное распределение имеет на графике распределения две вершины, даже если частоты для двух вершин не строго равны. В последнем случае выделяют большую и меньшую моду. Во всей группе может быть и несколько локальных вершин распределения частот. Тогда выделяют наибольшую моду и локальные моды.

Бимодальное, полимодальное распределение может рассматриваться как признак неоднородности выборки. Например, механическое слияние двух классов с неодинаковым уровнем интеллекта.

Еще раз отметим, что мода — это значение признака, а не его частота.

Медиана (Median) — это такое значение признака, которое делит упорядоченное (ранжированное) множество данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая — больше. Таким образом, первым шагом при определении медианы является упорядочивание (ранжирование) всех значений по возрастанию или убыванию. Далее медиана определяется следующим образом:

• если данные содержат нечетное число значений (8, 9,10,13,15), то медиана есть центральное значение, т. е. Md = 10;

• если данные содержат четное число значений (5, 8, 9, 11), то медиана есть точка, лежащая посередине между двумя центральными значениями, т. е. Md= (8+9)/2=8,5.

Среднее(Mean) (Мх — выборочное среднее, среднее арифметическое) — определяется как сумма всех значений измеренного признака, деленная на количество суммированных значений.

Наиболее очевидной и часто используемой мерой центральной тенденции является среднее значение. Но его использование ограничивается тем, что на величину среднего влияет каждое отдельное значение. Если какое-нибудь значение в группе увеличится на с, то среднее увеличится на c/N. Таким образом, среднее значение весьма чувствительно к выбросам — экстремально малым или большим значениям переменной.

Меры центральной тенденции (measures of central tendency) — способы осмысления центральной или средней позиции множества наблюдений, оценок, группы чисел и т.д.

На практике существуют большое разнообразие мер центральной тенденции (например, взвешенное, винсоризованное, гармоническое, геометрическое средние, среднее Колмогорова и др), но чаще всего встречаются:

  • мода;
  • среднее арифметическое;
  • медиана.

Мода — типичность — максимальная частота — наиболее часто встречающееся значение в совокупности наблюдений. Применяется, например, для определения размера одежды, обуви, калибра патронов, пользующихся популярностью у покупателей, анализа технических экспериментов, а также определение часто встречающегося значения среди данных, имеющих не числовую природу происхождения (например, цвета: синий, красный, желтый, синий, зеленый…).

Мода и среднее арифметическое

Давайте найдем моду — максимально встречающееся значение в данной совокупности:

Совокупность значений

Рассчитаем значение моды в Excel

Формула расчета моды в Excel

У нас получилось 13. Т.е. максимально часто встречающееся значение в данной совокупности является значение 13.

Но если построить график, то получается такая картина

График количества значений

Видим, что на анализируемый показатель влияет 2 значения: это значения показателей 6, который встречается 16 раз и 13, встречающийся 17 раз. Например, такая ситуация может возникнуть при выборе кандидата в президенты: первая вершина — отданные голоса городского населения, вторая — сельского. Такой эффект называется мультимодальностью и, как правило, указывает что набор данных не подчиняется нормальному распределению.

Среднее арифметическое

Среднее арифметическое — сумма всех чисел, деленное на их количество, зависимое от разброса наблюдений.

Фомула нахождения среднего арифметического

Отщепенцы влияющее на среднее

Чтобы уяснить эту концепцию представьте 3-х мужчин, сидящих за барной стойкой.

Пример искажения среднего

Пример искажения среднего

Предположим, что у каждого из мужчин годовой доход составляет 42 000 долларов. Но тут, с попугаем на плече, к ним подсаживается Роман Абрамович, с годовым доходом 955 000 000 долларов.

Если подсчитать средний доход 4-х сидящих мужчин за барной стойкой (т.е. с Романом Абрамовичем), то мы ошибочно будем полагать что он составляет 238 781 500 долларов. Что на самом деле не соответствует действительности.

Медиана

Медиана — середина — уровень показателя, который делит набор данных на 2 равные половины (50/50). Она не присваивает наблюдениям весовые коэффициенты исходя из того, на сколько они отдалены от средней точки, а лишь оценивает их в зависимости от расположения.

Развивая мысль можно также делить медиану на четверти — квартили:

  • 0,25 квантиль — первый (нижний) квартиль;
  • 0,5 квантиль — медиана — второй квартиль;
  • 0,75 квантиль — третий (верхний) квартиль.

Еще один вариант разделить на децили, каждый из которых включает в себя 10% наблюдений. Например, если ваш расход топлива бензинового двигателя автомобиля в верхнем дециле общего распределения расходов топлива всех бензиновых двигателей, то это означает, ваш двигатель сжигает топлива больше, чем 90% остальных двигателей.

Разбив распределение на сотые доли получим процентили — 1% распределения: первый процентиль представляет нижний 1% данного распределения, а 99-й — его верхний 1%.

Рассмотрим набор нормально распределенных случайных чисел.

Медиана в наборе нормально распределенных чисел

В данном примере видим идеальную ситуацию когда медиана, среднее арифметическое и мода совпадают. Но, если рассмотреть ассиметричное распределение, которое может возникать при проведении технических замеров, например, скорости, может сложиться такая ситуация

Медиана и среднее арифметическое

Вывод

Окончательный выбор меры центральной тенденции всегда лежит за исследователем.

Математической статистикой называют раздел математики, посвященный методам сбора, анализа и обработки статистических данных для научных и практических целей.

Основной целью статистического исследования является обнаружение и исследование соотношений между статистическими данными, полученными в результате обследования большого числа объектов или явлении.

Математическая статистика подразделяется на три основных раздела:

- Индуктивная статистика (теория статистического вывода);

- Планирование и анализ экспериментов.

Описательная статистика включает в себя табулирование, представление и описание совокупностей данных. Эти данные могут быть либо количественными, как, например, измерения роста и веса, либо качественными, как, например, пол и тип личности. Описательная статистика служит инструментом, описывающим, обобщающим или сводящим к желаемому виду свойства массивов данных.

Индуктивная статистика (теория статистического вывода)– статистическая техника, использующаяся для получения обобщений относительно генеральной совокупности на основе выборки, взятой из этой же совокупности. Задача индуктивной статистики–проверка того, можно ли распространить результаты, полученные на выборке, на всю популяцию, из которой взята эта выборка.

Планирование и анализ экспериментов – это раздел математической статистики, включающий систему методов обнаружения и проверки причинных связей между переменными.

Описательные статистики

Описательные статистики это числовые характеристики распределения измеренного признака, полученные на определенной выборке.

Таким образом, значения различных описательных характеристик, вычисленных по результатам, полученным на специально отобранной из генеральной совокупности группе объектов исследования (испытуемых), называются статистиками, а значения различных описательных мер, вычисленных для генеральных совокупностей, называются параметрами. Параметр описывает всю совокупность так же, как описательные статистики – выборку.

К основным статистическим показателям выборки мы можем отнести:

- Меры центральной тенденции (мода, медиана, среднее);

- Меры изменчивости (размах, дисперсия, стандартное отклонение, асимметрия, эксцесс);

Каждая отдельно взятая числовая характеристика распределения измеренного на выборке признака, отображает в одном числовом показателе свойство распределения полученных результатов. Таким образом, благодаря полученным числовым характеристикам мы заменяем множество первичных результатов измеренного признака, одним показателем, что в свою очередь позволяет исследователю интерпретировать результаты исследования.

Меры центральной тенденции

Несмотря на разнообразие мер центральной тенденции, чаще всего используются такие меры, как мода, медиана и среднее.

Мода(Мо или ) – это числовое значение, которое в выборке встречается наиболее часто.

Пример: Даны следующие значения: 3, 5, 3, 4, 4, 1, 7, 4, 2.

Мода в данном случае будет Мо = 4.

Если в выборке все значения встречаются одинако­во часто, то в таком случае, принято считать, что данная выборка не имеет моды.

Пример: 5, 6, 7, 7, 6, 5, 3, 3. Мо = 0.

Если два несмежных значения в группе имеют равные частоты и они больше частоты любого другого значения, то в таком случае говорят что в данном случае две моды. Го­ворят: группа оценок является бимодальной.

Пример: 2, 5, 5, 6, 5, 9, 7, 2, 7, 7. Мо = 5, Мо = 7.

Медиана(Мd или ) – это значение переменной, делящее упорядоченную совокупность наблюдений пополам, так что одна половина значений в этой совокупности меньше медианы, а др. их половина больше медианы.

Если совокупность значений образована нечетным числом значений наблюдаемой переменной, то медиана равна значению переменной, являющемуся серединой упорядоченной совокупности наблюдений.

Пример: 4, 6, 7, 1, 7, 9, 4. упорядочиваем данные 1, 4, 4, 6, 7, 7, 9. Мd = 6.

Если же совокупность образована четным числом значений, то медиана определяется значением, лежащим посередине между двумя значениями, находящимися в центре упорядоченной совокупности наблюдений.

Среднее арифметическое (Мх или ) – это наиболее часто используемый показатель центральной тенденции. Среднее арифметическое это центр выборки, вокруг которого группируются элементы выборки. Определяется как сумма значений наблюдаемой переменной, деленная на количество суммированных значений, т.е. среднее арифметическое значение, находится по формуле 1.1.

где: xi – каждое значение в выборке;

n – количество переменных в выборке.

Пример: 1, 4, 6, 7 , 9, 9. Следовательно

Меры изменчивости

Основными показатели меры изменчивости (рассеяния вариант) являются размах, дисперсия, стандартное отклонение, асимметрия, эксцесс.

Размах (R) – это разница между максимальным и минимальным значениями элементов выборки.

где: Xmax – максимальное значение в выборке;

Xmin – минимальное значение в выборке.

Пример: 1, 4, 6, 7 , 9, 9. R = 9 – 1=8.

Дисперсия выборки (D или S 2 ) – это среднее арифметическое квадратов отклонений значений переменных от их среднего значения. Дисперсия это параметр, характеризующий степень разброса элементов выборки относительно среднего значения.

Чем больше дисперсия, тем дальше отклоняются значения элементов выборки от среднего значения.

Дисперсия находятся по формуле 1.3.

где: n – количество измеренных признаков;

xi – каждое значение признака;

Стандартное отклонение (сигма) (σ) – это параметр, также характеризующий степень разброса элементов выборки относительно среднего значения. Чем больше стандартное отклонение, тем дальше отклоняются значения элементов выборки от среднего значения. Параметр аналогичен дисперсии и используется в тех случаях, когда необходимо, чтобы показатель разброса случайной величины выражался в тех же единицах, что и среднее значение этой случайной величины. Стандартное отклонение находится по формуле 1.4.

где: n – количество измеренных признаков;

xi – каждое значение признака;

Пример: Произведем следующие расчеты (см. таблицу 1).

Асимметрия– мера отклонения эмпирического распределения частот от симметричного распределения относительно максимальной ординаты.

Асимметрия это количественная мера скошенности симметричного распределения, т.е. некоторой плавности или крутости боковой части кривой распределения.

Асимметриянаходятся по формуле 1.5.

где: σ – (сигма) стандартное отклонение находится по формуле 1.4;

n – количество измеренных признаков;

xi – каждое значение признака;

Для оценки эксцесса применим формулу 1.5.

Квантили распределения

Одним из наиболее действенных методов описания выборки является описание с помощью квантилей и процентилей.

Квантиль (Q) это значение, отделяющее от распределения слева или справа определенную долю объема совокупности.

Квантили – это три точки (значения признака) которыеделят упорядоченное множество данных на четыре части.

Первый квантиль (Q1),отделяет слева 25% объема совокупности. Второй квартиль (Q2),делит совокупность на две равные по объему части (по 50%),он называется медианой. Третий квартиль (Q3) отделяет слева 75% объема совокупности или справа 25% объема.

Процентили (Р) – это точки (их 99) которыеделят упорядоченное множество данных на 100 частей.

Считается, что n-й процентиль - это такое значение, ниже которого расположено n процентов наблюдений данной переменной. Следовательно, 40-й процентиль - это значение, ниже которого расположено 40% результатов наблюдений; 50-й процентиль называется медианой, а 25-й и 75-й процентили - нижним и верхним квантилям соответственно.

Квантили и процентили используются для определения частоты встречаемости тех или иных значений (или интервалов) измеренного признака или для выделения подгрупп и отдельных испытуемых, наиболее типичных или нетипичных для данного множества наблюдений. Через квартили так же могут определяться числовые характеристики положения, рассеяния и асимметрии.

Задачи и функции аптечной организации: Аптеки классифицируют на обслуживающие население; они могут быть.

Читайте также: