Есть сообщение характеристика с заданным распределением частот

Обновлено: 15.05.2024

Частотное распределение (ЧР) – это упорядоченный подсчёт количества признаков по каждому значению переменной. ЧР – это показатель того, сколько раз каждое значение переменной происходит в совокупности наблюдений. Таблица ЧР – один из самых простых способов представления социологических наблюдений. Она состоит, по крайней мере, из 2х столбцов: левый содержит значения, которые может принимать переменная, а правый – число раз, которое каждое значение происходит. Иногда включаются дополнительные столбцы, отражающие процентное распределение. Так поступают с дискретной вариантой. Графически отображена на левом рисунке.

Признак является переменной величиной для каждого элемента генеральной совокупности и называется вариантой.

Количественная варианта может быть прерывной (дискретной) и непрерывной. Если дана генеральная совокупность N лиц, которые изучаются, например, по своему доходу, то в этом случае варианта (доход) является непрерывной величиной, которая может в определенных пределах принимать любые значения. Если же эти N лиц изучаются по их семейному положению, например, какова величина семьи, в которой живет данный индивид, то в этом случае варианта является величиной прерывной, поскольку она может принимать только целочисленные значения 1, 2, 3. и т.д.

В том случае, если варианта – непрерывная величина, дело несколько усложняется: нельзя непосредственно сгруппировать элементы генеральной совокупности по значениям варианты, поскольку может оказаться, что каждый член имеет свое, отличное от других значение варианты. Тогда выделяют несколько интервалов, куда попадают наиболее близкие значения. Условно принимается, что члены генеральной совокупности, попавшие в данный класс-интервал, имеют одинаковую варианту, равную середине данного класс-интервала.

Частотное распределение в случае непрерывной варианты также может быть изображено графически (правый рисунок). Мы получаем гисторгамму (высота прямоугольников – частота встречаемости варианты), или полигон, если соединим середины верхних оснований прямоугольников гистограммы.



Чем мельче возьмём интервалы, т.е., чем больше маленьких интервалов будет, тем кривая будет плавне.

Распределением называется закономерность встречаемости признака и разных его значений. Статистическое распределение может иметь графическое представление в виде полигона частот (ломаной линии, соединяющей точки, соответствующие величинам частот, откладываемым по оси ординат). Форма распределения является некоторой обобщенной характеристикой выборки. Кривые распределения бывают одновершинные и многовершинные. В психологических исследованиях чаще всего ссылаются на нормальное распределение.

Нормальное распределение – вид распределения переменных, характеризуемое тем, что крайние значения признака в нем ссылаются достаточно редко, а значения, близкие к средней величине – достаточно часто. Нормальным такое распределение называется потому, что оно очень часто встречалось в естественно-научных исследованиях и казалось “нормой” всякого массового проявления признаков. Это распределение следует закону, открытому в разное время: Муавром в 1733 г. в Англии, Гауссом в 1809 г. в Германии и Лапласом в 1812 г. во Франции. График нормального распределения представляет симметричную унимодальную колоколообразную кривую (верхняя часть колокола), осью которой является вертикаль (ордината), проведенная через точку 0.

Рисунок 1. Процентное распределение случаев под нормальной кривой

Для любого нормального распределения в пределах М + 1s лежит около 68%, в пределах
М + 2s – 95%, М + 3s – 99,7% (М – среднее арифметическое).

Параметры распределения – это его числовые характеристики, указывающие, где в “среднем” располагаются значения признака, насколько эти значения изменчивы и наблюдается ли преимущественное появление определенных значений признака. Характеристики совокупности переменных (признаков), указывающие на наиболее типичный, репрезентативный для изучаемой выборки результат называются мерами центральной тенденции.Наиболее практически важными мерами центральной тенденции являются математическое ожидание (или среднее арифметическое), мода, медиана.

а) Среднее арифметическое (М – оценка математического ожидания) – это обобщающий показатель положения уровня центра распределения. Оно вычисляется по формуле:

где хi – каждое наблюдаемое значение признака;

i – индекс, указывающий на порядковый номер данного значения признака;

n – количество наблюдений;

S – знак суммирования.

б) Медиана (Ме) – центральное значение переменной: результат, находящийся в середине последовательности показателей, если их расположить в порядке возрастания или убывания.

в) Мода (Мо) – наиболее часто встречающийся результат (самая высокая точка кривой распределения).

При выборе и интерпретации мер центральной тенденции необходимо учитывать следующие особенности и правила использования приведенных показателей.

1. При определении средних величин необходимо тщательное соблюдение требований однородности переменных, репрезентативности и достаточности объема выборки.

2. Расчету средних величин должна предшествовать предварительная разбивка изучаемой совокупности на качественно однородные группы.

3. Медиана не зависит от величин и частот встречаемости в рамках определенного множества переменных.

4. В малых совокупностях мода нестабильна и может сильно изменяться при единичных и незначительных вариациях переменных.

5. Каждое значение переменной влияет на величину средних. Если одно какое-нибудь значение меняется на С единиц, среднее арифметическое меняется в том же направлении на единиц.

6. В унимодальных симметричных выборках среднее, медиана и мода совпадают.

7. Являясь обобщенной характеристикой ряда, меры центральной тенденции не позволяют учитывать его вариации. Наряду с мерами центральной тенденции обязательно использование мер изменчивости.

Различные меры изменчивости распределения характеризуют степень и характер вариации признаков.

Меры изменчивости– статистические показатели вариации (разброса) признака (переменной) относительно среднего значения, степени индивидуальных отклонений от центральной тенденции распределения. Меры изменчивости позволяют судить о достоверности и однородности полученной эмпирически совокупности данных, существенности сходств и различий в распределении и сравниваемых группах распределений, точности проведенных измерений. Среди прочих показателей к ним относятся: размах распределения, дисперсия, стандартное отклонение, показатели асимметрии и эксцесса.

Размах распределения – разность между самым высоким и самым низким результатом.

Дисперсия(S, s2) характеризует средний разброс значений по выборке относительно среднего арифметического, возведенный в квадрат. Расчет дисперсии применяют для выделения выборочной совокупности, определения ошибки выборки, однородности изучаемой совокупности по тому или иному признаку.

На практике, однако, чаще используют другой показатель – стандартное отклонение
(s или sх) – показатель, представляющий собой квадратный корень из несмещенной оценки дисперсии.

Дисперсия и стандартное отклонение (или среднее квадратичное отклонение) имеют некоторые недостатки. Они недостаточно точно характеризуют изменчивость признака, т.к. отражают абсолютный размер отклонений. Это неудобно при сопоставлении распределений с различной размерностью и значением признаков. Для устранения этого недостатка абсолютные числа переводятся в относительные. Отношение стандартного отклонения к средней, выраженное в процентах, называется коэффициентом вариации V:

В тех случаях, когда какие-нибудь причины благоприятствуют более частому появлению значений, которые выше или, наоборот, ниже среднего, образуются асимметричные распределения. Показатель асимметрии (А) может быть положительным или отрицательным. При левосторонней, или положительной асимметрии в распределении чаще встречаются более низкие значения признака, а при правосторонней, или отрицательной – более высокие.

В тех случаях, когда какие-нибудь причины способствуют преимущественному появлению средних или близких к средним значений, образуется распределение с положительным эксцессом(Е).

Если же в распределении преобладают крайние значения, причем одновременно и более низкие, и более высокие, то такое распределение характеризуется отрицательным эксцессом и в центре распределения может образоваться впадина, превращающая его в двухвершинное. В нормальных распределениях асимметрия равна нулю, эксцесс – трем.

Одним из коэффициентов, используемых в математической статистике, позволяющим определить достоверность различий параметров эмпирического распределения от теоретического (в т.ч. нормального) или ожидаемого является критерий c 2 . Критерий – определенная случайная величина, являющаяся функцией изучаемых случайных чисел и чисел степеней свободы. Критерий c 2 – характеристика распределения, используемая для проверки статистических гипотез. Он представляет собой сумму квадратов отклонений эмпирических частот (р) от теоретических или ожидаемых (р’), отнесенную к теоретическим частотам. Ограничение для применения данного критерия: минимальное значение эмпирической частоты не должно быть менее 10, а теоретической – менее 5 (если требование не выполняется, необходимо увеличить объем выборки или объединить интервалы группировки, суммируя их частоты).

Как создать частотное распределение в Excel?

Распределение частот в Excel — это расчет скорости изменения данных за определенный период времени; есть два метода найти частотное распределение; Сначала нам нужно классифицировать наши данные в наборах данных, а затем мы можем использовать частотную функцию формулы массива или на вкладке анализа данных мы можем использовать инструмент гистограммы для расчета частотного распределения. Есть два способа сделать то же самое —

  1. Распределение частот в Excel с помощью формул
  2. Распределение частот в Excel с использованием сводной таблицы

Вы можете скачать этот шаблон Excel для распределения частот здесь — Шаблон Excel для распределения частот

Давайте изучим эту концепцию на примере. В корпоративной компании проводился ежегодный обзор, и каждый получил оценку из 10 возможных. Всего было проведено 50 сотрудников.

Ниже представлены рейтинговые данные для 50 сотрудников.

  • Шаг 1: Теперь мне нужно проверить, сколько людей получили рейтинг от 4 до 6, от 6 до 8 и от 8 до 10. На этот раз я не применяю сводную таблицу; скорее, я буду использовать функцию СЧЁТЕСЛИ, чтобы получить сумму. Перед этим я создал такие частотные уровни.
  • Шаг 2: Я продолжаю и применяю функцию СЧЁТЕСЛИ, чтобы получить общее количество. В ячейке E2 я упоминаю функцию СЧЁТЕСЛИ, которая считает все числа в диапазоне от A2 до A52, которые меньше или равны 6.
  • Шаг 3: В ячейке E3 я использовал функцию СЧЁТЕСЛИМН, которая считает числа, если число больше 6, но меньше 8.
  • Шаг 4: В ячейке E4 используйте функцию СЧЁТЕСЛИМН, которая считает числа, если число больше 8, но меньше 10.

Заключение: Теперь у нас есть результаты. Рейтинг 19 сотрудников составляет от 4 до 6, рейтинг 14 сотрудников — от 6 до 8, а рейтинг 18 сотрудников — от 8 до 10.

Давайте изучим это понятие на примерах.

Позвольте мне объяснить вам на примере частотного распределения в Excel. У меня есть данные о проданных единицах с указанием цены продукта.

Здесь мне нужно знать, сколько единиц продано в ценовом диапазоне от 15 до 30, от 31 до 45 — сколько единиц и так далее.

  • Шаг 1: Выберите данные и примените сводную таблицу.
  • Шаг 3: Теперь сводный сводный отчет должен выглядеть так.
  • Шаг 7: Щелкните ОК. Значения сгруппированы в сводной таблице, такие как 15–30, 31–45, 46–60 и т.

Заключение: Теперь мы можем проанализировать это наибольшее количество проданных единиц при цене от 15 до 29, т. Е. 54819 единиц.

Когда цена продукта составляет от 30 до 44 единиц, количество проданных единиц составляет 53794 и аналогично, наименьшее количество проданных продуктов при цене от 45 до 59, т. Е. 10982.

Было проведено исследование денег, потраченных на алкоголь, по возрастным группам. В разных возрастных группах деньги тратятся ежемесячно, у меня есть данные. Из этих данных мне нужно выяснить, какая возрастная группа тратит больше.

В этих данных самый маленький возраст — 15 лет, а самый высокий — 72 года. Мне нужно выяснить между 15 и 30, 30 — 45, 45 — 60 и так далее.

Ниже приведены данные.

  • Шаг 1: Примените сводную таблицу к этим данным. В ROWS укажите Age, а для значений укажите Amt Spent.
  • Шаг 2: Теперь сводный сводный отчет должен выглядеть так.
  • Шаг 4: Щелкните по ОК. Он сгруппирует возраст, вернет сумму для возрастной группы.

Заключение: Понятно, что возрастная группа от 15 до 29 тратит больше денег на потребление алкоголя, что не является хорошим признаком.

Но возрастная группа от 30 до 44 лет тратит на алкоголь меньше; возможно, они осознали ошибку, которую совершили в молодом возрасте.

Войти

Авторизуясь в LiveJournal с помощью стороннего сервиса вы принимаете условия Пользовательского соглашения LiveJournal

3. Описательные статистики: Одномерные частотные распределения.

Частотное распределение признака как аналог распределения вероятностей.

В выборочном социологическом исследовании случайная величина предстает перед социологом в виде признака, для каждого значения которого известна относительная частота его встречаемости. Эта частота интерпретируется как выборочная оценка соответствующей вероятности. Совокупность частот встречаемости всех значений признака, соответственно, трактуется как выборочное представление фун  кции плотности того распределения вероятностей, которое и задает изучаемую случайную величину. Итак, мы получили частотное распределение значений рассматриваемого признака, т.е. выборочное представление изучаемой одномерной случайной величины. Конечно, анализ этого распределения может много дать социологу. Именно с расчета таких распределений для всех рассматриваемых признаков (так называемых “линеек”) он обычно и начинает анализ данных. Каждое распределение представляет собой своеобразное описание изучаемой совокупности объектов (респондентов). Такие описания позволяют исследователю лучше сориентироваться в проблематике, скорректировать перечень проверяемых гипотез, уточнить априорные представления об объекте и предмете исследования.

Пример одномерной частотной таблицы

Вместо процентов могут фигурировать доли: 20% заменится на 0,2, 15 - на 0,15 и т.д. (в случае такой замены мы получим числа, конечно, в большей степени похожие на вероятности, поскольку величина вероятности, как известно, изменяется от 0 до 1).

Гистограмма как аналог плотности распределения.

Отметим, что непрерывную кривую в выборочном исследовании нельзя получить никогда. Здесь мы не можем иметь, скажем, линию, похожую на известный “колокол” нормального распределения. Причина ясна: наша выборка конечна. Даже если в генеральной совокупности распределение, к примеру, нормально, а выборка - репрезентативна, мы вместо “колокола” получим лишь некоторое его подобие, составленное, например, из отрезков, соединяющих отдельные точки - полигон распределения (рис. 3). Заменяющая непрерывное распределение ломаная линия может состоять также из “ступенек”, в таком случае она называется гистограммой распределения (рис. 4).

Гистограммы строятся для метрических шкал. Для того, чтобы построить гистограмму надо определиться с размером интервала, длина которого будет зависеть от теории и задач исследования. При переводе метрических шкал в интервальные получаем график накопленных частот.

В математической статистике доказано, что при больших объемах выборки и достаточно мелком разбиении и гистогр амма, и полигон достаточно хорошо приближают функцию плотности распределения (причем полигон делает это несколько лучше).

Кумулята как аналог функции распределения.

Выборочным представлением собственно функции распределения (а не плотности) случайной величины, “стоящей” за рассматриваемым признаком, служит т.н. кумулята распределения, или график накопленных частот. Она обычно представляется в виде полигона, каждая вершина которого отвечает относительной частоте того, что признак принимает значение, не превышающее того, над которым эта вершина находится. Нетрудно понять, что кумулята получается из полигона распределения путем последовательного суммирования определяющих его частот. Так, полигону, изображенному на рис. 6, будет отвечать следующая кумулята (рис. 8):

Номинальные и порядковые шкалы в социологии обычно бывают дискретными: в анкете используется конечный набор значений, следовательно, встает вопрос о том, как в таком случае строить полигоны, гистограммы, кумуляты.

Говорить о кумуляте для номинальной шкалы в принципе невозможно, поскольку для значений признака, полученных по этой шкале, теряет смысл понятие “больше” или “меньше”. Полигон, в таком случае построить можно. Но отрезки, связывающие отдельные точки, мы никак не можем интерпретировать. Они проведены лишь для наглядности, то же можно сказать и о гистограмме.

Кумуляту можно строить для порядковых шкал. Но интерпретация полигонов и гистограмм (и для кумуляты, и для выборочной оценки функции плотности распределения) может быть двоякой. Поясним на примере рассмотрения функции плотности.

Возможны два варианта интерпретации результатов измерения по порядковой шкале.

1) Полагаем, что в принципе наш признак непрерывен, а наблюдаемая дискретность (наблюдаемая совокупность значений любого признака всегда дискретна хотя бы в силу своей конечности) объясняется

либо только конечностью выборки, а в принципе мы можем получить в качестве наблюдаемого значения любое действительное число рассматриваемого отрезка числовой оси;

либо (что обычно более отвечает реальности) тем, что мы не умеем достаточно точно измерять наш признак; рассматриваем лишь несколько его уровней; измерение же состоит в том, чтобы каждый измеряемый объект отнести к одному из этих уровней.

2) Считаем, что признак дискретен по своей природе, т.е. что для него не имеют смысла числа, лежащие между используемыми шкальными значениями.

В первом случае мы вполне можем интерпретировать полигон и гистограмму так же, как это делали для интервального признака. Во втором же случае построение и того, и другого рассматривается как чисто иллюстративный прием - так же, как это имело место для номинального признака.

Читайте также: