Графическое изображение выборки кратко

Обновлено: 28.06.2024

На главную Лекции и практикум по психологии Статистические методы в психологии Табулирование и наглядное представление данных

Табулирование и наглядное представление данных

Лекции и практикум по психологии - Статистические методы в психологии

Лекция № 2
Табулирование и наглядное представление данных
План:
1. Понятие о генеральной совокупности и выборке.
2. Способы формирования выборки.
3. Распределение частот и табулирование данных.
4. Графическое представление эмпирических данных.
5. Квантили и их интерпретация.

Основные понятия и термины: генеральная совокупность, выборка, объем выборки, репрезентативная выборка, выборка стандартизации, варианта, вариационный ряд, частота варианты, относительная частота варианты, накопленная частота варианты, статистическое распределение выборки, распределение частот, интервальное распределение, полигон частот, гистограмма, точечная диаграмма, квантиль, квартиль, внутриквартильный размах, дециль, процентиль.

1. Понятие о генеральной совокупности и выборке

Генеральная совокупность – это совокупность всех мысленно возможных объектов интересующего исследователя типа, для которых могут быть проведены измерения при данном реальном комплексе условий. Генеральная совокупность является математически абстрактным понятием и содержит такое большое количество объектов, что практически изучить их невозможно. Поэтому реальное исследование проводится на выборочной совокупности [26].
Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов из генеральной совокупности для изучения интересующего исследователя свойства [26].
Число элементов в выборке называют объемом выборки и обозначают n. Объем генеральной совокупности обозначают N.
Например, если из 1000 деталей отобрано для обследования 100 деталей, то N = 1000, а n = 100.
Примечание. Полезно знать, что в современной практике статистической обработки данных символ N может использоваться для обозначения объема выборочной совокупности (например, в программных пакетах STATISTICA, SPSS).
В зависимости от количества наблюдений выборочные совокупности подразделяются на три группы [18]:
- малые – до 30 наблюдений;
- средние – от 30 до 200 наблюдений;
- большие – от 200 наблюдений и выше.
Объем выборки определяется теми задачами, которые стоят перед исследователем [18]:
- если разрабатывается диагностическая методика, то объем выборки может варьировать от 200 до 1000 (иногда 2500) наблюдений;
- если сравниваются две выборки, то сумма наблюдений в обеих выборках должна быть не менее 50: n1 + n2 ≥ 50;
- если изучается взаимосвязь между свойствами, то количество наблюдений составляет примерно 30–35;
- чем больше изменчивость изучаемого свойства, тем больше должен быть объем выборки. Изменчивость свойства можно уменьшить, увеличив однородность выборки, например, по полу, возрасту, уровню образования и т.д.
Сущность статистических методов состоит в том, чтобы по результатам исследований, полученных на выборке, можно было судить о свойствах генеральной совокупности в целом. Достоверность выводов, получаемых в результате статистической обработки исходных данных, зависит от того, насколько выборка является репрезентативной (представительной).
Репрезентативной является выборка, элементы которой правильно представляют пропорции генеральной совокупности [7]. В этом случае выборка будет представлять изучаемое явление достаточно полно с точки зрения его изменчивости в генеральной совокупности.
Выборка, на которой разрабатываются нормы выполнения теста, называется выборкой стандартизации. При формировании выборки стандартизации руководствуются следующими правилами: а) выборка должна состоять из респондентов, на которых ориентирован тест, и быть однородной; б) выборка должна иметь большой объем (свыше 200 наблюдений); в) выборка должна быть репрезентативной, для чего отбор испытуемых в выборку должен носить случайный характер [3].

2. Способы формирования выборки

Важнейшим условием повышения степени репрезентативности выборки является достижение полностью случайного отбора объектов из генеральной совокупности. Это означает, что все ее объекты имеют одинаковую вероятность попасть в выборку [7].
При отборе объектов из генеральной совокупности для получения выборки используются следующие способы [26]:
1. Простой случайный отбор. Объекты генеральной совокупности, имеющей объем N, нумеруют от 1 до N. Затем, используя таблицу случайных чисел или процедуру жеребьевки (например, корзину с пронумерованными карточками), отбирают n объектов выборки.
2. Простой отбор с помощью регулярной, но не существенной для изучаемого явления процедуры (например, отбор испытуемых по их номеру в списке).
3. Стратифицированный (расслоенный). В этом случае генеральная сово
купность объема N разделяется на непересекающиеся подсовокупности (страты,
слои) N1, N2, …, Nk.

Из каждого слоя извлекается простая случайная выборка, имеющая объем n1, n2, …, nk соответственно, причем n1 + n2 + … + nk = n.
Стратифицированный отбор применяется, когда объекты внутри каждого слоя являются однородными по изучаемому свойству. Например, все студенты вуза могут быть разделены на 5 страт – студенты 1 курса, 2 курса, 3 курса, 4 курса и 5 курса.
4. Серийный (гнездовой) отбор. Он применяется, если удобно исследовать не отдельные элементы генеральной совокупности, а целые блоки или серии таких элементов. Например, исследуются все ученики одного класса или все семьи в одном доме.
5. Комбинированный (ступенчатый). Он объединяет в себя несколько вышеперечисленных способов отбора, которые составляют различные ступени выборочного исследования.
Например, исследователю необходимо представить репрезентативную выборку первоклассников. Генеральной совокупностью являются все учащиеся 1 класса нашей страны. Первый этап - простой случайный отбор: нумеруют области от 1 до 6 и с помощью жеребьевки определяют одну из них. Второй этап -простой отбор с помощью регулярной процедуры: в пределах области выбирают район, в названии которого содержится пять определенных букв. Третий этап -стратифицированный отбор: в районе делят все школы на городские, поселковые, сельские. Четвертый этап - в городе (поселке) используют серийный отбор: выбирают учащихся 1 класса определенной школы; они и составляют выборку, на которой будет проводиться исследование.

3. Распределение частот и табулирование данных

Пусть из генеральной совокупности извлечена выборка объема n. Исследуется некий признак (например, уровень интеллекта, время реакции и т.д.). Тогда каждый элемент выборки может принимать различные значения исследуемого признака, которые обозначают х1, х2, …, хк, где к ≤n. Значение признака называют вариантой хi, где i- порядковый номер варианты.
Последовательность вариант, упорядоченная по возрастанию, называется вариационным рядом. Число появлений варианты х4 называют частотой варианты и обозначают ni[7].
Например, в результате исследования получены следующие данные: 8, 5, 7, 8, 5, 8, 6. Представим их в виде вариационного ряда: 5, 5, 6, 7, 8, 8, 8. Исследуемый признак принимает четыре значения х1 = 5, х2 = 6, х3= 7, х4, = 8, которые имеют следующую частоту: n1= 2, n2= 1, n3 = 1, т4= 3.
Сумма частот всех вариант равна объему выборки

Для характеристики вариационного ряда наряду с частотой и относительной частотой варианты используется накопленная частота. Накопленной частотой варианты хi (Σfi) называют величину, которая показывает, сколько значений признака не превышает заданного значения варианты хi [7].
Накопленную частоту варианты хi в упорядоченной выборке можно рассчитать по формуле Σfi = n1 + n2 + … + ni .
Например, для представленного выше вариационного ряда накопленная частота для варианты х3 определяется так: Σf3 = n1 + n2 + n3 = 2 + 1 + 1 = 4.
Первичная обработка данных, полученных в результате измерения, заключается в их описании, упорядочении, табулировании и представлении в виде, удобном для дальнейшей обработки. Для этого выборку представляют в виде статистического распределения, которое может быть задано двумя способами [7]:
а) в виде распределения частот (относительных частот) – перечня вариант и
соответствующих им частот (относительных частот);
б) в виде интервального распределения (распределения сгруппированных
частот) – последовательности интервалов и соответствующих им частот (отно
сительных частот).
Распределение частот, как правило, используется в случае, если измеряемая переменная является дискретной, а интервальное распределение – если переменная непрерывна.
Пример 1. В результате эмпирического исследования получены следующие данные: 1, 2, 1, 3, 5, 6, 7, 1, 2, 4, 5, 6, 3. Задать статистическое распределение выборки.
Решение. Определим объем выборки: n = 13.
Построим вариационный ряд: 1, 1, 1, 2, 2, 3, 3, 4, 5, 5, 6, 6, 7.
Зададим статистическое распределение выборки в виде частот и относительных частот:

ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ВЫБОРКИ И НАХОЖДЕНИЕ ЕЕ ЧИСЛОВЫХ ХАРАКТЕРИСТИК

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Важнейшими понятиями математической статистики являются понятия генеральной совокупности и выборки.

Генеральной совокупностью наблюдаемого признака (случайной величины) Х называют множество всевозможных значений, принимаемых наблюдаемым признаком Х. Результаты n измерений наблюдаемого признака (х1, х2, . , хn) называют выборкой объема n из генеральной совокупности. Выборку можно рассматривать двояко:

а) как случайный вектор длины n, каждая компонента которого имеет такое же распределение, как и наблюдаемый признак;

б) как на результаты измерений, т.е. набор n чисел.

Объем выборки может быть очень большим, поэтому для установления закономерностей необходимо произвести обработку этой выборки.

Первый шаг к осмыслению закономерностей - это графическое представление выборки, то есть построение ее гистограммы, полигона частот и эмпирической функции распределения.

Однако выборки, имеющие похожие графические изображения, могут различаться своими числовыми характеристиками. Выборка может характеризоваться следующими числовыми значениями:

1. Среднее значение. Рассчитывается по формуле

или, если интервал варьирования разбит на N интервалов и найдены частоты и середины частичных интервалов, то по формуле

где nj - частота попадания признака в j-й интервал;

xj - середина j-го интервала группировки.

Значение характеризует среднее значение исследуемого признака.

В Mathcad для вычисления среднего значения используется встроенная функция mean(Х), где Х - вектор-столбец, содержащий n значений нашей выборки.

2. Выборочная дисперсия характеризует разброс исследуемого признака около среднего значения . Рассчитывается по формуле

или, если признаки сгруппированы и подсчитаны частоты, то по формуле

В Mathcad для определения дисперсии выборки, значения которой записаны в вектор-столбце X, используется встроенная функция var(X), причем сама дисперсия определяется по формуле

3. Стандартное отклонение. Рассчитывается по формуле σ =, где S2 рассчитывается по трем формулам, приведенным выше, и имеет размерность исследуемой величины.

4. Выборочный эксцесс. Характеризует островершинность эмпирического распределения относительно стандартного нормального. Эксцесс стандартного нормального распределения принимается равным 0. Если островершинность больше нормального, то это значение положительно (ek> 0). В противном случае оно отрицательно (рис. 1).

Выборочный эксцесс может быть найден по формуле

где m4 =/n или m4=/n .

5. Коэффициент асимметрии. Характеризует симметрию распределения выборочных данных около центра выборки , для стандартного нормального распределения коэффициент асимметрии равен 0 (аS=0).

Если правая ветвь графика более пологая, то коэффициент асимметрии аS 0.

Коэффициент асимметрии вычисляется по формуле

где m3 = /n или m3=/n.

Задание. Пусть исследуется технологический процесс производства бензина ректификационной колонной. Замеряется выход одной из фракции готового продукта - бензина марки АИ-95. Измерения проводят с интервалом в один час. Получена выборка (см. табл. 1) из следующих 26 значений хi (i =1, 2, . , n , ∙ объем выборки n = 26):

Генеральная совокупность - множество всех объектов, относительно которых предполагается делать выводы при изучении конкретной задачи.

Выборка - часть генеральной совокупности, которая охватывается экспериментом.

Репрезентативная выборка - выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности.

Унимодальное распределение - распределение, имеющее только одну моду (пример: нормальное распределение)

Способы формирования репрезентативной выборки:

Простая случайная выборка (simple random sample)

Стратифицированная выборка (stratified sample)

Групповая выборка (cluster sample)

Типы переменных:

непрерывные (рост в мм)

дискретные (количество публикаций у учёного)

Ранговые (успеваемость студентов)

Гистограмма частот:

Позволяет сделать первое впечатление о форме распределения некоторого количественного признака.

Описательные статистики:

Меры центральной тенденции (узкий диапазон, высокие значения признака):

Мода (mode) - значение во множестве наблюдений, которое встречается наиболее часто.

Медиана (median) - значение признака, которое делит упорядоченное множество пополам.

Среднее значение (mean, среднее арифметическое) - сумма всех значений измеренного признака, делённая на количество измеренных значений.

( используется для среднего значения из выборки, а для генеральной совокупности латинская буква )

Свойства среднего:

Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число.

Если каждое значение выборки умножить на определённое число, то и среднее значение увеличится в это число раз.

Если для каждого значения выборки, рассчитать такой показатель как его отклонение от среднего арифметического, то сумма этих отклонений будет равняться нулю.

Меры изменчивости (широкий диапазон, вариативность признака):

Размах (range) - разность максимального и минимального значения.

При добавлении сильно отличающегося значения данные меняются сильно и могут быть некорректные.

Дисперсия (variance) - средний квадрат отклонений индивидуальных значений признака от их средней величины.

Дисперсия генеральной совокупности:

(среднеквадратическое отклонение генеральной совокупности)

(среднеквадратическое отклонение выборки)

Свойства дисперсии:

Квартили распределения и график box-plot

Квартили - три точки (значения признака), которые делят упорядоченное множество данных на четыре равные части.

Box-plot - такой вид диаграммы в удобной форме показывает медиану (или, если нужно, среднее), нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы.

Нормальное распределение

Отклонения наблюдений от среднего подчиняются определённому вероятностному закону.

Стандартизация

Стандартизация или z-преобразование - преобразование полученных данных в стандартную Z-шкалу (Z-scores) со средним и

Правило "двух" и "трёх" сигм

Центральная предельная теорема

Центральная предельная теорема - класс теорем в теории вероятностей, утверждающих, что сумма большого количества независимых случайных величин имеет распределение близкое к нормальному. Так как многие случайные величины в приложениях являются суммами нескольких случайных факторов, центральные предельные теоремы обосновывают популярность нормального распределения.

Есть признак, распределенный КАК УГОДНО* с некоторым средним и некоторым стандартным отклонением. Тогда, если выбирать из этой совокупности выборки объема n, то их средние тоже будут распределены нормально со средним равным среднему признака в ГС и стандартным отклонением .

Стандартная ошибка среднего - теоретическое стандартное отклонение всех средних выборки размера , извлекаемое из совокупности.

Доверительные интервалы для среднего

Доверительный интервал является показателем точности измерений. Это также показатель того, насколько стабильна полученная величина, то есть насколько близкую величину (к первоначальной величине) вы получите при повторении измерений (эксперимента).

Идея статистического вывода

P-значение (P-value) - величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода).

2. Сравнение средних

T-распределение

Если число наблюдений невелико и \sigma неизвестно (почти всегда), используется распределение Стьюдента (t-distribution).

Унимодально и симметрично, но: наблюдения с большей вероятностью попадают за пределы от

"Форма" распределения определяется числом степеней свободы ().

С увеличением числа распределение стремится к нормальному.

t-распределение используется не потому что у нас маленькие выборки, а потому что мы не знаем стандартное отклонение в генеральной совокупности.

Сравнение двух средних; t-критерий Стьюдента

Критерий, который позволяет сравнивать средние значения двух выборок между собой, называется t-критерий Стьюдента.

Условия для корректности использования t-критерия Стьюдента:

Две независимые группы

Формула стандартной ошибки среднего:

Формула числа степеней свободы:

Формула t-критерия Стьюдента:

Переход к p-критерию:

Проверка распределения на нормальность, QQ-Plot

Однофакторный дисперсионный анализ

Часто в исследованиях необходимо сравнить несколько групп между собой. В таком случае применятся однофакторный дисперсионный анализ.

Незвисимая переменная - номинативная перменная с нескольким градациями, разделяющая наблюдения на группы.

Зависимая перемнная - количественная переменная, по степени выраженности которой сравниваются группы.

Для наглядного представления о выборке часто используют различные графические изображения выборки. Простейшими изображениями выборки являются полигон и гистограмма. Пусть выборка задана вариационным рядом: (х₁ ; n₁ ); (х₂ ; n₂ ); ( х₃ ; n₃ ); … (х_k ; n_k ) _. Полигоном частот называют ломаную с вершинами в указанных точках.

Полигоном относительных частот называют ломаную с вершинами в точках

(х₁ ; ); (х₂ ; ); ( х₃ ; ); … (х_k ; )

Ясно, что полигон относительных частот получается из полигона частот сжатием вдоль оси ординат в n раз, где n — объем выборки.

При большом объеме выборки более наглядное представление о ней дает гистограмма. Чтобы построить гистограмму частот, промежуток от наименьшего значения выборки до наибольшего ее значения разбивают на несколько частичных промежутков длины h. Для каждого частичного промежутка вычисляют сумму s_i частот значений выборки, попавших в этот промежуток. Значение x_i выборки, совпавшее с правым концом промежутка, относят к следующему промежутку (если x_i — не наибольшее значение выборки). Затем на каждом частичном промежутке, как на основании, строят прямоугольник с высотой . Объединение всех построенных таким образом прямоугольников называют гистограммой частот. Итак, гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых являются частичные промежутки длины h, а высотами — отрезки длины , где s_i — сумма частот значений выборки, попавших

в i-й промежуток.

Из определения гистограммы ясно, что ее площадь равна объему выборки.

При решении задач в зависимости от объема выборки в большинстве случаев целесообразно брать 10-20 частичных промежутков.

Аналогично определяют и строят гистограмму относительных частот.

Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых являются частичные промежутки длины h, а высотами — отрезки длины , где w_i - суммы относительных частот значении выборки, попавших в i-й промежуток. Площадь гистограммы относительных частот, очевидно, равна единице.

Пусть имеется некоторая выборка объема n: x_1, х₂, x_{3, …} x_n . Выброчной средней называется среднее арифметическое значений выборки:

(5)

Если выборка задана статистическим рядом (3) или выборочным распределением (4), то формулу (5) естественно записать в следующем виде:

(6)

Выборочной дисперсией называется среднее арифметическое квадратов отклонений значений выборки от выборочной средней.

(7)

Если выборка задана статистическим рядом (3) или выборочным распределением (4), то формулу (7) можно записать так:

(8)

Формулы (7) и (8) можно преобразовать к более удобному для вычислений виду:

(9)

т. е. выборочная дисперсия равна среднему квадратов значений выборки без квадрата выборочной средней.

Исправленной выборочной дисперсией называется

(10)

где S₀ — выборочная дисперсия, п — объем выборки. Отсюда, используя формулу (7),

(11)

© 2014-2022 — Студопедия.Нет — Информационный студенческий ресурс. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав (0.003)

Читайте также: