Графическое изображение выборки кратко
Обновлено: 28.06.2024
На главную Лекции и практикум по психологии Статистические методы в психологии Табулирование и наглядное представление данных
Табулирование и наглядное представление данных |
Лекции и практикум по психологии - Статистические методы в психологии | ||
Лекция № 2 Основные понятия и термины: генеральная совокупность, выборка, объем выборки, репрезентативная выборка, выборка стандартизации, варианта, вариационный ряд, частота варианты, относительная частота варианты, накопленная частота варианты, статистическое распределение выборки, распределение частот, интервальное распределение, полигон частот, гистограмма, точечная диаграмма, квантиль, квартиль, внутриквартильный размах, дециль, процентиль. 1. Понятие о генеральной совокупности и выборкеГенеральная совокупность – это совокупность всех мысленно возможных объектов интересующего исследователя типа, для которых могут быть проведены измерения при данном реальном комплексе условий. Генеральная совокупность является математически абстрактным понятием и содержит такое большое количество объектов, что практически изучить их невозможно. Поэтому реальное исследование проводится на выборочной совокупности [26]. 2. Способы формирования выборкиВажнейшим условием повышения степени репрезентативности выборки является достижение полностью случайного отбора объектов из генеральной совокупности. Это означает, что все ее объекты имеют одинаковую вероятность попасть в выборку [7].
Из каждого слоя извлекается простая случайная выборка, имеющая объем n1, n2, …, nk соответственно, причем n1 + n2 + … + nk = n. 3. Распределение частот и табулирование данныхПусть из генеральной совокупности извлечена выборка объема n. Исследуется некий признак (например, уровень интеллекта, время реакции и т.д.). Тогда каждый элемент выборки может принимать различные значения исследуемого признака, которые обозначают х1, х2, …, хк, где к ≤n. Значение признака называют вариантой хi, где i- порядковый номер варианты.
Для характеристики вариационного ряда наряду с частотой и относительной частотой варианты используется накопленная частота. Накопленной частотой варианты хi (Σfi) называют величину, которая показывает, сколько значений признака не превышает заданного значения варианты хi [7]. ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ВЫБОРКИ И НАХОЖДЕНИЕ ЕЕ ЧИСЛОВЫХ ХАРАКТЕРИСТИКТекст работы размещён без изображений и формул. Важнейшими понятиями математической статистики являются понятия генеральной совокупности и выборки. Генеральной совокупностью наблюдаемого признака (случайной величины) Х называют множество всевозможных значений, принимаемых наблюдаемым признаком Х. Результаты n измерений наблюдаемого признака (х1, х2, . , хn) называют выборкой объема n из генеральной совокупности. Выборку можно рассматривать двояко: а) как случайный вектор длины n, каждая компонента которого имеет такое же распределение, как и наблюдаемый признак; б) как на результаты измерений, т.е. набор n чисел. Объем выборки может быть очень большим, поэтому для установления закономерностей необходимо произвести обработку этой выборки. Первый шаг к осмыслению закономерностей - это графическое представление выборки, то есть построение ее гистограммы, полигона частот и эмпирической функции распределения. Однако выборки, имеющие похожие графические изображения, могут различаться своими числовыми характеристиками. Выборка может характеризоваться следующими числовыми значениями: 1. Среднее значение. Рассчитывается по формуле или, если интервал варьирования разбит на N интервалов и найдены частоты и середины частичных интервалов, то по формуле где nj - частота попадания признака в j-й интервал; xj - середина j-го интервала группировки. Значение характеризует среднее значение исследуемого признака. В Mathcad для вычисления среднего значения используется встроенная функция mean(Х), где Х - вектор-столбец, содержащий n значений нашей выборки. 2. Выборочная дисперсия характеризует разброс исследуемого признака около среднего значения . Рассчитывается по формуле или, если признаки сгруппированы и подсчитаны частоты, то по формуле В Mathcad для определения дисперсии выборки, значения которой записаны в вектор-столбце X, используется встроенная функция var(X), причем сама дисперсия определяется по формуле 3. Стандартное отклонение. Рассчитывается по формуле σ =, где S2 рассчитывается по трем формулам, приведенным выше, и имеет размерность исследуемой величины. 4. Выборочный эксцесс. Характеризует островершинность эмпирического распределения относительно стандартного нормального. Эксцесс стандартного нормального распределения принимается равным 0. Если островершинность больше нормального, то это значение положительно (ek> 0). В противном случае оно отрицательно (рис. 1). Выборочный эксцесс может быть найден по формуле где m4 =/n или m4=/n . 5. Коэффициент асимметрии. Характеризует симметрию распределения выборочных данных около центра выборки , для стандартного нормального распределения коэффициент асимметрии равен 0 (аS=0). Если правая ветвь графика более пологая, то коэффициент асимметрии аS 0. Коэффициент асимметрии вычисляется по формуле где m3 = /n или m3=/n. Задание. Пусть исследуется технологический процесс производства бензина ректификационной колонной. Замеряется выход одной из фракции готового продукта - бензина марки АИ-95. Измерения проводят с интервалом в один час. Получена выборка (см. табл. 1) из следующих 26 значений хi (i =1, 2, . , n , ∙ объем выборки n = 26): Генеральная совокупность - множество всех объектов, относительно которых предполагается делать выводы при изучении конкретной задачи. Выборка - часть генеральной совокупности, которая охватывается экспериментом. Репрезентативная выборка - выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности. Унимодальное распределение - распределение, имеющее только одну моду (пример: нормальное распределение) Способы формирования репрезентативной выборки:Простая случайная выборка (simple random sample) Стратифицированная выборка (stratified sample) Групповая выборка (cluster sample) Типы переменных:непрерывные (рост в мм) дискретные (количество публикаций у учёного) Ранговые (успеваемость студентов) Гистограмма частот:
Описательные статистики:Меры центральной тенденции (узкий диапазон, высокие значения признака):Мода (mode) - значение во множестве наблюдений, которое встречается наиболее часто. Медиана (median) - значение признака, которое делит упорядоченное множество пополам. Среднее значение (mean, среднее арифметическое) - сумма всех значений измеренного признака, делённая на количество измеренных значений. ( используется для среднего значения из выборки, а для генеральной совокупности латинская буква ) Свойства среднего: Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число. Если каждое значение выборки умножить на определённое число, то и среднее значение увеличится в это число раз. Если для каждого значения выборки, рассчитать такой показатель как его отклонение от среднего арифметического, то сумма этих отклонений будет равняться нулю. Меры изменчивости (широкий диапазон, вариативность признака):Размах (range) - разность максимального и минимального значения. При добавлении сильно отличающегося значения данные меняются сильно и могут быть некорректные. Дисперсия (variance) - средний квадрат отклонений индивидуальных значений признака от их средней величины. Дисперсия генеральной совокупности: (среднеквадратическое отклонение генеральной совокупности) (среднеквадратическое отклонение выборки) Свойства дисперсии: Квартили распределения и график box-plotКвартили - три точки (значения признака), которые делят упорядоченное множество данных на четыре равные части. Box-plot - такой вид диаграммы в удобной форме показывает медиану (или, если нужно, среднее), нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы. Нормальное распределениеОтклонения наблюдений от среднего подчиняются определённому вероятностному закону. СтандартизацияСтандартизация или z-преобразование - преобразование полученных данных в стандартную Z-шкалу (Z-scores) со средним и Правило "двух" и "трёх" сигмЦентральная предельная теоремаЦентральная предельная теорема - класс теорем в теории вероятностей, утверждающих, что сумма большого количества независимых случайных величин имеет распределение близкое к нормальному. Так как многие случайные величины в приложениях являются суммами нескольких случайных факторов, центральные предельные теоремы обосновывают популярность нормального распределения. Есть признак, распределенный КАК УГОДНО* с некоторым средним и некоторым стандартным отклонением. Тогда, если выбирать из этой совокупности выборки объема n, то их средние тоже будут распределены нормально со средним равным среднему признака в ГС и стандартным отклонением . Стандартная ошибка среднего - теоретическое стандартное отклонение всех средних выборки размера , извлекаемое из совокупности. Доверительные интервалы для среднегоДоверительный интервал является показателем точности измерений. Это также показатель того, насколько стабильна полученная величина, то есть насколько близкую величину (к первоначальной величине) вы получите при повторении измерений (эксперимента). Идея статистического выводаP-значение (P-value) - величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). 2. Сравнение среднихT-распределениеЕсли число наблюдений невелико и \sigma неизвестно (почти всегда), используется распределение Стьюдента (t-distribution). Унимодально и симметрично, но: наблюдения с большей вероятностью попадают за пределы от "Форма" распределения определяется числом степеней свободы (). С увеличением числа распределение стремится к нормальному. t-распределение используется не потому что у нас маленькие выборки, а потому что мы не знаем стандартное отклонение в генеральной совокупности. Сравнение двух средних; t-критерий СтьюдентаКритерий, который позволяет сравнивать средние значения двух выборок между собой, называется t-критерий Стьюдента. Условия для корректности использования t-критерия Стьюдента: Две независимые группы Формула стандартной ошибки среднего:Формула числа степеней свободы: Формула t-критерия Стьюдента:Переход к p-критерию:Проверка распределения на нормальность, QQ-PlotОднофакторный дисперсионный анализЧасто в исследованиях необходимо сравнить несколько групп между собой. В таком случае применятся однофакторный дисперсионный анализ. Незвисимая переменная - номинативная перменная с нескольким градациями, разделяющая наблюдения на группы. Зависимая перемнная - количественная переменная, по степени выраженности которой сравниваются группы. Для наглядного представления о выборке часто используют различные графические изображения выборки. Простейшими изображениями выборки являются полигон и гистограмма. Пусть выборка задана вариационным рядом: (х1 ; n1 ); (х2 ; n2 ); ( х3 ; n3 ); … (хk ; nk ) . Полигоном частот называют ломаную с вершинами в указанных точках. Полигоном относительных частот называют ломаную с вершинами в точках (х1 ; ); (х2 ; ); ( х3 ; ); … (хk ; ) Ясно, что полигон относительных частот получается из полигона частот сжатием вдоль оси ординат в n раз, где n — объем выборки. При большом объеме выборки более наглядное представление о ней дает гистограмма. Чтобы построить гистограмму частот, промежуток от наименьшего значения выборки до наибольшего ее значения разбивают на несколько частичных промежутков длины h. Для каждого частичного промежутка вычисляют сумму si частот значений выборки, попавших в этот промежуток. Значение xi выборки, совпавшее с правым концом промежутка, относят к следующему промежутку (если xi — не наибольшее значение выборки). Затем на каждом частичном промежутке, как на основании, строят прямоугольник с высотой . Объединение всех построенных таким образом прямоугольников называют гистограммой частот. Итак, гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых являются частичные промежутки длины h, а высотами — отрезки длины , где si — сумма частот значений выборки, попавших в i-й промежуток. Из определения гистограммы ясно, что ее площадь равна объему выборки. При решении задач в зависимости от объема выборки в большинстве случаев целесообразно брать 10-20 частичных промежутков. Аналогично определяют и строят гистограмму относительных частот. Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых являются частичные промежутки длины h, а высотами — отрезки длины , где wi - суммы относительных частот значении выборки, попавших в i-й промежуток. Площадь гистограммы относительных частот, очевидно, равна единице. Пусть имеется некоторая выборка объема n: x1, х2, x3, … xn . Выброчной средней называется среднее арифметическое значений выборки: (5) Если выборка задана статистическим рядом (3) или выборочным распределением (4), то формулу (5) естественно записать в следующем виде: (6) Выборочной дисперсией называется среднее арифметическое квадратов отклонений значений выборки от выборочной средней. (7) Если выборка задана статистическим рядом (3) или выборочным распределением (4), то формулу (7) можно записать так: (8) Формулы (7) и (8) можно преобразовать к более удобному для вычислений виду: (9) т. е. выборочная дисперсия равна среднему квадратов значений выборки без квадрата выборочной средней. Исправленной выборочной дисперсией называется (10) где S0 — выборочная дисперсия, п — объем выборки. Отсюда, используя формулу (7), (11) © 2014-2022 — Студопедия.Нет — Информационный студенческий ресурс. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав (0.003) Читайте также:
|