Выборка что это кратко

Обновлено: 04.05.2024

Математическая статистика занимается установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными задачами математической статистики являются:

1. определение способов сбора и группировки этих статистических данных;

2. разработка методов анализа полученных данных в зависимости от целей исследования, к которым относятся:

а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.;

б) проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения.

Для решения этих задач необходимо выбрать из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых можно сделать прогноз относительно исследуемого признака этих объектов.

Генеральная совокупность – все множество имеющихся объектов.

Выборка – набор объектов, случайно отобранных из генеральной совокупности.

Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой совокупности.

Выборка из генеральной совокупности должна обладать свойствами:

1) каждый элемент выбран случайно;

2) все имеют одинаковую вероятность попасть в выборку;

3) n должно быть настолько велико, насколько позволяет решать задачу с требуемым качеством, т.е. выборка должна быть репрезентативной.

Принято считать, что при п > 60 выборка большая, или репре­зентативная, а при п

Повторная – каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность;

Бесповторная – отобранный объект в генеральную совокупность не возвращается.

Пусть интересующая нас случайная величина Х принимает в выборке значение х1 п1 раз, х2п2 раз, …, хк – пк раз, причем , где п – объем выборки. Тогда наблюдаемые значения случайной величины х1, х2,…, хк называют вариантами, а п1, п2,…, пк – частотами. Если разделить каждую частоту на объем выборки, то получим относительные частоты (частости)

Очевидно, что сумма частот равна объему выборки (выборочной совокупности) n , а сумма относительных частот (частостей) равна единице:

Последовательность вариант, записанных в порядке возрастания, называют вариационнымрядом, а перечень вариант и соответствующих им частот или относительных частот – статистическим рядом:

xi x1 x2 xk
ni n1 n2 nk
wi w1 w2 wk

Основные понятия математической статистики

Математическая статистика

Математическая статистика занимается установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными задачами математической статистики являются:




1. определение способов сбора и группировки этих статистических данных;

2. разработка методов анализа полученных данных в зависимости от целей исследования, к которым относятся:

а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.;

б) проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения.

Для решения этих задач необходимо выбрать из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых можно сделать прогноз относительно исследуемого признака этих объектов.

Генеральная совокупность – все множество имеющихся объектов.

Выборка – набор объектов, случайно отобранных из генеральной совокупности.

Объем генеральной совокупности N и объем выборки n – число объектов в рассматриваемой совокупности.

Выборка из генеральной совокупности должна обладать свойствами:

1) каждый элемент выбран случайно;

2) все имеют одинаковую вероятность попасть в выборку;

3) n должно быть настолько велико, насколько позволяет решать задачу с требуемым качеством, т.е. выборка должна быть репрезентативной.

Принято считать, что при п > 60 выборка большая, или репре­зентативная, а при п

Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Характеристики выборки:

  • Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем.
  • Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки

  • Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.
  • Существует необходимость в сборе первичной информации.

Содержание

Объём выборки

Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30—35.

Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:

  • пары близнецов,
  • два измерения какого-либо признака до и после экспериментального воздействия,
  • мужья и жёны
  • и т. п.

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев:

Репрезентативность

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной.

Пример нерепрезентативной выборки

  • 57 % отдавали предпочтение кандидату-республиканцу Альфу Лэндону
  • 40 % выбрали действующего в то время президента-демократаФранклина Рузвельта

Виды плана построения групп из выборок

Выделяют несколько основных видов плана построения групп [2] :

  1. Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.
    • Исследование с экспериментальной и контрольной группами с привлечением стратегии попарного отбора
  2. Исследование с использованием только одной группы — экспериментальной.
  3. Исследование с использованием смешанного (факторного) плана — все группы ставятся в разные условия.

Типы выборки

Выборки делятся на два типа:

Вероятностные выборки

  1. Простая вероятностная выборка:
    • Простая повторная выборка. Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.

Процедура построения простой случайной выборки включает в себя следующие шаги:

1. необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;

2. определить предполагаемый объем выборки, то есть ожидаемое число опрошенных;

3. извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.

4. выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам

  • Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информации с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения:

1. зачастую сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.

2. результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределенная по большой географической территории, что значительно увеличивает время и стоимость сбора данных.

3. результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.

4. в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объеме выборки.

Невероятностные выборки

Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д.

6.Модальная выборка. 7.экспертная выборка. 8.Гетерогенная выборка.

Стратегии построения групп

Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности [3] .

    (случайный отбор)
  • Привлечение реальных групп

Рандомизация

Рандомизация, или случайный отбор, используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вуза, можно сложить бумажки с именами всех студентов вуза в шляпу, а затем достать из неё 100 бумажек — это будет случайным отбором (Гудвин Дж., с. 147).

Попарный отбор

Попарный отбор — стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом — привлечением близнецовых пар (моно- и дизиготных), так как позволяет создать.

Стратометрический отбор

Стратометрический отбор — рандомизация с выделением страт (или кластеров). При данном способе формирования выборки генеральная совокупность делится на группы (страты), обладающие определёнными характеристиками (пол, возраст, политические предпочтения, образование, уровень доходов и др.), и отбираются испытуемые с соответствующими характеристиками.

Приближённое моделирование

Приближенное моделирование – формирование модели, которая для четко оговоренного класса систем (процессов) описывает его поведение (или нужные явления) с приемлемой точностью.

Примечания

  1. ↑ Исследование в психологии: методы и планирование / Дж. Гудвин. — СПб.: Питер, 2004. С. 146.
  2. Дружинин В. Н. Экспериментальная психология. — 2-е изд., доп. — СПб.: Питер, 2002. С. 92
  3. ↑ См. там же. С. 93—95.

Литература

Наследов А. Д. Математические методы психологического исследования. — СПб.: Речь, 2004.

Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30—35.

Зависимые и независимые выборки

Выборка может рассматриваться в качестве Пример нерепрезентативной выборки

Выделяют несколько основных видов плана построения групп [2] :

  1. Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.
    • Исследование с экспериментальной и контрольной группами с привлечением стратегии попарного отбора
  2. Исследование с использованием только одной группы — экспериментальной.
  3. Исследование с использованием смешанного (факторного) плана — все группы ставятся в разные условия.

Стратегии построения групп

Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности [3] .

    (случайный отбор)
  • Привлечение реальных групп

Рандомизация

Рандомизация, или случайный отбор, используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов Попарный отбор

Попарный отбор — стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом — привлечением Стратометрический отбор

Стратометрический отбор — рандомизация с выделением Приближённое моделирование

Приближённое моделирование — составление ограниченных выборок и обобщение выводов об этой выборке на более широкую популяцию. Например, при участии в исследовании Источники

  1. ↑ Исследование в психологии: методы и планирование / Дж. Гудвин. — СПб.: Питер, 2004. С. 146.
  2. Дружинин В. Н. Экспериментальная психология. — 2-е изд., доп. — СПб.: Питер, 2002. С. 92
  3. ↑ См. там же. С. 93—95.

Рекомендуемая литература

Наследов А. Д. Математические методы психологического исследования. СПб.: Речь, 2004.

Генеральная совокупность - множество всех объектов, относительно которых предполагается делать выводы при изучении конкретной задачи.

Выборка - часть генеральной совокупности, которая охватывается экспериментом.

Репрезентативная выборка - выборка, в которой все основные признаки генеральной совокупности, из которой извлечена данная выборка, представлены приблизительно в той же пропорции или с той же частотой, с которой данный признак выступает в этой генеральной совокупности.

Унимодальное распределение - распределение, имеющее только одну моду (пример: нормальное распределение)


Способы формирования репрезентативной выборки:

Простая случайная выборка (simple random sample)

Стратифицированная выборка (stratified sample)

Групповая выборка (cluster sample)

Типы переменных:

непрерывные (рост в мм)

дискретные (количество публикаций у учёного)

Ранговые (успеваемость студентов)

Гистограмма частот:

Позволяет сделать первое впечатление о форме распределения некоторого количественного признака.


Описательные статистики:

Меры центральной тенденции (узкий диапазон, высокие значения признака):

Мода (mode) - значение во множестве наблюдений, которое встречается наиболее часто.

Медиана (median) - значение признака, которое делит упорядоченное множество пополам.

Среднее значение (mean, среднее арифметическое) - сумма всех значений измеренного признака, делённая на количество измеренных значений.

( используется для среднего значения из выборки, а для генеральной совокупности латинская буква )

Свойства среднего:

Если к каждому значению выборки прибавить определённое число, то и среднее значение увеличится на это число.

Если каждое значение выборки умножить на определённое число, то и среднее значение увеличится в это число раз.

Если для каждого значения выборки, рассчитать такой показатель как его отклонение от среднего арифметического, то сумма этих отклонений будет равняться нулю.

Меры изменчивости (широкий диапазон, вариативность признака):

Размах (range) - разность максимального и минимального значения.

При добавлении сильно отличающегося значения данные меняются сильно и могут быть некорректные.

Дисперсия (variance) - средний квадрат отклонений индивидуальных значений признака от их средней величины.

Дисперсия генеральной совокупности:

(среднеквадратическое отклонение генеральной совокупности)

(среднеквадратическое отклонение выборки)

Свойства дисперсии:

Квартили распределения и график box-plot

Квартили - три точки (значения признака), которые делят упорядоченное множество данных на четыре равные части.

Box-plot - такой вид диаграммы в удобной форме показывает медиану (или, если нужно, среднее), нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы.



Нормальное распределение

Отклонения наблюдений от среднего подчиняются определённому вероятностному закону.

Стандартизация

Стандартизация или z-преобразование - преобразование полученных данных в стандартную Z-шкалу (Z-scores) со средним и


Правило "двух" и "трёх" сигм

Центральная предельная теорема

Центральная предельная теорема - класс теорем в теории вероятностей, утверждающих, что сумма большого количества независимых случайных величин имеет распределение близкое к нормальному. Так как многие случайные величины в приложениях являются суммами нескольких случайных факторов, центральные предельные теоремы обосновывают популярность нормального распределения.


Есть признак, распределенный КАК УГОДНО* с некоторым средним и некоторым стандартным отклонением. Тогда, если выбирать из этой совокупности выборки объема n, то их средние тоже будут распределены нормально со средним равным среднему признака в ГС и стандартным отклонением .

Стандартная ошибка среднего - теоретическое стандартное отклонение всех средних выборки размера , извлекаемое из совокупности.

Доверительные интервалы для среднего


Доверительный интервал является показателем точности измерений. Это также показатель того, насколько стабильна полученная величина, то есть насколько близкую величину (к первоначальной величине) вы получите при повторении измерений (эксперимента).

Идея статистического вывода


P-значение (P-value) - величина, используемая при тестировании статистических гипотез. Фактически это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода).


2. Сравнение средних

T-распределение

Если число наблюдений невелико и \sigma неизвестно (почти всегда), используется распределение Стьюдента (t-distribution).

Унимодально и симметрично, но: наблюдения с большей вероятностью попадают за пределы от


"Форма" распределения определяется числом степеней свободы ().

С увеличением числа распределение стремится к нормальному.

t-распределение используется не потому что у нас маленькие выборки, а потому что мы не знаем стандартное отклонение в генеральной совокупности.

Сравнение двух средних; t-критерий Стьюдента

Критерий, который позволяет сравнивать средние значения двух выборок между собой, называется t-критерий Стьюдента.

Условия для корректности использования t-критерия Стьюдента:

Две независимые группы

Формула стандартной ошибки среднего:

Формула числа степеней свободы:

Формула t-критерия Стьюдента:

Переход к p-критерию:

Проверка распределения на нормальность, QQ-Plot


Однофакторный дисперсионный анализ

Часто в исследованиях необходимо сравнить несколько групп между собой. В таком случае применятся однофакторный дисперсионный анализ.

Незвисимая переменная - номинативная перменная с нескольким градациями, разделяющая наблюдения на группы.

Зависимая перемнная - количественная переменная, по степени выраженности которой сравниваются группы.

Читайте также: