Выборка основные характеристики выборки кратко

Обновлено: 05.07.2024

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

Оглавление

Генеральная совокупность

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

  • Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
  • Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
  • Юридические лица России (2,2 млн. на начало 2005 года)
  • Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.

  • Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
  • Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
  • Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.

Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.

Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.

Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.

Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.

Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Выборка или выборочная совокупность — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных изгенеральной совокупности для участия в исследовании.

Характеристики выборки:

§ Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем.

§ Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки

§ Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.

§ Существует необходимость в сборе первичной информации.

Объём выборки

Объём выборки — число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30—35.

Зависимые и независимые выборки

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми. Примеры зависимых выборок:

§ два измерения какого-либо признака до и после экспериментального воздействия,

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми, например:

§ мужчины и женщины,

§ психологи и математики.

Соответственно, зависимые выборки всегда имеют одинаковый объём, а объём независимых может отличаться.

Сравнение выборок производится с помощью различных статистических критериев:

Репрезентативность

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной.

Пример нерепрезентативной выборки

§ 57 % отдавали предпочтение кандидату-республиканцу Альфу Лэндону

§ 40 % выбрали действующего в то время президента-демократа Франклина Рузвельта

Виды плана построения групп из выборок

Выделяют несколько основных видов плана построения групп [2] :

1. Исследование с экспериментальной и контрольной группами, которые ставятся в разные условия.

§ Исследование с экспериментальной и контрольной группами с привлечением стратегии попарного отбора

2. Исследование с использованием только одной группы — экспериментальной.

3. Исследование с использованием смешанного (факторного) плана — все группы ставятся в разные условия.

]Типы выборки

Выборки делятся на два типа:

Вероятностные выборки

1. Простая вероятностная выборка:

§ Простая повторная выборка. Использование такой выборки основывается на предположении, что каждый респондент с равной долей вероятности может попасть в выборку. На основе списка генеральной совокупности составляются карточки с номерами респондентов. Они помещаются в колоду, перемешиваются и из них наугад вынимается карточка, записывается номер, потом возвращается обратно. Далее процедура повторяется столько раз, какой объём выборки нам необходим. Минус: повторение единиц отбора.

Процедура построения простой случайной выборки включает в себя следующие шаги:

1. необходимо получить полный список членов генеральной совокупности и пронумеровать этот список. Такой список, напомним, называется основой выборки;

2. определить предполагаемый объем выборки, то есть ожидаемое число опрошенных;

3. извлечь из таблицы случайных чисел столько чисел, сколько нам требуется выборочных единиц. Если в выборке должно оказаться 100 человек, из таблицы берут 100 случайных чисел. Эти случайные числа могут генерироваться компьютерной программой.

4. выбрать из списка-основы те наблюдения, номера которых соответствуют выписанным случайным числам

§ Простая случайная выборка имеет очевидные преимущества. Этот метод крайне прост для понимания. Результаты исследования можно распространять на изучаемую совокупность. Большинство подходов к получению статистических выводов предусматривают сбор информации с помощью простой случайной выборки. Однако метод простой случайной выборки имеет как минимум четыре существенных ограничения:

1. зачастую сложно создать основу выборочногo наблюдения, которая позволила бы провести простую случайную выборку.

2. результатом применения простой случайной выборки может стать большая совокупность, либо совокупность, распределенная по большой географической территории, что значительно увеличивает время и стоимость сбора данных.

3. результаты применения простой случайной выборки часто характеризуются низкой точностью и большей стандартной ошибкой, чем результаты применения других вероятностных методов.

4. в результате применения SRS может сформироваться нерепрезентативная выборка. Хотя выборки, полученные простым случайным отбором, в среднем адекватно представляют генеральную совокупность, некоторые из них крайне некорректно представляют изучаемую совокупность. Вероятность этого особенно велика при небольшом объеме выборки.

§ Простая бесповторная выборка. Процедура построения выборки такая же, только карточки с номерами респондентов не возвращаются обратно в колоду.

1. Систематическая вероятностная выборка. Является упрощенным вариантом простой вероятностной выборки. На основе списка генеральной совокупности через определённый интервал (К) отбираются респонденты. Величина К определяется случайно. Наиболее достоверный результат достигается при однородной генеральной совокупности, иначе возможны совпадение величины шага и каких-то внутренних циклических закономерностей выборки (смешение выборки). Минусы: такие же как и в простой вероятностной выборке.

2. Серийная (гнездовая) выборка. Единицы отбора представляют собой статистические серии (семья, школа, бригада и т. п.). Отобранные элементы подвергаются сплошному обследованию. Отбор статистических единиц может быть организован по типу случайной или систематической выборки. Минус: Возможность большей однородности, чем в генеральной совокупности.

3. Районированная выборка. В случае неоднородной генеральной совокупности, прежде, чем использовать вероятностную выборку с любой техникой отбора, рекомендуется разделить генеральную совокупность на однородные части, такая выборка называется районированной. Группами районирования могут выступать как естественные образования (например, районы города), так и любой признак, заложенный в основу исследования. Признак, на основе которого осуществляется разделение, называется признаком расслоения и районирования.

Невероятностные выборки

Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д.

1. Квотная выборка – выборка строится как модель, которая воспроизводит структуру генеральной совокупности в виде квот (пропорций) изучаемых признаков. Число элементов выборки с различным сочетанием изучаемых признаков определяется с таким расчётом, чтобы оно соответствовало их доле (пропорции) в генеральной совокупности. Так, например, если генеральная совокупность у нас представлена 5000 человек, из них 2000 женщин и 3000 мужчин, тогда в квотной выборке у нас будут 20 женщин и 30 мужчин, либо 200 женщин и 300 мужчин. Квотированные выборки чаще всего основываются на демографических критериях: пол, возраст, регион, доход, образование и прочих. Минусы: обычно такие выборки нерепрезентативны, т.к. нельзя учесть сразу несколько социальных параметров. Плюсы: легкодоступный материал.

2. Метод снежного кома. Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)

4. Маршрутный опрос – часто используется, если единицей изучения является семья. На карте населённого пункта, в котором будет производиться опрос, нумеруются все улицы. С помощью таблицы (генератора) случайных чисел отбираются большие числа. Каждое большое число рассматривается как состоящее из 3-х компонентов: номер улицы (2-3 первых числа), номер дома, номер квартиры. Например, число 14832: 14 – это номер улицы на карте, 8 – номер дома, 32 – номер квартиры.

5. Районированная выборка с отбором типичных объектов. Если после районирования из каждой группы отбирается типичный объект, т.е. объект, который по большинству изучаемых в исследовании характеристик приближается к средним показателям, такая выборка называется районированной с отбором типичных объектов.

6.Модальная выборка. 7.экспертная выборка. 8.Гетерогенная выборка.

Стратегии построения групп

Отбор групп для их участия в психологическом эксперименте осуществляется с помощью различных стратегий, которые нужны для того, чтобы обеспечить максимально возможное соблюдение внутренней и внешней валидности [3] .

§ Рандомизация (случайный отбор)

§ Привлечение реальных групп

Рандомизация

Рандомизация, или случайный отбор, используется для создания простых случайных выборок. Использование такой выборки основывается на предположении, что каждый член популяции с равной вероятностью может попасть в выборку. Например, чтобы сделать случайную выборку из 100 студентов вуза, можно сложить бумажки с именами всех студентов вуза в шляпу, а затем достать из неё 100 бумажек — это будет случайным отбором (Гудвин Дж., с. 147).

Попарный отбор

Попарный отбор — стратегия построения групп выборки, при котором группы испытуемых составляются из субъектов, эквивалентных по значимым для эксперимента побочным параметрам. Данная стратегия эффективна для экспериментов с использованием экспериментальных и контрольных групп с лучшим вариантом — привлечением близнецовых пар (моно- и дизиготных), так как позволяет создать.

Стратометрический отбор

Стратометрический отбор — рандомизация с выделением страт (или кластеров). При данном способе формирования выборки генеральная совокупность делится на группы (страты), обладающие определёнными характеристиками (пол, возраст, политические предпочтения, образование, уровень доходов и др.), и отбираются испытуемые с соответствующими характеристиками.

Приближённое моделирование

Приближенное моделирование – формирование модели, которая для четко оговоренного класса систем (процессов) описывает его поведение (или нужные явления) с приемлемой точностью.

Числовые характеристики выборки (случайной величины)

Наибольшее практическое значение имеют характеристики положения, рассеивания и асимметрии (табл.1).

Таблица 1 — Название и обозначение числовых характеристик выборки (случайной величины)

Числовые характеристики случайной величины

Коэффициент вариации (V%)

Характеристики положения

Среднее арифметическое (М) – одна из основных характеристик выборки. Этот показатель характеризуется тем, что сумма отклонений от него выборочных значений (с учетом знака) равна нулю.

Для вычисления среднего арифметического сумму всех значений признака делим на объем выборки.

Пример: xi : 20, 15, 15, 20, 30, среднее арифметическое равно 20. При этом сумма отклонений вариант от среднего арифметического равна нулю: сумма отклонений= 0 +(-5) + (-5) + 0 + 10 = 0.

Следует заметить, что среднее арифметическое измеряется в тех же единицах, что и признак. Например, если масса человека измеряется в кг, то и среднее арифметическое измеряется в кг.

Среднее арифметическое, вычисленное на основе выборочных данных, то есть данных, полученных на выборке, называется выборочным средним арифметическим. Оно обозначается как М. Среднее арифметическое генеральной совокупности называется генеральным средним. Оно обозначается буквой мю (μ).

Мода (Мо) – характеристика положения. Представляет собой значение признака, встречающееся в выборке наиболее часто.

В качестве примера рассмотрим выборку: xi :3; 3; 3; 5; 5; 3; 4; 6; 7; 5; 3.

Медиана (Ме)- характеристика положения, представляет собой такое значение признака, при котором одна половина значений меньше ее, а другая – больше.

В качестве примера рассмотрим выборку: xi :3; 3; 3; 5; 5; 3; 4; 6; 7; 5; 3.

Чтобы легко было определить медиану расположим варианты па возрастанию.

Характеристики варативности

Средние значения не дают полной информации о вариации признака, поэтому наряду со средними значениями вычисляют характеристики вариативности.

К этим характеристикам относятся:

  • размах вариации (R);
  • дисперсия (S 2 )
  • стандартное отклонение (S)
  • коэффициент вариации (V%)

Размах вариации

Размах вариации (R) вычисляется как разность между максимальным и минимальным значением признака:

Размах вариации измеряется в тех же единицах, что и признак. Информативность этого показателя невелика, так как эмпирические распределения результатов могут иметь одинаковый размах варьирования, а их форма будет очень отличаться.

Дисперсия

Дисперсия (S 2 ) – средний квадрат отклонений значений признака от среднего арифметического. Если признак измеряется в метрах, то дисперсия – в м 2 . Это является недостатком, поэтому наиболее часто в публикациях приводится не дисперсия, а стандартное отклонение (S). Этот показатель также называется среднеквадратическим отклонением или СКО. Стандартное отклонение представляет собой корень квадратный из дисперсии. Чем больше стандартное отклонение, тем больше варьирует признак.

Коэффициент вариации

Коэффициент вариации (V%). Чтобы сопоставить вариативность признаков, измеренных в различных единицах, используется относительный показатель (V%), который называется коэффициентом вариации.

Коэффициент вариации рассчитывается следующим образом. Стандартное отклонение делится на среднее арифметическое и умножается на 100%.

Например, если среднее арифметическое роста спортсменок равно М=170 см, а стандартное отклонение S=5 см, тогда коэффициент вариации равен: V%= 100% (5/170)=2,94.

Коэффициент вариации часто используют для оценки однородности выборки. Если V Литература

1. Задачи математической статистики.

3. Способы отбора.

4. Статистическое распределение выборки.

5. Эмпирическая функция распределения.

6. Полигон и гистограмма.

7. Числовые характеристики вариационного ряда.

8. Статистические оценки параметров распределения.

9. Интервальные оценки параметров распределения.

1. Задачи и методы математической статистики

Математическая статистика - это раздел математики, посвященный методам сбора, анализа и обработки результатов статистических данных наблюдений для научных и практических целей.

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным- контролируемый размер детали.

Иногда проводят сплошное исследование, т.е. обследуют каждый объект относительно нужного признака. На практике сплошное обследование применяется редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов (выборочную совокупность) и подвергают их изучению.

Основная задача математической статистики заключается в исследовании всей совокупности по выборочным данным в зависимости от поставленной цели, т.е. изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.

2. Виды выборок

Генеральная совокупность – это совокупность объектов, из которой производится выборка.

Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов.

Объем совокупности – это число объектов этой совокупности. Объем генеральной совокупности обозначается N , выборочной – n .

Если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n = 100.

При составлении выборки можно поступить двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. Т.о. выборки делятся на повторные и бесповторные.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

На практике обычно пользуются бесповторным случайным отбором.

Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Выборка должна правильно представлять пропорции генеральной совокупности. Выборка должна быть репрезентативной (представительной).

В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно.

Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает.

3. Способы отбора

На практике применяются различные способы отбора, которые можно разделить на 2 вида:

1. Отбор не требует расчленения генеральной совокупности на части (а) простой случайный бесповторный; б) простой случайный повторный).

2. Отбор, при котором генеральная совокупность разбивается на части. (а) типичный отбор; б) механический отбор; в) серийный отбор).

Простым случайным называют такой отбор, при котором объекты извлекаются по одному из всей генеральной совокупности (случайно).

На практике часто применяют комбинированный отбор, при котором сочетаются указанные выше способы.

4. Статистическое распределение выборки

Пусть из генеральной совокупности извлечена выборка, причем значение x1 –наблюдалось раз, x2-n2 раз,… xk - nk раз. n = n1+n2+. +nk– объем выборки. Наблюдаемые значения называются вариантами, а последовательность вариант, записанных в возрастающем порядке- вариационным рядом. Числа наблюдений называются частотами (абсолютными частотами), а их отношения к объему выборки - относительными частотами или статистическими вероятностями.

Если количество вариант велико или выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляется не по отдельным точечным значениям, а по интервалам значений генеральной совокупности. Такой вариационный ряд называется интервальным. Длины интервалов при этом должны быть равны.

Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.

Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (суммы частот, попавших в этот интервал значений)

Читайте также: