Подходы к определению объема выборки кратко

Обновлено: 28.06.2024

Генеральная совокупность – это вся совокупность, про которую необходимо собрать информацию.

Контур выборки – это все единицы совокупности, из которых будет формироваться выборка.

Ошибка определения – это степень отклонения контура выборки от генеральной совокупности. Выборка - это часть совокупности, базовый уровень исследования.

Единица выборки – это объект исследования из кого состоит выборка.

Ошибка выборки – это разница между полученными данными и фактически по совокупности. Репрезентативность выборки – основное распределение признаков в генеральной совокупности.

Этапы формирования выборки:

1. Определение целевой совокупности

2. Определение контура выборки (список людей)

3. Устранение различия контр выборки и совокупности

4. Выбор процедуры формирования выборки (какими методами формируется выборка)

5. Определение релевантного размера выборки

6. Формирование выборки

Случайные (вероятностные) методы формирования выборки.

Если все единицы выборки имеют известную вероятность быть включенными в выборку, то выборка называется случайной.

Отбор может быть одноступенчатым или многоступенчатым. Отбор при выборочном наблюдении может быть повторным или бесповторным. В маркетинговых исследованиях отбор как правило бесповторный.

1. Простой случайный отбор. Может осуществляться 2 методами: а) формирование выборки в слепую(спорт лото), б) с помощью таблицы случайных чисел.

Также можно использовать генератор случайных чисел.

2. Систематический отбор. Составляется список в котором не должно быть не какой закономерности. Затем рассчитывается шаг отбора . объем генеральной совокупности делим на объем выборки например: 10 000 / 2 000 = 5 т.е. шаг 5 . для определения первого номера – шаг делят пополам. Т.е. 3 , 8 , и т.д.

3. Кластерный отбор (гнездовой). Генеральная совокупность разбивается на однотипные гнезда или группы, внутри которых содержатся разнородные единицы наблюдения.

4. Стратификация (районирование). Проводится группировка единиц генеральной совокупности по различающимся между собой типам. Стратифицированная выборка может быть пропорциональной объему группы, либо не пропорциональной.

При многоступенчатом отборе генеральная совокупность разбивается на под совокупности, из их числа на первой ступени в случайном порядке отбирается часть под совокупности. Из отобранных под совокупностей формируется выборка. При необходимости число ступеней может быть увеличено.

В современной практике при проведении массовых крупномасштабных исследований используются районирование и гнездовой подход.

Осуществление многоступенчатого случайного отбора отличается 2 особенностями:

1. Ошибка репрезентативности на каждой ступени возрастает, но эти ошибки могут быть учтены.

2. Требует предварительного анализа и систематизации объекта исследования.

В тех случаях когда исследователь не располагает списками используется маршрутный метод , при котором основу выборки составляют адреса.

Неслучайные методы формирования выборки.

1. Отбор на основе принципа удобства

2. Отбор на основе суждений

4. Отбор на основе квот

5. Стихийная выборка

Бланк квот по набору респондентов

Пол Мужской Женский
Образование Возраст Высшее Неполное высшее Среднее Высшее Неполное высшее Среднее
До 19
20-29
30-39
40-49
50-59
60 +

Такой бланк составляется на всю выборку , затем расписывается для отдельных интервьюеров ( по 10 – 15 человек ). Если в генеральной совокупности есть слишком маленькая группа обладающая более выраженными особенностями , то в таком случае формируется выпуклая выборка (минимальный объем 100 человек).

Стихийная выборка:

1. Опросы с помощью средств массовой информации

2. Выборка первого встречного

3. Опросы пассажиров на остановке в транспорте

4. Почтовые опросы

Методы определения объема выборки

1. Произвольный подход (5% от генеральной совокупности)

2. Исходя из неких оговоренных условий

3. Исходя из стоимости проведения обследовании


p-доля совокупности приходящая в i-ю страту

Ϭ-стандартное отклонение совокупности в i-ой страте

с-стоимость 1 интервью в i-ой страте

Страта дохода Доля Стандартное отклонение Стоимость интервью
n
Низкий 0,3 0,06
Средний 0,5 0,20
Высокий 0,2 0,08
0,34

Этот подход основан на определении минимального объема выборки исходя из определенных требований к надежности и достоверности получаемых результатов. Выборка будет репрезентативной если она будет описывать характеристики генеральной совокупности с минимально допустимой ошибкой. При одноступенчатом случайном бесповторном отборе объем выборки рассчитывается формуле:

n= T 2 * N*Ϭ 2 /N∆ 2 +T 2 Ϭ 2

где N – объем генеральной совокупности

T-коэффициент нормированного отклонения, определяемый исходя из выбранного уровня доверительной вероятности

∆ -значение дисперсии признака

Ϭ -значение допустимой ошибки выборки

Р, с/с 99.7
Т 0.84 1.03 1.20 1.44 1.65 1.96 2.18 2.58 3.0

Для бесповторной выборки:

Чтобы исключить дисперсию признака, приходят к использованию понятия доля признака в общей совокупности наблюдений которую можно оценить экспертным путем. Тогда дисперсия в зависимости от признака будет :

Где p-доля признака в общей совокупности

n= 1/( ∆ 2 /p(1-p)t 2 )+1/N

t-статистика Стьюдента при p=95%

Число степеней свободы t Число степеней свободы t Число степеней свободы Значение t
2.131 2.056
2.120 2.052
2.110 2.048
2.101 2.045
2.0 2.042
2.086 2.021
2.080 2.000
2.074 1.980
2.069 Свыше 120 1.960
2.064
2.060

Р=0.2 т.е. 20% потребляет нашу продукцию

∆-0.05 допустимая ошибка

Найти объем выборки

Предположим что в результате вычислений выборка =40 чел. Берем это число как число степеней свободы.

n= 1/(0.05 2 /0.2(-1-0.2)*(2.021) 2 + 1/10 000)= 225 чел.

n=1/(0.05 2 /0.2(1-0.2)*1.96 2 +1/10000)=240 чел.

Также используется формула для расчета выборки , не учитывая генеральную совокупность :

Представьте себе, что вы строите крупный торговый центр и желаете оценить автомобильный поток въезда на территорию парковки. Нет, давайте другой пример… они все равно этого никогда не будут делать. Вам необходимо оценить вкусовые предпочтения посетителей вашего портала, для чего необходимо провести среди них опрос. Как увязать количество данных и возможную погрешность? Ничего сложного — чем больше ваша выборка, тем меньше погрешность. Однако и здесь есть нюансы.

Графики

Теоретический минимум

Не будет лишним освежить память, эти термины нам пригодятся далее.

  • Популяция – Множество всех объектов, среди которых проводится исследования.
  • Выборка – Подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании.
  • Ошибка первого рода — (α) Вероятность отвергнуть нулевую гипотезу, в то время как она верна.
  • Ошибка второго рода — (β) Вероятность не отвергнуть нулевую гипотезу, в то время как она ложна.
  • 1 — β — Статистическая мощность критерия.
  • μ0 и μ1 — Средние значения при нулевой и альтернативной гипотезе.

Сравнение двух альтернативных средних значений

Уже в самих определениях ошибки первого и второго рода имеется простор для дебатов и толкований. Как с ними определиться и какую выбрать в качестве нулевой? Если вы исследуете уровень загрязнения почвы или вод, то как сформулируете нулевую гипотезу: загрязнение присутствует, или нет загрязнения? А ведь от этого зависит объем выборки из общей популяции объектов.

Характеристики распределения и стандартное отклонение

Исходная популяция, также как и выборка может иметь любое распределение, однако среднее значение имеет нормальное или гауссово распределение благодаря Центральной Предельной Теореме.

Относительно параметров распределения и среднего значения в частности возможно несколько типов умозаключений. Первое из них называется доверительным интервалом. Он указывает на интервал возможных значений параметра, с указанным коэффициентом доверия. Так например 100(1-α)% доверительный интервал для μ будет таким (Ур. 1).

Второе из умозаключений — проверка гипотезы. Оно может быть примерно таким.

  • Если нижний предел доверительного интервала 100(1-α) , то тогда отвергаем H0 в пользу H2.
  • Если верхний предел доверительного интервала 100(1-α) > h, то тогда отвергаем H0 в пользу H1.
  • Если доверительного интервала 100(1-α) включает в себя h, то тогда мы не может отвергнуть H0 и такой результат считается неопределенным.

Если нам нужно проверить значение μ для одной выборки из общей совокупности, то критерий обретет вид.

  • Отбраковать H0 и принять H1: μ > h, если .
  • Отбраковать H0 и принять H2: μ t-статистику Стьюдента на z стандартного нормального распределения . Еще одним упрощением заменим половину от w на погрешность измерения E. Тогда наше уравнения примет вид (Ур. 3).

Как видим погрешность действительно уменьшается вместе с ростом количества входных данных. Откуда легко вывести искомое (Ур. 4).

Практика — считаем с R

Проверим гипотезу о том, что среднее значение данной выборки количества насекомых в ловушке равно 1.

Обратите внимание, что среднее и стандартное отклонение практически равны, что естественно для распределения Пуассона. Доверительный интервал 95% для t-статистики Стьюдента и df=32 .

и наконец получаем критический интервал для среднего значения: 1.05 — 2.22.

В итоге, следует отбраковать H0 и принять H1 так как с вероятностью 95%, μ > 1.

В том же самом примере, если принять, что нам известно действительное стандартное отклонение — σ, а не ее оценка полученная с помощью случайной выборки, можно рассчитать необходимое n для данной погрешности. Посчитаем для E=0.5 .

Поправка на ветер

На самом деле нет никаких причин, полагать, что нам будет известна σ (дисперсия), в то время как μ (среднее) нам еще только предстоит оценить. Из-за этого уравнение 4 имеет мало практической пользы, кроме особо рафинированных примеров из области комбинаторики, а реалистичное уравнение для n несколько сложнее при неизвестной σ (Ур. 5).

Обратите внимание, что σ в последнем уравнении не с шапкой (^), а тильдой (~). Это следствие того, что в самом начале у нас нет даже оценочного стандартного отклонения случайной выборки — , и вместо нее мы используем запланированное — . Откуда же мы берем последнее? Можно сказать, что с потолка: экспертная оценка, грубые прикидки, прошлый опыт и т. д.

А что на счет второго слагаемого правой стороны 5-го уравнения, откуда оно взялось? Так как , необходима поправка Гюнтера.

Помимо уравнений 4 и 5 есть еще несколько приблизительно-оценочных формул, но это уже заслуживает отдельного поста.

Генеральная совокупность – это вся совокупность, про которую необходимо собрать информацию.

Контур выборки – это все единицы совокупности, из которых будет формироваться выборка.

Ошибка определения – это степень отклонения контура выборки от генеральной совокупности. Выборка - это часть совокупности, базовый уровень исследования.

Единица выборки – это объект исследования из кого состоит выборка.

Ошибка выборки – это разница между полученными данными и фактически по совокупности. Репрезентативность выборки – основное распределение признаков в генеральной совокупности.

Этапы формирования выборки:

1. Определение целевой совокупности

2. Определение контура выборки (список людей)

3. Устранение различия контр выборки и совокупности

4. Выбор процедуры формирования выборки (какими методами формируется выборка)

5. Определение релевантного размера выборки

6. Формирование выборки

Случайные (вероятностные) методы формирования выборки.

Если все единицы выборки имеют известную вероятность быть включенными в выборку, то выборка называется случайной.

Отбор может быть одноступенчатым или многоступенчатым. Отбор при выборочном наблюдении может быть повторным или бесповторным. В маркетинговых исследованиях отбор как правило бесповторный.

1. Простой случайный отбор. Может осуществляться 2 методами: а) формирование выборки в слепую(спорт лото), б) с помощью таблицы случайных чисел.

Также можно использовать генератор случайных чисел.

2. Систематический отбор. Составляется список в котором не должно быть не какой закономерности. Затем рассчитывается шаг отбора . объем генеральной совокупности делим на объем выборки например: 10 000 / 2 000 = 5 т.е. шаг 5 . для определения первого номера – шаг делят пополам. Т.е. 3 , 8 , и т.д.

3. Кластерный отбор (гнездовой). Генеральная совокупность разбивается на однотипные гнезда или группы, внутри которых содержатся разнородные единицы наблюдения.

4. Стратификация (районирование). Проводится группировка единиц генеральной совокупности по различающимся между собой типам. Стратифицированная выборка может быть пропорциональной объему группы, либо не пропорциональной.

При многоступенчатом отборе генеральная совокупность разбивается на под совокупности, из их числа на первой ступени в случайном порядке отбирается часть под совокупности. Из отобранных под совокупностей формируется выборка. При необходимости число ступеней может быть увеличено.

В современной практике при проведении массовых крупномасштабных исследований используются районирование и гнездовой подход.

Осуществление многоступенчатого случайного отбора отличается 2 особенностями:

1. Ошибка репрезентативности на каждой ступени возрастает, но эти ошибки могут быть учтены.

2. Требует предварительного анализа и систематизации объекта исследования.

В тех случаях когда исследователь не располагает списками используется маршрутный метод , при котором основу выборки составляют адреса.

Неслучайные методы формирования выборки.

1. Отбор на основе принципа удобства

2. Отбор на основе суждений

4. Отбор на основе квот

5. Стихийная выборка

Бланк квот по набору респондентов

Пол Мужской Женский
Образование Возраст Высшее Неполное высшее Среднее Высшее Неполное высшее Среднее
До 19
20-29
30-39
40-49
50-59
60 +

Такой бланк составляется на всю выборку , затем расписывается для отдельных интервьюеров ( по 10 – 15 человек ). Если в генеральной совокупности есть слишком маленькая группа обладающая более выраженными особенностями , то в таком случае формируется выпуклая выборка (минимальный объем 100 человек).

Стихийная выборка:

1. Опросы с помощью средств массовой информации

2. Выборка первого встречного

3. Опросы пассажиров на остановке в транспорте

4. Почтовые опросы

Методы определения объема выборки

1. Произвольный подход (5% от генеральной совокупности)

2. Исходя из неких оговоренных условий

3. Исходя из стоимости проведения обследовании


p-доля совокупности приходящая в i-ю страту

Ϭ-стандартное отклонение совокупности в i-ой страте

с-стоимость 1 интервью в i-ой страте

Страта дохода Доля Стандартное отклонение Стоимость интервью
n
Низкий 0,3 0,06
Средний 0,5 0,20
Высокий 0,2 0,08
0,34

Этот подход основан на определении минимального объема выборки исходя из определенных требований к надежности и достоверности получаемых результатов. Выборка будет репрезентативной если она будет описывать характеристики генеральной совокупности с минимально допустимой ошибкой. При одноступенчатом случайном бесповторном отборе объем выборки рассчитывается формуле:

n= T 2 * N*Ϭ 2 /N∆ 2 +T 2 Ϭ 2

где N – объем генеральной совокупности

T-коэффициент нормированного отклонения, определяемый исходя из выбранного уровня доверительной вероятности

∆ -значение дисперсии признака

Ϭ -значение допустимой ошибки выборки

Р, с/с 99.7
Т 0.84 1.03 1.20 1.44 1.65 1.96 2.18 2.58 3.0

Для бесповторной выборки:

Чтобы исключить дисперсию признака, приходят к использованию понятия доля признака в общей совокупности наблюдений которую можно оценить экспертным путем. Тогда дисперсия в зависимости от признака будет :

Где p-доля признака в общей совокупности

n= 1/( ∆ 2 /p(1-p)t 2 )+1/N

t-статистика Стьюдента при p=95%

Число степеней свободы t Число степеней свободы t Число степеней свободы Значение t
2.131 2.056
2.120 2.052
2.110 2.048
2.101 2.045
2.0 2.042
2.086 2.021
2.080 2.000
2.074 1.980
2.069 Свыше 120 1.960
2.064
2.060

Р=0.2 т.е. 20% потребляет нашу продукцию

∆-0.05 допустимая ошибка

Найти объем выборки

Предположим что в результате вычислений выборка =40 чел. Берем это число как число степеней свободы.

n= 1/(0.05 2 /0.2(-1-0.2)*(2.021) 2 + 1/10 000)= 225 чел.

n=1/(0.05 2 /0.2(1-0.2)*1.96 2 +1/10000)=240 чел.

Также используется формула для расчета выборки , не учитывая генеральную совокупность :

Представьте себе, что вы строите крупный торговый центр и желаете оценить автомобильный поток въезда на территорию парковки. Нет, давайте другой пример… они все равно этого никогда не будут делать. Вам необходимо оценить вкусовые предпочтения посетителей вашего портала, для чего необходимо провести среди них опрос. Как увязать количество данных и возможную погрешность? Ничего сложного — чем больше ваша выборка, тем меньше погрешность. Однако и здесь есть нюансы.

Графики

Теоретический минимум

Не будет лишним освежить память, эти термины нам пригодятся далее.

  • Популяция – Множество всех объектов, среди которых проводится исследования.
  • Выборка – Подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании.
  • Ошибка первого рода — (α) Вероятность отвергнуть нулевую гипотезу, в то время как она верна.
  • Ошибка второго рода — (β) Вероятность не отвергнуть нулевую гипотезу, в то время как она ложна.
  • 1 — β — Статистическая мощность критерия.
  • μ0 и μ1 — Средние значения при нулевой и альтернативной гипотезе.

Сравнение двух альтернативных средних значений

Уже в самих определениях ошибки первого и второго рода имеется простор для дебатов и толкований. Как с ними определиться и какую выбрать в качестве нулевой? Если вы исследуете уровень загрязнения почвы или вод, то как сформулируете нулевую гипотезу: загрязнение присутствует, или нет загрязнения? А ведь от этого зависит объем выборки из общей популяции объектов.

Характеристики распределения и стандартное отклонение

Исходная популяция, также как и выборка может иметь любое распределение, однако среднее значение имеет нормальное или гауссово распределение благодаря Центральной Предельной Теореме.

Относительно параметров распределения и среднего значения в частности возможно несколько типов умозаключений. Первое из них называется доверительным интервалом. Он указывает на интервал возможных значений параметра, с указанным коэффициентом доверия. Так например 100(1-α)% доверительный интервал для μ будет таким (Ур. 1).

Второе из умозаключений — проверка гипотезы. Оно может быть примерно таким.

  • Если нижний предел доверительного интервала 100(1-α) , то тогда отвергаем H0 в пользу H2.
  • Если верхний предел доверительного интервала 100(1-α) > h, то тогда отвергаем H0 в пользу H1.
  • Если доверительного интервала 100(1-α) включает в себя h, то тогда мы не может отвергнуть H0 и такой результат считается неопределенным.

Если нам нужно проверить значение μ для одной выборки из общей совокупности, то критерий обретет вид.

  • Отбраковать H0 и принять H1: μ > h, если .
  • Отбраковать H0 и принять H2: μ t-статистику Стьюдента на z стандартного нормального распределения . Еще одним упрощением заменим половину от w на погрешность измерения E. Тогда наше уравнения примет вид (Ур. 3).

Как видим погрешность действительно уменьшается вместе с ростом количества входных данных. Откуда легко вывести искомое (Ур. 4).

Практика — считаем с R

Проверим гипотезу о том, что среднее значение данной выборки количества насекомых в ловушке равно 1.

Обратите внимание, что среднее и стандартное отклонение практически равны, что естественно для распределения Пуассона. Доверительный интервал 95% для t-статистики Стьюдента и df=32 .

и наконец получаем критический интервал для среднего значения: 1.05 — 2.22.

В итоге, следует отбраковать H0 и принять H1 так как с вероятностью 95%, μ > 1.

В том же самом примере, если принять, что нам известно действительное стандартное отклонение — σ, а не ее оценка полученная с помощью случайной выборки, можно рассчитать необходимое n для данной погрешности. Посчитаем для E=0.5 .

Поправка на ветер

На самом деле нет никаких причин, полагать, что нам будет известна σ (дисперсия), в то время как μ (среднее) нам еще только предстоит оценить. Из-за этого уравнение 4 имеет мало практической пользы, кроме особо рафинированных примеров из области комбинаторики, а реалистичное уравнение для n несколько сложнее при неизвестной σ (Ур. 5).

Обратите внимание, что σ в последнем уравнении не с шапкой (^), а тильдой (~). Это следствие того, что в самом начале у нас нет даже оценочного стандартного отклонения случайной выборки — , и вместо нее мы используем запланированное — . Откуда же мы берем последнее? Можно сказать, что с потолка: экспертная оценка, грубые прикидки, прошлый опыт и т. д.

А что на счет второго слагаемого правой стороны 5-го уравнения, откуда оно взялось? Так как , необходима поправка Гюнтера.

Помимо уравнений 4 и 5 есть еще несколько приблизительно-оценочных формул, но это уже заслуживает отдельного поста.

Читайте также: