Определение объема выборки статистика кратко

Обновлено: 02.07.2024

Статистика занимается изучением количественной стороны массовых общественных явлений и процессов в числовой форме, выявляя особые закономерности.

На сегодняшний день статистика применяется практически во всех сферах общественной жизни, начиная от моды, кулинарии, садоводства и заканчивая астрономией, экономикой, медициной.

Перво-наперво, при знакомстве со статистикой необходимо изучить основные статистические характеристики, применяемые для анализа данных.

Ну вот, с этого и начнем!

Математическая статистика — коротко о главном

Определения математической статистики:

Статистическая выборка – выбранное из всего числа объектов конкретное число объектов для исследования.

Объем выборки – количество элементов \( _>,_>,\ …,\ _>\), попавших в выборку.

Размах выборки – разность между максимальным и минимальным значениями элементов выборки.

Среднее арифметическое ряда чисел – это частное от деления суммы этих чисел на их количество (объем выборки).

Среднее арифметическое ряда чисел \( \left( _> \right)\) – это частное от деления суммы этих чисел \( \left( _>+_>+…+_> \right)\) на их количество \( \left( n \right)\)

Модой ряда чисел называется число, наиболее часто встречающееся в данном ряду.

Медиана упорядоченного ряда чисел с нечетным числом членов – число, которое окажется посередине.

Медиана упорядоченного ряда чисел с четным числом членов –среднее арифметическое двух чисел, записанных посередине.

Частота представляет собой число повторений, сколько раз за какой-то период происходило некоторое событие, проявлялось определенное свойство объекта либо наблюдаемый параметр достигал данной величины.

Частота – число повторений определенного значения параметра в выборке.

Относительная частота – это отношение частоты к общему числу данных в ряду.

Для наглядности удобно представлять данные в виде соответствующих диаграмм/графиков.

Статистические характеристики

К основным статистическим характеристикам выборки данных…

Дальше на примерах будет все понятно.

Так вот к основным статистическим характеристикам выборки данных относятся:

  • объем выборки,
  • размах выборки,
  • среднее арифметическое,
  • мода,
  • медиана,
  • частота,
  • относительная частота.

Стоп-стоп-стоп! Сколько новых слов! Давай обо всем по порядку.

Объем и размах выборки

Выборка состоит из элементов \( _>,_>,\ …,\ _>\), попавших в нее. Количество этих элементов \( \left( n \right)\) называется объемом выборки.

Например, в таблице ниже приведен рост игроков сборной по футболу:


Данная выборка представлена \( \displaystyle 11\) элементами \( \displaystyle \left( _>=183;\ _>=194;\ _>=187;\ …;\ _>=181 \right)\).

Таким образом, объем выборки \( \displaystyle \left( n \right)\) равен \( \displaystyle 11\).

Разность между максимальным и минимальным значениями элементов выборки называется размахом выборки.

Размах представленной выборки составляет \( _<\max >>-_<\min >>=194-176=18\) см.

Среднее арифметическое выборки

Среднее арифметическое ряда чисел \( \left( _> \right)\) – это частное от деления суммы этих чисел \( \left( _>+_>+…+_> \right)\) на их количество \( \left( n \right)\).

Не очень понятно? Давай смотреть на наш пример.


Определите средний рост игроков.

Ну что, приступим? Мы уже разбирались, что \( \displaystyle _>=183;\ _>=194;\ _>=187;\ …;\ _>=181\); \( \displaystyle n=11\).

Можем сразу смело все подставлять в нашу формулу:

Таким образом, средний рост игрока сборной составляет \( \displaystyle 183,8\) см.

Ну или вот такой пример:

Ученикам 9 класса на неделю было задано решить как можно больше примеров из задачника. Количество примеров, решенных учениками за неделю, приведены ниже:


Найдите среднее количество решенных задач.

Итак, в таблице нам представлены данные по \( \displaystyle 20\) ученикам. Таким образом, \( \displaystyle n=20\). \( \displaystyle _>=88;\ _>=90;\ _>=51;\ …;\ _>=47.\)

Ну что ж, найдем для начала сумму (общее количество) всех решенных задач двадцатью учениками:

Теперь можем смело приступать к расчету среднего арифметического решенных задач, зная, что \( \displaystyle _>+_>+…+_>=1560\), а \( \displaystyle n=20\):

Таким образом, в среднем ученики 9 класса решили по \( \displaystyle 78\) задач.

Еще один пример:

На рынке помидоры реализуются \( \displaystyle 7\) продавцами, причем цены за \( \displaystyle 1\) кг распределены следующим образом (в руб.): \( \displaystyle 60,\text< >55,\text< >54,\text< >70,\text< >65,\text< >67,\text< >63\).

Какова средняя цена килограмма помидоров на рынке?

Решение.

Итак, чему в данном примере равно \( \displaystyle n\)? Все верно: семь продавцов предлагают семь цен, значит, \( \displaystyle n=7\)! \( \displaystyle _>=60;\ _>=55;\ …;\ _>=63\).

Ну вот, со всеми составляющими разобрались, теперь можем приступить к расчету средней цены:

Ну что, разобрался?

Тогда посчитай самостоятельно среднее арифметическое в следующих выборках:

  • \( \displaystyle 34;\ 46;\ 67;\ 37;\ 45;\text< >60\)
  • \( \displaystyle 5;\ 4;\ 7;\ 9;\ 10;\ 12;\ 17;\ 8\)
  • \( \displaystyle 156;\ 180;\ 164;\ 172\)

Ответы: \( \displaystyle 48,17;\text< >9;\ 168\).

Решил? Можем двигаться дальше.

Мода и медиана

Модой ряда чисел называется число, наиболее часто встречающееся в данном ряду.

Обратимся снова к нашему примеру со сборной по футболу:


Чему в данном примере равна мода? Какое число наиболее часто встречается в этой выборке?

Все верно, это число \( \displaystyle 181\), так как два игрока имеют рост \( \displaystyle 181\) см; рост же остальных игроков не повторяется.

Тут все должно быть ясно и понятно, да и слово знакомое, правда?

Ключевое слово – СЕРЕДИНА. Если ты знал это определение, то тебе легко будет запомнить, что такое медиана в статистике.

Медианой ряда чисел с нечетным числом членов называется число, которое окажется посередине, если этот ряд упорядочить (проранжировать, т.е. расположить значения в порядке убывания или возрастания).

Медианой ряда чисел с четным числом членов называется среднее арифметическое двух чисел, записанных посередине, если этот ряд упорядочить.

Ну что, вернемся к нашей выборке футболистов?


Для того, чтобы в ряду чисел был порядок, можно расположить значения роста футболистов как в порядке убывания, так и в порядке возрастания. Мне удобней выстроить этот ряд в порядке возрастания (от самого маленького к самому большому).

Вот, что у меня получилось:



Так, ряд упорядочили, какой еще есть важный момент в определении медианы? Правильно, четное и нечетное количество членов в выборке.

Заметил, что для четного и нечетного количества даже определения отличаются? Да, ты прав, не заметить – сложно. А раз так, то нам надо определиться, четное у нас количество игроков в нашей выборке или нечетное?

Все верно – игроков \( \displaystyle 11\), значит, количество нечетное! Теперь можем применять к нашей выборке менее заковыристое определение медианы для нечетного количества членов в выборке.

Ищем число, которое оказалось посередине в нашем упорядоченном ряду:

Ну вот, чисел у нас \( \displaystyle 11\), значит, по краям остается по пять чисел, а рост \( \displaystyle 183\) см будет медианой в нашей выборке.

Не так уж и сложно, правда?

А теперь разберем пример с нашими отчаянными ребятами из 9 класса, которые решали примеры в течение недели:


Готов искать в этом ряду моду и медиану?

Для начала, упорядочим этот ряд чисел (расположим от самого маленького числа к самому большому). Получился вот такой вот ряд:


Теперь можно смело определить моду в данной выборке. Какое число встречается чаще других? Все верно, \( \displaystyle 77\)!

Таким образом, мода в данной выборке равна \( \displaystyle 77\).

Моду нашли, теперь можем приступать к нахождению медианы. Но прежде, ответь мне: каков объем рассматриваемой выборки? Посчитал? Все верно, объем выборки равен \( \displaystyle 20\).

А \( \displaystyle 20\) – это четное число. Таким образом, применяем определение медианы для ряда чисел с четным количеством элементов.

То есть нам надо в нашем упорядоченном ряду найти среднее арифметическое двух чисел, записанных посередине. Какие два числа располагаются посередине?

Все верно, \( \displaystyle 80\) и \( \displaystyle 81\)!


Таким образом, медианой этого ряда будет среднее арифметическое чисел \( \displaystyle 80\) и \( \displaystyle 81\):

\( 80,5\)— медиана рассматриваемой выборки.

Частота и относительная частота

Частота представляет собой число повторений, сколько раз за какой-то период происходило некоторое событие, проявлялось определенное свойство объекта либо наблюдаемый параметр достигал данной величины.

То есть частота определяет то, как часто повторяется та или иная величина в выборке.

Разберемся на нашем примере с футболистами. Перед нами вот такой вот упорядоченный ряд:


Частота – это число повторений какой-либо величины параметра. В нашем случае, это можно считать вот так. Сколько игроков имеет рост \( 176\)?

Все верно, один игрок. Таким образом, частота встречи игрока с ростом \( 176\) в нашей выборке равна \( 1\).

Сколько игроков имеет рост \( 178\)? Да, опять же один игрок. Частота встречи игрока с ростом \( 178\) в нашей выборке равна \( 1\).

Задавая такие вопросы и отвечая на них, можно составить вот такую табличку:


Ну вот, все довольно просто. Помни, что сумма частот должна равняться количеству элементов в выборке (объему выборки).

То есть в нашем примере: \( 1+1+1+2+1+1+1+1+1+1=11\)

Перейдем к следующей характеристике – относительная частота.

Относительная частота – это отношение частоты к общему числу данных в ряду. Как правило, относительная частота выражается в процентах.

Обратимся опять к нашему примеру с футболистами. Частоты для каждого значения мы рассчитали, общее количество данных в ряду мы тоже знаем \( \left( n=11 \right)\) .

Рассчитываем относительную частоту для каждого значения роста и получаем вот такую табличку:


А теперь сам составь таблицы частот и относительных частот для примера с 9-классниками, решающими задачи.

1. Задачи математической статистики.

3. Способы отбора.

4. Статистическое распределение выборки.

5. Эмпирическая функция распределения.

6. Полигон и гистограмма.

7. Числовые характеристики вариационного ряда.

8. Статистические оценки параметров распределения.

9. Интервальные оценки параметров распределения.

1. Задачи и методы математической статистики

Математическая статистика - это раздел математики, посвященный методам сбора, анализа и обработки результатов статистических данных наблюдений для научных и практических целей.

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным- контролируемый размер детали.

Иногда проводят сплошное исследование, т.е. обследуют каждый объект относительно нужного признака. На практике сплошное обследование применяется редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов (выборочную совокупность) и подвергают их изучению.

Основная задача математической статистики заключается в исследовании всей совокупности по выборочным данным в зависимости от поставленной цели, т.е. изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.

2. Виды выборок

Генеральная совокупность – это совокупность объектов, из которой производится выборка.

Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов.

Объем совокупности – это число объектов этой совокупности. Объем генеральной совокупности обозначается N , выборочной – n .

Если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n = 100.

При составлении выборки можно поступить двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. Т.о. выборки делятся на повторные и бесповторные.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

На практике обычно пользуются бесповторным случайным отбором.

Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Выборка должна правильно представлять пропорции генеральной совокупности. Выборка должна быть репрезентативной (представительной).

В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно.

Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает.

3. Способы отбора

На практике применяются различные способы отбора, которые можно разделить на 2 вида:

1. Отбор не требует расчленения генеральной совокупности на части (а) простой случайный бесповторный; б) простой случайный повторный).

2. Отбор, при котором генеральная совокупность разбивается на части. (а) типичный отбор; б) механический отбор; в) серийный отбор).

Простым случайным называют такой отбор, при котором объекты извлекаются по одному из всей генеральной совокупности (случайно).

На практике часто применяют комбинированный отбор, при котором сочетаются указанные выше способы.

4. Статистическое распределение выборки

Пусть из генеральной совокупности извлечена выборка, причем значение x1 –наблюдалось раз, x2-n2 раз,… xk - nk раз. n = n1+n2+. +nk– объем выборки. Наблюдаемые значения называются вариантами, а последовательность вариант, записанных в возрастающем порядке- вариационным рядом. Числа наблюдений называются частотами (абсолютными частотами), а их отношения к объему выборки - относительными частотами или статистическими вероятностями.

Если количество вариант велико или выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляется не по отдельным точечным значениям, а по интервалам значений генеральной совокупности. Такой вариационный ряд называется интервальным. Длины интервалов при этом должны быть равны.

Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.

Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (суммы частот, попавших в этот интервал значений)

Представьте себе, что вы строите крупный торговый центр и желаете оценить автомобильный поток въезда на территорию парковки. Нет, давайте другой пример… они все равно этого никогда не будут делать. Вам необходимо оценить вкусовые предпочтения посетителей вашего портала, для чего необходимо провести среди них опрос. Как увязать количество данных и возможную погрешность? Ничего сложного — чем больше ваша выборка, тем меньше погрешность. Однако и здесь есть нюансы.

Графики

Теоретический минимум

Не будет лишним освежить память, эти термины нам пригодятся далее.

  • Популяция – Множество всех объектов, среди которых проводится исследования.
  • Выборка – Подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании.
  • Ошибка первого рода — (α) Вероятность отвергнуть нулевую гипотезу, в то время как она верна.
  • Ошибка второго рода — (β) Вероятность не отвергнуть нулевую гипотезу, в то время как она ложна.
  • 1 — β — Статистическая мощность критерия.
  • μ0 и μ1 — Средние значения при нулевой и альтернативной гипотезе.

Сравнение двух альтернативных средних значений

Уже в самих определениях ошибки первого и второго рода имеется простор для дебатов и толкований. Как с ними определиться и какую выбрать в качестве нулевой? Если вы исследуете уровень загрязнения почвы или вод, то как сформулируете нулевую гипотезу: загрязнение присутствует, или нет загрязнения? А ведь от этого зависит объем выборки из общей популяции объектов.

Характеристики распределения и стандартное отклонение

Исходная популяция, также как и выборка может иметь любое распределение, однако среднее значение имеет нормальное или гауссово распределение благодаря Центральной Предельной Теореме.

Относительно параметров распределения и среднего значения в частности возможно несколько типов умозаключений. Первое из них называется доверительным интервалом. Он указывает на интервал возможных значений параметра, с указанным коэффициентом доверия. Так например 100(1-α)% доверительный интервал для μ будет таким (Ур. 1).

Второе из умозаключений — проверка гипотезы. Оно может быть примерно таким.

  • Если нижний предел доверительного интервала 100(1-α) , то тогда отвергаем H0 в пользу H2.
  • Если верхний предел доверительного интервала 100(1-α) > h, то тогда отвергаем H0 в пользу H1.
  • Если доверительного интервала 100(1-α) включает в себя h, то тогда мы не может отвергнуть H0 и такой результат считается неопределенным.

Если нам нужно проверить значение μ для одной выборки из общей совокупности, то критерий обретет вид.

  • Отбраковать H0 и принять H1: μ > h, если .
  • Отбраковать H0 и принять H2: μ t-статистику Стьюдента на z стандартного нормального распределения . Еще одним упрощением заменим половину от w на погрешность измерения E. Тогда наше уравнения примет вид (Ур. 3).

Как видим погрешность действительно уменьшается вместе с ростом количества входных данных. Откуда легко вывести искомое (Ур. 4).

Практика — считаем с R

Проверим гипотезу о том, что среднее значение данной выборки количества насекомых в ловушке равно 1.

Обратите внимание, что среднее и стандартное отклонение практически равны, что естественно для распределения Пуассона. Доверительный интервал 95% для t-статистики Стьюдента и df=32 .

и наконец получаем критический интервал для среднего значения: 1.05 — 2.22.

В итоге, следует отбраковать H0 и принять H1 так как с вероятностью 95%, μ > 1.

В том же самом примере, если принять, что нам известно действительное стандартное отклонение — σ, а не ее оценка полученная с помощью случайной выборки, можно рассчитать необходимое n для данной погрешности. Посчитаем для E=0.5 .

Поправка на ветер

На самом деле нет никаких причин, полагать, что нам будет известна σ (дисперсия), в то время как μ (среднее) нам еще только предстоит оценить. Из-за этого уравнение 4 имеет мало практической пользы, кроме особо рафинированных примеров из области комбинаторики, а реалистичное уравнение для n несколько сложнее при неизвестной σ (Ур. 5).

Обратите внимание, что σ в последнем уравнении не с шапкой (^), а тильдой (~). Это следствие того, что в самом начале у нас нет даже оценочного стандартного отклонения случайной выборки — , и вместо нее мы используем запланированное — . Откуда же мы берем последнее? Можно сказать, что с потолка: экспертная оценка, грубые прикидки, прошлый опыт и т. д.

А что на счет второго слагаемого правой стороны 5-го уравнения, откуда оно взялось? Так как , необходима поправка Гюнтера.

Помимо уравнений 4 и 5 есть еще несколько приблизительно-оценочных формул, но это уже заслуживает отдельного поста.

Ранее мы рассмотрели методы построения доверительного интервала для математического ожидания генеральной совокупности. В каждом из рассмотренных случаев мы заранее фиксировали объем выборки, не учитывая ширину доверительного интервала. В реальных задачах определить объем выборки довольно сложно. Это зависит от наличия финансовых ресурсов, времени и легкости создания выборки. [1] Например, если нам необходимо оценить среднюю сумму накладных или долю ошибочных накладных в информационной системе компании, сначала следует выяснить, насколько точной должна быть оценка. Иначе говоря, следует задать ошибку выборочного исследования, допускаемую при оценке каждого из параметров. Кроме того, необходимо заранее определить доверительный уровень оценки истинного параметра генеральной совокупности.

Определение объема выборки для оценки математического ожидания

Чтобы определить объем выборки, необходимый для оценки математического ожидания генеральной совокупности, следует учесть величину ошибки выборочного исследования и доверительный уровень. Кроме того, необходима дополнительная информация о величине стандартного отклонения. Для того чтобы вывести формулу, позволяющую вычислить объем выборки, начнем с формулы (1) (о происхождении этой формулы см. Построение доверительного интервала для математического ожидания генеральной совокупности):


где – среднее значение выборки, Z — значение стандартизованной нормально распределенной случайной величины, соответствующее интегральной вероятности, равной 1 – α/2, σ — стандартное отклонение генеральной совокупности, n – объем выборки


В этой формуле величина, добавляемая и вычитаемая из равна половине длины интервала. Она определяет меру неточности оценки, возникающей вследствие ошибки выборочного исследования, которая обозначается символом е и вычисляется по формуле


Решив уравнение (2) относительно n, получим:


Таким образом, для определения объема выборки необходимо знать три параметра:

  1. Требуемый доверительный уровень, который влияет на величину Z, являющуюся критическим значением стандартизованного нормального распределения; [2]
  2. Приемлемую ошибку выборочного исследования е;
  3. Стандартное отклонение σ.

На практике вычислить эти величины непросто. Как определить доверительный уровень и ошибку выборочного исследования? Обычно ответить на этот вопрос могут лишь эксперты в предметной области (т.е. люди, понимающие смысл оцениваемых величин). Как правило, доверительный уровень равен 95% (в этом случае Z = 1,96). [3] Если требуется поднять доверительный уровень, обычно выбирают величину, равную 99%. Если можно ограничиться более низким доверительным уровнем, выбирают 90%. Определяя ошибку выборочного исследования, не стоит думать о ее величине (в принципе, любая ошибка нежелательна). Следует задать такую ошибку, чтобы полученные результаты допускали разумную интерпретацию.

Кроме доверительного уровня и ошибки выборочного исследования, необходимо знать стандартное отклонение генеральной совокупности. К сожалению, этот параметр почти никогда не известен. В некоторых случаях стандартное отклонение генеральной совокупности можно оценить на основе предшествующих исследований. В других ситуациях эксперт может учесть размах выборки и распределение случайной переменной. Например, если генеральная совокупность имеет нормальное распределение, ее размах приближенно равен 6σ (т.е. ±3σ в окрестности математического ожидания). Следовательно, стандартное отклонение приближенно равно одной шестой части диапазона. Если величину σ невозможно оценить таким способом, необходимо выполнить пилотный проект и вычислить стандартное отклонение по результатам.

Пример 1. Вернемся к задаче об аудиторской проверке. Предположим, что из информационной системы извлечена выборка, состоящая из 100 накладных, заполненных в течение последнего месяца. Компания желает построить интервал, содержащий математическое ожидание генеральной совокупности, доверительный уровень которого равен 95%. Как был определен объем выборки? Следует ли его уточнить?

Допустим, что после консультаций с экспертами, работающими в компании, статистики установили допустимую ошибку выборочного исследования равной ±5 долл., а доверительный уровень — 95%. Результаты предшествующих исследований свидетельствуют, что стандартное отклонение генеральной совокупности приближенно равно 25 долл. Таким образом, е = 5, σ = 25 и Z = 1,96 (что соответствует 95%-ному доверительному уровню). По формуле (3) получаем:


Следовательно, n = 96. Таким образом, объем выборки, равный 100, был выбран удачно и вполне соответствует требованиям, выдвинутым компанией.

Пример 2. Некая промышленная компания на Среднем Западе производит электрические изоляторы. Если во время работы изолятор выходит из строя, происходит короткое замыкание. Чтобы проверить прочность изолятора, компания проводит испытания, в ходе которых определяется максимальная сила, необходимая для разрушения изолятора. Сила измеряется в фунтах нагрузки, приводящей к разрушению изолятора (рис. 1, столбец А). Предположим, что нам необходимо оценить среднюю силу разрушения изолятора с точностью +25 фунтов при 95%-ном доверительном интервале для этой величины. Данные, полученные в предыдущем исследовании, свидетельствуют, что стандартное отклонение равно 100 фунтов. Определите требуемый объем выборки.

Решение. Итак, е = 25, σ =100, доверительный уровень 95% (т.е. Z = 1,96) (рис. 1).


Рис. 1. Определение объема выборки

Таким образом, n = 62 (дробные результаты, как правило, округляют с избытком до ближайшего целого).

Определение объема выборки для оценки доли признака в генеральной совокупности

Выше мы рассмотрели способ определения объема выборки для оценки математического ожидания генеральной совокупности. Предположим теперь, что нам необходимо определить долю накладных, не соответствующих правилам, принятым компанией (начальные условия см. пример 1 выше). Сколько накладных следует извлечь из информационной системы, чтобы построенный интервал имел заданный доверительный уровень? Для ответа на этот вопрос применим тот же подход, что и при определении объема выборки для оценки математического ожидания.


Ошибка выборочного исследования определяется по формуле (2). При оценке доли признака величину σ следует заменить на величину . Таким образом, формула для ошибки выборочного исследования принимает следующий вид:

Выражая n через остальные величины, получаем следующую формулу:

Таким образом, для определения объема выборки необходимо знать три параметра:

  1. Требуемый доверительный уровень, по которому определяется величина Z.
  2. Допустимую ошибку выборочного исследования е.
  3. Истинную долю успехов р.

На практике вычислить эти величины нелегко. Если известен доверительный уровень, можно вычислить критическое значение стандартизованного нормального распределения Z. Ошибка выборочного исследования е определяет точность, с которой оценивается доля успехов в генеральной совокупности. Третий параметр — доля успехов в генеральной совокупности р — это именно тот параметр, который нам необходимо оценить. Итак, как оценить диапазон изменения величины р по его выборочным значениям?

Существуют два способа. Во-первых, во многих ситуациях для оценки величины р можно использовать результаты предыдущих исследований. Во-вторых, если данные о предыдущих исследованиях недоступны, можно попытаться оценить параметр р так, чтобы исключить недооценку объема выборки. Обратите внимание на то, что в формуле (5) величина р(1 – р) стоит в числителе. Следовательно, необходимо найти максимальное значение этой величины. Очевидно, что оно достигается при р = 0,5.

Таким образом, если доля признака в генеральной совокупности р заранее неизвестна, для определения объема выборки следует задать р = 0,5. В этом случае объем выборки будет переоценен, что приведет к дополнительным затратам на ее создание. Если истинная доля успехов в генеральной совокупности сильно отличается от 0,5, доверительный интервал окажется значительно уже, чем требовалось. Оценка параметра р в этом случае будет весьма точной, однако за это придется заплатить дополнительными временными и финансовыми ресурсами.

Вернемся к задаче об аудиторской проверке. Предположим, аудитор желает построить интервал, содержащий долю ошибочных накладных, доверительный уровень которого равен 95%. Допустимая точность равна ±0,07. Результаты предыдущих проверок свидетельствуют, что доля ошибочных накладных не превышает 0,15. Таким образом, е = 0,07, р = 0,15 и Z = 1,96 (что соответствует 95%-ному доверительному уровню). По формуле (5) получаем:


Таким образом, объем выборки, равный 100, был выбран совершенно правильно и вполне соответствует требованиям, выдвинутым компанией.

Определение объема выборки, извлекаемой из конечной генеральной совокупности

Для определения объема выборки, извлеченной из конечной генеральной совокупности без возвращения, необходимо использовать поправочный коэффициент. Например, при оценке математического ожидания выборочная ошибка вычисляется по следующей формуле:


При оценке доли признака ошибка выборочного исследования равна:

Чтобы вычислить объем выборки для оценки математического ожидания или доли признака, применяются формулы:


где n0 — объем выборки без учета поправочного коэффициента для конечной генеральной совокупности. Применение поправочного коэффициента приводит к следующей формуле:

[1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 471–476

[2] Для определения размера выборки используется величина Z, а не t, поскольку для вычисления критического значения t размер выборки необходимо знать заранее. В большинстве случаев размеры выборки позволяют хорошо аппроксимировать t-распределение стандартизованным нормальным распределением.

[3] Интервал c доверительным уровнем 95% делится на две равные части. Первая часть лежит слева от математического ожидания генеральной совокупности, а вторая — справа. Значение величины Z, соответствующей вероятности 2,5% (площади 0,025), равно –1,96, а значение величины Z, соответствующей суммарной площади 0,975, равно +1,96. Для расчета удобно воспользоваться функцией Excel Z=НОРМ.СТ.ОБР(р), где р – вероятность, подставляя значения р1 = 2,5% и р2 = 97,5%

13 комментариев для “Определение объема выборки”

Предположим, суммарная стоимость всех элементов (счетов-фактур, объектов основных средств, запасов и т. д.) составляет 200 000 тыс. тенге. Суммарное денежное выражение элементов наибольшей стоимости — 4 000 тыс. тенге. Суммарное денежное выражение ключевых элементов — 6 000 тыс. тенге. Уровень существенности — 5 000 тыс. тенге. Аудиторский риск составляет 10%, соответственно, уровень надежности — 90%.
1. Найти объем выборки

По какой формуле определяется объем выборки, если заранее известны генеральная совокупность и распределение оценок&

Света, обратитесь к примерам 1 и 2 настоящей заметки. Откройте Excel-файл, в нем есть формулы. Если останутся вопросы, пришлите в личку исходные данные.

Добрый день!
Перерыла весь интернет, так и не смогла вспомнить, как решить следующую задачу:

Ну что вы, что вы. неужели так сложно самому цифры подставить, али вы гуманитарий совсем?

Помоги пожалуйста решить: Оценить объем репрезентативной выборочной совокупности с ошибкой не более 10%, если в качестве генеральной совокупности выступает население города от 100 до 120 тысяч человек.

Каким должен быть объем выборки при случайном повторном отборе, чтобы ошибка определения среднего (среднее квадратичное отклонение оценки от истинного среднего) составляла не более 10% от среднего квадратичного отклонения в генеральной совокупности? Помогите, пожалуйста

Читайте также: