Выборочный метод в статистике кратко

Обновлено: 06.07.2024

Генеральная и выборочная совокупности. Статистические распределения выборок. Кумулята и ее свойства. Гистограмма и полигон статистических распределений. Числовые характеристики: выборочная средняя; дисперсия выборки; среднеквадратическое отклонение; мода и медиана для дискретных и интервальных статистических распределений выборки; эмпирические начальные и центральные моменты, асимметрия и эксцесс.

Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении статистических данных — результатах наблюдений. Первая задача математической статистики — указать способы сбора и группировки (если данных очень много) статистических сведений. Вторая задача математической статистики — разработать методы анализа статистических данных в зависимости от цели исследования. Изучение тех или иных явлений методами математической статистики служит средством решения многих вопросов, выдвигаемых наукой и практикой (правильная организация технологического процесса, наиболее целесообразное планирование и др.).

Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.

Генеральная и выборочная совокупности

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, для партии деталей качественным признаком может служить стандартность детали, а количественным — контролируемый размер детали. Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяется сравнительно редко. Например, если совокупность содержит большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то случайным образом отбирают из всей совокупности ограниченное число объектов и подвергают их изучению.

Выборочной совокупностью , или просто выборкой , называют совокупность случайно отобранных объектов.

Генеральной совокупностью называют совокупность объектов, из которых проводится выборка.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности.

Часто генеральная совокупность содержит конечное число объектов. Однако если это число достаточно велико, то иногда для упрощения вычислений или для облегчения теоретических выводов, допускают, что генеральная совокупность состоит из бесчисленного множества объектов. Такое допущение оправдывается тем, что увеличение объема генеральной совокупности (достаточно большого объема) практически не сказывается на результатах обработки данных выборки.

Статистические распределения выборок

В результате статистической обработки материалов можно подсчитать число единиц, обладающих конкретным значением того или иного признака. Каждое отдельное значение признака будем обозначать и называть вариантой , а абсолютное число, показывающее, сколько раз встречается та или иная варианта, — частотой и обозначать .

Если отдельные значения признака (варианты) расположим в возрастающем или убывающем порядке и относительно каждой варианты укажем, как часто она встречается в данной совокупности, то получим статистическое распределение признака , или вариационный ряд . Он характеризует изменение (варьирование) какого-нибудь количественного признака. Следовательно, вариационный ряд представляет собой две строки (или колонки). В одной из них приводятся варианты, в другой — частоты.

Вариация признака может быть дискретной и непрерывной. Дискретной называется вариация , при которой отдельные значения признака (варианты) отличаются друг от друга на некоторую конечную величину (обычно целое число); Например: количество детей в семье; оценки, полученные студентами на экзамене; размеры обуви, проданной за день фирмой.

Непрерывной называется вариация , при которой значения признака могут отличаться одно от другого на сколь угодно малую величину. Например: стоимость реализованной продукции; уровень рентабельности предприятия; процент занятости трудоспособного населения; депозитная ставка коммерческих банков.

При непрерывной вариации распределение признака называется интервальным . Частоты относятся не к отдельному значению признака, а ко всему интервалу. Часто значением интервала принимают его середину, т. е. центральное значение.

Пример 1. Уровень рентабельности предприятий легкой промышленности характеризуется следующими данными.

Нередко вместо абсолютных значений частот используют относительные. Для этого можно использовать долю частоты того или иного варианта (а также интервала) в сумме всех частот. Такая величина называется относительной частотой и обозначается

где — относительная частота варианты или интервала соответственно первой, второй и т. д.

Сумма всех относительных частот равна единице:

Относительные частоты можно выражать и в процентах (тогда их сумма равна 100%).

В интервальном вариационном ряду в каждом интервале различают нижнюю и верхнюю границы интервала : нижняя граница интервала ; верхняя граница интервала величина интервала . Как правило, при построении интерваль-ных вариационных рядов в каждый интервал включаются варианты, числовые значения которых больше нижней границы и меньше или равны верхней границе. Интервальные вариационные ряды бывают с одинаковыми и неодинаковыми интервалами. В последнем случае чаще всего встречаются последовательно увеличивающиеся интервалы . Для выбора оптимальной величины интервала , т. е. такой, при которой вариационный ряд не будет громоздким и будут сохранены особенности явления, можно рекомендовать формулу

Так, если в совокупности 200 единиц, наибольший вариант равен 49,961, а наименьший — 49,918, то

Следовательно, в данном случае оптимальной величиной интервала может служить 0,005.

Гистограмма и полигон статистических распределений. Кумулята

Для наглядного представления вариационного ряда большое значение имеют его графические изображения. Графически вариационный ряд может быть изображен в виде полигона, гистограммы и кумуляты.

Полигон распределения (дословно — многоугольник распределения) строится в прямоугольной системе координат. Величина признака откладывается на оси абсцисс, частоты или относительные частоты — по оси ординат. Чаще всего полигоны применяются для изображения дискретных вариационных рядов, но их можно применять также для интервальных рядов. В этом случае на оси абсцисс откладываются точки, соответствующие серединам данных интервалов.

Гистограмма распределения строится аналогично полигону в прямоугольной системе координат. В отличие от полигона при построении гистограммы на оси абсцисс выбирают не точки, а отрезки, изображающие интервал, а вместо ординат, соответствующих частотам или относительным частотам отдельных вариант, строят прямоугольники с высотой, пропорциональной частотам или относительным частотам интервала. В случае интервалов различной длины гистограмма распределения строится, не по частотам или относительным частотам, а по плотности интервалов (абсолютной или относительной). При этом общая площадь гистограммы равна численности совокупности, если построение проводится по абсолютной плотности, или единице, если гистограмма построена по относительной плотности.

Если соединить прямыми линиями середины верхних сторон прямоугольников, то получим полигоны распределения.

Разбивая интервалы на несколько частей и исходя из того, что вся — площадь гистограммы должна остаться при этом неизменной, можно получить мелкоступенчатую гистограмму, которая при уменьшении величины интервала будет приближаться к плавной кривой, называемой кривой распределения.

Пример 2. По данным примера и построить полигон распределения и гистограмму.

Решение см. на рисунке 28.

Кумулятивная кривая (кривая сумм — кумулята) получается при изображении вариационного ряда с накопленными частотами или относительными частотами в прямоугольной системе координат, Накопленная частота определенной варианты получается суммированием всех частот вариант, предшествующих данной, с частотой этой варианты. При построении кумуляты дискретного признака по оси абсцисс откладывают значения признака (варианты), Ординатами служат вертикальные отрезки, длина которых пропорциональна накопленной частоте или относительной частоте той или иной варианты. Соединением вершин ординат прямыми линиями получаем ломаную (кривую) кумуляту.

При построении кумуляты интервального вариационного ряда нижней границе первого интервала соответствует частота, равная нулю, а верхней — вся частота интервала. Верхней границе второго интервала соответствует накопленная частота первых двух интервалов (т. е. сумма частот этих интервалов) и т. д. Верхней границе последнего (максимального) интервала соответствует накопленная частота, равная сумме всех частот.

Пример 3. По данным примера 1 построить кумуляту распределения.

Решение cм. на рисунке 29.

Числовые характеристики выборки

В качестве одной из важнейших характеристик вариационного ряда применяют среднюю величину. Математическая статистика различает несколько типов средних величин: арифметическую, геометрическую, гармоническую, квадратическую, кубическую и др. Все перечисленные типы средних могут быть рассчитаны для случаев, когда каждая из вариант вариационного ряда встречается только один раз (тогда средняя называется простой, или невзвешенной) и когда варианты или интервалы повторяются. При этом число повторений вариант или интервалов называют частотой , или статистическим весом , а среднюю, вычисленную с учетом статистического веса, — взвешенной средней .

Для характеристики вариационного ряда один из перечисленных типов средних выбирается не произвольно, а в зависимости от особенностей изучаемого явления и цели, для которой среднее исчисляется.

Практически при выборе того или иного типа средней следует исходить из принципа осмысленности результата при суммировании или при взвешивании. Только тогда средняя применена правильно, когда в результате взвешивания или суммирования получаются величины, имеющие реальный смысл.

Обычно затруднения при выборе типа средней возникают лишь в использовании средней арифметической, или гармонической. Что же касается геометрической и квадратической средних, то их применение обусловлено особыми случаями (см. далее).

Следует иметь в виду, что средняя только в том случае является обобщающей характеристикой, если она применяется к однородной совокупности. В' случае использования средней для неоднородных совокупностей можно прийти к неверным выводам. Научной основой статистического анализа является метод статистических группировок, т. е. расчленения совокупности на качественно однородные группы.

Все указанные типы средних величин можно получить из формул степенной средней. Если имеются варианты , то среднюю из вариант можно рассчитать по формуле простой невзвешенной степенной средней порядка :

При наличии соответствующих частот средняя рассчитывается по формуле взвешенной степенной средней:

Здесь — степенная средняя; — варианты, — частоты или статистические веса вариантов.

Средняя арифметическая получается из формулы степенной средней при подстановке незвешенная ; взвешенная

Средняя гармоническая получается при подстановке в формулу степенной средней значения незвешенная ; взвешенная

Средняя гармоническая вычисляется тогда, когда средняя предназначается для расчета сумм слагаемых, обратно пропорциональных величине данного признака, т. е. когда суммированию подлежат не сами варианты, а обратные им величины .

Средняя квадратическая получается из формулы степенной средней при подстановке незвешенная ; взвешенная

Средняя квадратическая используется только тогда, когда варианты представляют собой отклонения фактических величин от их средней арифметической или от заданной нормы.

Средняя геометрическая получается из формулы степенной средней при предельном переходе незвешенная ; взвешенная

Вычисления средней геометрической в значительной мере упрощаются применением логарифмирования:

Таким образом, логарифм средней геометрической есть средняя арифметическая из логарифмов вариантов. Средняя геометрическая используется главным образом при изучении динамики. Средние коэффициенты и темпы роста рассчитывают по формулам средней геометрической.

Если вычислить различные типы средних для одного и того же вариационного ряда, то числовые их значения будут различаться. При этом средние по своей величине расположатся в определенном порядке. Наименьшей из перечисленных средних окажется средняя гармоническая, затем геометрическая и т. д., наибольшей будет средняя квадратическая. При этом порядок возрастания средних определяется показателем степени z в формуле степенной средней. Так, при

В качестве характеристики вариационного ряда используют медиану , т. е. такое значение варьирующего признака, которое приходится на середину упорядоченного вариационного ряда. Если в вариационном ряду случаев, то значение признака у случая ; при чётном

При расчете медианы интервального вариационного ряда сначала находят интервал, содержащий медиану, путем использования накопленных или относительных частот. Медианному интервалу соответствует первая из накопленных или относительных частот, превышающая половину всего объема совокупности. Для нахождения медианы при постоянстве плотности внутри интервала, содержащего медиану, используют формулу

где — нижняя граница медианного интервала; — накопленная частота интервала, предшествующего медианному; –частота медианного интервала.

Медиану можно определить также графически по кумуляте. Для этого последнюю ординату, пропорциональную сумме всех частот или относительных частот, делят пополам. Из полученной точки восстанавливают перпендикуляр до пересечения с кумулятой. Абсцисса точки пересечения — значение медианы (см. рис. 29).
Медиана обладает таким свойством: сумма абсолютных величин отклонений вариантов от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической):

Это свойство медианы можно использовать при проектировании расположения трамвайных и троллейбусных остановок, бензоколонок и т. д.

Пример 4. На шоссе длиной 100 км имеется 10 гаражей. Для проектирования строительства бензоколонки были собраны данные о числе предполагаемых поездок на заправку с каждого гаража. Результаты обследования приведены в таблице.

Бензоколонку нужно поставить так, чтобы общий пробег машин на заправку был наименьшим.

Вариант 1. Если бензоколонку поставить на середине шоссе, т. е. на 50-м километре (средняя арифметическая), то пробеги с учетом числа поездок составят:

в одном направлении

Общий пробег в оба направления окажется равным 5390 км.

Вариант 2. Уменьшения пробега можно достичь, если бензоколонку поставить на 63,85-м километре, т. е. на среднем участке шоссе с учетом числа поездок (средняя арифметическая взвешенная). В этом случае пробеги составят по 2475,75 км в оба направления, т. е. общий пробег составит 4951,5 км и окажется меньше, чем при первом варианте, на 438,5 км.

Модой называется варианта, наиболее часто встречающаяся в данном вариационном ряду. Для дискретного ряда мода, являющаяся характеристикой вариационного ряда, определяется по частотам вариант и соответствует варианте с наибольшей частотой. В случае интервального распределения с равными интервалами модальный интервал (т. е. содержащий моду) определяется по наибольшей частоте, а при неравных интервалах — по наибольшей плотности. Мода рассчитывается по формуле

где — нижняя граница модального интервала; — частота модального интервала; частота интервала, предшествующего модальному; — частота интервала, следующего за модальным.

Вариационные ряды, в которых частоты вариант, равноотстоящих от средней, равны между собой, называются симметричными. Особенность симметричных вариационных рядов состоит в равенстве трех характеристик — средней арифметической, моды и медианы:

(это необходимое условие симметричности вариационного ряда, но не достаточное).

Вариационные ряды, в которых расположение вариант вокруг средней не одинаково, т. е. частоты по обе стороны от средней изменяются по-разному, называются асимметричными , или скошенными . Различают асимметрию — левостороннюю и правостороннюю.

Средние величины, характеризуя вариационный ряд одним числом, не учитывают вариацию признака, между тем эта вариация существует. Для измерения вариации признака в математической статистике применяют ряд способов.

Вариационный размах широта распределения , есть разность между наибольшим и наименьшим значениями вариационного ряда:

Вариационный размах представляет собой величину неустойчивую, чрезвычайно зависящую от случайных обстоятельств; применяется для приблизительной оценки вариации.

Среднее линейное отклонение , или простое среднее отклонение (обозначается

Средний квадрат отклонения , или дисперсия (обозначается

Таким образом, дисперсия есть средняя арифметическая из квадратов отклонений вариант от их средней арифметической.
Квадратный корень из дисперсии называется среднеквадратическим отклонением .

Обобщающими характеристиками вариационных рядов являются моменты распределения . Характер распределения можно определить с помощью небольшого количества моментов.

Средняя из k-х степеней отклонений вариант моментом k-го порядка :

При расчете средних в качестве весов можно использовать частоты, относительные частоты или вероятности. При использовании в качестве весов частот или относительных частот моменты называются эмпирическими , а при использовании вероятностей — теоретическими . Порядок момента определяется величиной

В зависимости от выбора постоянной величины начальными , обозначаются и вычисляются по формуле

и т.д. Практически используют моменты первых четырёх порядков.

2. Если (начало отчёта), то моменты называются начальными относительно , обозначаются и рассчитываются по формуле

3. Если за постоянную величину , то моменты называются центральными , обозначаются и вычисляются так

то есть центральный момент нулевого порядка, равный единице;

то есть центральный момент первого порядка равен нулю;

то есть центральный момент первого порядка равен дисперсии и служит мерой колеблемости признака;

Если распределение симметрично, то ;

получаем центральный момент четвёртого порядка.

Коэффициентом асимметрии называется отношение центрального момента третьего порядка к кубу среднеквадратического отклонения:

Если полигон вариационного ряда скошен, то есть одна из его ветвей начиная от вершины зримо короче другой, то такой ряд называется асимметричным .

Эксцессом называется уменьшенное на три единицы отношение центрального момента четвёртого порядка к четвёртой степени среднеквадратического отклонения:

Кривые распределения, у которых плосковершинными . Кривые распределения, у которых , более крутые, имеют острую вершину и называются островершинными.

1. Задачи математической статистики.

3. Способы отбора.

4. Статистическое распределение выборки.

5. Эмпирическая функция распределения.

6. Полигон и гистограмма.

7. Числовые характеристики вариационного ряда.

8. Статистические оценки параметров распределения.

9. Интервальные оценки параметров распределения.

1. Задачи и методы математической статистики

Математическая статистика - это раздел математики, посвященный методам сбора, анализа и обработки результатов статистических данных наблюдений для научных и практических целей.

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным- контролируемый размер детали.

Иногда проводят сплошное исследование, т.е. обследуют каждый объект относительно нужного признака. На практике сплошное обследование применяется редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов (выборочную совокупность) и подвергают их изучению.

Основная задача математической статистики заключается в исследовании всей совокупности по выборочным данным в зависимости от поставленной цели, т.е. изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.

2. Виды выборок

Генеральная совокупность – это совокупность объектов, из которой производится выборка.

Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов.

Объем совокупности – это число объектов этой совокупности. Объем генеральной совокупности обозначается N , выборочной – n .

Если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n = 100.

При составлении выборки можно поступить двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. Т.о. выборки делятся на повторные и бесповторные.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

На практике обычно пользуются бесповторным случайным отбором.

Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Выборка должна правильно представлять пропорции генеральной совокупности. Выборка должна быть репрезентативной (представительной).

В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно.

Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает.

3. Способы отбора

На практике применяются различные способы отбора, которые можно разделить на 2 вида:

1. Отбор не требует расчленения генеральной совокупности на части (а) простой случайный бесповторный; б) простой случайный повторный).

2. Отбор, при котором генеральная совокупность разбивается на части. (а) типичный отбор; б) механический отбор; в) серийный отбор).

Простым случайным называют такой отбор, при котором объекты извлекаются по одному из всей генеральной совокупности (случайно).

На практике часто применяют комбинированный отбор, при котором сочетаются указанные выше способы.

4. Статистическое распределение выборки

Пусть из генеральной совокупности извлечена выборка, причем значение x1 –наблюдалось раз, x2-n2 раз,… xk - nk раз. n = n1+n2+. +nk– объем выборки. Наблюдаемые значения называются вариантами, а последовательность вариант, записанных в возрастающем порядке- вариационным рядом. Числа наблюдений называются частотами (абсолютными частотами), а их отношения к объему выборки - относительными частотами или статистическими вероятностями.

Если количество вариант велико или выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляется не по отдельным точечным значениям, а по интервалам значений генеральной совокупности. Такой вариационный ряд называется интервальным. Длины интервалов при этом должны быть равны.

Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.

Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (суммы частот, попавших в этот интервал значений)

Статистическая методология исследования массовых явлений различает, как известно, два способа наблюдения в зависимости от полноты охвата объекта: сплошное и несплошное. Разновидностью несплошного наблюдения является выборочное, которое в условиях рыночных отношений в России находит все более широкое применение. Переход статистики РФ на международные стандарты системы национального счетоводства требует более широкого применения выборки для получения и анализа показателей СНС не только в промышленности, но и в других секторах экономики.

Под выборочным наблюдением понимается несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным способом. Выборочное наблюдение ставит перед собой задачу ‑ по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и науч­но организованной работы по отбору единиц.

К выборочному наблюдению статистика прибегает по различным причинам. На современном этапе появилось множество субъектов хозяйствен­ной деятельности, которые характерны для рыночной экономики. Речь идет об акционерных обществах, малых и совместных предприятиях, фермерских хозяйствах и т.д. Сплошное обследование этих статистических совокупностей, состоящих из десятков и сотен тысяч единиц, потребовало бы огромных материальных, финансовых и иных затрат. Использование же выборочного обследования позволяет значительно сэкономить силы и средства, что имеет немаловажное значение.

Наряду с экономией ресурсов одной из причин превращения выборочного наблюдения в важнейший источник статистической информации является возможность значительно ускорить получение необходимых данных. Ведь при обследовании, скажем, 10% единиц совокупности будет затрачено гораздо меньше времени, а результаты могут быть представлены быстрее, и будут более актуальными. Фактор времени важен для статисти­ческого исследования особенно в условиях изменяющейся социально-экономической ситуации.

Реализация выборочного метода базируется на понятиях генеральной и выборочной совокупностей.

Генеральной совокупностью называется вся исходная изучаемая статистическая совокупность, из которой на основе отбора единиц или групп единиц формируется совокупность выборочная. Поэтому генеральную совокупность также называют основой выборки.

Отбор единиц в выборочную совокупность может быть повторным или беспо­вторным.

При повторном отборе попавшая в выборку единица подвергается обследованию, т.е. регистрации значений ее признаков, возвращается в генеральную совокупность и наравне с другими единицами участвует в дальнейшей процедуре отбора. Таким образом, некоторые единицы могут попадать в выборку дважды, трижды или даже большее число раз. И при изучении выборочной совокупности они будут рассматриваться как отдельные независимые наблюдения.

Отметим, что число единиц генеральной совокупности, участвующих в отборе, при таком подходе остается постоянным. Поэтому вероятность попадания в выборку для всех единиц совокупности на протяжении всего процесса отбора также не меняется.

На практике методология повторного отбора обычно используется в тех случаях, когда объем генеральной совокупности не известен и теоретически возможно повторение единиц с уже встречавшимися значениями всех регистрируемых признаков.

Например, при проведении маркетинговых исследований мы не можем сколько-нибудь точно оценить, какое число потребителей предпочитают стиральный порошок конкретной торговой марки, сколько покупателей предпочитают делать покупки именно в данном супермаркете и т.д. Поэтому возможно повторение совершенно идентичных единиц как по причине практически неограниченных объемов совокупности, так и вследствие возможной повторной регистрации. Предположим, при проведении обследования один и тот же покупатель может дважды прийти в магазин и дважды подвергнуться обследованию.

При выборочном контроле качества продукции объем генеральной совокупности также часто не определен, так как процесс производства может осуществляться постоянно, каждый день дополняя генеральную совокупность новыми единицами-изделиями. Поэтому в выборочную совокупность могут попасть два и более изделий с абсолютно одинаковыми характеристиками. Следовательно, и в этом случае при обработке результатов выборки необходимо ориентироваться на методологию, используемую при повторном отборе.

При бесповоротном отборе попавшая в выборку единица подвергается обследова­нию и в дальнейшей процедуре отбора не участвует. Такой отбор целесообразен и практически возможен в тех случаях, когда объем генеральной совокупности четко определен. Получаемые при этом результаты, как правило, являются более точными по сравнению с результатами, основанными на повторной выборке.

Как уже отмечалось выше, выборочное наблюдение всегда связано с определенны­ми ошибками получаемых характеристик. Эти ошибки называются ошибками репрезента­тивности (представительности).

Ошибки репрезентативности обусловлены тем обстоятельством, что выборочная совокупность не может по всем параметрам в точности воспроизвести совокупность генеральную. Получаемые расхождения или ошибки репрезентативности позволяют заключить, в какой степени попавшие в выборку единицы могут представлять всю генеральную совокупность. При этом следует различать систематические и случайные ошибки репре­зентативности.

Систематические ошибки репрезентативности связаны с нарушением принципов формирования выборочной совокупности. Например, вследствие каких-либо причин, связанных с организацией отбора, в выборку попали единицы, характеризующиеся несколько большими или, наоборот, несколько меньшими по сравнению с другими единицами значениями наблюдаемых признаков. В этом случае и рассчитанные выборочные характеристики будут завышенными или заниженными.

Случайные ошибки репрезентативности обусловлены действием случайных факторов, не содержащих каких-либо элементов системности в направлении воздействия на рассчитываемые выборочные характеристики. Но даже при строгом соблюдении всех принципов формирования выборочной совокупности выборочные и генеральные характе­ристики будут несколько различаться. Получаемые случайные ошибки могут быть стати­стически оценены и учтены при распространении результатов выборочного наблюдения на всю генеральную совокупность. Оценка ошибок выборочного наблюдения основана на теоремах теории вероятностей.

При дальнейшем рассмотрении теории и методов выборочного наблюдения используются следующие общепринятые условные обозначения:

N ‑ объем (число единиц) генеральной совокупности;

n ‑ объем (число единиц) выборочной совокупности;

‑ генеральная средняя, т.е. среднее значение изучаемого признака по генераль­ной совокупности (средняя прибыль, средняя величина активов, средняя численность ра­ботников предприятия и т.п.);

‑ выборочная средняя,
т.е. среднее значение изучаемого признака по выборочной совокупности;

М ‑ численность единиц генеральной совокупности, обладающих определенным вариантом или вариантами изучаемого признака (численность городского населения, численность сельского населения, количество бракованных изделий, число нерентабельных предприятий и т.п.);

р ‑ генеральная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, во всей генеральной совокупности (доля городского населения в общей численности населения, доля бракованной продукции в общем выпуске, доля нерентабельных предприятий в общей численности предприятий и т.п.); определяетcя как

m численность единиц выборочной совокупности, обладающих определенным вариантом или вариантами изучаемого признака;

w ‑ выборочная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, в выборочной совокупности,

‑ средняя ошибка выборки;

‑ предельная ошибка выборки;


‑ коэффициент доверия, определяемый в зависимости от уровня вероятности.

Ошибка выборки или отклонение выборочной средней от средней генеральной находится в прямой зависимости от дисперсии изучаемого признака в генеральной совокуп­ности, и в обратной зависимости ‑ от объема выборки.

Таким образом среднюю ошибку выборки можно представить как

Формула 10.1

При проведении выборочного наблюдения дисперсия изучаемого признака в генеральной совокупности, как правило, не известна. В то же время, между генеральной дисперсией и средней из всех возможных выборочных дисперсий существует следующее соотношение:

Формула 10.2

В связи с тем, что на практике в большинстве случаев из генеральной совокупности в определенный момент времени производится только одна выборка, дисперсия изучаемого признака по этой выборке и используется при расчете ошибки.

Учитывая, что при достаточно большом объеме выборки отношение близко к 1, формула средней ошибки повторной выборки принимает следующий вид:

Где ‑ дисперсия изучаемого признака по выборочной совокупности.

При определении возможных границ значений характеристик генеральной сово­купности рассчитывается предельная ошибка выборки, которая зависит от величины ее средней ошибки и уровня вероятности, с которым гарантируется, что генеральная средняя не выйдет за указанные границы.

Согласно теореме А.М. Ляпунова, вероятность той или иной величины предельной ошибки, при достаточно большом объеме выборочной сово­купности, подчиняется нормальному закону распределения и может быть определена на основе интеграла Лапласа.

Значения интеграла Лапласа при различных величинах t табулированы и представ­лены в статистических справочниках.

При обобщении результатов выборочного наблюдения наиболее часто используются следующие уровни вероятности и соответствующие им значения t:

Таблица 10.1 ‑ . Некоторые значения t

Вероятность, рi. 0,683 0,866 0,954 0,988 0,997 0,999
Значение t 1,0 1,5 2,0 2,5 3,0 3,5

Например, если при расчете предельной ошибки выборки мы используем значение t=2, то с вероятностью 0,954 можно утверждать, что расхождение между выборочной средней и генеральной средней не превысит двукратной величины средней ошибки вы­борки.

Теоретической основой для определения границ генеральной доли, т.е. доли еди­ниц, обладающих тем или иным вариантом признака, является теорема Вернули. Согласно данной теореме вероятность получения сколь угодно малого расхождения между выборочной долей и генеральной долей при достаточно большом объеме выборки будет стремиться к единице. С учетом того, что вероятность расхождения между выборочной и генеральной долями подчиняется нормальному закону распределения, эта вероятность также определяется по функции F(t) при заданном значении t.

Процесс подготовки и проведения выборочного наблюдения включает ряд после­довательных этапов:

  1. Определение цели обследования.
  2. Установление границ генеральной совокупности.
  3. Составление программы наблюдения и программы разработки данных
  4. Определение вида выборки, процента отбора и метода отбора
  5. Отбор и регистрация наблюдаемых признаков у отобранных единиц.
  6. Насчет выборочных характеристик и их ошибок.
  7. Распространение полученных результатов на генеральную совокупность.

В зависимости от состава и структуры генеральной совокупности выбирается вид выборки или способ отбора.

К наиболее распространенным на практике видам относятся:

  • собственно-случайная (простая случайная) выборка;
  • механическая (систематическая) выборка;
  • типическая (стратифицированная, расслоенная) выборка;
  • серийная (гнездовая) выборка.

Отбор единиц из генеральной совокупности может быть комбинированным, много­ступенчатым и многофазным.

Комбинированный отбор предполагает объединение нескольких видов выборки. Так, например, можно комбинировать типическую и серийную, серийную и собственно-случайную выборки. Ошибка такой выборки определяется ступенчатостью отбора.

Многоступенчатым называется отбор, при котором из генеральной совокупности сначала извлекаются укрупненные группы, потом ‑ более мелкие и так до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.

Многофазная выборка, в отличие от многоступенчатой, предполагает сохранение одной и той же единицы отбора на всех этапах его проведения; при этом отобранные на каждой стадии единицы подвергаются обследованию, каждый раз – по более расширенной программе.

Собственно-случайная (простая случайная) выборка заключается в отборе единиц из генеральной совокупности наугад или наудачу без каких-либо элементов системности.

Однако прежде чем производить собственно-случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования отдельных единиц и т.п. Следует также установить четкие границы генеральной сово­купности таким образом, чтобы включение или не включение в нее отдельных единиц не вызывало сомнений. Так, например, при обследовании студентов необходимо указать, будут ли приниматься во внимание лица, находящиеся в академическом отпуске, студенты негосударственных вузов, военных училищ и т.п.; при обследовании торговых предприятий важно определиться, включит ли генеральная совокупность торговые павильоны, коммерческие палатки и прочие подобные объекты.

Технически собственно-случайный отбор проводят методом жеребьевки или по таблице случайных чисел.

Расчет ошибок позволяет решить одну из главных проблем организации выборочного наблюдения – оценить репрезентативность (представительность) выборочной совокупности.

Различают среднюю и предельную ошибки выборки. Эти два вида связаны следующим соотношением:

Величина средней ошибки выборки рассчитывается дифференциро­ванно в зависимости от способа отбора и процедуры выборки.

Так, при собственно-случайном повторном отборе средняя ошибка определяется по формуле:

а при расчете средней ошибки собственно-случайной бесповторной выборки:

Формула 10.6

Расчет средней и предельной ошибок выборки позволяет определить возможные пределы, в которых будут находиться характеристики генеральной совокупности.

Например, для выборочной средней такие пределы устанавливаются на основе следующих соотношений:

Формула 10.7

где и ‑ генеральная и выборочная средняя соответственно;

‑ предельная ошибка выборочной средней.

Пример.

При проверке веса импортируемого груза на таможне методом случайной повторной выборки было отобрано 200 изделий. В результате был установлен средний вес изделия 30 г. при среднем квадратическом отклонении 4 г. С вероятностью 0,997 определите пределы, в которых находится средний вес изделия в генеральной совокупности.

Решение. Рассчитаем сначала предельную ошибку выборки. Так как при р = 0,997, t = 3, она равна:

Определим пределы генеральной средней:


или


Вывод: Следовательно, с вероятностью 0,997 можно утверждать, что средний вес изделий в генеральной совокупности находится в пределах от 29,16 г. до 30,84 г.

Пример 2.

В городе проживает 250 тыс. семей. Для определения среднего числа детей в семье была организована 2%-ная случайная бесповторная выборка семей. По ее результатам было получено следующее распре­деление семей по числу детей:

Таблица 10.2 ‑ Распределение семей по числу детей в городе N

С вероятностью 0,954 определите пределы, в которых будет находить­ся среднее число детей в генеральной совокупности.

Решение. В начале на основе имеющегося распределения семей определим выборочные среднюю и дисперсию:

Выборочный метод (method of sampling) – статистический метод исследования общих свойств совокупности каких-либо объектов на основе изучения свойств лишь части этих объектов. Совокупность исследуемых объектов, интересующих исследователя, называет генеральной совокупностью. А часть объектов, подлежащих изучению, называют выборочной совокупностью или выборкой.

Ключевые вопросы выборочного обследования:
- количественная характеристика выборки или определение минимального количества наблюдений (объема выборки) для проведения исследования;
- качественная характеристика выборки или способы и методы формирования выборочной совокупности.

Главная задача выборочного обследования – с минимальным объемом выборки получить как можно более точное описание интересующей генеральной совокупности на основе выборочных данных. Добиться этого можно только на основе репрезентативной выборки, т.е. выборки объективно отражающей свойства генеральной совокупности.

Точность результатов выборочных обследований достигается за счет использования сложных методов формирования выборки (кластерного отбора, задания расслоения, использования вероятностно-пропорционального отбора, простого случайного или случайного отбора, повторного или бесповторного отбора).

Минимальный объем выборки зависит от многих параметров исследования (оцениваемого показателя или системы показателей, способа и методов формирования выборки, вариации исследуемых данных, заданной надежности получаемых результатов, максимально допустимой ошибки в оценки показателей) и определяется на основе формул математической статистики или экспертным путем.

Выборочный метод используют, прежде всего, в социологии, маркетинге, клинических исследованиях. Но фактически при статистическом анализе данных в любой области исследователь работает, как правило, не с генеральной совокупностью, а с выборкой. Ошибка многих исследователей, что они не придают этому значение, не задумываются, какими методами была получена анализируемая информация и насколько соблюдена методология выборочного обследования. Из-за этого получаемые результаты не соответствуют реально объективно существующим закономерностям, т.к. анализируется нерепрезентативная выборка.

Задача, которую решает использование выборочного метода, заключается в возможности с минимальными данными выборки обеспечить получение максимально точных данных. Без применения знаний выборочного наблюдения и выборочной совокупности невозможно оценить масштабные клинические исследования, наблюдения, спрогнозировать различные явления и обрабатывать первичные данные.

Выборочное наблюдение — вид несплошного наблюдения, при котором отбор подлежащих обследованию единиц наблюдения из генеральной совокупности(population) осуществляется случайно, отобранная часть (выборка) (sample)подвергается обследованию, после чего результаты распространяются на всю исходную совокупность. Выборка должна отвечать критериям качественной и количественной репрезентативности.


Рис. 1 Количественная и качественная репрезентативность выборки (Е.Н. – единица наблюдения).

Положительные стороны выборочного метода:

  • может быть единственно доступным способом сбора данных, если единицы
    наблюдения во время исследования подвергаются порче или уничтожению;
  • экономичность;
  • сжатые сроки исследования, что ускоряет получение результата;

— большая точность получения результата за счет уменьшения случайных
ошибок при сборе материала;

— возможность задать надежность и точность исследования.
Отрицательные стороны выборочного метода:

  • неизбежна ошибка в исследовании, связанная с тем, что не все единицы
    наблюдения подвергаются отбору;
  • может быть нежелательным, если по официальным предписаниям необхо-
    димо регистрировать каждую единицу наблюдения;
  • для редких событий малые выборки могут не накопить достаточного числа
    случаев;
  • при социологических исследованиях может вызвать чувство дискриминации
    у населения.

Эпидемиологические аспекты выборочного исследования будут подробно рассмотрены в соответствующем разделе (часть 2). Здесь мы остановимся на статистических аспектах данной проблемы, хотя эти два подхода неразрывно связаны между собой, составляя единую оболочку для научного исследования.

Основное требование, предъявляемое к формированию выборки – случайность отбора единиц наблюдения из генеральной совокупности, при котором каждой единице наблюдения обеспечивается равная вероятность попадания в выборку (рандомизированный отбор) (randomization).

Виды выборок

  1. В зависимости от способа отбора единиц наблюдения (от способа организации совокупности):
  • случайная: отбор единиц наблюдения производится непосредственно из генеральной совокупности. Случайность отбора достигается путем применения жеребьевки или использования таблицы случайных чисел. Различают бесповторную выборку и повторную (после регистрации единицы вновь возвращаются в генеральную совокупность)
  • механическая: генеральная совокупность разбивается на равные части, из которых затем в заранее обусловленном порядке отбирают единицы наблюдения под определенным номером (например, каждую пятую), так, чтобы обеспечить необходимое число наблюдений.
  • типологическая (типическая): генеральная совокупность разбивается на качественно однородные по изучаемому признаку группы, а затем из этих групп производят случайный отбор необходимого числа единиц наблюдения; объем выборки в каждой типической группе устанавливается пропорционально ее удельному весу в генеральной совокупности (пропорциональный отбор), а иногда и с учетом вариации в ней изучаемого признака (оптимальный отбор)
  • серийная (гнездовая): отбору подлежат не отдельные единицы наблюдения, а целые их группы (серии или гнезда), в составе которых единицы наблюдения связаны определенным образом: территориально (районы, селения и др.) или организационно (студенческие группы, больницы, предприятия и др.) и которые отбираются из генеральной совокупности по принципу случайного или механического отбора. Внутри серии производится сплошной отбор единиц наблюдения.
  • комбинированная
  1. По этапам отбора:
  • одноступенчатая
  • многоступенчатая
  1. В зависимости от числа программ отбора:
  • однопрограммная (однорядная)
  • многопрограммная (многорядная)

Модификации видов выборок:

  • метод направленного отбора
  • метод парных выборок
  • когортный метод
  • метод моментного среза

Теоретическая основа выборочного метода

Взаимосвязь статистических показателей выборочной и генеральной совокупностей определяется законом больших чисел, выражаясь в центрально предельной теореме П. Л. Чебышева: чем больше число некоторых случайных величин, тем их средняя арифметическая ближе к средней арифметической генеральной совокупности, т.e. тем меньше разница между показателями выборочной и генеральной совокупностей. По мере увеличения числа наблюдений вероятность осуществления приближения показателя выборки к показателю генеральной совокупности становится все больше, стремясь к единице, если число наблюдений стремится к бесконечности. Для того, чтобы могла проявиться эта закономерность, выборка должна быть репрезентативна (представительна) по отношению к генеральной совокупности.

Репрезентативность — это способность выборочной совокупности как количественно, так и качественно отражать свойства генеральной совокупности. Количественная репрезентативность достигается достаточностью числа наблюдений, качественная — соответствием признаков единиц наблюдения в выборочной и генеральной совокупностях.

Любое значение параметра, вычисленное на основе ограниченного числа наблюдений, непременно содержит элемент случайности. Такое приближенное, случайное значение называется оценкой параметра. Оценка параметра должна быть доброкачественной, что определяется тремя факторами, которые дают наименьшие ошибки расхождения показателей выборочной и генеральной совокупностей:

  • состоятельность оценки, т.е. при увеличении числа наблюдений оценка параметра приближается к его значению в генеральной совокупности;
  • несмещенность оценки, т.е. при оценке отсутствуют систематические ошибки в сторону завышения или занижения параметра генеральной совокупности;
  • эффективность оценки, т.е. оценка должна обладать минимальной вариабельностью.

Как правило, проводят точечную и интервальную оценку параметра.

Точечная оценка параметра

Точечная оценка параметра выражается в ошибке репрезентативности (standard error, стандартной ошибке), которая показывает на сколько отличаются обобщающие коэффициенты (показатели), полученные при выборочном исследовании, от тех коэффициентов, которые могли бы быть получены при сплошном исследовании.

Вычисление ошибки репрезентативности (m):


при показателях (коэффициентах), близких к 0 или к 100%:


Условные обозначения:

s- стандартное отклонение (sample variance)

n — число наблюдений в выборке (sample size)

р — частота появления признака в совокупности (significance level)

q — показатель, альтернативный

t — доверительный коэффициент

x — средняя величина (sample mean)

Способы, уменьшающие ошибку репрезентативности:

  • увеличение числа наблюдений
  • уменьшение вариабельности признака

Интервальная оценка параметра

Знание величины ошибки репрезентативности недостаточно, чтобы быть уверенным в результатах выборочного исследования, т.к. конкретная ошибка одного выборочного наблюдения может быть больше (меньше) средней ошибки выборки. Поэтому на практике определяют так же пределы возможных ошибок выборки или предельную ошибку выборки (D). Т.к. предельная ошибка может быть как в сторону увеличения, так и в сторону уменьшения, то говорят о доверительном интервале (ДИ) или доверительных границах (confidence interval, CI), в пределах которых будет находиться показатель генеральной совокупности на основании данных выборочного исследования

Выход результата за пределы доверительных границ в следствие случайных колебаний имеет незначительную вероятность. Пределы возможных отклонений, выраженные в долях t, оценивают по формуле:


При малом числе наблюдений (не более 30) вероятности нахождения выборочных значений в пределах значений t, которые характерны для больших выборок, значительно снижаются, т.е. для достижения тех же вероятностей нужно взять значительно большие интервалы x ± tm. В этих случая оперируют значениями t, приведенными в таблице Стьюдента.

Для большинства медицинских исследований допускают р = 0,95 или 95%. В этом случае вероятность выхода результата выборочного исследования за границы доверительного интервала, т.е. вероятность ошибки составляет 0,05 или 5%. Поэтому говорят, что результат исследования получен с уровнем значимости 0,05 (р=0,05). При необходимости более строгой оценки р=0,99 (99%), вероятность ошибки составит 0,01 (1%) и следовательно уровень значимости будет р=0,01.

Часто на практике необходимо оценить надежность и точность исследования, т.е. нужно знать, к каким ошибкам может привести замена параметра (результата в генеральной совокупности) его точечной оценкой (результатом в выборке с учетом ошибки репрезентативности) и с какой уверенностью можно ожидать, что эти ошибки не выйдут за известные пределы.

Точность оценки определяется доверительным интервалом (границами), надежность оценки определяется доверительной вероятностью, с которой оценка воспроизводится в пределах доверительных границ. Чем выше точность исследова­ния, тем меньше его надежность. В результате при больших доверительных границах, уровень вероятности (или уровень значимости) может не достигать значений, принятых для медицинских исследований

Определение доверительных границ (доверительного интервала)

-для количественных признаков


— для номинальных и порядковых признаков

  1. По специальным таблицам с заданной предельной ошибкой (таблица Боярского).
  2. По формулам:

а) для количественных признаков:

  • при неизвестной численности генеральной совокупности:


  • при известной численности генеральной совокупности:


б) для номинальных и порядковых признаков:


  • при неизвестной численности генеральной совокупности:
  • при известной численности генеральной совокупности:


в) при выборке по методу контрольных групп или парных групп:

если число наблюдений в группах одинаково:
— для количественных признаков:

— для номинальных признаков:

если число наблюдений в группах неодинаково:


— для количественных признаков:

-для номинальных признаков:


s – стандартное отклонение;

t — доверительный коэффициент,

n — число наблюдений в выборке;

D — предельная ошибка выборки;

р — частота появления признака в совокупности;

q — показатель, альтернативный p;

N – число наблюдений в генеральной совокупности.

Расчет объема выборки производят на начальных этапах исследования, когда неизвестны параметры распределения и предельная ошибка. Источниками для определения s и D служат:

— результаты пилотажного исследования;

— данные литературы (аналогичные исследования);

Как крайний вариант определения этих параметров для альтернативного распределения можно взять максимально возможное значение s 2 = р х q =0.5 x 0.5 = 0,.25, что существенно увеличивает необходимый объем наблюдений. Для количественных признаков приблизительное значение s можно определить как,


что также увеличивает необходимый объем выборки.

3. Объем выборки зависит от чувствительности критерия. С увеличением объема выборки чувствительность критерия увеличивается. Расчет чувствительности – важный этап планирования исследования.

Таким образом, итогом изучения материалов статьи для специалистов станут понятными главные определения и понятия, методы формирования репрезентативной выборки, определение точечной и интервальной оценки параметров. Кром того, предоставленные данные помогут сформировать репрезентативную по количеству и качеству выборку, вычислять ошибку репрезентативности (стандартную ошибку) для средних и долевых (частотных) величин в больших и малых выборках, вычислять ошибку репрезентативности (стандартную ошибку) для средних и долевых (частотных) величин в больших и малых выборках.

Благодарим за внимание к нашим материалам, оставайтесь с нами!

Если Вам понравилась статья и оказалась полезной, Вы можете поделиться ею с коллегами и друзьями в социальных сетях:

Читайте также: