Точечные и интервальные оценки выборочных данных кратко

Обновлено: 05.07.2024

Точечное и интервальное оценивание числовых характеристик

Точечной оценкой числовой характеристики называют оценку, которая определяется одним числом. К точечным оценкам относятся: среднее арифметическое, дисперсия или стандартное отклонение.

Например, среднее арифметическое пробегания 100 м равно 15,38 с.

Если выборка небольшого объёма, то точечная оценка может значительно отличаться от оцениваемого параметра генеральной совокупности, в данном случае от среднего арифметического генеральной совокупности (обозначается μ) и её использование может привести к грубым ошибкам. Поэтому при небольшом объёме выборки в математической статистике используют другого типа оценки характеристик генеральной совокупности – интервальные.

Интервальной оценкой числовой характеристики называется интервал[1], который с доверительной вероятностью P (задаваемой заранее) накрывает истинное значение числовой характеристики генеральной совокупности.

Как правило, в научных исследованиях в области физической культуры и спорта считается достаточной доверительная вероятность Р=0,95. В некоторых случаях, связанных с большой ответственностью при принятии решений, принимают P равной 0,99 или 0,999. Таким образом, доверительная вероятность – это уровень гарантии суждения о значениях генеральной характеристики на основании выборочных данных.

Вероятность α=1-Р того, что построенный доверительный интервал не накроет значение генеральной характеристики, называется уровнем значимости; другими словами, α — вероятность ошибки.

В литературе часто обе вероятности α и P выражают в процентах, т.е. 100α% и 100P%.

Для определения доверительного интервала необходимо знать значение параметра t. Он зависит от объема выборки (n) и доверительной вероятности P (таблица 1).

Таблица 1 — Значения t в зависимости от объёма выборки и доверительной вероятности Р.

Покажем на примере, как определить границы 95% доверительного интервала для среднего результата в беге на 100 м (n = 50), если: среднее арифметическое равно 15,38 с, а ошибка среднего арифметического равна 0,13 с.

Из таблицы 1 для n = 50 и P= 0,95 находим значение t. Оно равно t=2,009. Следовательно, доверительный интервал будет следующим: 15,38 — 2,009·0,13

Вспомним первый урок по теме (там же внизу оглавление) и основной метод математической статистики. Он состоит в том, что для изучения генеральной совокупности объёма из неё производится выборка, состоящая из элементов, которая хорошо характеризует всю совокупность (свойство представительности). И на основании исследования этой выборочной совокупности мы с высокой достоверностью можем оценить генеральные характеристики. Чаще всего требуется выявить закон распределения генеральной совокупности (о чём пойдёт речь позже) и оценить его важнейшие числовые параметры, такие как генеральная средняя , генеральная дисперсия и среднее квадратическое отклонение .

Очевидно, что для оценки этих параметров нужно вычислить соответствующие выборочные значения. Так, выборочная средняя позволяет нам оценить генеральную среднюю , причём, оценить её точечно. Почему точечно? Потому что – это отдельно взятое, конкретное значение. Если из той же генеральной совокупности мы будем проводить многократные выборки, то в общем случае у нас будут получаться различные выборочные средние, и каждая из них представляет собой точечную оценку генерального значения .

Аналогично, несмещённой точечной оценкой генеральной дисперсии является исправленная выборочная дисперсия , и соответственно, стандартного отклонения – исправленное стандартное отклонение .

…что-то не понятно / недопонятно в терминах? Срочно изучать предыдущие уроки!

Недостаток точечных оценок состоит в том, что при небольшом объёме выборки (как оно часто бывает), мы можем получать выборочные значения, которые далеки от истины.
И в этих случаях логично потребовать, чтобы выборочная характеристика (средняя, дисперсия или какая-то другая) отличалась от генерального значения не более чем на некоторое положительное значение . А точнее, менее.

Значение называется точностью оценки, и озвученное выше требование можно записать с помощью модуля:

А теперь я раскрою модуль:

и сформулирую суть:

На данном уроке будут рассмотрены:

  • доверительный интервал для… – заголовок параграфа в поле зрения; – быстрая ссылка для опытных читателей.

Доверительный интервал для оценки генеральной средней
нормально распределённой генеральной совокупности

…да-да, пример уже 21-й!

Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением . Найти доверительный интервал для оценки математического ожидания с надежностью 0,95, если выборочная средняя , а объем выборки .

Внимание! Важное замечание: если в задаче указан тип выборки (повторная / бесповторная), то решение будет иметь свои особенности – читайте 10-ю статью об оценках по повторной и бесповторной выборке.

А теперь принципиальный момент непосредственно по задаче:

здесь известно стандартное отклонение генеральной совокупности.

Дело в том, что в похожих задачах оно бывает не известно, и тогда решение будет отличаться!

Но сейчас решение таково, разбираемся в ситуации:

– из генеральной совокупности попугаев проведена выборка в особей и по её результатам найдена выборочная средняя: (средняя масса попугая, например).

Выборочная средняя – это точечная оценка неизвестной нам генеральной средней . Как отмечалось выше, недостаток точечной оценки состоит в том, что она может оказаться далёкой от истины. И по условию, требуется найти интервал , которой с вероятностью накроет истинное значение .

Именно так! Здесь будет неверным сказать, что попадёт в этот интервал.

Решаем. Точность оценки рассчитывается по формуле , где – коэффициент доверия. Этот коэффициент отыскивается из соотношения , где – функция Лапласа.

В данном случае , следовательно:

И по таблице значений функции Лапласа либо пользуясь расчётным макетом (пункт 5*), выясняем, что значению соответствует аргумент .

Таким образом, точность оценки:

и искомый доверительный интервал:

Этот интервал с вероятностью (надёжностью) накрывает истинное генеральное значение среднего веса попугая. Но всё же остаётся 5%-ная вероятность, что генеральная средняя окажется вне найденного интервала.

Ответ: .

И тут возникает светлая мысль уменьшить этот интервал – чтобы получить более точную оценку. Что для этого можно сделать? Давайте посмотрим на формулу .

Очевидно, что чем меньше стандартное отклонение (мера разброса значений), тем короче доверительный интервал. Но это в отдельно взятой задаче ни на что не влияет – ведь нам известно конкретное значение , и изменить его нельзя.

, то есть о том, что этот более узкий интервал накроет генеральную среднюю, мы теперь можем утверждать лишь с вероятностью 68,26%. Что, конечно, неудовлетворительно, для серьёзного статистического исследования.

Поэтому для уменьшения доверительного интервала (при том же значении ) остаётся увеличивать объём выборки . Что совершенно понятно и без формулы , ведь чем больше объём выборки, тем точнее она характеризует генеральную совокупность (при прочих равных условиях). Об объёме мы поговорим на уроке об оценках по повторной и бесповторной выборке, ну а пока продолжаем.

Творческая задача для самостоятельного решения:

По результатам выборочного исследования объектов найдена выборочная средняя .

1) С какой вероятностью можно утверждать, что генеральная средняя отличается от найденного значения менее чем на 3, если известно, что генеральная совокупность распределения нормально с дисперсией 400?

2) Определить доверительный интервал, который с надежностью накроет истинное значение генеральной средней.

Расчётный макет (пункты 5 и 5*) – в помощь. Краткое решение в конце урока.

И тут, наверное, у вас назрели вопросы – а откуда известно, что генеральная совокупность распределена нормально, и тем более, откуда известно её стандартное отклонение?

Обычно эта информация известна из предыдущих исследований. Классический пример – измерительный прибор. Очевидно, что его случайные погрешности удовлетворяют условию теоремы Ляпунова, а значит, распределены нормально. Кроме того, производитель, как правило, тестирует прибор, и указывает в его паспорте стандартное отклонение случайных погрешностей измерений, которое можно принять за .

Но если установить нормальность распределения достаточно просто (в том числе статистическими методами), то с генеральным значением всё сложнее – зачастую вычислить его трудно или невозможно.

В такой ситуации остаётся ориентироваться на исправленное стандартное отклонение , и решение несколько изменится. Ещё одна классическая задача, которая уже встретилась ранее:


В результате 10 независимых измерений некоторой величины , выполненных с одинаковой точностью, полученные опытные данные, которые представлены в таблице:

Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины при помощи доверительного интервала, покрывающего это значение с доверительной вероятностью 0,95.

Не путать со случайными ошибками измерительного прибора! Здесь речь идёт об измерениях и помимо технических, велико влияние других, в частности, человеческого фактора, особенно, если вы используете махрово-аналоговый прибор – что-нибудь вроде механического секундомера или линейки.

Теперь построим доверительный интервал для оценки истинного (генерального) значения величины .

Если генеральное стандартное отклонение не известно

(наш случай), то этот интервал строится по похожей формуле:

, с той поправкой, что коэффициент доверия рассчитывается с помощью распределения Стьюдента. В рамках курса теорвера я не рассказывал об этом распределении, и поэтому ограничусь технической стороной вопроса.

Значение можно найти с помощью таблицы значений распределения Стьюдента, в частности, популярна таблица, специально адаптированная для данной задачи*. И, согласно этой таблице, доверительной вероятности и объёму выборки соответствует коэффициент доверия:

* В стандартной же таблице приводятся значения для так называемого уровня значимости и числа степеней свободы .

Вычислим точность оценки:

Таким образом, искомый доверительный интервал:

– данный интервал с вероятностью накрывает истинное значение измеряемой величины .

Ответ:

Для самостоятельного решения:

На основании испытаний установлено, что в среднем для изготовления шавермы полупроводникового диода требуется секунд, а исправленное среднее квадратическое отклонение составляет секунд. Предположив, что время изготовления диода есть нормальная случайная величина, определить с надежностью доверительный интервал для оценки среднего времени изготовления диода

Краткое решение и ответ в конце урока – расчётный макет (Пункт 10б) – в помощь.

Итак, что главное в разобранных задачах? Главное, обратить внимание, генеральное ли нам дано отклонение или исправленное выборочное . От этого зависит, какую формулу нужно использовать, эту:
, где ,
или эту:
, где отыскивается с помощью распределения Стьюдента.

И быстренько более редкая задача:

Доверительный интервал для оценки
генеральной дисперсии и стандартного отклонения

Этот интервал можно построить несколькими способами, которые я постараюсь уместить буквально в пару экранов. И сейчас последует продолжение той же задачи об измерениях:

По равноточным измерениям найдено исправленное среднее квадратическое отклонение . Предполагая, что результаты измерений распределены нормально, построить доверительный интервал для оценки истинного значения (генерального стандартного отклонения) с надёжностью .

Обратите внимание, что для решения этой задачи нам не обязательно знать выборочную среднюю (хотя в Примере 23 мы её нашли).

Данный интервал с вероятностью (надёжностью) накрывает истинное значение . И если из всех частей неравенства извлечь корни, то получим соответствующий интервал для оценки генерального стандартного отклонения:

Значения известны, и осталось разобраться с нижним этажом. Во-первых, вычислим:

и теперь, по таблице критических значений распределения или с помощью расчётного макета (Пункт 11б) находим:

Способ второй. Другой, более простой подход состоит в построении симметричного интервала по формуле:
, где значение отыскивается по соответствующей таблице.

Согласно таблице, доверительной вероятности и объёму соответствует значение , таким образом:

В результате мы получили примерно такой же по размаху интервал. Для малых выборок может даже получиться , в таких случаях принимают ещё более грубую интервальную оценку:

Ответ: 1) , 2) .

Как и для распределения Стьюдента, при увеличении распределение хи-квадрат стремится к нормальному, и уже при можно использовать приближенную формулу:
, где коэффициент доверия определяется из знакомого лапласовского соотношения .

Точнее завершаю, и ради исследовательского интереса предлагаю продолжить вам – экзаменационный Пример 20:

В результате обработки экспериментальных данных объёма мы получили следующие выборочные характеристики: .

В предположении о нормальном распределении генеральной совокупности, с надёжностью определить доверительные интервалы:

1) для оценки неизвестной генеральной средней ;

2) для оценки генерального среднего квадратического отклонения двумя способами – с помощью распределения хи-квадрат: и приближённо, по формуле , где .

Краткое решение и примерный образец оформления в конце урока, который подошёл к концу. В следующей небольшой статье я разберу частную, но весьма популярную задачку по этой же теме – Оценка вероятности биномиального распределения, ну а если вам не терпится, то сразу к послеследующей статье.

До скорых встреч!

Решения и ответы:

Пример 22. Решение:

1) По условию, точность оценки равна и дисперсия .
Из формулы найдём коэффициент доверия:

Вычислим соответствующую доверительную вероятность:
– таким образом, с вероятностью 86,64% можно утверждать, что генеральная средняя отличается от менее чем на (т.е. находится в доверительном интервале от 90 до 96)

2) Для доверительной вероятности :
– этому значению функции Лапласа соответствует аргумент: .
Вычислим точность оценки:

Определим доверительный интервал:

– данный интервал с вероятностью 99% накрывает истинное значение .

Пример 24. Решение: доверительный интервал для оценки истинного значения измеряемой величины имеет вид:

Для заданного уровня доверительной вероятности и количества степеней свободы по таблице распределения Стьюдента находим: .

Вычислим точность оценки:
сек.

Таким образом, искомый доверительный интервал:

– данный интервал с вероятностью 99,9% накрывает истинное значение среднего времени изготовления одного диода.

Пример 26. Решение: вычислим исправленное среднеквадратическое отклонение:

1) Определим доверительный интервал , где .
Для уровня доверительной вероятности и объёма выборки по соответствующей таблице найдём .
Вычислим точность оценки:

Таким образом:

– с вероятностью данный интервал накроет генеральное среднее значение .

2) Найдём доверительный интервал для генерального стандартного отклонения .

а) С помощью распределения :

Вычислим и с помощью соответствующей функции Экселя (Пункт 11б) найдём:

Таким образом:

– искомый интервал, накрывающий генеральное значение с вероятностью .

б) Дадим интервальную оценку приближенно, с помощью формулы:

Коэффициент доверия найдём из соотношения . В данном случае:
, и с помощью таблицы или расчётного макета (Пункт 5*), выясняем, что .
Таким образом:

– искомый интервал.

Ответ:
1) ,
2) с помощью распределения и приближённо.

Автор: Емелин Александр

(Переход на главную страницу)

cкидкa 15% на первый зaкaз, при оформлении введите прoмoкoд: 5530-hihi5

Характеристики генеральной совокупности обычно неизвестны. Задача заключается в их оценке по характеристикам выборочной совокупности.

Характеристики генеральной совокупности принято называть параметрами, а выборочной совокупности – оценками.

Пусть искомый параметр генеральной совокупности есть q0, а на основе выборки объема n определяется оценка q.

Различают точечные и интервальные оценки параметров генеральной совокупности.

Точечные оценки.

Точечной оценкой q параметра q0 называется числовое значение этого параметра, полученное по выборке,т.е.q0 ≈q.

Для того чтобы выборочная оценка давала хорошее приближение оцениваемого параметра, она должна удовлетворять определенным требованиям (несмещенности, эффективности и состоятельности).

1. Несмещенность оценок. Оценка q является несмещенной, если её математическое ожидание равно оцениваемому параметру q0 при любом объеме выборки, т.е. M(q) = q0.Если это не так, то оценка называется смещенной.

Требование несмещенности гарантирует отсутствие систематических ошибок при оценивании.

Выборочная средняя является несмещеннойоценкой генеральной средней , т.е. M( ) = .

Выборочная дисперсия σ 2 является смещенной оценкой генеральной дисперсии , т.е. M(σ 2 ) ≠ .

В качестве несмещенной оценки генеральной дисперсии используется величина (исправленная дисперсия):

2. Эффективность оценок. Несмещенная оценка q называется эффективной, если она имеет минимальную дисперсию по сравнению с другими выборочными оценками, т.е. minσ 2 (q).

Выборочная средняя является эффективной оценкой генеральной средней , т.е. имеет наименьшую дисперсию в классе несмещенных оценок.

3. Состоятельность оценок. Оценка q называется состоятельной, если при она стремится по вероятности к оцениваемому параметру q0, т.е.

Иначе говоря,состоятельной называется такая оценка, которая дает точное значение для большой выборки независимо от входящих в нее конкретных наблюдений.

Выборочная средняя является состоятельной оценкой генеральной средней

Теорема. Выборочные , wявляются несмещенными, эффективными и состоятельными оценками генеральных , р.

В теории вероятности было показано, что , .

Величины , называются средними ошибками выборки.

Если при определении неизвестна генеральная дисперсия , то ее заменяют выборочной дисперсией σ 2 , а при определении , когда неизвестна генеральная доля р, ее заменяют выборочной долей w.

Сведем рассмотренные формулы в таблицу.

Параметр Оценка Средняя ошибка выборки
Р

Точечная оценка параметров , ресть: ≈ , р ≈ w.

Пример.Выборочно обследовали партию кирпича, поступивших на стройку. Из 100 проб в 12 случаях кирпич оказался бракованным. Найти оценку w доли бракованного кирпича и среднюю ошибку выборки σw.

▼ По условию n = 100, m = 12, тогда

Пример. Из партии деталей отобрано 200, распределение которых по размеру задано в таблице. Найти выборочную среднюю и среднюю ошибку выборки .

▼ Исходные данные и расчетные показатели представим в расчетной таблице

Исходные данные Расчетные показатели
Интервалы Частоты, середина,
6 – 8 8 – 10 10 – 12 12 – 14 14 – 16
Итого
Среднее 10,7 118,6

Интервальные оценки.

Пусть выборочная характеристика q служит оценкой неизвестного параметра q0. Наряду с точечными оценками параметров (в виде одного числа) рассматривают интервальные оценки (в виде двух чисел – концов интервала).

Интервальной называют оценку, определяющую числовой интервал

(q – Δ ; q + Δ), Δ > 0, содержащий оцениваемый параметр q0, т.е.

Часть 3. Методы прикладной статистики

3.1.1. Оценивание основных характеристик распределения

Одна из основных задач прикладной статистики – оценивание по выборочным данным характеристик генеральной совокупности, таких, как математическое ожидание, медиана, дисперсия, среднее квадратическое отклонение, коэффициент вариации. Точечные оценки строятся очевидным образом – используют выборочные аналоги теоретических характеристик. Для получения интервальных оценок приходится использовать асимптотическую нормальность выборочных моментов и функций от них.

Пусть исходные данные – это выборка x1, x2, … , xn , где n – объем выборки. Выборочные значения x1, x2, … , xn рассматриваются как реализации независимых одинаково распределенных случайных величин X1, X2, … , Xn с общей функцией распределения F(x) = P (Xi = < (X1 – ) 2 + (X2 – ) 2 +… + (X n – ) 2 > / (n-1)

и некоторые другие выборочные характеристики, которые мы введем позже.

Точечное и интервальное оценивание математического ожидания. Точечной оценкой для математического ожидания в силу закона больших чисел является выборочное среднее арифметическое . В некоторых случаях могут быть использованы и другие оценки. Например, если известно, что распределение симметрично относительно своего центра, то центр распределения является не только математическим ожиданием, но и медианой, а потому для его оценки можно использовать выборочную медиану.

Нижняя доверительная граница для математического ожидания имеет вид

– U(p) s0 / n 1/2 ,

– выборочное среднее арифметическое,

p – доверительная вероятность (истинное значение математического ожидания находится между нижней доверительной границей и верхней доверительной границей с вероятностью, равной доверительной);

U(p) – число, заданное равенством Ф(U(p)) = (1+ p)/2, где Ф(х) – функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Например, при p = 95% (т.е. при р = 0,95) имеем U(p) = 1,96. Функция U(p)имеется в большинстве литературных источников по теории вероятностей и математической статистике (см., например, [1]);

s0 – выборочное среднее квадратическое отклонение (квадратный корень из описанной выше выборочной дисперсии).

Верхняя доверительная граница для математического ожидания имеет вид

+ U(p) s0/ n 1/2 .

Выражения для верхней и нижней доверительных границ получены с помощью Центральной Предельной Теоремы теории вероятностей, теоремы о наследовании сходимости и других результатов главы 1.4. Они являются асимптотическими, т.е. становятся тем точнее, чем больше объем выборки. В частности, вероятность попадания истинного значения математического ожидания между нижней и верхней доверительными границами асимптотически приближается к доверительной вероятности, но, вообще говоря, может отличаться от нее. Это – недостатки непараметрического подхода. Достоинством же является то, что его можно применять всегда, когда случайная величина имеет математическое ожидание и дисперсию, что в силу финитности (ограниченности шкал) имеет быть практически всегда в реальных ситуациях.

Интересно сопоставить с параметрическим подходом. Обычно в таких случаях предполагают нормальность результатов наблюдений (которой, как уже было обосновано в главе 2.1, практически никогда нет). Тогда формулы для нижней и верхней доверительных границ для математического ожидания имеют похожий вид, только вместо U(p) стоят квантили распределения Стьюдента (а не нормального распределения, как в приведенных выше формулах), соответствующие объему выборки. Как известно, при росте объема выборки квантили распределения Стьюдента сходятся к соответствующим квантилям стандартного нормального распределения, так что при больших объемах выборок оба подхода дают близкие результаты. Отметим, что классические доверительные интервалы несколько длиннее, поскольку квантили распределения Стьюдента больше квантилей стандартного нормального распределения, хотя это различие, на наш взгляд, и невелико.

Пример 1. Рассмотрим данные о наработке резцов до отказа (раздел 2.2.1, табл.2). Для них выборочное среднее арифметическое = 57,88 (это и есть точечная оценка для математического ожидания), выборочная дисперсия = 663,00, объем выборки n = 50. Следовательно, выборочное среднее квадратическое отклонение s0 = и согласно приведенным выше формулам при доверительной вероятности р = 0,95 нижняя доверительная граница для математического ожидания такова:

57,88 – 1,96 × 25,75 / = 57,88 – 7,14 = 50,74,

а верхняя доверительная граница есть 57,88 + 7,14 = 65,02.

Если заранее известно, что результаты наблюдения имеют нормальное распределение, то нижняя и верхняя доверительная границы для математического ожидания определяются по формулам

- t(p, n-1) s0 / , + t(p, n-1) s0 /

соответственно. Эти формулы отличаются от предыдущих тем, что квантиль нормального распределения U(p) заменен на аналогичный квантиль распределения Стьюдента с (n – 1) степенью свободы. Другими словами, t(p, n-1) – это число, заданное равенством STn-1(p) = = (1+ p)/2, где STn-1(х) – функция распределения Стьюдента с (n – 1) степенью свободы.

Для доверительной вероятности р = 0,95 при объеме выборки n = 50 согласно [1] имеем t(p, n-1) = 2,0096. Следовательно, нижняя доверительная граница для математического ожидания такова:

57,88 – 2,0096 × 25,75 / = 57,88 – 7,32 = 50,56,

а верхняя доверительная граница есть 57,88 + 7,32 = 65,20. Таким образом, длина доверительного интервала увеличилась с 14,28 до 14,64, т.е. на 2,5%.

Отметим, что рассматриваемые данные согласуются с гамма-распределением (см. раздел 2.3.1), а не с нормальным распределением, поэтому использование распределения Стьюдента для получения доверительных границ явно некорректно.

Иногда рекомендуют сначала проверить нормальность результатов наблюдений, а потом, в случае принятия гипотезы нормальности, рассчитывать доверительные границы с использованием квантилей распределения Стьюдента. Однако проверка нормальности - более сложная статистическая процедура, чем оценивание математического ожидания. Кроме того, применение одной статистической процедуры, как правило, нарушает предпосылки следующей процедуры, в частности, независимость результатов наблюдений (см. раздел 2.3.5). Поэтому цепочка статистических процедур, следующих друг за другом, как правило, образует статистическую технологию, свойства которой неизвестны на современном уровне развития прикладной статистики.

Из сказанного вытекает, что только непараметрическую статистическую процедуру, основанную на асимптотических результатах главы 1.4, следует применять для анализа реальных данных. Как правило, встречающиеся на практике распределения не являются нормальными (см. раздел 2.1.1), а потому применение квантилей распределения Стьюдента неправомерно.

Точечное и интервальное оценивание медианы. Точечной оценкой для медианы является выборочная медиана.

Пример 2. Для данных о наработке резцов до отказа объем выборки – четное число, поэтому выборочной медианой является полусумма 25-го и 26-го членов вариационного ряда, т.е. (56 + 56,5)/2 = 56,25.

Чтобы построить доверительные границы для медианы, по доверительной вероятности р находят U(p), как разъяснено выше. Затем вычисляют натуральное число

С(р) = [n/2 – U(p)n 1/2 /2],

где [.] – знак целой части числа. Нижняя доверительная граница для медианы имеет вид

где Х(i) – член вариационного ряда с номером i, построенного по исходной выборке (т.е. i-я порядковая статистика). Верхняя доверительная граница для медианы имеет вид

Теоретическое основание для приведенных доверительных границ содержится в литературе по порядковым статистикам (см., например, монографию [2, с.68]).

Пример 3. Для данных о наработке резцов до отказа n = 50. Рассмотрим как обычно, доверительную вероятность р = 0,95. Тогда

С(р) = [50/2 – 1,96 /2]= [18,07] = 18.

Следовательно, нижней доверительной границей является Х(18) = 47,5, а верхней доверительной границей Х(50 + 1 - 18) = Х(33) = 61,5.

Поскольку в случае нормального распределения медиана совпадает с математическим ожиданием, то каких-либо специальных способов ее оценивания в классическом случае нет.

Точечное и интервальное оценивание дисперсии. Точечной оценкой дисперсии является выборочная дисперсия . Эта оценка является несмещенной и состоятельной. Доверительные границы находятся с помощью величины

d 2 = (m 4 - ((n 1) /n ) 4 ) / n ,

где m 4 - выборочный четвертый центральный момент, т.е.

Нижняя доверительная граница для дисперсии случайной величины имеет вид

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и раньше),

d – положительный квадратный корень из величины d 2 , введенной выше.

Верхняя доверительная граница для дисперсии случайной величины имеет вид

где все составляющие имеют тот же смысл, что и выше.

При выводе приведенных соотношений используется асимптотическая нормальность выборочной дисперсии, установленная, например, в учебнике по математической статистике [3, с.419]. Соответственно доверительный интервал является непараметрическим и асимптотическим. В классическом случае точечная оценка имеет тот же вид, а вот доверительные границы находят с помощью квантилей распределения хи-квадрат с числом степеней свободы, на 1 меньшим объема выборки. Отметим, что в случае нормального распределения четвертый момент в 3 раза больше квадрата дисперсии, а потому можно оценить d 2 как (2 ) / n . Это дает быстрый способ для интервальной оценки дисперсии в нормальном случае.

Пример 4. Для данных о наработке резцов до отказа объем выборки n = 50, выборочная дисперсия = 663,00, четвертый выборочный момент m4 = 1702050,71. Поэтому

d 2 = (1702050,71- ((50 1) /50 ) 4 663,00 2 ) /50 = 25932,13.

Тогда d = 161,03. Для доверительной вероятности р =0,95 нижняя доверительная граница для дисперсии случайной величины такова:

663,00 – 1,96×161,03 = 663,00 – 315,63 = 347,37,

а верхняя доверительная граница для дисперсии есть 663,00 + 315,63 = 978,63.

Пример 5. В случае нормального распределения с целью быстрого получения доверительного интервала величина d 2 оценивается как

(2 ) / n = (2 × 663,00 2 ) / 50 = 17582,76,

а потому d = 132,6. Для доверительной вероятности р =0,95 нижняя доверительная граница для дисперсии заменяется на

663,00 – 1,96×132,6= 663,00 – 259,90 = 403,10,

а верхняя доверительная граница – на 663,00 + 259,90 = 922,9.

Пример 6. В классическом случае нормального распределения исходят из того, что величина (n – 1) /σ 2 имеет распределение хи-квадрат с (n – 1) степенью свободы. Для доверительной вероятности р =0,95 следует рассмотреть неравенство

31,555 2 2 / (4 ).

Нижняя доверительная граница для среднего квадратического отклонения исходной случайной величины имеет вид

- U(p)d / (2 s0) ,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и раньше),

d – положительный квадратный корень из величины d 2 , введенной выше при оценивании дисперсии.

Верхняя доверительная граница для среднего квадратического отклонения исходной случайной величины имеет вид

где все составляющие имеют тот же смысл, что и выше.

Пример 7. Для данных о наработке резцов до отказа точечной оценкой для среднего квадратического отклонения является . При доверительной вероятности р = 0,95 нижняя доверительная граница такова:

25,75 – 1,96×161,03 / (2×25,75) = 25,75 – 6,13 = 19,62.

Соответственно верхняя доверительная граница симметрична нижней относительно точечной оценки и равна = 25,75 + 6,13 = 31,88.

Правила интервального оценивания для среднего квадратического отклонения получены из аналогичных правил для оценивания дисперсии с помощью метода линеаризации (см. главу 1.4 или, например, [4, п.2.4]). Как и раньше, доверительный интервал является симметричным, непараметрическим и асимптотическим.

Поскольку среднее квадратическое отклонение – это квадратный корень их дисперсии, то доверительные границы можно получить, извлекая квадратные корни из одноименных границ для дисперсии.

Пример 8. Для данных о наработке резцов до отказа при доверительной вероятности р = 0,95 согласно примеру 4 доверительный интервал для дисперсии – это [347,37; 978,63]. Извлекая квадратные корни, получаем доверительный интервал [18,64; 31,28] для среднего квадратического отклонения, соответствующий тому же значению доверительной вероятности. Он не является симметричным относительно точечной оценки. Его длина 12,64 несколько больше длины симметричного доверительного интервала 12,26 в примере 7.

Классический подход, основанный на гипотезе нормальности распределения результатов наблюдения, связан с использованием распределения хи-квадрат и сводится к извлечению квадратных корней из доверительных границ для дисперсии.

Пример 9. Применяя формально классический подход к данным о наработке резцов до отказа, исходим из доверительного интервала для дисперсии [462,63; 1029,54], соответствующего доверительной вероятности р = 0,95. Извлекая квадратные корни, находим доверительный интервал для среднего квадратического отклонения [21,51; 32,09]. Как и следовало ожидать, длина этого несимметричного интервала 10,58 меньше длины непараметрического доверительного интервала.

Точечное и интервальное оценивание коэффициента вариации. Коэффициент вариации V = σ / М(Х) широко используется при анализе конкретных технических, экономических, социологических, медицинских и иных данных (поскольку они, как правило, положительны), но не очень популярен среди теоретиков в области математической статистики. Точечной оценкой теоретического коэффициента вариации V является выборочный коэффициент вариации

Дисперсия выборочный коэффициент вариации состоятельно оценивается с помощью вспомогательной величины

D 2 = (Vn 4 - Vn 2 / 4 + m 4 / (4 2 ) - m 3 / 3 ) / n ,

– выборочное среднее арифметическое,

m 3 - выборочный третий центральный момент, т.е.

m 3 = < (X1 ) 3 + (X2 ) 3 +… + (X n ) 3 > / n ,

m 4 - выборочный четвертый центральный момент (см. выше),

Vn – выборочный коэффициент вариации,

n - объем выборки.

Нижняя доверительная граница для (теоретического) коэффициента вариации исходной случайной величины имеет вид

Vn – выборочный коэффициент вариации,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и ранее),

D – положительный квадратный корень из величины D 2 , введенной выше.

Верхняя доверительная граница для (теоретического) коэффициента вариации исходной случайной величины имеет вид

где все составляющие имеют тот же смысл, что и выше.

Как и в предыдущих случаях, доверительный интервал является непараметрическим и асимптотическим. Он получен в результате применения специальной технологии вывода асимптотических соотношений прикладной статистики (см. главу 1.4). Напомним, что эта технология в качестве первого шага использует многомерную центральную предельную теорему, примененную к сумме векторов, координаты которых – степени исходных случайных величин. Второй шаг – преобразование предельного многомерного нормального вектора с целью получения интересующего исследователя вектора. При этом используются соображения линеаризации и отбрасываются бесконечно малые величины. Третий шаг – строгое обоснование полученных результатов на стандартном для асимптотических математико-статистических рассуждений уровне. При этом обычно приходится использовать необходимые и достаточные условия наследования сходимости, полученные в монографии [4, п.2.4]. Именно таким образом были получены приведенные выше результаты для выборочного коэффициента вариации. Формулы оказались существенно более сложными, чем в предыдущих случаях. Это объясняется тем, что выборочный коэффициент вариации - функция двух выборочных моментов, а ранее рассматривались либо выборочные моменты поодиночке, либо функция от одного выборочного момента - выборочной дисперсии.

Пример 10. Для данных о наработке резцов до отказа выборочное среднее арифметическое = 57,88, выборочная дисперсия = 663,00, выборочное среднее квадратическое отклонение = 25,75, выборочный третий центральный момент m3 = 14927,91, выборочный четвертый центральный момент m4 = 1702050,71. Следовательно, выборочный коэффициент вариации таков:

Vn = 25,75 / 57,88 = 0,4449.

Рассчитаем значение вспомогательной величины

D 2 = ((0,4449) 4 – (0,4449) 2 / 4 + 1702050,71 / (4×663,00×(57,88) 2 ) - 14927,91 / (57,88) 3 ) / 50 = (0,0392 – 0,0495 + 0,1916 – 0,0770)\50 = 0,1043/50 = 0,002086.

Следовательно, D = 0,04567. При доверительной вероятности р = 0,95 нижняя доверительная граница для теоретического коэффициента вариации имеет вид

0,4449 – 1,96×0,04567 = 0,4449 – 0,0895 = 0,3554,

а верхняя доверительная граница такова:

0,4449 + 0,0895 = 0,5344.

Среди классических результатов математической статистики, основанных на гипотезе нормальности результатов наблюдений, нет методов построения доверительных границ для коэффициента вариации, поскольку задача построения таких границ не выражается в терминах обычно используемых распределений, например, распределений Стьюдента и хи-квадрат.

Примеры применения доверительных границ для коэффициентов вариации при решении прикладных задач приведены, например, в работе [5], посвященной анализу технических характеристик и показателей качества.

Читайте также: