Оценка существенности расхождения выборочных средних реферат по статистике

Обновлено: 05.07.2024

Изучение статистических совокупностей, состоящих из множеств единиц, связано с большими трудовыми и материальными затратами.
С давних пор представлялось заманчивым не изучать все единицы совокупности, а отобрать лишь некоторую часть, по которой можно было бы судить о свойствах всей совокупности в целом.

Содержание

Введение…………………………………………………………………………..3
1.Теоретические аспекты статистического наблюдения……………………. 5
1.1.Понятие и значение выборочного наблюдения………………………….5
1.2.Виды отбора при выборочном наблюдении……………………………….
1.3.Ошибки выборочного отбора……………………………………………..
2.Способы отбора, обеспечивающие репрезентативность………………….
2.1.Определение и оценка существенности расхождения выборочных средних………. …………………………………………………………………………
2.2.Малые выборки………………………………………………………………
Заключение……………………………………………………………………….
Список использованных источников………………………………………….

Прикрепленные файлы: 1 файл

курсовая по статистике.docx

Если n достаточно велико, то близко к единице и дисперсию в генеральной совокупности можно заменить на дисперсию в выборке.

Средняя ошибка выборочной доли определяется по формуле

где – дисперсия выборочной доли.

Для показателя доли альтернативного признака (выборочной доли) дисперсия определяется по формуле

Приведенная формула средней ошибки выборочной доли применяется при повторном отборе.

При бесповторном отборе численность генеральной совокупности сокращается, поэтому дисперсия умножается на коэффициент Формулы расчета средних ошибок выборочной доли для различных способов отбора единиц из генеральной совокупности приведены в табл. 2.

Таблица 1.2

Формулы расчета средних ошибок выборочной доли и выборочной средней8:

Механический и собственно–случайный повторный

Серийный при б бесповторном отборе с серий

Типический при повторном отборе случайных групп

Типический при бесповторном случайном отборе внутри групп

где N – численность генеральной совокупности;

– межсерийная дисперсия выборочной доли;

r – число отобранных серий;

R – число серий в генеральной совокупности;

– средняя из групповых дисперсий выборочной доли;

– дисперсия признака x;

– межсерийная дисперсия выборочных средних;

– средняя из групповых дисперсий выборочной средней.

Дисперсии в формулах расчета средних ошибок выборочной доли в табл.1.2 определяется следующим образом:

– межсерийная дисперсия выборочной доли

где wj – выборочная доля в j -й серии;

– средняя величина доли во всех сериях;

– средняя из групповых дисперсий

где wj – выборочная доля в j -й типической группе;

nj – число единиц в j -й типической группе;

k – число типических групп.

Предельное значение ошибки выборочной доли определяется по следующей формуле:

Величина средней ошибки выборочной доли зависит от доли изучаемого признака в генеральной совокупности, числа наблюдений и способа отбора единиц из генеральной совокупности для наблюдения, а величина предельной ошибки зависит еще и от величины вероятности , с которой гарантируются результаты выборочного наблюдения.

Распространение выборочных данных на генеральную совокупность производится с учетом доверительных интервалов. Доля альтернативного признака в генеральной совокупности равна

Ошибка выборочной средней

Ошибка выборочной средней представляет собой расхождение (разность) между выборочной средней и генеральной средней , возникающее вследствие не сплошного выборочного характера наблюдения9. Величина ошибки выборочной средней определяется как предел отклонения от , гарантируемый с заданной вероятностью:

где – средняя ошибка выборочной средней.

При повторном отборе средняя ошибка определяется следующим образом:

где – средняя величина дисперсии количественного признака , которая рассчитывается по формуле средней арифметической невзвешенной

или средней арифметической взвешенной

где fi – статистический вес.

Формулы расчета средней ошибки выборочной средней для различных способов отбора выборочной совокупности приведены в табл.1.2.

Межсерийная дисперсия выборочных средних и средняя из выборочных дисперсий типических групп вычисляются следующим образом:

где – среднее значение показателя в j - й серии;

– дисперсия признака x в j - й типической группе;

nj – число единиц в j - й типической группе.

Предельная ошибка выражается следующим образом:

и зависит от вариации изучаемого признака в генеральной совокупности, объема и доли выборки, способа отбора единиц из генеральной совокупности и от величины вероятности, с которой гарантируются результаты выборочного наблюдения.

Средняя величина количественного признака в генеральной совокупности определяется с учетом предельной ошибки выборочной средней

2.Способы отбора, обеспечивающие репрезентативность

2.1.Определение и оценка существенности расхождения выборочных средних

К расчетам ошибок случайной выборки прибегают не только для того, чтобы оценить степень репрезентативности выборочных данных, но и для того, чтобы сравнить между собой средние величины данного признака по двум совокупностям.

Известно, например, что средний расход сырья на единицу продукции при существующем методе производства составляет 2,8 условных единиц. После внесения изменений в существующую технологию изготовления продукции по результатам проверки достаточно большой партии изделий средний расход сырья на единицу продукции составил 2,6 условные единицы. Средняя ошибка выборки оказалась равной 0,1. Возникает вопрос, действительно ли применение нового метода обработки приводит к снижению материалоемкости продукции?

Нулевая гипотеза состоит в том, что между новым и существующим методами производства изделий отсутствуют существенные различия с точки зрения влияния их на материалоемкость, т.е. что между генеральными средними при старом и новом методах производства нет существенной разницы, а отклонение выборочной средней от достигнутого уровня при существующем методе обусловлено только случайностями выборки, т.е. означает, что , где и - средний расход сырья на единицу продукции соответственно при существующем и новом методах производства.

Альтернативная гипотеза может быть сформулирована двояко:

1. Применение нового метода обработки приводит к изменению расхода сырья на единицу продукции, т.е. состоит в том, что . Примем уровень значимости равным 0,05, тогда и критическая область соответственно задается неравенством . По таблицам интегральной функции Лапласа определяем коэффициент доверия t=1,96. Таким образом, величина предельного расхождения двух средних с вероятностью, равной 0,95, не должна превышать . Следовательно, с вероятностью 0,95 доверительные пределы для генеральной средней при новом методе будут равны .

Средний расход материала при применении новой технологии составляет 2,6, т.е. попадает в критическую область. Следовательно, данные наблюдения не являются совместимыми с выдвинутой гипотезой о том, что между новым и существующим методами производства изделий отсутствуют существенные различия с точки зрения влияния их на материалоемкость.

2. Применение нового метода обработки приводит к снижению расхода сырья на единицу продукции. В этом случае рассматривается область больших отрицательных отклонений. В данном варианте критическая область определяется неравенством. Нулевая гипотеза не будет опровергаться, если средний расход материала на единицу продукции будет больше величины. Так как по новой технологии расход сырья составляет 2,6 условных единиц, то с вероятностью 0,995 можно считать, что нулевая гипотеза должна быть отвергнута и что, следовательно, применение новой технологии приводит к снижению расхода сырья на изготовление продукции.

2.2.Малые выборки

Малые выборки - статистические выборки столь малого объёма n, что к ним нельзя применить простые классические формулы, действующие лишь асимптотически при n → ∞. Особенности статистической оценки параметров по М. в. легче всего понять на примере нормального распределения (для которого малыми обычно считают выборки объёма n ≤ 30). Пусть необходимо оценить неизвестное среднее значение a выборкиx1, x2, . xn из нормальной совокупности с неизвестной дисперсией σ2. Обозначим

Исходным пунктом при оценке a служит то обстоятельство, что распределение вероятностей величины

не зависит от а и σ.

Вероятность ω неравенства — tω определения tω при небольших n, что приводит к грубым ошибкам. Так, для ω = 0,99 по формуле находим t0,99 = 2,58; истинные значения t0,99 для малых n приведены в следующей таблице:

| n | 2 | 3 | 4 | 5 | 10 | 20 | 30 |

| t0,99 | 63,66 | 9,92 | 5,84 | 4,60 | 3,25 | 2,86 | 2,76 |

Если пользоваться формулой (3) при n = 5, то получится вывод, что неравенство

выполняется с вероятностью 0,99. В действительности в случае пяти наблюдений вероятность этого неравенства равна лишь 0,94, а вероятностью 0,99 обладает в соответствии с приведённой таблицей неравенство

надежность коэффициента корреляции в генеральной совокупности.

Для определения пределов колебаний коэффициента корреляции

рассчитывается предельная ошибка коэффициента корреляции (на основе

средней ошибки и коэффициента доверия).

Рассчитаем среднюю ошибку коэффициента корреляции:

где R – коэффициент корреляции;

n – объем совокупности;

k – число параметров уравнения регрессии (a и b) k = 2;

n – k – число степеней свободы вариации.

Рассчитаем предельную ошибку коэффициента корреляции:

= mt× R . При уровне вероятности P = 0,954 коэффициент доверия t=2:

Полученная ошибка коэффициента корреляции позволяет утверждать,

что с вероятностью 0,954 коэффициент корреляции в генеральной

совокупности будет находиться в пределах:

= 34,0713,0 ± С целью установления статистической надежности коэффициента

корреляции принимается нулевая гипотеза о том, что в генеральной

совокупности зависимость между факторами отсутствует. Для этого

рассчитывается t-критерий Стьюдента:

Далее следует установить теоретическое (табличное) значение t-

критерия, которое определяется при уровне значимости 0,05 (на основе

заданной вероятности 0,95) и числе степеней свободы вариации (n - k).

〉 т – нулевая гипотеза об отсутствии связи между факторами

отвергается. Коэффициент корреляции является статистически надежным и с

вероятностью 0,954 можно утверждать, что в генеральной совокупности он

будет находиться в пределах

= в ∆± R (в нашем примере R г

≤ т – нулевая гипотеза об отсутствии связи между факторами

принимается. Коэффициент корреляции является статистически ненадежным.

Это означает, что в выборочной совокупности связь существует, но

полученные параметры не могут распространяться на генеральную

МНОЖЕСТВЕННАЯ КОРРЕЛЯЦИЯ

Множественная (многофакторная) корреляция позволяет изучить

Выборочное наблюдение – это такой вид несплошного наблюдения, при котором характеристика всей генеральной совокупности дается по некоторой ее части (по выборке), отобранной в случайном порядке.

По сравнению со сплошным выборочное наблюдение имеет ряд преимуществ.

Оно оперативнее сплошного, так как значительно сокращает сроки проведения работ. Дает большую экономию, так как сокращает объем работы. Например, при обследовании 10% общего числа единиц совокупности объем работ сокращается примерно в 10 раз, при обследовании 5% - в 20 раз и т.д. В связи с этим появляется возможность расширить программу выборочного наблюдения по сравнению со сплошным, т.е. собирать более подробные данные по большому количеству показателей, а отсюда – детально и всесторонне характеризовать изучаемую совокупность.

Обращение к выборкам обеспечивает экономию материальных, трудовых и финансовых ресурсов и времени. Например, для составления баланса, денежных доходов и расходов населения, для изучения денежного обращения, выявления дифференциации населения по уровню жизни, определения черты бедности и т.д. необходимы данные о бюджетах семей и одиночек. Сбор этих данных осуществляется государственной статистикой, но один статистик в состоянии курировать ежедневные записи доходов, расходов, потребления не более чем в 20-25 домохозяйствах. Если бы решили собирать данные о бюджетах всех домохозяйств, то только для этой цели (не учитывая потребности последующей обработки) потребовалось примерно два миллиона статистиков. Так что использование выборочного наблюдения является единственным экономически выгодным решением этой проблемы, тем более что по результатам изучения сравнительно небольшой части (0,1% всех домохозяйств) можно получить с достаточно высокой степенью точности данные о всей совокупности.

Подобная ситуация возникает и при аудиторских проверках фирм, когда вместо детального изучения каждого платежного документа ограничиваются анализом выборки документов, и в других областях применения статистики.

Результаты выборочного наблюдения иногда точнее результатов сплошного, так как для его проведения можно подобрать более квалифицированных исполнителей, лучше их подготовить, легче организовать контроль материалов. Это повышает качество работы, точность и достоверность статистических данных, так как при хорошей организации выборочного наблюдения ошибки репрезентативности могут быть меньше ошибок регистрации при сплошном наблюдении. Поэтому выборочное наблюдение иногда используется для контроля и уточнения результатов сплошного наблюдения.

Выборочное наблюдение применяется при невозможности провести сплошное наблюдение из-за большого объема работ (например, при проверке качества деталей, изделий, которые выпускаются десятками и сотнями миллионов единиц), или когда это связано с уничтожением, приведением в негодность обследуемых единиц совокупности (например, при испытании электролампочек на длительность горения, крепости нити на разрыв, семян на всхожесть и т. д.)

Выборочное наблюдение организуется так же, как и сплошное наблюдение. Кроме того, для производства выборочного наблюдения необходимо решить следующие задачи: определить, какая часть совокупности подлежит выборочному наблюдению; установить, как произвести отбор части совокупности; произвести отбор; определить, как на основе результатов выборочного наблюдения получить необходимые характеристики всей совокупности (распространить результаты выборки на генеральную совокупность).

Преимущества выборочного наблюдения по сравнению со сплошным возможно обеспечить, если это выборочное наблюдение организовано и проведено в строгом соответствии с научными принципами теории выборочного метода. Такими принципами являются: обеспечение случайности отбора единиц и достаточного их числа.

Первый принцип отбора – обеспечение случайности – заключается в том, что при отборе каждой из единиц изучаемой совокупности обеспечивается равная возможность попасть в выборку. Случайный отбор – это не беспорядочный отбор.

Второй принцип отбора – обеспечение достаточного числа отобранных единиц (о нем будем говорить позднее).

Соблюдение этих принципов позволяет получить такую совокупность единиц, которая по интересующим исследователя признакам представляет всю изучаемую совокупность, т. е. является репрезентативной (представительной).

В статистической практике общепринятыми являются следующие обозначения характеристик генеральной и выборочной совокупностей.

К расчетам ошибок случайной выборки прибегают не только для того, чтобы оценить степень репрезентативности выборочных данных, но и для того, чтобы сравнить между собой средние величины данного признака по двум совокупностям.

Известно, например, что средний расход сырья на единицу продукции при существующем методе производства составляет 2,8 условных единиц. После внесения изменений в существующую технологию изготовления продукции по результатам проверки достаточно большой партии изделий средний расход сырья на единицу продукции составил 2,6 условные единицы. Средняя ошибка выборки оказалась равной 0,1. Возникает вопрос, действительно ли применение нового метода обработки приводит к снижению материалоемкости продукции?

Нулевая гипотеза состоит в том, что между новым и существующим методами производства изделий отсутствуют существенные различия с точки зрения влияния их на материалоемкость, т.е. что между генеральными средними при старом и новом методах производства нет существенной разницы, а отклонение выборочной средней от достигнутого уровня при существующем методе обусловлено только случайностями выборки, т.е. означает, что , где и – средний расход сырья на единицу продукции соответственно при существующем и новом методах производства.

Альтернативная гипотеза может быть сформулирована двояко:

1. Применение нового метода обработки приводит к изменению расхода сырья на единицу продукции, т.е. состоит в том, что . Примем уровень значимости равным 0,05, тогда и критическая область соответственно задается неравенством . По таблицам интегральной функции Лапласа определяем коэффициент доверия t =1,96. Таким образом, величина предельного расхождения двух средних с вероятностью, равной 0,95, не должна превышать . Следовательно, с вероятностью 0,95 доверительные пределы для генеральной средней при новом методе будут равны .

Средний расход материала при применении новой технологии составляет 2,6, т.е. попадает в критическую область. Следовательно, данные наблюдения не являются совместимыми с выдвинутой гипотезой о том, что между новым и существующим методами производства изделий отсутствуют существенные различия с точки зрения влияния их на материалоемкость.

2. Применение нового метода обработки приводит к снижению расхода сырья на единицу продукции, т.е. состоит в том, что . В этом случае рассматривается область больших отрицательных отклонений, т.е. при . В данном варианте критическая область определяется неравенством . Нулевая гипотеза не будет опровергаться, если средний расход материала на единицу продукции будет больше величины . Так как по новой технологии расход сырья составляет 2,6 условных единиц, то с вероятностью 0,995 можно считать, что нулевая гипотеза должна быть отвергнута и что, следовательно, применение новой технологии приводит к снижению расхода сырья на изготовление продукции. [ 3, с. 192 ]

6 Малые выборки

Выборочное наблюдение, объем которого не превышает 20 единиц, называется малой выборкой. К малой выборке прибегают при проведении экспериментов в опытном хозяйстве или при проверке качества продукции, когда это связано с порчей или уничтожением ее и в других подобных случаях. Для определения средней и предельной ошибки при малой выборке можно, это математически доказано, пользоваться теми же формулами, что и при большой, но только с двумя особенностями.

1. Среднее квадратическое отклонение малой выборки исчисляется по формуле .

В этой формуле сумма квадратов отклонений от средней делится не на , а на , т.е. на число степеней свободы вариации.

2. Уровень вероятности ошибки средней и доли зависит не только от коэффициента доверия , но и от объема выборки . Для количественной оценки этой зависимости английский статистик Госсет, писавший под псевдонимом Стьюдент, разработал специальную таблицу, извлечение из которой дано в табл. 1.

Пусть с целью исследования влияния двух факторов на урожай проводились полевые опыты из двух серий по п делянок. Получены следующие результаты: средний урожай и (ц/га) и исправленные средние квадратические отклоненияs1 и s2. Как установить, является ли расхождение случайным, или оно обусловлено влиянием изучаемых факторов? В первом случае расхождение называется несущественным, а во втором различие существенно. Следует иметь в виду, что ответ не может быть строго определенным, он либо будет верен с некоторой вероятностью g, либо ошибочен с вероятностью р = 1 — g, называемой уровнем значимости.

Составим случайную величину


(1)


где,п – объем выборки (число делянок в серии). Доказано, что случайная величина Т имеет t – распределение Стьюдента, для которого составлены таблицы.

Случайная величина Т зависит от числа степеней свободы v = 2(п – 1) и уровня значимости р. По заданному р и числу степеней v находится t теоретическое.

По формуле (13.8.1) находят t практическое:


Если tпр 1теор. Расхождение существенно. Принимается утверждение, что обе выборки сделаны из разных генеральных совокупностей, т. е. влияние сорта значимо.

1.10. Выводы

Математическая статистика занимается изучением и разработкой методов сбора, регистрации и обработки статистического материала.

Основным понятием математической статистики является статистическое распределение. Статистическим распределением выборки называется соответствие между количественными признаками и их частотами или относительными частотами. По нему составляется эмпирическая функция распределения, являющаяся оценкой функции распределения признака в генеральной совокупности. Для параметров распределения признака в генеральной совокупности находят точечные и интервальные оценки. Оценка называется точечной, если она характеризуется одним числом. Точечными оценками параметров распределения, в частности, служат выборочная средняя, выборочная дисперсия, исправленная выборочная дисперсия. При малом объеме выборки точечная оценка может намного отличаться от оцениваемого параметра.

Оценка, определяемая двумя числами, – концами интервалов, называется интервальной. Интервал (θ* – δ, θ + δ), который накрывает оцениваемый параметр с вероятностью γ называется доверительным. Вероятность γ называется доверительной. Между доверительным интервалом, доверительной вероятностью и объемом выборки существует тесная связь. Для случая нормально распределенного признака в генеральной совокупности эта связь определяется формулой



где 2Ф(t) = γ, t = Ф –1 , Ф –1 (Х)– функция, обратная функции Лапласа.

Важное практическое значение этой формулы состоит в том, что по ней можно заранее установить минимальный объем выборочной совокупности при известных других величинах так, чтобы с заданной вероятностью отклонение выборочной средней от математического ожидания не превышало заранее назначенной величины.

Утверждение, что Хв имеет нормальное распределение, принимается без доказательства.

Читайте также: