Ошибки первого и второго рода реферат

Обновлено: 02.07.2024

Рассмотрим станок, который может работать только в одном из двух состояний. Если он работает в налаженном режиме, то для интересующего нас признака качества, например, длины или диаметра заготовки, имеет место нормальное распределение при работе как в налаженном так и в разлаженном режиме. Оба режима отличаются только уровнем настройки процесса по математическому ожиданию ( М(х) = 10 и 11, соответственно в налаженном и разлаженном режиме ), в то время как дисперсии в обоих случаях составляют s 2 = 4.

Проверить нужно нулевую гипотезу, в соответствии с которой М(х) = 10, против альтернативы ( в данном случае единственной ) М(х) = 11. Конкурирующую гипотезу обозначим Н1. Тогда Но: М(х) = 10; Н1: М(х) = 11.

Необходимо по результатам выборки определить в каком из состояний работает станок. Примем объем выборки n из потенциально бесконечной генеральной совокупности. В качестве контрольной величины возьмем выборочное среднее Хn. На рис. 9 изображены плотности распределения Хn для n = 25 и n = 4.

Для формулировки критерия необходимо разделить область изменения контрольной величины (х) на критическую область отклонения гипотезы Но ( принятия Н1 ) и область принятия гипотезы Но. Для этого необходимо выбрать число К, такое, что 10 2 ) и критерий Колмогорова - Смирнова ( К - С - критерий ).

Критерий c 2 является наиболее состоятельным при большом числе наблюдений. Он почти всегда опровергает неверную гипотезу, обеспечивает минимальную ошибку в принятии неверной гипотезы по сравнению

с другими критериями.


c 2 = ,

где mj - наблюдаемая частота случайного события;

m * j - ожидаемая по принятому теоретическому закону распределения;

К - число интервалов случайной величины.

Затем определяется число степеней свободы l:

где К - число интервалов случайной величины;

r - число параметров теоретической функции распределения.

К - С - критерий лучше всего использовать в случае, если теоретические значения параметров распределения известны. При неизвестных параметрах его можно использовать, но он дает несколько завышенные результаты. При использовании этого критерия определяется величина


,

m н j, m* н j - соответственно, накопленные наблюдаемые и ожидаемые

n - число проведенных опытов.

То есть, в данном случае оценивается только максимальное отклонение накопленной частоты случайного события, возникающее в одном из диапазонов изменения случайной величины. Полученное значение коэффициента сравнивается с табличным для числа степеней свободы опыта и принятого уровня значимости результата. Если табличное значение коэффициента больше, то гипотеза о принятом законе распределения не отвергается.

1. Сущность непрерывной и дискретной случайной величины;

2. Сущность интегрального закона распределения случайной величины;

3. Сущность дифференциального закона распределения случайной величины;

4. Связь интегрального и дифференциального законов распределения;

5. Основные характеристики случайной величины, заданной своим распределением;

6. Назовите примеры законов распределения непрерывной и дискретной случайной величины;

7. Понятие статистической гипотезы и статистического критерия;

8. Назовите примеры статистических гипотез;

9. Сущность ошибок первого и второго рода;

10. Сущность проверки гипотезы вида закона распределения;

11. Принципиальное различие в критериях Пирсона и Колмогорова - Смирнова.

3. НАХОЖДЕНИЕ ИНТЕРПОЛИРУЮЩИХ КРИВЫХ

В первой части пособия рассматривались измерения той или иной физической величины, находящейся при проведении серии измерений в неизменном состоянии. Очень часто исследуемая величина меняется в соответствии с изменением условий опыта или времени. Цель эксперимента в этом случае состоит в нахождении функциональной зависимости, которая наилучшим образом описывает изменение интересующего нас параметра.

Следует понимать, что однозначно восстановить ( большей частью неизвестную ) функциональную зависимость между переменными невозможно даже в том случае, если бы переменные величины, полученные из опыта, не имели бы ошибки измерения. Тем более не следует ожидать, что это удастся сделать, имея экспериментальные данные, содержащие, по крайней мере, случайные ошибки измерений.

Поэтому математическая обработка результатов наблюдений не может ставить перед собой задачу разгадать истинный характер зависимости между переменными. Она позволяет лишь представить результаты опыта в виде наиболее простой формулы.

В зависимости от назначения этих формул существуют различные методы их получения, отличающиеся сложностью расчетных процедур и точностью получаемых решений.

Раздел: Математика
Количество знаков с пробелами: 87319
Количество таблиц: 11
Количество изображений: 16

В прошлой статье я указал, как распространена проблема неправильного использования t-критерия в научных публикациях (и это возможно сделать только благодаря их открытости, а какой трэш творится при его использовании во всяких курсовых, отчетах, обучающих задачах и т.д. — неизвестно). Чтобы обсудить это, я рассказал об основах дисперсионного анализа и задаваемом самим исследователем уровне значимости α. Но для полного понимания всей картины статистического анализа необходимо подчеркнуть ряд важных вещей. И самая основная из них — понятие ошибки.

Ошибка и некорректное применение: в чем разница?

В любой физической системе содержится какая-либо ошибка, неточность. В самой разнообразной форме: так называемый допуск — отличие в размерах разных однотипных изделий; нелинейная характеристика — когда прибор или метод измеряют что-то по строго известному закону в определенных пределах, а дальше становятся неприменимыми; дискретность — когда мы чисто технически не можем обеспечить плавность выходной характеристики.

Так, а что же за ошибка имеет место в статистических методах? А этой ошибкой как раз и является пресловутый уровень значимости α.

Ошибки первого и второго рода

Ошибкой в математическом аппарате статистики является сама ее Байесовская вероятностная сущность. В прошлой статье я уже упоминал, на чем стоят статистические методы: определение уровня значимости α как наибольшей допустимой вероятности неправомерно отвергнуть нулевую гипотезу, и самостоятельное задание исследователем этой величины перед исследователем.
Вы уже видите эту условность? На самом деле, в критериальных методах нету привычной математической строгости. Математика здесь оперирует вероятностными характеристиками.
И тут наступает еще один момент, где возможна неправильная трактовка одного слова в разном контексте. Необходимо различать само понятие вероятности и фактическую реализацию события, выражающуюся в распределении вероятности. Например, перед началом любого нашего эксперимента мы не знаем, какую именно величину мы получим в результате. Есть два возможных исхода: загадав некоторое значение результата, мы либо действительно его получим, либо не получим. Логично, что вероятность и того, и другого события равна 1/2. Но показанная в предыдущей статье Гауссова кривая показывает распределение вероятности того, что мы правильно угадаем совпадение.

Наглядно можно проиллюстрировать это примером. Пусть мы 600 раз бросаем два игральных кубика — обычный и шулерский. Получим следующие результаты:


До эксперимента для обоих кубиков выпадение любой грани будет равновероятно — 1/6. Однако после эксперимента проявляется сущность шулерского кубика, и мы можем сказать, что плотность вероятности выпадения на нем шестерки — 90%.

Но ведь тогда должны быть и ложноотрицательные результаты? Совершенно верно, и они называются ошибками второго рода. Примеры — не поставленный вовремя диагноз или же разочарование в результате исследования, хотя на самом деле в нем есть важные данные. Ошибки второго рода обозначаются буквой, как ни странно, β. Но само это понятие не так важно для статистики, как число 1-β. Число 1-β называется мощностью критерия, и как нетрудно догадаться, оно характеризует способность критерия не упустить значимое событие.
Однако содержание в статистических методах ошибок первого и второго рода не является только лишь их ограничением. Само понятие этих ошибок может использоваться непосредственным образом в статистическом анализе. Как?

ROC-анализ

ROC-анализ (от receiver operating characteristic, рабочая характеристика приёмника) — это метод количественного определения применимости некоторого признака к бинарной классификации объектов. Говоря проще, мы можем придумать некоторый способ, как отличить больных людей от здоровых, кошек от собак, черное от белого, а затем проверить правомерность такого способа. Давайте снова обратимся к примеру.

Пусть вы — подающий надежды криминалист, и разрабатываете новый способ скрытно и однозначно определять, является ли человек преступником. Вы придумали количественный признак: оценивать преступные наклонности людей по частоте прослушивания ими Михаила Круга. Но будет ли давать адекватные результаты ваш признак? Давайте разбираться.
Вам понадобится две группы людей для валидации вашего критерия: обычные граждане и преступники. Положим, действительно, среднегодовое время прослушивания ими Михаила Круга различается (см. рисунок):


Здесь мы видим, что по количественному признаку времени прослушивания наши выборки пересекаются. Кто-то слушает Круга спонтанно по радио, не совершая преступлений, а кто-то нарушает закон, слушая другую музыку или даже будучи глухим. Какие у нас есть граничные условия? ROC-анализ вводит понятия селективности (чувствительности) и специфичности. Чувствительность определяется как способность выявлять все-все интересующие нас точки (в данном примере — преступников), а специфичность — не захватывать ничего ложноположительного (не ставить под подозрение простых обывателей). Мы можем задать некоторую критическую количественную черту, отделяющую одних от других (оранжевая), в пределах от максимальной чувствительности (зеленая) до максимальной специфичности (красная).
Посмотрим на следующую схему:


Смещая значение нашего признака, мы меняем соотношения ложноположительного и ложноотрицательного результатов (площади под кривыми). Точно так же мы можем дать определения Чувствительность = Полож. рез-т/(Полож. рез-т + ложноотриц. рез-т) и Специфичность = Отриц. рез-т/(Отриц. рез-т + ложноположит. рез-т).

Но главное, мы можем оценить соотношение положительных результатов к ложноположительным на всем отрезке значений нашего количественного признака, что и есть наша искомая ROC-кривая (см. рисунок):


А как нам понять из этого графика, насколько хорош наш признак? Очень просто, посчитать площадь под кривой (AUC, area under curve). Пунктирная линия (0,0; 1,1) означает полное совпадение двух выборок и совершенно бессмысленный критерий (площадь под кривой равна 0,5 от всего квадрата). А вот выпуклость ROC кривой как раз и говорит о совершенстве критерия. Если же нам удастся найти такой критерий, что выборки вообще не будут пересекаться, то площадь под кривой займет весь график. В целом же признак считается хорошим, позволяющим надежно отделить одну выборку от другой, если AUC > 0,75-0,8.

С помощью такого анализа вы можете решать самые разные задачи. Решив, что слишком много домохозяек оказались под подозрением из-за Михаила Круга, а кроме того упущены опасные рецидивисты, слушающие Ноггано, вы можете отвергнуть этот критерий и разработать другой.

С ошибками обоих родов и их наглядностью в описании валидируемых критериев мы познакомились. Теперь же, двигаясь от этих логических основ, можно разрушить ряд ложных стереотипных описаний результатов. Некоторые неправильные формулировки захватывают наши умы, часто путаясь своими схожими словами и понятиями, а также из-за очень малого внимания, уделяемого неверной интерпретации. Об этом, пожалуй, нужно будет написать отдельно.

Например, можно сравнить эффективность двух видов лечения, чтобы сократить 5-летнюю смертность от рака молочной железы. Для данного исхода (например, смерть) сравнение, представляющее интерес (напри­мер, различные показатели смертности через 5 лет), называют эффектом или, если уместно, эффектом лечения.

Нулевую гипотезу выражают как отсутствие эффекта (например 5-летняя смертность от рака мо­лочной железы одинаковая в двух группах, получаю­щих разное лечение); двусторонняя альтернативная гипотеза будет означать, что различие эффектов не равно нулю.

Критериальная проверка гипотезы дает возможность определить, достаточно ли аргументов, чтобы отвергнуть нулевую гипотезу. Можно принять только одно из двух решений:

  1. отвергнуть нулевую гипотезу и принять альтер­нативную гипотезу
  2. остаться в рамках нулевой гипотезы


Важно: В литературе достаточно часто встречается понятие "принять нулевую гипотезу". Хотелось бы внести ясность, что со статистической точки зрения принять нулевую гипотезу невозможно, т.к. нулевая гипотеза представляет собой достаточно строгое утверждение (например, средние значения в сравниваемых группах равны ).

Поэтому фразу о принятии нулевой гипотезы следует понимать как то, что мы просто остаемся в рамках гипотезы.

Принятие неправильного решения

Возможно неправильное решение, когда отвергают/не отвергают нулевую гипотезу, потому что есть только выборочная информация.


Верная гипотеза
H0 H1
Результат
применения
критерия
H0 H0 верно принята H0 неверно принята
(Ошибка второго рода)
H1 H0 неверно отвергнута
(Ошибка первого рода)
H0 верно отвергнута

Ошибка 1-го рода: нулевую гипотезу отвергают, когда она истинна, и делают вывод, что имеется эффект, когда в действительности его нет. Максимальный шанс (вероятность) допустить ошибку 1-го рода обозначается α (альфа). Это уровень значимости критерия; нулевую гипотезу отвергают, если наше значение p ниже уровня значимости, т. е., если p 0,05, то нулевую гипотезу не отвергнут и, следовательно, не допустят ошибки 1-го рода.

Ошибка 2-го рода: не отвергают нулевую гипотезу, когда она ложна, и делают вывод, что нет эффекта, тогда как в действительности он существует. Шанс возникновения ошибки 2-го рода обозначается β (бета); а величина (1-β) называется мощностью критерия.

Следовательно, мощность — это вероятность отклонения нулевой гипотезы, когда она ложна, т.е. это шанс (обычно выраженный в процентах) обнаружить реальный эффект лечения в выборке данного объема как статистически значимый.

В идеале хотелось бы, чтобы мощность критерия составляла 100%; однако это невозможно, так как всегда остается шанс, хотя и незначительный, допустить ошибку 2-го рода.

К счастью, известно, какие факторы влияют на мощность и, таким образом, можно контролировать мощность критерия, рассматривая их.

Мощность и связанные факторы

Этически безответственно начинать исследование, у которого, скажем, только 40% вероятности обнаружить реальный эффект лечения; это бесполезная трата времени и денежных средств.

Ряд факторов имеют прямое отношение к мощности критерия.

Объем выборки: мощность критерия увеличивается по мере увеличения объема выборки. Это означает, что у большей выборки больше возможностей, чем у незначительной, обнаружить важный эффект, если он существует.

Когда объем выборки небольшой, у критерия может быть недостаточно мощности, чтобы обнаружить отдельный эффект. Эти методы также можно использовать для оценки мощности критерия для точно установленного объема выборки.

Вариабельность наблюдений: мощность увеличивается по мере того, как вариабельность наблюдений уменьшается.

Интересующий исследователя эффект: мощность критерия больше для более высоких эффектов. Критерий проверки гипотез имеет больше шансов обнаружить значительный реальный эффект, чем незначительный.

Уровень значимости: мощность будет больше, если уровень значимости выше (это эквивалентно увеличению допущения ошибки 1-го рода, α, а допущение ошибки 2-го рода, β, уменьшается).

Таким образом, вероятнее всего, исследователь обнаружит реальный эффект, если на стадии планирования решит, что будет рассматривать значение р как значимое, если оно скорее будет меньше 0,05, чем меньше 0,01.

Обратите внимание, что проверка ДИ для интересующего эффекта указывает на то, была ли мощность адекватной. Большой доверительный интервал следует из небольшой выборки и/или набора данных с существенной вариабельностью и указывает на недостаточную мощность.

Проверка множественных гипотез

Часто нужно выполнить критериальную проверку значимости множественных гипотез на наборе данных с многими переменными или существует более двух видов лечения.

Ошибка 1-го рода драматически увеличивается по мере увеличения числа сравнений, что приводит к ложным выводам относительно гипотез. Следовательно, следует проверить только небольшое число гипотез, выбранных для достижения первоначальной цели исследования и точно установленных априорно.

Можно использовать какую-нибудь форму апостериорного уточнения значения р, принимая во внимание число выполненных проверок гипотез.

Например, при подходе Бонферрони (его часто считают довольно консервативным) умножают каждое значение р на число выполненных проверок; тогда любые решения относительно значимости будут основываться на этом уточненном значении р.

Ошибка второго рода состоит в том, что отвергается альтернативная гипотеза Н1, когда она на самом деле верна. При проверке гипотезы может быть принято неправильное решение, т. е. могут быть допущены ошибки двух родов: Ошибка первого рода состоит в том, что отвергается нулевая гипотеза Н0, когда на самом деле она верна. Вероятность ошибки 1-го рода (обозначается через а) называется уровнем… Читать ещё >

  • проверка гипотезы о независимости логарифмической доходности за различные интервалы времени при большом
  • среднем и малом объеме торгов

Ошибки первого и второго рода ( реферат , курсовая , диплом , контрольная )

При проверке гипотезы может быть принято неправильное решение, т. е. могут быть допущены ошибки двух родов:

Ошибка первого рода состоит в том, что отвергается нулевая гипотеза Н0, когда на самом деле она верна.

Ошибка второго рода состоит в том, что отвергается альтернативная гипотеза Н1, когда она на самом деле верна.

Рассматриваемые случаи наглядно иллюстрирует следующая таблица.

ошибка 1-го рода.

Вероятность ошибки 1-го рода (обозначается через а) называется уровнем значимости критерия.

Очевидно, а = p10). Чем меньше а, тем меньше вероятность отклонить верную гипотезу. Допустимую ошибку 1-го рода обычно задают заранее.

В одних случаях считается возможным пренебречь событиями, вероятность которых меньше 0,05 (а = 0,05 означает, что в среднем в 5 случаях из 100 испытаний верная гипотеза будет отвергнута), в других случаях, когда речь идет, например, о разрушении сооружений, гибели судна и т. п. , нельзя пренебречь обстоятельствами, которые могут появиться с вероятностью, равной 0,001.

Вероятность ошибки 2-го рода обозначается через в, т. е. в = p01).

Величину 1- в, т. е. вероятность недопущения ошибки 2-го рода (отвергнуть неверную гипотезу Н0, принять верную Н1), называется мощностью критерия.

Чем больше мощность критерия, тем вероятность ошибки 2-го рода меньше, что, конечно, желательно (как и уменьшение а).

Последствия ошибок 1-го, 2-го рода могут быть совершенно различными: в одних случаях надо минимизировать а, в другом — в. Так, применительно к радиолокации говорят, что а — вероятность пропуска сигнала, в — вероятность ложной тревоги; применительно к производству, к торговле можно сказать, что а — риск поставщика (т.е. прием по выборке всей партии изделий, не удовлетворяющей стандарту); применительно к судебной системе, ошибка 1-го рода приводит к оправданию виновного, ошибка 2-го рода — осуждению невиновного.

Отметим, что одновременное уменьшение ошибок 1-го и 2-го рода возможно лишь при увеличении объема выборок. Поэтому обычно при заданном уровне значимости а отыскивается критерий с наибольшей мощностью.

Читайте также: