Распределение гаусса это кратко и понятно

Обновлено: 05.07.2024

Авторизуясь в LiveJournal с помощью стороннего сервиса вы принимаете условия Пользовательского соглашения LiveJournal

Закон нормального распределения, или как его еще называют – кривая Гаусса, является одним из основных столпов в теории вероятности. Его применение можно проследить практически во всех сферах современного человеческого знания, от физики до философии. Я же попробую в кратком обзоре на примерах, объяснить как можно применить этот принцип, при аналитике народных процессов в социологии.

Хотя точное вычисление кривой Гаусса и требует решения довольно сложного уравнения, в этом тексте знания высшей математики вам не потребуются. И так, давайте для начала поймем, в общих чертах, в чем смысл этого графика, на примере изображения, показанного в заголовке статьи. Закон нормального распределения показывает вероятность некоторого значения из некоторой градации этих самых значений. Ось X является цифровым представлением этой самой градации и уходит от нуля в обе стороны до относительной бесконечности (но в некоторых случая она жестка ограничена). Ось Y является показателем величины вероятности значения из градации и может быть от нуля до одного. Сложно? Нет, все просто, взгляните вот на этот график и вам станет все довольно ясно.

Допустим, вы идете по улице, хотите спросить что-то умное у прохожего, и обращаясь к случайному человеку, вы можете быть уверены в том, что с максимально вероятностью он будет человеком среднего ума, в меньшей вероятности, что он будет дураком или умником и в практически минимальной возможности – гением или откровенным тупицей.

Одним словом этот график показывает вероятностное распределение интеллектуальности общества. Таким образом, обратившись к любой позиции на графике, можно сказать, какова вероятность при переборе людей, встретить гения, умного или дурака.

Естественно этот график является просто примером, и может не иметь никакого отношения к реальности. Для реальной же картины подобного рода, должен работать целый статистический комитет. Как можно понять из приведенного примера, график может деформироваться, в ту или иную сторону, и представлять уже иную вероятность. Показанный же график, называется – Стандартным нормальным распределением, потому что такая форма кривой вероятности установлена самой природой. И если мы обратимся в мир биосферы, и будем оценивать разные вероятности, то обнаружим, что данная форма кривой будут доминировать.

В определении ЗНР я указал, что ось X уходит по обе стороны в бесконечность. Дело в том, что оценка, каких либо общественных величин методом живой статистики, является явлением, находящемся только в настоящем времени. Общество не стоит на месте, оно постоянно движется, развивается или деградирует, поэтому сейчас оно одно, завтра другое, а значит, будет и другая форма и положение кривой Гаусса. Если не уходить с позиции стандартного нормального распределения, то для демонстрации вышесказанного можно опереться на ту же кривую вероятности интеллектуальной развитости общества.

На основе понимания и умения выстраивать эти графики, можно не только оценивать движение общества в прошлом, но и строить планы на будущее на основе осознания того, как должно быть. Например, усиленно рассматриваемую мной в последнее время проблему алкоголизации общества, можно привести вот в такой форме. (Это чисто мое субъективное мнение, сформированное не математической статистикой, а тем, что я лично вижу вокруг себя.)

Тут присутствует жесткое ограничение оси X , за пределами которого, толкование кривой становится бессмысленно. На приведенном графике я определил четкие границы рассматриваемого явления – от идейного трезвенника до запойного алкоголика. Ясно, что попытка оценить точку кривой за этим диапазоном невозможна, из-за отсутствия величины оценки. В умственном развитии, конечно, тоже есть границы диапазона, но правда такова, что он настолько велик, что проще определить его как бесконечность, нежели как ограниченную величину. Так же на графике видна деформация одной из кривых, что является естественным положением дел в отношении описываемого явления.

В нормальном же обществе (зеленая кривая), трезвенник должен быть нормой. С минимальным отрывом от него должен идти идейный трезвенник. А вот равнодушный человек, позволяющий не отказаться от рюмочки, уходит в область рецидива, и становиться чуть ли не врагом общества. Пассивных алкоголиков как вы понимаете в том обществе вообще нет, так как они не смогут в нем существовать (они будут откровенными врагами народа, из-за того что понижают этику и демографию общества). Последнее как раз и выражено деформацией зеленой кривой Гаусса.

Ясное дело, что в этом крохотном тексте просто невозможно уложить всю полноту возможных вариантов применения закона нормального распределения в социологии. Но я надеюсь, что почву для размышлений я дал.

На мой взгляд, знанием данного закона, должен обладать любой человек, хотя бы чуть-чуть задумывающийся о своем будущем. А ведь, как известно – свое будущее, прямо зависит от будущего общества в целом, т. е. среды, в которой мы все живем. И если каждый будет знать, куда, а главное как нужно идти, то это уже гарантия уверенности, что мы идем к чему-то лучшему.

________________________________________ ________________________________________ ____

Еще

Продолжаем грызть тему опционов по книгам Саймона и Натенберга, сегодня добрались до темы волатильность.

Волатильность — это то, что отличает торговлю фьючерсами от опционов. Кто не знает как работает волатильность, по каким законам она живет, не сможет работать с опционами. Там, где волатильность, там есть и теория вероятности, а там, где теория вероятности — сидит определенный математический аппарат.

Именно в этой точке гуманитарий опускает руки, потому что не может разобраться как работать с моделью Блэка-Шоулза, не знает элементарных понятий из теории вероятности, не знает как работает Гауссово распределение.

Что же такое Гауссово распределение, оно же распределение Гаусса-Лапласа? Это такое распределение вероятностей, которое в одномерном случае задаётся функцией плотности вероятности, совпадающей с функцией Гаусса:

Новичкам. Опционы и Гауссово (нормальное) распределение.

Важно знать следующие свойства функции плотности распределения Гаусса:

Новичкам. Опционы и Гауссово (нормальное) распределение.

С вероятностью 68,2% случайная величина не отклонится от своего математического ожидания дальше, чем 1 сигма.
С вероятностью 95,4% случайная величина не отклонится от своего математического ожидания дальше, чем 2 сигма.
С вероятностью 99,7% случайная величина не отклонится от своего математического ожидания дальше, чем 3 сигма.

Что это такое и как с этим работать трейдеру?

Есть удивительный индикатор Боллинджера, который показывает среднюю, верхнюю и нижнюю границу диапазона изменения цены актива, по умолчанию там настроен параметр 2сигма. Таким образом, если бы рынок подчинялся распределению Гаусса, то с вероятностью 95,4% цена не должна выходить за границы диапазона. Но почему же иногда она выходит? Потому что нормальное распределение по Гауссу это всего лишь математическая модель, рынки же в основе своей живут не по распределению Гаусса, на рынках есть тренд и память. Именно поэтому о каком-то случайном блуждании цены говорить не приходится, но в то же время рынки очень часто живут также и по Гауссу, мы это видим во время боковиков, когда цена хаотично движется туда-сюда, но не выходит за границы диапазона. Это как раз частный случай хаотичного движения (пропал тренд).

Случайное блуждание.

Возьмем для примера игру пинбол. Шарик катится вниз через частокол штырьков. Наткнувшись на штырек, он отклоняется вправо или влево с вероятностью 50%. После этого шарик попадает на новый уровень, где натыкается на другой штырек. Наконец, внизу он падает в одну из лунок.

Новичкам. Опционы и Гауссово (нормальное) распределение.


Движение шарика через частокол штырьков называют случайным блужданием. Как только шарик попадает в этот частокол, никто не может повлиять на его траекторию, равно как и предсказать эту траекторию.

Если бросить достаточное количество шариков, то можно получить распределение, которое называется Гауссовым — большинство шариков попадает в центр игрового поля; чем дальше лунки расположены от центра, тем меньше шариков в них оказывается. Такое распределение называется еще нормальным или колоколообразным:

Новичкам. Опционы и Гауссово (нормальное) распределение.


Если бросить бесконечно большое количество шариков, то распределение будет описываться колоколообразной кривой, изображенной на рисунке.

Низковолатильное распределение.

Теперь давайте слегка изменим условия игры, поставив вертикальные перегородки таким образом, что теперь, наткнувшись на штырек и отклонившись влево или вправо, шарик опустится до соприкосновения со следующим штырьком не на один, а на два уровня. Если бросить достаточное количество шариков, то получится распределение, представленное кривой на рисунке (низковолатильное распределение):

Новичкам. Опционы и Гауссово (нормальное) распределение.


Поскольку боковые движения шариков ограничены, пик этой кривой будет выше, а ее хвосты будут более узкими, чем у кривой на предыдущем рисунке. Несмотря на изменения формы, это по-прежнему кривая нормального распределения, но с несколько иными характеристиками (для тех, кто владеет математическим аппаратом — параметр эксцесс отвечает за высоту пика).

Высоковолатильное распределение.

Наконец, мы можем поставить горизонтальные перегородки так, что, попадая на следующий уровень, шарик будет каждый раз отклоняться на два штырька влево или вправо. И снова, если бросить достаточное количество шариков, то получится распределение, представленное на рисунке:

Новичкам. Опционы и Гауссово (нормальное) распределение.


У этой кривой, которая также отражает нормальное распределение вероятностей, пик намного ниже, а хвосты убывают намного медленнее, чем у кривых на предыдущих рисунках.

Для чего нам всё это нужно было?

Если сегодня Ri стоит 107 500, а срок действия опциона истекает через 15 дней, то как определить стоимость 112 500 колла?

Об этом в следующих сериях.

Если такие вот топики вам заходят — ставьте лайки, жмите колокольчик, пишите каменты.

Наиболее известным и часто применяемым в теории вероятностей законом является нормальный закон распределения или закон Гаусса.

Главная особенность нормального закона распределения заключается в том, что он является предельным законом для других законов распределения.

Будем говорить, что непрерывная случайная величина Х, принимающая значения , подчиняется нормальному закону, если её плотность распределения (дифференциальная функция) имеет вид

Нетрудно видеть, что нормальное распределение определяется двумя параметрами: и . Достаточно задать эти параметры, чтобы задать нормальное распределение.

Заметим, что для нормального распределения интегральная функция имеет вид:

Покажем теперь, что вероятностный смысл параметров и таков: а есть математическое ожидание, – среднее квадратическое отклонение (то есть ) нормального распределения:

а) по определению математического ожидания непрерывной случайной величины имеем

так как под знаком интеграла стоит нечётная функция, и пределы интегрирования симметричны относительно начала координат;

Итак, математическое ожидание нормального распределения равно параметру а.

б) по определению дисперсии непрерывной случайной величины и, учитывая, что , можем записать

Интегрируя по частям, положив , найдём

Следовательно .

Итак, среднее квадратическое отклонение нормального распределения равно параметру .

В случае если и нормальное распределение называют нормированным (или, стандартным нормальным) распределением. Тогда, очевидно, нормированная плотность (дифференциальная) и нормированная интегральная функция распределения запишутся соответственно в виде:

(Функция , как вам известно, называется функцией Лапласа (см. ЛЕКЦИЮ5) или интегралом вероятностей. Обе функции, то есть , табулированы и их значения записаны в соответствующих таблицах).

Свойства нормального распределения (свойства нормальной кривой):

1. Очевидно, функция на всей числовой прямой.

2. , то есть нормальная кривая расположена над осью Ох.

3. , то есть ось Ох служит горизонтальной асимптотой графика.

4. Нормальная кривая симметрично относительно прямой х = а (соответственно график функции симметричен относительно оси Оу).

Следовательно, можем записать: .

6. Легко показать, что точки и являются точками перегиба нормальной кривой (доказать самостоятельно).

7. Очевидно, что

но, так как , то . Кроме того , следовательно, все нечётные моменты равны нулю.

Для чётных же моментов можем записать:

11. При отрицательных значениях случайной величины: , где .

13. Вероятность попадания случайной величины на участок, симметричный относительно центра распределения, равна:

ПРИМЕР 3. Показать, что нормально распределённая случайная величина Х отклоняется от математического ожидания М(Х) не более чем на .

Решение. Для нормального распределения: .

Далее, запишем:

Другими словами, вероятность того, что абсолютная величина отклонения превысит утроенное среднее квадратическое отклонение, очень мала, а именно равна 0, 0027. Это означает, что лишь в 0,27% случаев так может произойти. Такие события, исходя из принципа невозможности маловероятных событий, можно считать практически невозможными.

Итак, событие с вероятностью 0,9973 можно считать практически достоверным, то есть случайная величина отклоняется от математического ожидания не более чем на .

ПРИМЕР 4. Зная характеристики нормального распределения случайной величины Х – предела прочности стали: кг/мм 2 и кг/мм 2 , найти вероятность получения стали с пределом прочности от 31 кг/мм 2 до 35 кг/мм 2 .

Решение.

3. Показательное распределение (экспоненциальный закон распределения)

Показательным (экспоненциальным) называют распределение вероятностей непрерывной случайной величины Х, которое описывается дифференциальной функцией (плотность распределения)

где - постоянная положительная величина.

Показательное распределение определяется одним параметром . Эта особенность показательного распределения указывает на его преимущество, по сравнению с распределениями, зависящими от большего числа параметров. Обычно параметры неизвестны и приходится находить их оценки (приближённые значения); разумеется, проще оценить один параметр, чем два, или три и т.д.




Нетрудно записать интегральную функцию показательного распределения:

Мы определили показательное распределение при помощи дифференциальной функции; ясно, что его можно определить, пользуясь интегральной функцией.

Замечание: Рассмотрим непрерывную случайную величину Т – длительность времени безотказной работы изделия. Обозначим принимаемые её значения через t, . Интегральная функция распределения определяет вероятность отказа изделия за время длительностью t. Следовательно, вероятность безотказной работы за это же время, длительностью t, то есть вероятность противоположного события , равна

Функцией надёжности называют функцию, определяющую вероятность безотказной работы изделия (элемента) за время длительностью t. Если длительность времени безотказной работы изделия (элемента) имеет показательное распределение, то функция надёжности, в этом случае, запишется в виде

Таким образом, показательным законом надёжности называют функцию надёжности, определяемую последним равенством, где - интенсивность отказов.

Свойства показательного распределения:

1. Математическое ожидание показательного распределения равно обратной величине параметра , то есть .

Действительно

Таким образом, математическое ожидание и среднее квадратическое отклонение показательного распределения равны между собой.

ПРИМЕР 4. Пусть время, необходимое для ремонта станков, распределено по показательному (экспоненциальному) закону с параметром . Определить вероятность того, что время ремонта одного станка меньше 6-и часов. Найти среднее время ремонта одного станка.

Решение. Т – время ремонта станка .

Тогда можем записать:

Далее, так как среднее время ремонта – это М( Т ), то

Наиболее известным и часто применяемым в теории вероятностей законом является нормальный закон распределения или закон Гаусса.

Главная особенность нормального закона распределения заключается в том, что он является предельным законом для других законов распределения.

Будем говорить, что непрерывная случайная величина Х, принимающая значения , подчиняется нормальному закону, если её плотность распределения (дифференциальная функция) имеет вид

Нетрудно видеть, что нормальное распределение определяется двумя параметрами: и . Достаточно задать эти параметры, чтобы задать нормальное распределение.

Заметим, что для нормального распределения интегральная функция имеет вид:

Покажем теперь, что вероятностный смысл параметров и таков: а есть математическое ожидание, – среднее квадратическое отклонение (то есть ) нормального распределения:

а) по определению математического ожидания непрерывной случайной величины имеем

так как под знаком интеграла стоит нечётная функция, и пределы интегрирования симметричны относительно начала координат;

Итак, математическое ожидание нормального распределения равно параметру а.

б) по определению дисперсии непрерывной случайной величины и, учитывая, что , можем записать

Интегрируя по частям, положив , найдём

Следовательно .

Итак, среднее квадратическое отклонение нормального распределения равно параметру .

В случае если и нормальное распределение называют нормированным (или, стандартным нормальным) распределением. Тогда, очевидно, нормированная плотность (дифференциальная) и нормированная интегральная функция распределения запишутся соответственно в виде:

(Функция , как вам известно, называется функцией Лапласа (см. ЛЕКЦИЮ5) или интегралом вероятностей. Обе функции, то есть , табулированы и их значения записаны в соответствующих таблицах).

Свойства нормального распределения (свойства нормальной кривой):

1. Очевидно, функция на всей числовой прямой.

2. , то есть нормальная кривая расположена над осью Ох.

3. , то есть ось Ох служит горизонтальной асимптотой графика.

4. Нормальная кривая симметрично относительно прямой х = а (соответственно график функции симметричен относительно оси Оу).

Следовательно, можем записать: .

6. Легко показать, что точки и являются точками перегиба нормальной кривой (доказать самостоятельно).

7. Очевидно, что

но, так как , то . Кроме того , следовательно, все нечётные моменты равны нулю.

Для чётных же моментов можем записать:

11. При отрицательных значениях случайной величины: , где .

13. Вероятность попадания случайной величины на участок, симметричный относительно центра распределения, равна:

ПРИМЕР 3. Показать, что нормально распределённая случайная величина Х отклоняется от математического ожидания М(Х) не более чем на .

Решение. Для нормального распределения: .

Далее, запишем:

Другими словами, вероятность того, что абсолютная величина отклонения превысит утроенное среднее квадратическое отклонение, очень мала, а именно равна 0, 0027. Это означает, что лишь в 0,27% случаев так может произойти. Такие события, исходя из принципа невозможности маловероятных событий, можно считать практически невозможными.

Итак, событие с вероятностью 0,9973 можно считать практически достоверным, то есть случайная величина отклоняется от математического ожидания не более чем на .

ПРИМЕР 4. Зная характеристики нормального распределения случайной величины Х – предела прочности стали: кг/мм 2 и кг/мм 2 , найти вероятность получения стали с пределом прочности от 31 кг/мм 2 до 35 кг/мм 2 .

Решение.

3. Показательное распределение (экспоненциальный закон распределения)

Показательным (экспоненциальным) называют распределение вероятностей непрерывной случайной величины Х, которое описывается дифференциальной функцией (плотность распределения)

где - постоянная положительная величина.

Показательное распределение определяется одним параметром . Эта особенность показательного распределения указывает на его преимущество, по сравнению с распределениями, зависящими от большего числа параметров. Обычно параметры неизвестны и приходится находить их оценки (приближённые значения); разумеется, проще оценить один параметр, чем два, или три и т.д.

Нетрудно записать интегральную функцию показательного распределения:

Мы определили показательное распределение при помощи дифференциальной функции; ясно, что его можно определить, пользуясь интегральной функцией.

Замечание: Рассмотрим непрерывную случайную величину Т – длительность времени безотказной работы изделия. Обозначим принимаемые её значения через t, . Интегральная функция распределения определяет вероятность отказа изделия за время длительностью t. Следовательно, вероятность безотказной работы за это же время, длительностью t, то есть вероятность противоположного события , равна

Функцией надёжности называют функцию, определяющую вероятность безотказной работы изделия (элемента) за время длительностью t. Если длительность времени безотказной работы изделия (элемента) имеет показательное распределение, то функция надёжности, в этом случае, запишется в виде

Таким образом, показательным законом надёжности называют функцию надёжности, определяемую последним равенством, где - интенсивность отказов.

Свойства показательного распределения:

1. Математическое ожидание показательного распределения равно обратной величине параметра , то есть .

Действительно

Таким образом, математическое ожидание и среднее квадратическое отклонение показательного распределения равны между собой.

ПРИМЕР 4. Пусть время, необходимое для ремонта станков, распределено по показательному (экспоненциальному) закону с параметром . Определить вероятность того, что время ремонта одного станка меньше 6-и часов. Найти среднее время ремонта одного станка.

Решение. Т – время ремонта станка .

Тогда можем записать:

Далее, так как среднее время ремонта – это М( Т ), то

Нормальное распределение (Normal Distribution)

Нормальное распределение (распределением Гаусса или Гаусса — Лапласа) – распространенная разновидность непрерывного распределения вероятностей для случайной величины.

Помните колоколообразную кривую? Вот эту:


Долгое время она служила главным критерием профессиональной оценки сотрудников американских учреждений, и равнодушных не оставляла, ведь от нее зависело, как себя позиционирует человек и его начальство.

Нормальное распределение – это ключевая концепция Статистики (Statistics) и основа Науки о данных (Data Science). При выполнении Разведочного анализа данных (EDA) мы сначала стремимся найти их распределение вероятностей, и наиболее распространенный ее вид – нормальное распределение.

Посмотрите на распределение вероятностей окупить инвестиции в фондовый индекс S&P 500:


Да-да, вероятность "выйти в ноль" выше остальных! Также справедливо утверждение, что вероятность потерять больше как бы тает вместе с отрицательным процентом возврата. Белой непрерывной линией обозначено предсказание кривой нормального распределения. Прочие наблюдения, такие как вес при рождении и показатель IQ, часто следуют нормальному распределению подобным образом.

Еще одна причина, по которой нормальное распределение становится важным для Дата-сайентистов (Data Scientist) – это Центральная предельная теорема (Central Limit Theorem). Эта теорема объясняет магию математики и является основой методов проверки гипотез.

В этой статье мы поймем важность и различные свойства нормального распределения, а изучим, как использовать эти свойства для проверки нормальности наших данных.

Свойства нормального распределения

Кривая стандартного нормального распределения симметрична относительно Среднего арифметического (Mean), Медианы (Median) и Моды (Mode). Более того, также являются нормальным распределением произведение двух нормальных распределений и их сумма. Магия, не правда ли? Существуют и другие, более сложные закономерности, пока обойдемся самыми понятными.

Эмпирическое правило

Вы слышали об эмпирическом правиле? Оно часто используется в статистике и гласит: "68,27% наблюдений случайной Выборки (Sample) лежат в пределах одного Стандартного отклонения (Standard Deviation), 95,45% – в пределах двух, а 99,73 – в пределах трех стандартных отклонений от среднего":


Это правило позволяет нам идентифицировать Выбросы (Outlier) и очень полезно при Проверке на нормальность (Normality Test).

Стандартное нормальное распределение

Стандартное нормальное распределение – это частный случай нормального распределения, когда среднее значение равно нулю и стандартное отклонение равно единице. Любое нормальное распределение мы можем преобразовать его в стандартное, используя формулу:

Пример. Есть два интерна: Левин и Ричардс. Левин набрал 65 баллов на экзамене по терапии, а Ричардс – 80 баллов на экзамене по кожной венерологии. Верно ли, что Ричардс учился лучше, чем Левин?

Нет, потому что манера поведения людей в терапии отличается от того, как люди проявляют себя в кожной венерологии. Таким образом, прямое сравнение простым сравнением оценок некорректно.

Теперь предположим, что отметки теста по терапии подчиняются нормальному распределению со средним значением 60 и стандартным отклонением 4. С другой стороны, отметки о кожвенерологии подчиняются нормальному распределению со средним значением 79 и стандартным отклонением 2.

Нам нужно будет вычислить Стандартизированную оценку (Z-score) путем стандартизации обоих этих распределений:

Таким образом, Левин набрал 1,25 стандартного отклонения выше среднего, в то время как Ричардс – только 0,5. Следовательно, Левин показал себя лучше:


Асимметричное распределение

Нормальное распределение – это симметрично, что означает, что его "хвосты" слева и справа – зеркальные отображения друг друга. Но это не относится к большинству реальных наборов данных. Как правило, мы будем иметь дело со скошенными асимметричными распределениями.

Визуальная оценка нормальности

Для таких целей принято использовать три вида графиков:

    , которая отображает частоту "попадания" наблюдения (Observation) в том или ином вертикальном "Ящике" (Bin). В этом примере распределение скошено вправо.
  • График Ядерной оценки плотности (Kernel Density Distribution – сокр. KDE). Является сглаженной версией гистограммы, где непрерывная кривая – ядро, также отображает каждое наблюдение.
  • График квантиль-квантиль (Q-Q Plot). Если значения располагаются по примерно прямой линии под углом 45 градусов, то данные распределяются нормально. На нашем графике видно, что значения данных имеют тенденцию немного отклоняться от линии под углом 45°, особенно на концах, что может указывать на то, что набор данных не распределяется нормально.

Для оценки нормальности распределения также используют Скошенность (Skewness) и Эксцесс (Kurtosis).

Нормальное распределение и Python

Посмотрим, как выглядит код, визуализирующий распределение и заодно рассчитывающий основные метрики Датасета (Dataset). Для начала импортируем необходимые библиотеки:

Определим функцию, которая пройдется по всем столбцам датасета, рассчитает основные статистические метрики (среднее, минимум, максимум и т.д.):

Построим тройной график:


Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Читайте также: