Задачи математической статистики реферат

Обновлено: 05.07.2024

Математическая статистика — наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надежность и точность выводов, делаемых на основании ограниченного статистического материала (напр., оценить необходимый объем выборки для получения результатов требуемой точности при выборочном обследовании).

В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты, свойства которых целиком известны. Предмет теории вероятностей — свойства и взаимосвязи этих величин (распределений).

Но часто эксперимент представляет собой черный ящик, выдающий лишь некие результаты, по которым требуется сделать вывод о свойствах самого эксперимента. Наблюдатель имеет набор числовых (или их можно сделать числовыми) результатов, полученных повторением одного и того же случайного эксперимента в одинаковых условиях.

При этом возникают, например, следующие вопросы: Если мы наблюдаем одну случайную величину — как по набору ее значений в нескольких опытах сделать как можно более точный вывод о ее распределении?

Примером такой серии экспериментов может служить социологический опрос, набор экономических показателей или, наконец, последовательность гербов и решек при тысячекратном подбрасывании монеты.

Все вышеприведенные факторы обуславливают актуальность и значимость тематики работы на современном этапе, направленной на глубокое и всестороннее изучение основных понятий математической статистики.

В связи с этим целью данной работы является систематизация, накопление и закрепление знаний о понятиях математической статистики.


1. Предмет и методы математической статистики

Математическая статистика — наука о математических методах анализа данных, полученных при проведении массовых наблюдений (измерений, опытов). В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Существенная часть статистики математической основана на вероятностных моделях. Выделяют общие задачи описания данных, оценивания и проверки гипотез. Рассматривают и более частные задачи, связанные с проведением выборочных обследований, восстановлением зависимостей, построением и использованием классификаций (типологий) и др.

Для описания данных строят таблицы, диаграммы, иные наглядные представления, например, корреляционные поля. Вероятностные модели обычно не применяются. Некоторые методы описания данных опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся, в частности, кластер-анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости, в наименьшей степени исказив расстояния между ними.

Методы оценивания и проверки гипотез опираются на вероятностные модели порождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что изучаемые объекты описываются функциями распределения, зависящими от небольшого числа (1-4) числовых параметров. В непараметрических моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое ожидание, медиану, дисперсию, квантили и др.), плотности и функции распределения, зависимости между переменными (на основе линейных и непараметрических коэффициентов корреляции, а также параметрических или непараметрических оценок функций, выражающих зависимости) и др. Используют точечные и интервальные (дающие границы для истинных значений) оценки.

В математической статистике есть общая теория проверки гипотез и большое число методов, посвященных проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны методы поиска информативного подмножества переменных и непараметрические методы.

Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад, когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ[1] и многочисленные нелинейные обобщения.

Различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.

Математические методы в статистике основаны либо на использовании сумм (на основе Центральной Предельной Теоремы теории вероятностей) или показателей различия (расстояний, метрик), как в статистике объектов нечисловой природы. Строго обоснованы обычно лишь асимптотические результаты. В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчетов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).


2. Основные понятия математической статистики 2.1 Основные понятия выборочного метода

$\xi~:~\Omega \to <\textrm<\upshape I\kern-0.20em R></p>
<p>Пусть >$
— случайная величина, наблюдаемая в случайном эксперименте. Предполагается, что вероятностное пространство задано (и не будет нас интересовать).

Будем считать, что, проведя раз этот эксперимент в одинаковых условиях, мы получили числа , , , — значения этой случайной величины в первом, втором, и т.д. экспериментах. Случайная величина имеет некоторое распределение , которое нам частично или полностью неизвестно.

$<\mathbf X></p>
<p>Рассмотрим подробнее набор =(X_1, \ldots, X_n)$
, называемый выборкой.

В серии уже произведенных экспериментов выборка — это набор чисел. Но если эту серию экспериментов повторить еще раз, то вместо этого набора мы получим новый набор чисел. Вместо числа появится другое число — одно из значений случайной величины . То есть (и , и , и т.д.) — переменная величина, которая может принимать те же значения, что и случайная величина , и так же часто (с теми же вероятностями). Поэтому до опыта — случайная величина, одинаково распределенная с , а после опыта — число, которое мы наблюдаем в данном первом эксперименте, т.е. одно из возможных значений случайной величины .

2.2 Выборочное распределение

Рассмотрим реализацию выборки на одном элементарном исходе — набор чисел , , . На подходящем вероятностном пространстве введем случайную величину , принимающую значения , , с вероятностями по (если какие-то из значений совпали, сложим вероятности соответствующее число раз). Таблица распределения вероятностей и функция распределения случайной величины выглядят так:

$<\mathsf P></p>
<p>\,$

Одной из задач третьего типа является задача проверки правдоподобия гипотез. Она может быть сформулирована следующим образом: имеется совокупность опытных данных, относящихся к одной или нескольким случайным величинам. Необходимо определить, противоречат ли эти данные той или иной гипотезе, например, гипотезе о том, что исследуемая случайная величина распределена по определенному закону, или две… Читать ещё >

Задачи математической статистики ( реферат , курсовая , диплом , контрольная )

Цель: Получить начальное понятие что такое вообще математическая статистика. Способы оптимальных решений. Математическая статистикаэто наука, занимающаяся методами обработки экспериментальных данных.

Любая наука решает в порядке возрастания сложности и важности следующие задачи:

  • 1) описание явления;
  • 2) анализ и прогноз
  • 3) поиск оптимального решения.

Такого рода задачи решает и математическая статистика:

  • 1)систематизировать полученный статистический материал;
  • 2)на основании полученных экспериментальных данных оценить интересующие нас числовые характеристики наблюдаемой случайной величины;
  • 3)определить число опытов, достаточное для получения достоверных результатов при минимальных ошибках измерения.

Одной из задач третьего типа является задача проверки правдоподобия гипотез. Она может быть сформулирована следующим образом: имеется совокупность опытных данных, относящихся к одной или нескольким случайным величинам. Необходимо определить, противоречат ли эти данные той или иной гипотезе, например, гипотезе о том, что исследуемая случайная величина распределена по определенному закону, или две случайные величины не корректированы (т.е. не связаны между собой) и т. д. В результате проверки правдоподобия гипотезы она либо отбрасывается, как противоречащая опытным данным, либо принимается, как приемлемая.

Таким образом, математическая статистика помогает экспериментатору лучше разобраться в полученных опытных данных, оценить, значимы или нет определенные наблюденные факты, принять или отбросить те или иные гипотезы о природе рассматриваемого явления.

Случайные величины и законы распределения Переменная величина называется случайной, если в результате опыта она может принимать действительные значения с определёнными вероятностями. Наиболее полной, исчерпывающей характеристикой случайной величины является закон распределения. Закон распределения — функция (таблица, график, формула), позволяющая определять вероятность того, что случайная величина Х принимает определенное значение хi или попадает в некоторый интервал. Если случайная величина имеет данный закон распределения, то говорят, что она распределена по этому закону или подчиняется этому закону распределения.

Случайная величина Х называется дискретной, если существует такая неотрицательная функция.

(1).

которая ставит в соответствие значению хi переменной Х вероятность рi, с которой она принимает это значение.

Случайная величина Х называется непрерывной, если для любых a т. е. имеющего моду, симметричного распределения и при условии, что существует математическое ожидание, последнее совпадает с модой и центром симметрии распределения.

Медиана случайной величины Х — это ее значение Ме, для которого имеет место равенство: т. е. равновероятно, что случайная величина Х окажется меньше или больше Ме. Геометрически медиана — это абсцисса точки, в которой площадь под кривой распределения делится пополам (рис. 2). В случае симметричного модального распределения медиана, мода и математическое ожидание совпадают.

  • Для учеников 1-11 классов и дошкольников
  • Бесплатные сертификаты учителям и участникам

Государственное автономное образовательное учреждение

среднего профессионального образования Республики Крым

Тематический доклад на тему:

г. Евпатория, 2018 г.

Задачи любой науки состоят в выявлении и исследовании закономерностей, которым подчиняются реальные процессы.

Теория вероятностей – математическая наука, изучающая закономерности случайных явлений. Знание закономерностей, которым подчиняются массовые случайные события, позволяет предвидеть, как эти события будут протекать.

Методы теории вероятностей широко применяются в различных отраслях науки и техники: в теории надёжности, теории массового обслуживания, теоретической физике, геодезии, астрономии, теории ошибок, теории управления, теории связи и во многих других теоретических и прикладных науках. Теория вероятностей служит для обоснования математической статистики.

Математическая статистика – раздел математики, изучающий методы сбора, систематизации и обработки результатов наблюдений с целью выявления статистических закономерностей. Методы математической статистики используются при планировании организации производства, анализе технологических процессов, для контроля качества продукции и многих других целей.

Дальнейшее развитие теории вероятностей приходится на XVII-XIX века благодаря работам А.Муавра, П.Лапласа, К.Гаусса, С.Пуассона и др.

Большой вклад в последующее развитие теории вероятностей и математической статистики внесли российские математики С.Н.Бернштейн, В.И.Романовский, А.Н.Колмогоров, А.Я. Хинчин, Б.В.Гнеденко и др., а также учёные англо-американской школы Стьюдент (псевдоним В. Госсета), Р. Фишер, Э. Пирсон, Е. Нейман и др. Особо следует отметить неоценимый вклад академика А.Н.Колмогорова в становление теории вероятностей как математической науки.

Широкому внедрению статистических методов исследования способствовало появление во второй половине XX века электронных вычислительных машин и, в частности, персональных компьютеров. Статистические программные пакеты сделали эти методы более доступными и наглядными, так как трудоёмкую работу по расчёту статистик, параметров, характеристик, построению таблиц и графиков в основном стал выполнять компьютер, а исследователю осталась главным образом творческая работа: постановка задачи, выбор методов решения и интерпретация результатов.

Развитие методов последовательного анализа привело, с одной стороны, к изучению управляемых случайных процессов, с другой - к появлению теории статистических решений . Эта теория исходит из того, что результаты последовательно проводимых наблюдений служат основой принятия некоторых решений (промежуточных - продолжать испытания или нет, и окончательных - в случае прекращения испытаний). В задачах оценки параметров окончательные решения суть числа (значение оценок), в задачах проверки гипотез - принимаемые гипотезы. Цель теории - указать правила принятия решений, минимизирующих средний риск или убыток (риск зависит и от вероятностных распределений результатов наблюдений, и от принимаемого окончательного решения, и от расходов на проведение испытаний и т. д.). Вопросы целесообразного распределения усилий при проведении статистического анализа явлений рассматриваются в теории планирования эксперимента , ставшей важной частью современной математической статистики.

Наряду с развитием и уточнением общих понятий математической статистики, развиваются и её отдельные разделы, такие, как дисперсионный анализ, статистический анализ случайных процессов, многомерный статистический анализ. Появились новые оценки в регрессионном анализе (см. также Стохастическая аппроксимация ). Большую роль в задачах математической статистики играет т. н. бейесовский подход к решению статистических задач.

Более важную роль играет теория вероятностей при статистическом исследовании вероятностно случайных явлений. Здесь в полной мере находят применение такие основанные на теории вероятностей разделы математической статистики, как проверка статистических гипотез, статистическое оценивание распределений вероятностей и входящих в них параметров и т. д. Область же применения этих более глубоких статистических методов значительно уже, т. к. здесь требуется, чтобы сами изучаемые явления были подчинены достаточно определенным вероятностным закономерностям. Однако применение той же теории к анализу экономических временных рядов может привести к грубым ошибкам в виду того, что входящее в определение стационарного процесса допущение наличия сохраняющихся в течении длительного времени неизменных распределений вероятностей в этом случае, как правило, совершенно неприемлемо.

Математическая статистика – раздел прикладной математики, наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятности, позволяющую оценить надежность и точность выводов. Этот раздел прикладной математики посвящен изучению случайных величин по результатам наблюдений.

Методы математической статистики нашли широкое применение в различных областях науки (физике, биологии, медицине, экономике, социологии, информатике и др.) и могут применяться для решения различных задач. При этом можно сформулировать три основные (типичные) задачи математической статистики, наиболее часто встречающиеся на практике.

1.Определение закона распределения случайной величины. По результатам независимых наблюдений случайной величины требуется оценить неизвестную функцию распределения или плотность вероятности этой случайной величины.

2.Задача проверки правдоподобия гипотез. Из обширного круга задач, связанных с проверкой статистических гипотез, наиболее типичными являются две задачи. Первая: как согласуются результаты эксперимента с гипотезой о том, что исследуемая случайная величина имеет плотность распределения ? Вторая: не противоречит ли полученная оценка неизвестного параметра выдвинутой гипотезе о значении данного параметра?

3.Задача оценки неизвестных параметров распределения. Предполагается, что закон распределения исследуемой случайной величины известен до опыта из физических или теоретических предположений (к примеру, нормальный). Возникает более узкая задача – определить некоторые параметры (числовые характеристики) случайной величины, т. е. по экспериментальным данным крайне важно оценить значения этих параметров. С этой задачей отыскания "подходящих значений" числовых характеристик тесно связана задача оценки их точности и надежности.

- под статистикой понимают отрасль практической деятельности, которая имеет своей целью сбор, обработку, анализ и публикацию массовых данных о самых различных явлениях общественной жизни;

- статистикой называют цифровой материал, служащий для характеристики какой – либо области общественных явлений или территориального распределения какого – то показателя;

- статистикой называется отрасль знания, особая научная дисциплина, соответственно учебный предмет в высших и средних специальных учебных заведениях.

Задачи статистической науки:

1.Постоянные (долговременные): а) обеспечить органы управления государством, регионами, отраслями и отдельными предприятиями своевременной полной и достоверной информацией, необходимой для принятия решений; б)информировать общественность о явлениях и процессах, происходящих в обществе.

2.Актуальные задачи формируются исходя из потребности общества и экономики на современном этапе: а)получение объективной информации о деятельности хозяйственных структур; б) создание автоматизированных баз данных о деятельности текущих хозяйственных структур с возможностью санкционированного доступа к ним для получения информации, необходимой для решения текущих хозяйственных задач; в) прогнозирование развития важных социально – экономических процессов и явлений.

Исследование массовых общественных явлений включает в себя следующие этапы (этапы статистического исследования ):

1)сбор статистической информации и ее первичная обработка (статистическое наблюдение);

2)группировка и выборка результатов наблюдения в определенные совокупности;

3)обобщение и анализ полученных материалов.

На первом этапе статистического исследования формируются первичные статистические данные, или исходная статистическая информация, которая является фундаментом будущего статистического здания. Если при сборе первичных статистических данных допущена ошибка или материал оказался недоброкачественным, это повлияет на правильность и достоверность как теоретических, так и практических выводов. Поэтому статистическое наблюдение от начальной до завершающей стадии – получения итоговых материалов – должно быть тщательно продуманным и четко организованным.

Статистическое наблюдение представляет собой научно организованный по единой программе учет фактов, характеризующих явления и процессы общественной жизни, и сбор полученных на основе этого учета массовых данных. К статистическому наблюдению предъявляются следующие требования:

полнота статистических данных (полнота охвата единиц изучаемой совокупности, сторон того или иного явления, а также полнота охвата во времени);

достоверность и точность данных;

их единообразие и сопоставимость.

Однако не всякий сбор сведений является статистическим наблюдением. О статистическом наблюдении можно говорить лишь тогда, когда изучаются статистические закономерности, т.е. такие, которые проявляются только в массовом процессе, в большом числе единиц какой – то совокупности. Поэтому статистическое наблюдение должно быть планомерным, массовым и систематическим.

На втором этапе совокупность делится по признакам различия и объединяется по признакам сходства, подсчитываются суммарные показатели по группам и в целом. С помощью различных методов изучаемые явления делятся на важнейшие типы, характерные группы и подгруппы оп существенным признакам. С помощью группировок ограничивают качественно однородные в существенном отношении совокупности, что является предпосылкой для определения и применения обобщающих показателей.

На заключительном этапе анализа с помощью обобщающих показателей рассчитываются относительные и средние величины, дается сводная оценка вариации признаков, характеризуется динамика явлений, применяются индексы, балансовые построения, рассчитываются показатели, характеризующие тесноту связей в изменении признаков. С целью наиболее рационального и наглядного изложения цифрового материала он представляется в виде таблиц и графиков.

Статистическая совокупность – это множество явлений, имеющих один или несколько общих признаков и отличающихся между собой по значениям других признаков.

Единица совокупности – каждое отдельное явление, подлежащее учету, наделенное признаками сходства.

Учетные признаки – это свойства, характерная черта явления, подлежащая статистическому изучению.

1)качественные (атрибутивные) – выражают существенное неотъемлемое свойство предмета. Противоположные качественные признаки называют альтернативными (мужчина – женщина, отличник – не отличник т.д.);

2)количественные – отдельные значения различаются по величине (возраст, рост, вес).

Статистические данные – сведения о числе объектов какой – либо обширной совокупности, обладающих теми или иными признаками. Являются исходным материалом для любого статистического исследования. На основании статистических данных можно сделать научно обоснованные выводы. Для этого статистические данные должны быть предварительно определенным образом систематизированы и обработаны.

Одним из основных методов обработки статистических данных является выборочный метод . При выборочном исследовании из всей совокупности отбирают некоторым образом определенное число объектов и только их подвергают исследованию.

Генеральная совокупность – совокупность всех исследуемых объектов. Генеральную совокупность образуют, например, все больные с данным диагнозом, все новорожденные и дети т.д. Общую сумму членов генеральной совокупности называют ее объемом и обозначают буквой N . Теоретически объем генеральной совокупности ничем не ограничен. Поэтому обычно изучается какая – то часть объектов генеральной совокупности – выборка.

Выборочная совокупность (выборка) – набор случайно отобранных объектов из генеральной совокупности.

Возникновение и развитие математической статистики, как и других математических дисциплин, определялось потребностями практики; в настоящее время ее методы широко используются в различных технических дисциплинах. Они играют важную роль в экономических исследованиях, сельском хозяйстве, биологии, психологии, медицине, физических науках, геологии, социологических исследованиях и других, считавшихся долго далекими от математики, науках.

Математическая статистика — наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надежность и точность выводов, делаемых на основании ограниченного статистического материала (напр., оценить необходимый объем выборки для получения результатов требуемой точности при выборочном обследовании).

В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты, свойства которых целиком известны. Предмет теории вероятностей — свойства и взаимосвязи этих величин (распределений).

Но часто эксперимент представляет собой черный ящик, выдающий лишь некие результаты, по которым требуется сделать вывод о свойствах самого эксперимента. Наблюдатель имеет набор числовых (или их можно сделать числовыми) результатов, полученных повторением одного и того же случайного эксперимента в одинаковых условиях.

При этом возникают, например, следующие вопросы: Если мы наблюдаем одну случайную величину — как по набору ее значений в нескольких опытах сделать как можно более точный вывод о ее распределении?

Примером такой серии экспериментов может служить социологический опрос, набор экономических показателей или, наконец, последовательность гербов и решек при тысячекратном подбрасывании монеты.

Все вышеприведенные факторы обуславливают актуальность и значимость тематики работы на современном этапе, направленной на глубокое и всестороннее изучение основных понятий математической статистики.

В связи с этим целью данной работы является систематизация, накопление и закрепление знаний о понятиях математической статистики.

Предмет и методы математической статистики

Математическая статистика — наука о математических методах анализа данных, полученных при проведении массовых наблюдений (измерений, опытов). В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Существенная часть статистики математической основана на вероятностных моделях. Выделяют общие задачи описания данных, оценивания и проверки гипотез. Рассматривают и более частные задачи, связанные с проведением выборочных обследований, восстановлением зависимостей, построением и использованием классификаций (типологий) и др.

Для описания данных строят таблицы, диаграммы, иные наглядные представления, например, корреляционные поля. Вероятностные модели обычно не применяются. Некоторые методы описания данных опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся, в частности, кластер-анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости, в наименьшей степени исказив расстояния между ними.

Методы оценивания и проверки гипотез опираются на вероятностные модели порождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что изучаемые объекты описываются функциями распределения, зависящими от небольшого числа (1-4) числовых параметров. В непараметрических моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое ожидание, медиану, дисперсию, квантили и др.), плотности и функции распределения, зависимости между переменными (на основе линейных и непараметрических коэффициентов корреляции, а также параметрических или непараметрических оценок функций, выражающих зависимости) и др. Используют точечные и интервальные (дающие границы для истинных значений) оценки.

В математической статистике есть общая теория проверки гипотез и большое число методов, посвященных проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны методы поиска информативного подмножества переменных и непараметрические методы.

Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад, когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ 1 и многочисленные нелинейные обобщения.

Различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.

Математические методы в статистике основаны либо на использовании сумм (на основе Центральной Предельной Теоремы теории вероятностей) или показателей различия (расстояний, метрик), как в статистике объектов нечисловой природы. Строго обоснованы обычно лишь асимптотические результаты. В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчетов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

2. Основные понятия математической статистики

2.1 Основные понятия выборочного метода

Пусть — случайная величина, наблюдаемая в случайном эксперименте. Предполагается, что вероятностное пространство задано (и не будет нас интересовать).

Будем считать, что, проведя раз этот эксперимент в одинаковых условиях, мы получили числа , , , — значения этой случайной величины в первом, втором, и т.д. экспериментах. Случайная величина имеет некоторое распределение , которое нам частично или полностью неизвестно.

Рассмотрим подробнее набор , называемый выборкой.

В серии уже произведенных экспериментов выборка — это набор чисел. Но если эту серию экспериментов повторить еще раз, то вместо этого набора мы получим новый набор чисел. Вместо числа появится другое число — одно из значений случайной величины . То есть (и , и , и т.д.) — переменная величина, которая может принимать те же значения, что и случайная величина , и так же часто (с теми же вероятностями). Поэтому до опыта — случайная величина, одинаково распределенная с , а после опыта — число, которое мы наблюдаем в данном первом эксперименте, т.е. одно из возможных значений случайной величины .

2.2 Выборочное распределение

Рассмотрим реализацию выборки на одном элементарном исходе — набор чисел , , . На подходящем вероятностном пространстве введем случайную величину , принимающую значения , , с вероятностями по (если какие-то из значений совпали, сложим вероятности соответствующее число раз). Таблица распределения вероятностей и функция распределения случайной величины выглядят так:

Распределение величины называют эмпирическим или выборочным распределением. Вычислим математическое ожидание и дисперсию величины и введем обозначения для этих величин:

Точно так же вычислим и момент порядка

В общем случае обозначим через величину

Если при построении всех введенных нами характеристик считать выборку , , набором случайных величин, то и сами эти характеристики — , , , , — станут величинами случайными. Эти характеристики выборочного распределения используют для оценки (приближения) соответствующих неизвестных характеристик истинного распределения.

Причина использования характеристик распределения для оценки характеристик истинного распределения (или ) — в близости этих распределений при больших .

Рассмотрим, для примера, подбрасываний правильного кубика. Пусть — количество очков, выпавших при -м броске, . Предположим, что единица в выборке встретится раз, двойка — раз и т.д. Тогда случайная величина будет принимать значения 1, , 6 с вероятностями , , соответственно. Но эти пропорции с ростом приближаются к согласно закону больших чисел. То есть распределение величины в некотором смысле сближается с истинным распределением числа очков, выпадающих при подбрасывании правильного кубика.

Мы не станем уточнять, что имеется в виду под близостью выборочного и истинного распределений. В следующих параграфах мы подробнее познакомимся с каждой из введенных выше характеристик и исследуем ее свойства, в том числе ее поведение с ростом объема выборки.

2.3 Эмпирическая функция распределения, гистограмма

Определение 1.

Эмпирической функцией распределения, построенной по выборке объема , называется случайная функция , при каждом равная

Напоминание: Случайная функция

называется индикатором события . При каждом это — случайная величина, имеющая распределение Бернулли с параметром . почему?

Иначе говоря, при любом значение , равное истинной вероятности случайной величине быть меньше , оценивается долей элементов выборки, меньших .

Если элементы выборки , , упорядочить по возрастанию (на каждом элементарном исходе), получится новый набор случайных величин, называемый вариационным рядом:

Элемент , , называется -м членом вариационного ряда или -й порядковой статистикой.

Рис. 1. Пример 1

Эмпирическая функция распределения имеет скачки в точках выборки, величина скачка в точке равна , где — количество элементов выборки, совпадающих с .

Можно построить эмпирическую функцию распределения по вариационному ряду:

Другой характеристикой распределения является таблица (для дискретных распределений) или плотность (для абсолютно непрерывных). Эмпирическим, или выборочным аналогом таблицы или плотности является так называемая гистограмма.

Гистограмма строится по группированным данным. Предполагаемую область значений случайной величины (или область выборочных данных) делят независимо от выборки на некоторое количество интервалов (не обязательно одинаковых). Пусть , , — интервалы на прямой, называемые интервалами группировки. Обозначим для через число элементов выборки, попавших в интервал :

На каждом из интервалов строят прямоугольник, площадь которого пропорциональна . Общая площадь всех прямоугольников должна равняться единице. Пусть — длина интервала . Высота прямоугольника над равна

Полученная фигура называется гистограммой.

Имеется вариационный ряд (см. пример 1):

Разобьем отрезок на 4 равных отрезка. В отрезок попали 4 элемента выборки, в — 6, в — 3, и в отрезок попали 2 элемента выборки. Строим гистограмму (рис. 2). На рис. 3 — тоже гистограмма для той же выборки, но при разбиении области на 5 равных отрезков.

Рис. 2. Пример 2

Рис. 3. Пример 2

Замечание 1.

Здесь — десятичный логарифм, поэтому , т.е. при увеличении выборки вдвое число интервалов группировки увеличивается на 1. Заметим, что чем больше интервалов группировки, тем лучше. Но, если брать число интервалов, скажем, порядка , то с ростом гистограмма не будет приближаться к плотности.

Справедливо следующее утверждение:

Если плотность распределения элементов выборки является непрерывной функцией, то при так, что , имеет место поточечная сходимость по вероятности гистограммы к плотности.

Так что выбор логарифма разумен, но не является единственно возможным.

Математическая (или теоретическая) статистика опирается на методы и понятия теории вероятностей, но решает в каком-то смысле обратные задачи.

Если мы наблюдаем одновременно проявление двух (или более) признаков, т.е. имеем набор значений нескольких случайных величин — что можно сказать об их зависимости? Есть она или нет? А если есть, то какова эта зависимость?

Итак, о (математической) статистике имеет смысл вспоминать, если

имеется случайный эксперимент, свойства которого частично или полностью неизвестны,

мы умеем воспроизводить этот эксперимент в одних и тех же условиях некоторое (а лучше — какое угодно) число раз.

Список литературы

Баумоль У. Экономическая теория и исследование операций. – М.; Наука, 1999.

Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1995.

Боровков А.А. Математическая статистика. М.: Наука, 1994.

Коршунов Д.А., Чернова Н.И. Сборник задач и упражнений по математической статистике. Новосибирск: Изд-во Института математики им. С.Л.Соболева СО РАН, 2001.

Пехелецкий И.Д. Математика: учебник для студентов. - М.: Академия, 2003.

Суходольский В.Г. Лекции по высшей математике для гуманитариев. - СПБ Издательство Санкт-петербургского государственного университета. 2003

Феллер В. Введение в теорию вероятностей и ее приложения. - М.: Мир, Т.2, 1984.

Харман Г., Современный факторный анализ. — М.: Статистика, 1972.

1 Харман Г., Современный факторный анализ. — М.: Статистика, 1972.

Если Вам нужна помощь с академической работой (курсовая, контрольная, диплом, реферат и т.д.), обратитесь к нашим специалистам. Более 90000 специалистов готовы Вам помочь.

Читайте также: