Статистическая корректировка данных реферат

Обновлено: 03.07.2024

Курсовая работа состоит из двух глав. Первая глава призвана обеспечить анализ количественной стороны массовых явлений, служит основой для принятия соответствующих управленческих решений. Также в данной главе рассматривается определение функции плотности и построение ее графика, сравнение экспериментальной и теоретической вероятности. Вторая глава раскрывает понятие рынка труда, в ней рассмотрены основные категории трудоспособного и экономически активного населения, рассмотрены коэффициенты, с помощью которых и определяется количественная оценка социальных явления (таких как занятость, безработица).

Содержание

Введение . . . . . . . . . . . . . . . . . . . 3
Глава 1. Статистическая обработка данных . . . . . . . . . 4
Постановка задачи. Цель работы. Исходные данные . . . . . 4
Вычисление основных выборочных характеристик по заданной
выборке . . . . . . . . . . . . . . . . . 5
Результаты вычисления интервальных оценок для математического
ожидания и дисперсии . . . . . . . . . . . . . 7
Результаты ранжирования выборочных данных и вычисление моды и
медианы . . . . . . . . . . . . . . . . . 10
Параметрическая оценка функции плотности распределения . . . 12
Проверка гипотезы о нормальном распределении случайной
величины по критерию Пирсона . . . . . . . . . . 17

Прикрепленные файлы: 1 файл

Statistika_Luchnikova.doc

Глава 1. Статистическая обработка данных . . . . . . . . . 4

    1. Постановка задачи. Цель работы. Исходные данные . . . . . 4
    2. Вычисление основных выборочных характеристик по заданной
      1. Результаты вычисления интервальных оценок для математического

      ожидания и дисперсии . . . . . . . . . . . . . 7

        1. Результаты ранжирования выборочных данных и вычисление моды и
          1. Параметрическая оценка функции плотности распределения . . . 12
          2. Проверка гипотезы о нормальном распределении случайной

          величины по критерию Пирсона . . . . . . . . . . 17

          Первое и главное: Статистические данные являются важнейшей частью глобальной информационной системы государства.

          Актуальность работы вызвана тем, что в наше время важность правильной, рациональной организации и реализации статистических методов вошла в повседневный обиход современной жизни. Это неудивительно. Статистика является корреляционной наукой. Она включает в себя разделы как теоретические, так и прикладные (экономическая, социальная, отраслевая статистика). В этой связи статистика представляет собой необходимое звено в системе организации и функционирования, как малого субъекта бизнеса, так и страны в целом.

          Курсовая работа состоит из двух глав. Первая глава призвана обеспечить анализ количественной стороны массовых явлений, служит основой для принятия соответствующих управленческих решений. Также в данной главе рассматривается определение функции плотности и построение ее графика, сравнение экспериментальной и теоретической вероятности. Вторая глава раскрывает понятие рынка труда, в ней рассмотрены основные категории трудоспособного и экономически активного населения, рассмотрены коэффициенты, с помощью которых и определяется количественная оценка социальных явления (таких как занятость, безработица).

          Целью курсового проекта является изучение и усвоение основных понятий математической статистики, овладение методикой статистического оценивания числовых характеристик случайной величины и нормального закона распределения, знакомство с методикой применения статистических критериев для проверки гипотез.

          Глава 1. Статистическая обработка данных

          1.1. Постановка задачи. Цель работы. Исходные данные

          1) Постановка задачи

          По выборке объёма N провести статистическую обработку результатов эксперимента.

          Изучить и усвоить основные понятия математической статистики. Овладеть методикой статистического оценивания числовых характеристик случайной величины и нормального закона распределения. Ознакомиться с методикой применения статистических критериев для проверки гипотез.

          3) Исходные данные

          Проведен эксперимент, в результате которого была получена выборка N = 60, которая соответствует случайной величине, распределённой по нормальному закону. Эта выборка изложена в следующей таблице.

          Процедура очищения данных (data cleaning) заключается в проверке состоятельности собранных данных и работе с пропущенными ответами.

          Проверка состоятельности данных (consistency checks) позволяет выявить данные, выходящие за пределы определенного диапазона, и логически непоследовательные ответы, а также определить экстремальные значения.

          И наконец, необходимо тщательно проанализировать экстремальные значения. Следует помнить, что экстремальные значения — не всегда результат ошибок ввода, нередко они указывают на то, что существуют определенные проблемы с качеством собранных данных. Например, чрезмерно заниженная оценка какой-либо торговой марки может быть результатом того, что респондент просто без разбора пометил 1 по всем ее характеристикам (по рейтинговой шкале от 1 до 7).

          Процедуры статистической корректировки данных включают взвешивание, работу с пропущенными и аномальными значениями. Все эти корректировки необязательны, но, применяя их, можно значительно повысить качество анализа.

          3.8.1 Взвешивание

          При взвешивании (weighting) каждому наблюдению или респонденту в базе данных присваивается весовой коэффициент, отображающий степень его значимости по сравнению с другими наблюдениями или респондентами.

          Значение 1,0 применяется для обозначения наблюдения с отсутствием весового коэффициента. Цель взвешивания заключается в том, чтобы увеличить либо уменьшить в выборке количество наблюдений с определенными характеристиками.

          3.8.2 Работа с пропущенными ответами

          Пропущенными ответами (missing responses) называют значения переменных, которые остались неизвестными исследователю либо потому, что ответы респондентов были неоднозначны, либо неправильно или неразборчиво записаны.

          Удаление записей с пропущенными значениями. Поскольку нередки случаи, когда многие респонденты не отвечают на те или иные вопросы, данный метод может вызвать значительное сокращение выборки. Следует помнить, что исключение большого количества данных нежелательно, поскольку процесс сбора данных дорог и требует больших временных затрат. Кроме того, респонденты с пропущенными значениями систематически отличаются от респондентов, ответивших на все вопросы. В таких случаях исключение по данному методу может значительно исказить результаты опроса.

          Максимальное использование доступных данных (попарное исключение). Для расчетов будут использованы все наблюдения с годными значениями для этой переменной. При попарном исключении (pairwise delition) вместо отбраковывания всех случаев с любыми отсутствующими значениями исследователь во всех своих вычислениях рассматривает только наблюдения или респондентов, по которым есть полные ответы.

          3.8.3 Работа с аномальными значениями (выбросами)

          Выброс (англ. outlier), аномальное значение — в статистике результат измерения, выделяющийся из общей выборки.

          Статистические методы и характеристики, способные действовать в условиях выбросов, называются робастными. Например, медиана является робастной характеристикой, а выборочное среднее — нет.

          Пусть в выборке присутствуют значения, резко отличающиеся от остальных. Возможные причины появления таких значений:

          Внутренние причины, связанные с объективно сложившимися условиями.

          Внешние причины, связанные с ошибкой наблюдения (ошибка прибора, намеренная ошибка)

          Неверное или неточное определение границ совокупности, неправильная группировка данных.

          Для выяснения причин аномального значения необходимо провести анализ явления. Если причина внутренняя (1), то значение остается в выборке, если же причина 2 или 3, то проводится формальная проверка, является ли это грубой ошибкой наблюдения.


          Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в диапазон считается выбросами.

          Более тонкие критерии — критерий Шовене, тест Граббса, критерии Титьена и Мура, критерий Пирса, Q-тест Диксона — позволяют осуществить формальную проверку наличия выбросов.

          Для совокупностей, распределение которых можно считать близким к нормальному, проверка наличия выбросом может быть осуществлена при помощи t критерия Стьюдента. С этой целью для всех значений, исключая исследуемое, рассчитывается выборочное среднее и выборочное СКО и выдвигается нулевая гипотеза о том, что исследуемое значение несущественно отличается от среднего, т.е. принадлежит к данной совокупности.

          Альтернативная гипотеза: или

          Для проверяемого значения рассчитывается фактическое значение t критерия:


          ,

          при этом среднее и среднеквадратическое отклонение рассчитывают, исключив проверяемое значение.

          Это значение сравнивается с критическим значением, найденным по таблице распределения Стьюдента:

          = t1-2, n-1.


          Если , то нулевая гипотеза Н0 отвергается и исследуемое значение исключается из совокупности.

          Цель работы : изучить зависимость объемов продаж от полученной прибыли. Для решения поставленной цели предстоит решить следующие задачи :

          привести пример табулирования и шкалирования данных на основе анкет;

          осуществить группировку данных по 20 наименованиям, разделение провести на 5 групп,;

          создать рисунки вариационных рядов;

          провести корреляционный и регрессивный анализ,;

          сделать выводы по имеющимся данным.

          Глава 1. Подготовка данных для маркетинговой информации, критерии выбора шкал

          Обработка и анализ маркетинговой информации представляют собой серьезный этап статистической обработки полученных результатов. От того, насколько правильно и качественно будет произведена обработка данных, зависит достоверность принимаемых выводов и последующих практических решений.

          Анализ информации – извлечение из совокупности полученных данных наиболее важных сведений и результатов. [1, 238]

          Обработка и анализ маркетинговой информации включает: предварительные этапы (редактирование, кодирование, табулирование и представление табулированных данных); оценку различий (проверка согласия, проверка Колмогорова-Смирнова, анализ средней выборки); выбор методов исследования (простой регрессионный и корреляционный анализ).

          Процесс подготовки данных маркетинговых исследований включает проверку анкет, редактирование, кодирование, преобразование, очищение данных, статистическую корректировку данных, выбор стратегии анализа данных. [1, 240]

          Проверка анкет – проверка на полноту заполнения и качество проведенного исследования.

          Редактирование призвано выявлять несоответствие маркетингового исследования каким-либо требованиям или стандартам, включат в себя просмотр, изучение и исправление ошибок в регистрации наблюдений.

          Кодирование данных – это определенный технический прием, с помощью которого данные распределяются по категориям, т.е. способ представления полученной информации в виде символов, знаков, цифр с целью удобства ее использования для компьютерной или другой обработки.

          Преобразование данных – этот этап заключается в переносе закодированных данных из анкеты или кодировочной таблицы через клавиатуру в компьютер.

          Очищение данных – представляет этап всесторонней проверки состоятельности собранных данных и работы с пропущенными ответами.

          Статистическая корректировка данных представляет собой предзаключительную процедуру подготовки маркетинговой информации. Она включает взвешивание, переопределение переменной и преобразование шкалы измерений.

          Взвешивание – метод корректировки данных, при котором каждому наблюдению или респонденту в базе данных присваивается весовой коэффициент, отражающий степень его значимости по сравнению с другими наблюдениями или респондентами.

          Выделяют четыре типа шкал, при помощи которых характеристики могут быть измерены, а именно: номинальную, порядковую, интервальную и относительную. Их относительная характеристика дается в табл. 1.1. [2, 130]

          Целью данной курсовой работы является изучение и, как в следствии, расширение знаний о математической статистике, ознакомление с методами обработки экспериментального материала, с целью получения надежных выводов, ознакомление с методикой применения статистических критериев для проверки гипотез.

          1. Постановка задачи. Цель работы. Исходные данные

          . Вычисление основных выборочных характеристик по заданной выборке

          . Результаты вычисления интервальных оценок для математического ожидания и дисперсии

          . Результаты ранжирования выборочных данных и вычисление моды и медианы

          . Параметрическая оценка функции плотности распределения

          Нужна помощь в написании курсовой?

          Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Наша система гарантирует сдачу работы к сроку без плагиата. Правки вносим бесплатно.

          . Проверка гипотезы о нормальном распределении случайной величины по критерию Пирсона

          Список использованной литературы

          интервальный дисперсия выборочный данные

          Целью данной курсовой работы является изучение и, как в следствии, расширение знаний о математической статистике, ознакомление с методами обработки экспериментального материала, с целью получения надежных выводов, ознакомление с методикой применения статистических критериев для проверки гипотез.

          . Постановка задачи. Цель работы. Исходные данные

          Нужна помощь в написании курсовой?

          Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Наша система гарантирует сдачу работы к сроку без плагиата. Правки вносим бесплатно.

          По выборке объёма N провести статистическую обработку результатов эксперимента.

          Изучить и усвоить основные понятия математической статистики. Овладеть методикой статистического оценивания числовых характеристик случайной величины и нормального закона распределения. Ознакомиться с методикой применения статистических критериев для проверки гипотез.

          Проведен эксперимент, в результате которого была получена выборка N = 60, которая соответствует случайной величине, распределённой по нормальному закону. Данная выборка представлена в таблице 1.1

          10.2836 10.7148 9.4963 12.8971 10.9190 12.8067
          14.0510 7.3201 7.9052 15.2359 10.6512 9.6341
          11.0156 12.4240 8.9727 12.1429 13.1025 11.9252
          11.8667 8.3636 10.2223 9.1232 12.2658 11.1741
          10.8028 10.4434 11.2314 9.6948 11.0725 8.3374
          12.4564 9.5759 8.7116 14.2939 9.5319 13.1150
          11.8891 17.3345 6.9275 13.3734 13.4795 13.8429
          12.1071 11.7579 14.8285 9.5450 12.1039
          12.9304 7.3669 12.4592 12.3466 11.8461 11.5607
          10.7288 15.9654 16.1488 9.8759 12.9522 12.5015

          2. Вычисление основных выборочных характеристик по заданной выборке среднее арифметическое случайной величины Х (N = 60)

          ) среднее линейное отклонение

          Нужна помощь в написании курсовой?

          Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Наша система гарантирует сдачу работы к сроку без плагиата. Правки вносим бесплатно.

          ) дисперсия случайной величины Х

          ) несмещенная оценка дисперсии

          5) среднеквадратическое отклонение

          6) несмещенная выборочная оценка для среднеквадратического отклонения

          7) коэффициент вариации

          ) коэффициент асимметрии случайной величины Х

          9) коэффициент эксцесса случайной величины Х

          10) вариационный размах

          Нужна помощь в написании курсовой?

          Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Наша система гарантирует сдачу работы к сроку без плагиата. Правки вносим бесплатно.

          = Xmax — Xmin = 17,3345- 6,9275= 10,407

          На основании полученных вычислений можно сделать следующие выводы:

          Выполняется необходимое условие для того, чтобы выборка имела нормальный закон распределения, т.к. для коэффициента вариации V выполняется неравенство:

          V = Xmax, то есть X8 = 18,1775> Xmax = 17,3345.

          Нужна помощь в написании курсовой?

          Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Наша система гарантирует сдачу работы к сроку без плагиата. Правки вносим бесплатно.

          По результатам вычислений составляем таблицу. В первой графе таблицы помещаем частичные интервалы, во второй графе — середины интервалов, в третьей графе записано количество элементов выборки, попавших в каждый интервал — частоты, в четвертой графе записаны относительные частоты и в пятой графе записаны значения плотности относительных частот или значения выборочной, экспериментальной функции плотности. Данная информация представлена в таблице 4.2.

          Значение выборочной функции и плотности

          h ni3
          [6,1775; 7,6775) 6,9275 3 0,05 0,033 33
          [7,6775; 9,1775) 8,4275 6 0,1 0,067 67
          [9,1775; 10,6775) 9,9275 12 0,2 0,133 133
          [10,6775; 12,1775) 11,4275 17 0,283 0,189 189
          [12,1775; 13,6775) 12,9275 14 0,233 0,156 156
          [13,6775; 15,1775) 14,4275 4 0,067 0,044 44
          [15,1775; 16,6775) 15,9275 3 0,05 0,033 33
          [16,6775; 18,1775) 17,4275 1 0,016 0,011

          По результатам вычислений функции плотности, представленной в таблице 4.2., можно сделать вывод, что мода имеет один локальный максимум в окрестности точки х = 11,4275 и с частотой по n = 17.

          Оценку медианы находим, используя вариационный ряд:

          Так как N = 2k, k = N / 2 = 60 / 2 = 30

          Сравнение оценок медианы и оценки математического ожидания показывает, что они отличаются на 1,34 %.

          . Параметрическая оценка функции плотности распределения

          Нужна помощь в написании курсовой?

          Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Наша система гарантирует сдачу работы к сроку без плагиата. Правки вносим бесплатно.

          Исходя из гипотезы, что заданная выборка имеет нормальный закон распределения, найдем параметрическую оценку функции плотности, используя формулу для плотности распределения вероятности нормального закона:

          Где и известны — они вычисляются по выборке.

          Значения этой функции вычисляются для середины частичных интервалов вариационного ряда, т.е. при х = . На практике для упрощения вычислений функции , где i = 1,2,…, k, пользуются таблицами значений функции плотности стандартной нормальной величины.

          Для этого вычисляем значения для i = 1,2,…, k, затем по таблице значений функций плотности стандартной нормальной величины находим значение .

          Переходим к вычислению функции:

          Функция , вычисленная при заданных параметрах и в середине частичного интервала, фактически является теоретической относительной частотой, отнесенной к середине частичного интервала.

          Поэтому для определения теоретической частоты , распределенной по всей ширине интервала, эту функцию необходимо умножить на .

          Результаты вычислений вероятностей и соответствующих частот приведены в таблице 5.2.

          Из полученных результатов проведенных вычислений следует, что сумма вероятностей в интервале [6,1775; 18,1775) почти равна единице, а сумма всех частот равна 59,61. Данные результаты объясняются тем, что мы вычисляем вероятности в интервале, где заданы экспериментальные данные.

          Сравнение экспериментальных и теоретических частот по критерию Пирсона с целью проверки гипотезы о нормальном распределении возможно только в том случае, если для каждого частичного интервала выполняется условие . Представленные в таблице 5.2 результаты вычислений показывают, что это условие выполняется не всегда. Поэтому все те частичные интервалы, для которых частоты , объединяем с соседними. Соответственно объединяем и экспериментальные частоты .

          0,0330,0670,1330,1890,1560,0440,0330,011
          0,0220,070,1420,1820,1450,0730,0230,005

          Рис. 1. График. Теоретическая и экспериментальная плотности вероятности.

          Результаты вычисления экспериментальных и теоретических вероятностей и частот

          Нужна помощь в написании курсовой?

          Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Наша система гарантирует сдачу работы к сроку без плагиата. Правки вносим бесплатно.

          [xi-1; xi)
          [6,1775; 7,6775) 3 6,9275 0,05 0,033 -2,064 0,022 0,033 1,98 2
          [7,6775; 9,1775) 6 8,4275 0,1 0,067 -1,38 0,07 0,105 6,3 6
          [9,1775; 10,6775) 12 9,9275 0,2 -0,7 0,142 0,213 12,78 13
          [10,6775; 12,1775) 17 11,4275 0,283 0,189 -0,016 0,182 0,273 16,38 16
          [12,1775; 13,6775) 14 12,9275 0,233 0,156 0,67 0,145 0,2175 13,05 13
          [13,6775; 15,1775) 4 14,4275 0,067 0,044 1,35 0,073 0,1095 6,57 7
          [15,1775; 16,6775) 3 15,9275 0,05 0,033 2,03 0,023 0,035 2,1 2
          [16,6775; 18,1775) 1 17,4275 0,016 0,011 2,71 0,005 0,0075 0,45 1
          Σ 0,999 0,9935 59,61

          . Проверка гипотезы о нормальном распределении случайной величины по критерию Пирсона

          Для проверки гипотезы о нормальном распределении случайной величины Х сравнивают между собой экспериментальные и теоретические частоты по критерию Пирсона:

          Статистика имеет распределение с V = k — r — 1 степенями свободы, где k — число интервалов эмпирического распределения, r — число параметров теоретического распределения, вычисленных по экспериментальным данным. Для нормального распределения число степеней свободы равно:

          В теории математической статистики доказывается, что проверку гипотезы о модели закона распределения по критерию Пирсона можно делать только в том случае, если выполняются следующие неравенства:

          N ≥ 50 ≥ 5 где i = 1,2,3…

          Из результатов вычислений, приведенных в таблице 1.5.1, следует, что необходимое условие для применения критерия согласия Пирсона не выполнены, т.к. в некоторых группах , то выдвинутая гипотезы о теоретическом законе распределения отвергается при заданном уровне значимости.

          Читайте также: