Двухфакторный дисперсионный анализ кратко

Обновлено: 02.07.2024

Назначение метода

Данный вариант двухфакторного дисперсионного анализа применяется в тех случаях, когда исследуется одновременное действие двухфакторов на разные выборки испытуемых, т. е. когда разные выборки, испытуемых оказываются под воздействием разных сочетаний двух факторов. Количество выборок определяется количеством ячеек дисперсионного комплекса.

Описание метода

Суть метода остается прежней, но в двухфакторном дисперсионном анализе мы можем проверить большее количество гипотез. Расчеты гораздо сложнее, чем в однофакторных комплексах.

Используемый в данном руководстве алгоритм расчетов предназначен только для равномерных комплексов. Если комплекс получился неравномерным, необходимо случайным образом отсеять несколько испытуемых.

Работу начинаем с построения специальной таблицы, отражающей весь дисперсионный комплекс. Подробности лучше сразу рассматривать на примере.

Рассмотрим пример из руководства J.Greene, M.D.'Olivera (1989).

Четырем группам испытуемых предъявлялись списки из 10 слов:

группе 1 - короткие слова с большой скоростью;

группе 2 - короткие слова с медленной скоростью;

группе 3 - длинные слова с большой скоростью;

группе 4 - длинные слова с медленной скоростью.

В каждой группе было по 4 испытуемых, всего N=16. Предсказывалось, что между факторами длины слов и скоростью их предъявления будет наблюдаться значимое взаимодействие: при большой скорости предъявления лучше будут запоминаться короткие слова, а при медленной скорости - длинные слова. Результаты экспериментов представлены в Табл. 8.1.

Количество воспроизведенных слов при разной длине слов и разной скорости их предъявления (по J.Greene, M.D'Olivera, 1989)

Переменная (фактор) В скорость предъявления слов

Переменная (фактор) А - длина слов

Суммы по переменной В (Т_B)

A₁ - короткие слова

A₂ - длинные слова

В₁ (большая скорость)

Суммы по переменной А (Т_A)

Заметим, что в отечественных руководствах чаще предлагается другая, более привычная для нас, форма таблиц для двухфакторных дисперсионных комплексов (Табл. 8.2). При такой форме легче "увидеть" комплекс в целом.

Двухфакторный дисперсионный комплекс по оценке влияния фактора А (длина слов) и фактора В (скорость предъявления слов) на количество воспроизведенных слов

Градации фактора А

А₁ - короткие слова

A₂ – длинные слова

Градации фактора В

Суммы по ячейкам

Суммы по градациям фактора А

Суммы по градациям фактора В

Как видим, при такой форме таблицы легче подсчитать суммы по ячейкам (в столбик), но труднее разобраться с суммами по градациям каждого из факторов. В данном случае оказалось, что они совпали:

В дальнейшем при использовании алгоритма расчетов будем опираться на Табл. 8.1.

Сформулируем гипотезы. Это будут гипотезы, касающиеся влияния фактора А отдельно от фактора В (как бы при "усредненных" его значениях), гипотезы о влиянии фактора В отдельно от фактора А и гипотезы о влиянии взаимодействия градаций факторов А и В.

1 комплект гипотез

H₀: Различия в объеме воспроизведения слов, обусловленные действием фактора А, являются не более выраженными, чем случайные различия между показателями.

H₁: Различия в объеме воспроизведения слов, обусловленные действием фактора А, являются более выраженными, чем случайные различия между показателями.

2 комплект гипотез

H₀: Различия в объеме воспроизведения слов, обусловленные действием фактора В, являются не более выраженными, чем случайные различия между показателями.

H₁: Различия в объеме воспроизведения слов, обусловленные действием фактора В, являются более выраженными, чем случайные различия между показателями.

3 комплект гипотез

H₀: Влияние фактора А на объем воспроизведения слов одинаково при разных градациях фактора В, и наоборот.

H_1: Влияние фактора А на объем воспроизведения слов различно при разных градациях фактора В, и наоборот.

Используя экспериментальные значения, представленные в Табл. 8.1, установим некоторые величины, которые будут необходимы для расчета критериев F.

Величины, необходимые для расчета критериев F в двухфакторном дисперсионном анализе для несвязанных выборок

Напомним, что при подсчете ∑ x _i 2 все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, а при подсчете (∑ x_i) 2 все индивидуальные значения сначала суммируются, а затем их общая сумма возводится в квадрат.

Последовательность расчетов представлена в Табл. 8.4.

Последовательность операций в двухфакторном дисперсионном анализе для несвязанных выборок

Вывод: Но принимается в комплектах гипотез 1 и 2. Различия в объеме воспроизведения слов, обусловленные в отдельности факторами А и В, не являются более выраженными, чем случайные различия между показателями. H₀ отвергается для взаимодействия факторов (3 комплект). Принимается H₁. Влияние фактора А на объем воспроизведения слов различно при разных градациях фактора В, и наоборот (р≤0,01).

Итак, оказывается, что факторы длины слов и скорости их предъявления в отдельности не оказывают значимого действия на объем воспроизведения. Значимым оказывается именно взаимодействие факторов: короткие слова лучше запоминаются при быстрой скорости предъявления, а длинные - при медленной скорости предъявления (см. Рис. 8.2). Таким образом, предположение, высказанное авторами, нашло статистически значимое подтверждение (р≤0,001).

Рис. 8.2. Кривые изменения объема воспроизведения при повышении скорости предъявления коротких (сплошная линия) и длинных слов (пунктирная линия)

Ограничения двухфакторного дисперсионного анализа для несвязанных выборок

1. У каждого фактора должно быть не менее двух градаций.

2. В каждой ячейке комплекса должно быть не менее двух наблюдаемых значений для выявления взаимодействия градаций.

3. Количества значений во всех ячейках комплекса должны быть равны для обеспечения равенства дисперсий в ячейках комплекса и для использования приведенного выше алгоритма расчетов; для неравномерных комплексов можно использовать алгоритмы Н.А. Плохинского (1970).

4. Комплекс должен представлять собой симметричную систему: каждой градации фактора А должно соответствовать одинаковое количество градаций фактора В.

5. Результативный признак должен быть нормально распределен в исследуемой выборке, в противном случае значимые различия будет выявить гораздо труднее и применение метода будет не вполне корректным.

6. Факторы должны быть независимыми. В рассмотренном примере скорость предъявления слов и их длина - внешне независимые факторы. В других случаях независимость факторов может быть подтверждена отсутствием корреляционной связи между переменными, выступающими в качестве факторов.

Ранее был рассмотрен полностью рандомизированный эксперимент и связанный с ним однофакторный дисперсионный анализ. В настоящей заметке будет изучен двухфакторный дисперсионный анализ, в ходе которого одновременно оцениваются два фактора. Мы рассмотрим лишь ситуации, в которых выборки имеют одинаковый объем n‘. [1]

Вследствие сложности вычислений, особенно при большом количестве уровней каждого фактора и реплик, для двухфакторного анализа следует применять либо Excel, либо специализированное программное обеспечение. В двухфакторном эксперименте факторы А и В считаются взаимодействующими, если эффект фактора А зависит от уровня фактора В. Напомним, что в полностью рандомизированном плане полная сумма квадратов (SST) подразделяется на межгрупповую сумму квадратов (SSA) и внутригрупповую сумму квадратов (SSW). В двухфакторном эксперименте с одинаковым количеством реплик в каждой ячейке полная вариация (SST) подразделяется на сумму квадратов, соответствующую фактору A (SSA), сумму квадратов, соответствующую фактору В (SSB), сумму квадратов, учитывающую взаимодействие факторов А и В (SSAB), и сумму квадратов, возникающую вследствие случайной ошибки (SSE) (рис. 1).

Рис. 1. Разделение полной вариации в двухфакторном эксперименте

В двухфакторном дисперсионном анализе применяются три разных критерия:

Для проверки гипотезы об отсутствии эффекта фактора А
Для проверки гипотезы об отсутствии эффекта фактора В
Для проверки гипотезы об отсутствии эффекта взаимодействия факторов А и В (рис. 2).

Каждая из трех нулевых гипотез отклоняется, если при заданном уровне значимости α соответствующая F-статистика (см. последнюю колонку рис. 2) больше верхнего критического значения F-распределения F_U.

Рис. 2. Дисперсионный анализ в двухфакторном эксперименте

Для иллюстрации двухфакторного дисперсионного анализа вернемся к нашему сценарию. Допустим, что, будучи руководителем производства, вы решили сравнить поставщиков синтетических волокон, и оценить, на каком из станков выпускаются более прочные парашюты: Jetta или Turk. Кроме того, необходимо определить, зависит ли разница между четырьмя поставщиками от типа станков, на которых производятся парашюты. Итак, необходимо разработать план эксперимента, в котором каждому поставщику и типу станка соответствует пять парашютов (рис. 3). Для проведения анализа пройдите по меню Данные → Анализ данных и выберите строку Двухфакторный дисперсионный анализ с повторениями.

Рис. 3. Двухфакторный дисперсионный анализ с повторениями в Пакете анализа Excel

На рис. 4 показаны результаты двухфакторного дисперсионного анализа данных: объем выборки, сумма, арифметическое среднее и дисперсия каждой комбинации типа станка и поставщика. В первых двух таблицах приведены результаты дисперсионного анализа для всех типов станка, а в третьей — для каждого поставщика. В сводной таблице дисперсионного анализа идентификатор df обозначает количество степеней свободы, SS — сумму квадратов, MS — среднее квадратичное отклонение, F — вычисленную F-статистику.

Рис. 4. Результат двухфакторного дисперсионного анализа прочности парашютов

Чтобы проанализировать эти результаты, сначала следует проверить, существует ли взаимодействие между факторами А (типами станка) и В (поставщиками). Если эффект взаимодействия является значительным, дальнейший анализ ограничивается лишь оценкой этого эффекта. С другой стороны, если эффект взаимодействия незначителен, необходимо сосредоточиться на главных эффектах — потенциальных различиях между типами станков (фактор А) и поставщиками (фактор В).

Чтобы определить наличие эффекта взаимодействия при уровне значимости, равном 0,05, применяется следующее решающее правило: нулевая гипотеза об отсутствии эффекта взаимодействия отклоняется, если вычисленное значение F-статистики (см. таблицу Дисперсионный анализ, строку Взаимодействие столбец F на рис. 4), больше верхнего критического значения F-распределения (там же, столбец F-критическое). Поскольку F = 0,01 F_U = 2,92, а р-значение равно 0,005 и меньше уровня значимости, гипотеза Н₀ отклоняется. Следовательно, можно утверждать, что между прочностью парашютов, произведенных из волокна, приобретенного у разных поставщиков, существует значимая разница. [2]

Интерпретация эффектов взаимодействия

Чтобы лучше разобраться во взаимодействии факторов, следует построить график средних значений в ячейках (т.е. средних значений, соответствующих конкретным уровням факторов), как показано на рис. 5 (в качестве данных для построения графика использованы области В19:Е19 и В25:Е25 рис. 4). Из графика средней прочности для каждой комбинации станок–поставщик следует, что две линии, соответствующие разным станкам, проходят почти параллельно друг другу. Это означает, что разности между средними величинами прочности парашютов, произведенных на разных станках, практически одинаковы для всех четырех поставщиков. Иначе говоря, между этими двумя факторами нет связи, что полностью подтверждается F-критерием.

Рис. 5. График средних значений прочности парашютов в зависимости от станков и поставщиков

В чем проявляется эффект взаимодействия? В некоторых ситуациях определенные уровни фактора А могут оказаться связанными с конкретными уровнями фактора В. Например, предположим, что некоторые парашюты оказываются более прочными, если они сотканы из определенных волокон на станках Jetta, а другие — если они сотканы из волокон других поставщиков на станках Turk. Если бы это было правдой, линии на рис. 5 не были бы параллельными и взаимодействие между факторами было бы статистически значимым. Следовательно, в этих ситуациях разница между станками не будет одинаковой при разных поставщиках. Это усложняет интерпретацию главных эффектов, поскольку разности, соответствующие одному фактору (например, типу станка), не согласуются с другим фактором (например, поставщиком). Проиллюстрируем эту ситуацию следующим примером.

Пример.1. Интерпретация статистически значимых эффектов взаимодействия. Данные, приведенные на рис. 6а, характеризуют продолжительность работы подшипников под воздействием двух факторов: автоколебания и нагревания. Как влияют автоколебания и нагревание на продолжительность работы подшипников? Результаты двухфакторного дисперсионного анализа продолжительности работы подшипников, полученные с помощью Пакета анализа в Excel приведены на рис. 6б. Обратите внимание на то, что, кроме сводной таблицы дисперсионного анализа, Excel вычисляет среднее значение для каждой комбинации двух факторов: степени автоколебаний и нагревания, а также среднее значение для каждого уровня факторов. Для того чтобы проанализировать эти результаты, сначала необходимо определить, наблюдается ли статистически значимый эффект взаимодействия факторов автоколебания (фактор А) и нагревания (фактор В). При уровне значимости α = 0,05 нулевую гипотезу об отсутствии эффекта взаимодействия следует отклонить, поскольку p-значение равно 0,0018, т.е. меньше 0,05. Кроме того, F-статистика равна 53,78 и превышает величину 7,71 — верхнее критическое значение F-распределения с одной степенью свободы в числителе и четырьмя степенями свободы в знаменателе.

Рис. 6. (а) Продолжительность работы подшипников при автоколебании и нагревании; (б) Результаты двухфакторного дисперсионного анализа продолжительности работы подшипников

Значимый эффект взаимодействия между автоколебанием и нагреванием можно проследить на рис. 7. Поскольку графики средних значений продолжительности работы подшипников при слабом и сильном нагревании, соответствующие двум степеням автоколебаний, не параллельны, разности между средними значениями продолжительности работы при двух типах автоколебаний и двух степенях нагревания неодинаковы. Наличие эффекта взаимодействия факторов усложняет анализ основных эффектов. Теперь невозможно определить, существует ли статистически значимая разница между средними продолжительностями работы подшипников при слабых и сильных автоколебаниях, поскольку при разных степенях нагревания эта разность неодинакова. Аналогично невозможно определить, существует ли статистически значимая разница между средними продолжительностями работы подшипников при слабом и сильном нагревании, поскольку при разных степенях автоколебаний эта разность неодинакова.

Рис. 7. График средних значений продолжительности работы подшипников по ячейкам

Множественные сравнения

Если эффект взаимодействия факторов не важен, для множественного сравнения нескольких факторов можно применять процедуру Тьюки-Крамера.

Критический размах процедуры Тьюки-Крамера для фактора А

где Q_U — верхнее критическое значение распределения стьюдентизированного размаха, имеющего r степеней свободы в числителе и rc(n’ – 1) степеней свободы в знаменателе.

Критический размах процедуры Тьюки-Крамера для фактора B

где Q_U — верхнее критическое значение распределения стьюдентизированного размаха, имеющего с степеней свободы в числителе и rc(n’ – 1) степеней свободы в знаменателе.

Применим процедуру Тьюки-Крамера к задаче о прочности парашютов (см. рис. 3). Анализ сводной таблицы дисперсионного анализа, представленной на рис. 4, показывает, что статистически значимым является лишь один главный эффект. При уровне значимости, равном 0,05, нет оснований утверждать, что между двумя типами станков (Jetta и Turk) существует значимая разница (фактор А), однако между четырьмя поставщиками (фактор В) эта разница существует. Таким образом, дальнейший анализ должен концентрироваться на разностях между поставщиками.

Поскольку компания, производящая парашюты, имеет четыре фирмы-поставщика, следует проверить 4(4 – 1)/2 = 6 пар поставщиков (рис. 8а). Вычислим модули разности между соответствующими средними значениями по выборкам отдельных поставщиков (рис. 8б).

Рис. 8. (а) Исходные данные о прочности парашютов; (б) попарные сравнения средних значений по выборкам отдельных поставщиков

Чтобы вычислить критический размах, обратимся к данным на рис. 4: MSE = 8,61, r = 2, с = 4, n’ = 5, rc(n’ – 1) = 32. При α = 0,05, с = 4 и rc(n’ – 1) = 32 по таблицам размаха (рис. 9) определим, что Q_U — верхнее критическое значение F-статистики с двумя степенями свободы в числителе и 32 степенями свободы в знаменателе — приближенно равно 3,84. Используя формулу (2), получаем:

Рис. 9. Критическое значение стьюдентизированного размаха Q_U; к сожалению, в Excel нет функции, рассчитывающей такой размах

Только одно значение разности между средними значениями (рис. 8б) больше 3,56. Статистически значимая разница существует лишь между первым и вторым поставщиком. Как и при однофакторном дисперсионном анализе, приходим к выводу, что средняя прочность парашютов, сотканных из волокон, приобретенных у первого поставщика, значительно ниже, чем у второго.

[1] Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 664–676

[2] К аналогичному выводу мы пришли и при проведении однофакторного дисперсионного анализа по поставщикам.

Пусть имеется случайная переменная Y , значения которой мы можем измерять. Исследователь предполагает, что эта переменная зависит от 2-х факторов, значения которых мы можем контролировать, т.е. задавать с требуемой точностью. Покажем как методом дисперсионного анализа проверить гипотезу о наличии или отсутствии влияния указанных факторов на зависимую переменную Y .

Disclaimer : Эта статья – о применении MS EXCEL для целей Дисперсионного анализа, поэтому данную статью не стоит рассматривать, как пересказ главы из учебника по статистике. Статья не обладает ни полнотой, ни строгостью изложения положений статистической науки. Теоретические отступления приведены лишь из соображения логики изложения. Использование данной статьи для изучения теории Дисперсионного анализа – плохая идея. Хорошая идея - найти в этой статье формулы MS EXCEL для проведения Дисперсионного анализа.

В этой статье рассмотрим метод дисперсионного анализа в случае двух факторов (Фактор А и Фактор В) (Two Factor ANOVA with Replication).

СОВЕТ : Перед прочтением этой статьи рекомендуется освежить в памяти Однофакторный дисперсионный анализ .

Обозначения

Отдельные, заданные значения каждого фактора называются уровнями ( levels ) или испытаниями ( treatments ).

Уровни фактора А будем обозначать буквой j (j изменяется от 1 до a ). Уровни фактора В будем обозначать буквой i (i изменяется от 1 до b ). Каждой паре уровней факторов соответствует одна выборка, которая состоит из m измерений, каждое измерение будем обозначать буквой k (k от 1 до m). Таким образом, измеренные значения Y при уровне j фактора А и при уровне i фактора В будем обозначать y ijk . Всего выборок a*b .

Предполагается, что дисперсии всех выборок σ 2 неизвестны, но равны между собой.

Рассмотрим двухфакторный дисперсионный анализ при решении задачи.

Задача

В компании, изготавливающей изделия путем механообработки, необходимо исследовать влияние на качество изделия двух факторов: Метода обработки поверхности детали, и Исходного материала детали (используется сталь с различным легированием).

Метод обработки представляет собой фактор А , который может принимать 3 значения (Метод 1, Метод 2, Метод 3), а Исходный материал представляет собой фактор В , который может принимать 2 значения (№ 1, № 2). Качество изделий будем определять по количеству дефектных изделий в партии (это будет зависимой переменной Y).

Всего различных комбинаций 2-х факторов 6=3*2=a*b. Для каждой комбинации факторов было проведено по 3 измерения (т.е. m=3). Исходные данные приведены в файле примера .

Другими словами мы имеем 6 выборок по 3 значения в каждой. Средние этих выборок для каждой комбинации факторов ij можно вычислить по формуле:

Также для дальнейших вычислений нам потребуется вычислить еще несколько средних значений. Во-первых, вычислим среднее всех измерений, относящихся к каждому уровню i Фактора А:

Во-вторых, вычислим среднее всех измерений, относящихся к каждому уровню j Фактора В:

Взаимодействие факторов

Теперь, используя эти 6 средних значений, построим диаграмму, которая состоит из 2-х рядов .

По оси Х (абсцисс) отложены уровни Фактора А , по оси ординат отложены средние значения переменной Y (среднее количество дефектов для заданных уровней факторов). Средние значения сгруппированы по 2-м уровням Фактора В (Синяя и красная линии. Каждая линия представляет собой отдельный ряд диаграммы).

Как видно из диаграммы – синяя и красная линии практически параллельны друг другу. Это означает, что взаимодействие между факторами практически отсутствует (они не влияют друг на друга). Действительно, выбор метода обработки никак не может влиять на выбор конкретного исходного материала.

Вот еще одна диаграмма, демонстрирующая независимость 2-х факторов.

Обратная ситуация показана на диаграмме ниже, когда оба фактора взаимодействуют.

Из этой диаграммы видно, что при уровне №1 фактора В (синяя линия) количество дефектов сначала возрастает, затем снижается (когда мы переходим от метода №1 к №2, затем к №3). Мы наблюдаем диаметрально противоположную ситуацию при уровне №2 фактора В (красная линия): количество дефектов сначала снижается, а затем возрастает. В этом случае говорят о наличии взаимодействия факторов.

В случае взаимодействия факторов А и В, эффект от их взаимодействия может быть рассмотрен как некий третий фактор АВ . Чтобы пояснить это рассмотрим задачу анализа влияния на урожайность свеклы 2-х факторов: Вид семян и Тип почвы . Очевидно, что факторы Вид семян и Тип почвы не являются независимыми: можно утверждать, что для всех с/х культур на разных почвах разные типы семян дадут разную всхожесть. Различные комбинации Вид семян - Тип почвы могут сильно влиять на урожайность и поэтому взаимодействие факторов может вносить определенный вклад в разброс исходных данных.

Взаимодействие факторов было рассмотрено столь подробно, так как отсутствие или наличие взаимодействия принципиально влияет на ход дисперсионного анализа . При отсутствии взаимодействия влияние каждого фактора на переменную Y может быть рассмотрено по отдельности. При наличии взаимодействия анализировать влияние каждого фактора по отдельности нельзя. Альтернативным вариантом анализа в этом случае является однофакторный дисперсионный анализ, целью которого может быть поиск оптимального сочетания 2-х факторов.

Возвращаемся к диаграммам взаимодействия. Очевидно, что делать заключение о наличии или отсутствии взаимодействия факторов невозможно лишь по взаимному расположению линий на диаграмме. Для формулирования утверждения о взаимодействии требуется составить математическое выражение. Это выражение должно вычисляться на основании исходных данных, а результат должен сравниваться с неким критическим значением. Займемся этим в следующем разделе.

Определяем причины изменчивости исходных данных

По аналогии с однофакторным дисперсионным анализом общую изменчивость (разброс) значений Y относительно общего среднего (SST = Sum of Squares Total, общая сумма квадратов) определим как сумму нескольких компонентов, в данном случае 4-х:

SST=SSA+SSB+ SS взаим +SSE

SSA – изменчивость, которую можно объяснить выбором метода обработки (фактор А)
SSВ - изменчивость обусловленная выбором материала детали (фактор В)
SS взаим - изменчивость обусловленная взаимодействием 2-х факторов
SSE - ошибка модели (Error Sum of Squares).

SST и все 4 компонента вычисляются на основании имеющихся исходных данных:

Примечание : Вычисления SST и всех 4-х компонентов выполнены в файле примера .

Также в дисперсионном анализе используется понятие среднего квадрата отклонений (Mean Square) или сокращенно MS. Соответственно для SST имеем MST=SST/(N-1), где N= a*b*m является общим количеством измерений (18). Для других SS степени свободы приведены в таблице ниже.

Таким образом, MS имеет смысл средней изменчивости на 1 наблюдение (с некоторой поправкой). Эта поправка отражает тот факт, что MS должна вычисляться не делением SS на соответствующее количество наблюдений, а делением на число степеней свободы (degrees of freedom, DF). Например, чтобы вычислить MST, мы из N (общего количества наблюдений) должны вычесть 1, т.к. в выражении SST присутствует одно (1) среднее значение (аналогично тому, как мы делали при вычислении дисперсии ).

В случае двухфакторного дисперсионного анализа формируется 3 нулевых гипотезы .

Гипотеза Н 0 взаим об отсутствии взаимодействия Фактора А и Фактора В. Альтернативная гипотеза Н 1взаим формулируется о наличии взаимодействия.
гипотеза Н 01 заключается в том, что уровень фактора А (метод обработки поверхности) не влияет на измеренные значения Y (количество дефектов), т.е. средние значения выборок, относящиеся к различным уровням Фактора А не отличаются статистически значимо (их различие может быть объяснено лишь случайностью выборок).
гипотеза Н 0 2 заключается в том, что уровень фактора В (Исходный материал) не влияет на измеренные значения Y (количество дефектов), т.е. средние значения выборок, относящиеся к различным уровням Фактора В не отличаются статистически значимо.

Сначала тестируют гипотезу об отсутствии взаимодействия между факторами. Мы можем отклонить Н 0 взаим в пользу Н 1взаим при заданном уровне значимости α (альфа), если вычисленное значение тестовой статистики F= MS взаим /MSE больше F критич альфа – значения случайной величины F имеющей распределение Фишера с (b-1)*(a-1) и a*b*(m-1) степенями свободы.

Если взаимодействие между факторами отсутствует, то можно начинать тестировать гипотезы Н 01 и Н 0 2 . При наличии взаимодействия анализировать влияние каждого фактора по отдельности нельзя. Альтернативным вариантом анализа в этом случае является однофакторный дисперсионный анализ , целью которого может быть поиск оптимального сочетания 2-х факторов.

Чтобы проверить гипотезы необходимо вычислить значения тестовых статистик и сравнить их с соответствующими критическими значениями F крит ич , вычисленными для заданного уровня значимости альфа . Если вычисленное значение F 01 = MSА/MSE больше F 1крит ич , то нулевую гипотезу Н 0 1 об отсутствии влияния уровней Фактора А отклоняют. Аналогичные умозаключения справедливы и для Фактора В.

Проверить гипотезу Н 01 можно и через вычисление p -значения, которое представляет собой вероятность того, что случайная величина F 1 = MSА/MSE примет значение более F 01 . Далее p -значение сравнивают с уровнем значимости. Если p -значение менее уровня значимости, то нулевую гипотезу отклоняют. Действительно, если вычисленное значение F 01 получить маловероятно, то это ставит под сомнение справедливость того, что случайная величина F 1 = MSА/MSE имеет распределение Фишера с a -1 и a * b *( m -1) степенями свободы, а следовательно и саму нулевую гипотезу. В этом случае мы можем считать, что справедлива альтернативная гипотеза: уровни фактора А влияют на зависимую переменную Y.

Вычисления в MS EXCEL

В файле примера приведено решение вышеуказанной задачи: вычислены средние значения выборок, суммы квадратов (SS), степеней свобод, средние квадратов отклонений (MS).

Для вычислений критических значений в MS EXCEL имеется специальная функция = F.ОБР.ПХ()

Формула для вычисления F 1критич = F.ОБР.ПХ(a-1; a*b*(m-1);альфа)

В MS EXCEL первое p -значение (вероятность того, что случайная величина F 1 = MSА/MSE примет значение более F 01 ) можно вычислить по формуле:

= F.РАСП.ПХ((MSА/MSE; a-1; a*b*(m-1))

Второе p -значение (вероятность того, что случайная величина F 2 = MSВ/MSE примет значение более F 0 2 ) вычисляется по аналогичным формулам.

В нашей задаче p -значения получились 0,000 и 0,253, что значительно меньше обычно принимаемого в качестве уровня значимости 0,05. Таким образом, обе нулевых гипотезы отклоняются.

В двухфакторном дисперсионном анализе проверяется гипотеза о равенстве математических ожиданий выходного контролируемого параметра y при различных уровнях двух факторов.

провести двухфакторный дисперсионный анализ (см. также одномерный дисперсионный анализ);
ответить на вопрос - совпадают или нет средние значения экспериментов, влияют ли факторы на результат;
при выбранном уровне значимости подтвердить или опровергнуть нулевую гипотезу H₀ о равенстве групповых средних и дисперсий (по критерию Кохрена);

Инструкция . Укажите число измерений фактора A , количество уровней фактора B . Полученное решение сохраняется в файле Word .

При применении двухфакторного дисперсионного анализа исследователь проверяет влияние двух независимых переменных (факторов) на зависимую переменную. Может быть изучен также эффект взаимодействия двух переменных.
Исследуемые группы называют эффектами обработки. Схема двухфакторного дисперсионного анализа имеет несколько нулевых гипотез: одна для каждой независимой переменной и одна для взаимодействия.

Читайте также: