Какие методы применяются для выбора вида модели регрессии кратко

Обновлено: 04.07.2024

Линейная регрессия и логистическая регрессия обычно являются первыми алгоритмами, с помощью которых люди изучают прогностические модели. Из-за популярности этих двух вариантов многие аналитики считают, что они являются единственной формой регрессии. Ученые, которые знают больше, будут знать, что они являются двумя основными формами всех регрессионных моделей.

Дело в том, что существует множество типов регрессии, и каждый тип регрессии имеет свои конкретные случаи применения. В этой статье я представлю наиболее распространенные модели регрессии в 7 в простой форме. В этой статье я надеюсь помочь вам получить более широкое и всестороннее понимание регрессии, а не просто знать, как использовать линейную регрессию и логистическую регрессию для решения практических задач.

В этой статье в основном будут представлены следующие аспекты:

Что такое регрессионный анализ?

Зачем использовать регрессионный анализ?

Какие бывают виды регрессии?

Полиномиальная регрессия (Полиномиальная регрессия)

Как выбрать подходящую регрессионную модель?

1. Что такое регрессионный анализ?

Регрессионный анализ - это метод технологии прогнозного моделирования, который изучает взаимосвязь между зависимой переменной (целью) и независимой переменной (предиктором). Этот метод используется для прогнозирования, моделирования временных рядов и поиска причинно-следственных связей между переменными. Например, исследование взаимосвязи между безрассудным вождением водителя и частотой дорожно-транспортных происшествий может быть решено с помощью регрессионного анализа.

Регрессионный анализ - важный инструмент моделирования и анализа данных. На рисунке ниже показано использование кривой для подбора точек дискретных данных. Среди них минимизируется сумма различий между всеми точками дискретных данных и соответствующими положениями подобранной кривой, и мы будем вводить больше деталей медленно.


2. Зачем использовать регрессионный анализ?

Как упоминалось выше, регрессионный анализ может оценить взаимосвязь между двумя или более переменными. Давайте разберемся на простом примере:

Например, вы хотите оценить рост продаж компании на основе текущей экономической ситуации. У вас есть последние данные по компании, и эти данные показывают, что рост продаж примерно в 2,5 раза превышает экономический рост. Используя это понимание, мы можем предсказать будущие продажи компании на основе текущей и прошлой информации.

Использование регрессионных моделей дает множество преимуществ, например:

Выявляет значимую взаимосвязь между зависимыми и независимыми переменными

Выявить степень влияния нескольких независимых переменных на зависимую переменную

Регрессионный анализ также позволяет нам сравнивать влияние переменных, измеряемых в разных масштабах, таких как влияние изменений цен и количество рекламных мероприятий. Преимущество этого заключается в том, что он может помочь исследователям рынка / аналитикам данных / исследователям данных оценить и выбрать лучший набор переменных для построения прогнозных моделей.

3. Какие бывают типы регрессии?

Существует множество методов регрессии, которые можно использовать для прогнозирования. Эти методы регрессии в основном основаны на трех показателях (количество независимых переменных, типы переменных измерения и форма линии регрессии). Мы обсудим это подробно в следующих главах.


Для творческих людей вы можете комбинировать вышеуказанные параметры и даже создавать новые регрессии. Но перед этим рассмотрим наиболее распространенные типы регрессий.

1) Линейная регрессия

Линейная регрессия - самый известный метод моделирования и один из первых вариантов, когда люди учатся предсказывать модели. В этом методе зависимая переменная является непрерывной, а независимая переменная может быть непрерывной или дискретной. Природа регрессии линейна.

Линейная регрессия устанавливает связь между зависимой переменной (Y) и одной или несколькими независимыми переменными (X) с помощью наилучшей прямой линии (также называемой линией регрессии).

Его выражение: Y = a + b * X + e, где a - пересечение линии, b - наклон линии, а e - член ошибки. Если задана независимая переменная X, прогнозируемое значение может быть вычислено с помощью этого выражения линейной регрессии, то есть зависимой переменной Y.


Как получить наиболее подходящую прямую (определить значения a и b)?

Эту проблему легко решить, используя метод наименьших квадратов. Метод наименьших квадратов - это обычно используемый алгоритм для подбора линий регрессии. Он вычисляет наиболее подходящую прямую, минимизируя сумму квадратов вертикальной ошибки между каждой точкой данных и предсказанной прямой линией. Поскольку вычисление представляет собой сумму квадратов ошибок, нет смещения между положительной и отрицательной ошибками.



Мы можем использовать индикатор R-квадрат, чтобы оценить производительность модели.

Фокус:

Независимая переменная и зависимая переменная должны соответствовать линейной зависимости.

Множественная регрессия имеет множественную коллинеарность, автокорреляцию и гетероскедастичность.

Линейная регрессия очень чувствительна к выбросам. Выбросы серьезно повлияют на линию регрессии и окончательное прогнозируемое значение.

Мультиколлинеарность увеличивает дисперсию оценок коэффициентов и делает оценки очень чувствительными к небольшим изменениям в модели. В результате оценки коэффициентов нестабильны.

В случае нескольких независимых переменных мы можем использовать методы прямого выбора, обратного исключения и пошагового выбора, чтобы выбрать наиболее важную независимую переменную.

2) Логистическая регрессия

Логистическая регрессия используется для расчета вероятности успеха или неудачи события (неудачи). Когда зависимая переменная является двоичной (0/1, Истина / Ложь, Да / Нет), следует использовать логистическую регрессию. Здесь диапазон значений Y составляет [0,1], что может быть выражено следующим уравнением.

Из-за того, что мы используем биномиальное распределение (зависимая переменная), нам нужно выбрать подходящую функцию активации для отображения вывода между [0,1], и функция Logit соответствует требованиям. В приведенном выше уравнении наилучшие параметры получаются путем использования оценки максимального правдоподобия вместо использования линейной регрессии для минимизации квадратичной ошибки.


Фокус:

Логистическая регрессия широко используется для задач классификации.

Логистическая регрессия не требует линейной связи между зависимой переменной и независимой переменной. Она может обрабатывать несколько типов отношений, поскольку выполняет нелинейное преобразование журнала для предсказанных выходных данных.

Чтобы избежать переобучения и неполного подбора, мы должны охватить все полезные переменные. На практике хороший способ убедиться в такой ситуации - использовать метод пошагового отбора для оценки логистической регрессии.

Чем больше количество обучающих выборок, тем лучше, потому что, если количество выборок невелико, эффект оценки максимального правдоподобия будет хуже, чем у метода наименьших квадратов.

Независимые переменные не должны коррелироваться, то есть мультиколлинеарность отсутствует. Однако при анализе и моделировании мы можем выбрать включение эффектов взаимодействия категориальных переменных.

Если значение зависимой переменной является порядковым, это называется порядковой логистической регрессией.

Если зависимая переменная является мульти-категориальной, это называется множественной логистической регрессией.

3) Полиномиальная регрессия

В соответствии с уравнением регрессии, если индекс независимой переменной больше 1, то это уравнение полиномиальной регрессии, как показано ниже:

В полиномиальной регрессии наиболее подходящей линией является не прямая линия, а кривая, которая соответствует точкам данных.


Фокус:

Хотя могут быть некоторые стимулы для подгонки многочленов более высокого порядка для уменьшения ошибки, это склонно к переобучению. Подгоночную кривую следует нарисовать, уделяя особое внимание тому, чтобы кривая отражала истинное распределение образца. Рисунок ниже - это пример, который может помочь нам понять.


Обратите особое внимание на два конца кривой, чтобы увидеть, имеют ли смысл эти формы и тенденции. Полиномы более высокого порядка могут приводить к странным результатам вывода.

4) Пошаговая регрессия

Когда мы имеем дело с несколькими независимыми переменными, используется пошаговая регрессия. В этом методе выбор независимых переменных осуществляется в автоматическом режиме без ручного вмешательства.

Пошаговая регрессия заключается в наблюдении статистических значений, таких как R-квадрат, t-статистика и индикаторы AIC, для определения важных переменных. На основе определенных критериев регрессионная модель постепенно настраивается путем добавления / удаления ковариатов. Распространенные методы пошаговой регрессии следующие:

Стандартная пошаговая регрессия выполняет две функции: на каждом шаге добавляются или удаляются независимые переменные.

Прямой отбор начинается с наиболее важной независимой переменной в модели, а затем на каждом этапе добавляются переменные.

Обратное исключение начинается со всех независимых переменных в модели, а затем на каждом шаге удаляется наименее значимая переменная.

Цель этого метода моделирования - получить максимальную предсказательную силу при использовании наименее независимых переменных. Это также один из методов обработки многомерных наборов данных.

5) Хребтовая регрессия

Риджерная регрессия - это метод, используемый, когда данные страдают от мультиколлинеарности (независимые переменные сильно коррелированы). В мультиколлинеарности, даже если оценка методом наименьших квадратов (МНК) несмещена, дисперсия велика, что делает наблюдательную мудрость далекой от истинного значения. Регрессия гребня может эффективно уменьшить дисперсию, добавив дополнительную степень отклонения к оценке регрессии.

Ранее мы ввели уравнение линейной регрессии следующим образом:

Это уравнение также имеет погрешность, и полное уравнение может быть выражено как:

В линейном уравнении ошибку предсказания можно разложить на два подкомпонента. Первое связано с предвзятостью, а второе - с отклонениями. Ошибка предсказания может возникать из-за любого из этих двух или двух компонентов. Здесь мы обсудим ошибку из-за дисперсии.

Риджевая регрессия решает проблему мультиколлинеарности за счет уменьшения параметра λ (лямбда). Рассмотрим следующее уравнение:


В приведенной выше формуле есть два элемента. Первый - это член наименьших квадратов, а второй - сумма квадратов коэффициента β, умноженного на параметр усадки λ. Цель добавления второго члена - уменьшить величину коэффициента β, чтобы уменьшить дисперсию.

Фокус:

Если не предполагается нормальность, все предположения регрессии гребня и регрессии наименьших квадратов одинаковы.

Регрессия гребня уменьшила значение коэффициента, но не достигла нуля, что указывает на отсутствие функции выбора признаков.

Это метод регуляризации, использующий регуляризацию L2.

6) Регрессия лассо

Подобно гребневой регрессии, штраф за регрессию оператора наименьшей абсолютной усадки и выбора является абсолютным значением коэффициента регрессии. Кроме того, это может уменьшить изменчивость и повысить точность моделей линейной регрессии. Рассмотрим следующее уравнение:


Регрессия лассо отличается от регрессии гребня: функция штрафа использует сумму абсолютных значений коэффициентов вместо квадратов. Это приводит к штрафному члену (или эквиваленту суммы абсолютных значений оценок ограничений), так что некоторые оценки коэффициентов регрессии в точности равны нулю. Чем больше наложенный штраф, тем ближе оценка к нулю. Осознайте, что нужно выбирать из n переменных.

Фокус:

Если не предполагается нормальность, все предположения регрессии лассо и регрессии наименьших квадратов одинаковы.

Регрессия лассо уменьшает коэффициент до нуля (ровно до нуля), что помогает при выборе признаков.

Это метод регуляризации, который использует регуляризацию L1.

Если набор независимых переменных сильно коррелирован, то регрессия лассо выберет только одну из них, а остальные уменьшит до нуля.

7) Эластичная чистая регрессия

Эластичная регрессия - это гибридная техника регрессии гребня и регрессии лассо, которая использует регуляризацию как L2, так и L1. Устойчивые сети полезны при наличии нескольких взаимосвязанных характеристик. Лассо-регрессия, вероятно, выберет один из них случайным образом, а эластичная регрессия, вероятно, выберет оба.


Одно из преимуществ взвешивания регрессии гребня и регрессии лассо состоит в том, что оно позволяет эластичной регрессии унаследовать некоторую стабильность регрессии гребня во вращающемся состоянии.

Фокус:

В случае сильно коррелированных переменных он поддерживает групповые эффекты.

Не имеет ограничений на количество выбранных переменных

Он имеет два коэффициента усадки λ1 и λ2.

В дополнение к этим 7 наиболее часто используемым методам регрессии вы также можете изучить другие модели, такие как байесовская, экологическая и робастная регрессия.

4. Как выбрать подходящую регрессионную модель?

Когда вы знаете только одну или две техники, жизнь обычно проста. Одна знакомая мне учебная организация сказала своим студентам: если результат непрерывен, используйте линейную регрессию; если результат двоичный, используйте логистическую регрессию! Однако чем больше вариантов доступно, тем сложнее выбрать правильный ответ. Аналогичная ситуация возникает и при выборе регрессионной модели.

В различных типах регрессионных моделей важно выбрать наиболее подходящий метод, основанный на типах независимых и зависимых переменных, измерениях данных и других существенных характеристиках данных. Вот несколько советов о том, как выбрать подходящую регрессионную модель:

Интеллектуальный анализ данных - неотъемлемая часть создания прогнозных моделей. Это должно быть первым шагом к выбору правильной модели, например к определению взаимосвязи и влияния переменных.

Он больше подходит для степени соответствия различных моделей. Мы можем анализировать их различные параметры индексов, такие как статистически значимые параметры, R-квадрат, скорректированный R-квадрат, AIC, BIC и условия ошибок. Другой критерий - критерий Cp Маллоуз. Проверьте возможные отклонения модели, сравнив модель со всеми возможными подмоделями (или тщательно их выбрав).

Перекрестная проверка - лучший способ оценки прогнозных моделей. Вы можете разделить набор данных на две группы (обучающий набор и набор проверки). Мера точности предсказания может быть дана путем измерения простой среднеквадратичной ошибки между наблюдаемым значением и предсказанным значением.

Если набор данных содержит несколько смешанных переменных, вам не следует использовать метод автоматического выбора модели, потому что вы не хотите помещать эти смешанные переменные в модель одновременно.

Это также зависит от ваших целей. По сравнению с моделями с высокой статистической значимостью простые модели легче реализовать.

Методы регуляризации регрессии (LasSo, Ridge и ElasticNet) хорошо работают, когда набор данных является многомерным, а независимые переменные - мультиколлинеарными.

Вывод:

Теперь, я надеюсь, у вас будет общее впечатление от возвращения. Эти методы регрессии следует выбирать и применять в соответствии с различными условиями данных. Один из лучших способов выяснить, какую регрессию использовать, - это проверить семейство переменных, дискретных или непрерывных.

В этой статье я обсудил 7 типов методов регрессии и ключевые моменты, связанные с каждой регрессией. Как новичок в этой отрасли, я предлагаю вам изучить эти методы и реализовать эти модели в практических приложениях.

На данном этапе устанавливается однофакторная или многофакторная будет строиться модель и вид модели (линейный или нелинейный).

Обоснование вида модели состоит в выборе вида функции (некоторого аналитического выражения), с помощью которого можно будет описать изменение исследуемого показателя под воздействием факторов.

К обоснованию вида функции идут двумя путями: Теоретическим (анализируя экономическую природу и , выдвигается гипотеза о характере изменения показателя под действием фактора) И эмпирическим (закон изменения результативного показателя под действием фактора устанавливается путем анализа совокупности фактических данных по полям корреляции).

Наиболее употребительными выражениями при описании связи одного фактора и исследуемого показателя являются:

    - Уравнение прямой - - Уравнение параболы - - Уравнение гиперболы -

После обоснования парных взаимосвязей переходят к записи многофакторных моделей. В экономических исследованиях чаще всего применяется линейная многофакторная модель -

В качестве нелинейных моделей применяются

- Мультипликативная модель - или

Для оценки значений параметров регрессионной модели чаще всего используется Метод наименьших квадратов (МНК).Этот метод можно применить как для линейных моделей, так и для нелинейных, допускающих преобразование их к линейному виду путем замены переменных или дифференцированием.

При использовании МНК делаются определенные предпосылки относительно случайной составляющей ε. В модели случайная составляющая ε представляет собой ненаблюдаемую величину. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений , т. е. остаточных величин.

Остатки представляют собой независимые случайные величины, и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению.

Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распределения случайной составляющей . Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям: быть Несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции.

Коэффициенты регрессии, найденные из системы нормальных уравнений, представляют собой выборочные оценки характеристики силы связи. Их несмещенность является желательным свойством, т. к. только в этом случае они могут иметь практическую значимость.

Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Оценки считаются Эффективными, если они характеризуются наименьшей дисперсией. Поэтому несмещенность оценки должна дополняться минимальной дисперсией. Состоятельность оценок характеризует увеличение их точности с увеличением объема выработки.

Указанные критерии оценок (несмещенность, состоятельность, эффективность) обязательно учитываются при разных способах оценивания. Метод наименьших квадратов строит оценки регрессии на основе минимизации суммы квадратов остатков ().

Исследование остатков предполагают проверку наличия следующих пяти предпосылок МНК:

    - случайный характер остатков; - нулевая средняя величина остатков, не зависящая от ; - гомоскедастичность – дисперсия каждого отклонение одинакова для всех значений х; - отсутствие автокорреляции остатков, т. е. значения остатков - остатки подчиняются нормальному распределению.

С цель проверки случайного характера остатков строится график зависимости остатков от теоретических значений результативного признака .

Если на графике нет направленности в расположении точек , то остатки представляют собой случайные величины и МНК оправдан. Также возможны следующие случаи: если зависит от теоретического значения, то:

Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что . Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных. Для обеспечения несмещенности оценок коэффициентов регрессии, полученных МНК, необходимо выполнение условий независимости случайных остатков и переменных х, что исследуется в рамках соблюдения второй предпосылки МНК. С целью проверки выполнение этой предпосылки строится график зависимости случайных остатков ε от факторов, включенных в регрессию . Если расположение остатков на графике не имеет направленности, то они независимы от значений . Если же график показывает наличие зависимости и , то модель неадекватна.

Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t и F. Вместе с тем оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т. е. при нарушении пятой предпосылки метода наименьших квадратов.

В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность. Используя трехмерной изображение, рассмотрим отличие гомо - и гетероскедастичности.

Наличие гетероскедастичности будет сказываться на уменьшении эффективности оценок , в частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии, предполагающей единую дисперсию остатков для любых значений фактора.

Наличие гетероскедастичности в остатках регрессии можно проверить с помощью ранговой корреляции Спирмэна. Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки коррелированы со значениями фактора . Эту корреляцию можно измерять с помощью коэффициента ранговой корреляции Спирмэна:

Где ρ – абсолютная разность между рангами значений и .

Статистическую значимость ρ можно определить с помощью t-критерия:

Принято считать, что если , то корреляция между и статистически значима, т. е. имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об отсутствии гетероскедастичности остатков.

При построении регрессионных моделей чрезвычайно важно соблюдение четвертой предпосылки МНК – отсутствие автокорреляции остатков, т. е. распределения остатков и независимы. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Находится коэффициент корреляции между и , и если он окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности вероятности F(ε) зависит от j-ой точки наблюдения и от распределения значений остатков в других точках наблюдения.

Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии.

До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Для того, чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. качественные переменные необходимо преобразовать в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными.

Качественные признаки могут приводить к неоднородности исследуемой совокупности, что может быть учтено при моделировании двумя путями:

    - регрессия строится для каждой качественно отличной группы единиц совокупности, т. е. для каждой группы в отдельности, чтобы преодолеть неоднородность единиц общей совокупности; - общая регрессионная модель строится для совокупности в целом, учитывающей неоднородность данных. В этом случае в регрессионную модель вводятся фиктивные переменные, т. е. строится регрессионная модель с переменной структурой, отражающей неоднородность данных.

Качественный фактор может иметь только два состояния, которым будут соответствовать 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.

Коэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. На основе t-критерия Стьюдента делается вывод о значимости влияния фиктивной переменной, существенности расхождения между категориями.

Выбор характеристик - это способ уменьшить количество признаков и, следовательно, уменьшить вычислительную сложность модели. Много раз выбор функций становится очень полезным, чтобы преодолеть проблему с переоснащением. Это помогает нам определить наименьший набор функций, необходимых для прогнозирования переменной отклика с высокой точностью. если мы спросим модель, действительно ли добавление новых функций обязательно увеличит производительность модели? если нет, то зачем добавлять новые функции, которые только увеличивают сложность модели.

Итак, теперь давайте поймем, как мы можем выбрать важный набор функций из всех доступных функций в данном наборе данных.


мы удалим столбец x, так как он содержит только модели автомобилей, и это не увеличит ценность прогноза.


В приведенных выше данных есть 12 функций (x, mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear, carb), и мы хотим предсказать mpg (миль на галлон), следовательно, он становится нашим переменная цель / ответ.


Три звезды (или звездочки) представляют собой весьма значимое значение p. Следовательно, небольшое p-значение для пересечения и наклона указывает, что мы можем отвергнуть нулевую гипотезу, которая позволяет нам сделать вывод, что существует сильная связь между mpg и весом. Как правило, значение р 5% (0,05) или менее является хорошей точкой отсечения. В нашем модельном примере значения p очень близки к нулю. Кроме того, значение R-квадрата 0,74 говорит о том, что около 74% дисперсии целевой переменной объясняется моделью, следовательно, модель также имеет большое значение.

Теперь давайте подгоним модель двумя переменными wt и hp (лошадиными силами), как показано ниже: (обратите внимание, что мы можем использовать любые два случайно выбранных предиктора, поскольку мы просто пытаемся понять, что произойдет, если мы используем метод проб и проб)


Теперь значение R-квадрата увеличилось до 0,81 с 0,74. что означает, что модель стала более значимой. Также, глядя на количество звезд против wt и hp, мы можем сказать, что оба сильно связаны с целевой переменной, и, следовательно, оба важны.

Возможен случай, когда при добавлении новой переменной влияние уже добавленных переменных уменьшается, и в этом случае, если значение p пересекает верхний порог 0,05 для любых старых переменных, это означает, что переменная теперь стала незначительной, тогда мы удаляем это переменная.

Теперь давайте добавим все переменные и посмотрим, что произойдет:


Из приведенного выше резюме мы видим, что ни одна из переменных не является значимой, так как все значения p превышают пороговый предел .05, также в результате обзора не было никаких звездочек в качестве значимого кода. Это немного удивительно. если никакая переменная не имеет существенного значения, то как соответствовать модели?

  • Пошаговая регрессия
  • Прямой выбор
  • Обратная ликвидация

В методе пошаговой регрессии мы начинаем подгонять модель к каждому отдельному предиктору и видим, какой из них имеет наименьшее значение p. Затем выберите эту переменную и затем подгоните модель, используя две переменные, которые мы уже выбрали на предыдущем шаге, и взяв одну за другой все оставшиеся. Снова мы выбираем тот, который имеет наименьшее значение p. Также имейте в виду, что при добавлении новой переменной влияние уже выбранной переменной на предыдущем шаге все равно должно быть значительным. Мы сохраняем эту итерацию до тех пор, пока не получим комбинацию, чье значение p меньше порога 0,05.

Давайте поймем весь этот процесс, используя один пример:

мы подгоняем модель с одним предиктором и целью. Мы попробовали каждый предиктор один за другим, и под каждой строкой представлено соответствие модели с соответствующим t-баллом, p-значением и значением R-квадрата. Как мы видим, mpg ~ wt fit имеет самое низкое значение p (также должно быть меньше 0,05), поэтому выберет wt и перейдет к шагу 2.


Теперь мы подгоним модель двумя предикторами один мы уже выбрали в качестве wt на шаге 1, и для второго предиктора мы попробуем один за другим со всеми остальными предикторами. И снова выберу те, которые имеют наименьшее значение p. в этом случае мы получили вес и цил.


Теперь попытаемся соответствовать 3 предикторам, два из которых уже выбраны на шаге 2, а третий попытается использовать оставшиеся. но здесь мы видим, что ни одно из значений p меньше 0,05, следовательно, ни одно из них не является значимым.


Поскольку все значения р больше 0,05, следовательно, ни один из трех признаков комбинации не будет значимым. поэтому мы остановимся здесь.

Таким образом, используя пошаговую регрессию, мы получили наименьший набор элементов , которые оказывают существенное влияние на окончательную подборку модели. Это не означает, что другие функции не оказывают влияния, но они оказывают очень меньшее влияние, которым можно пренебречь, если мы получим существенную модель, подходящую только с двумя переменными.

Итак, здесь мы заметили, что наше пространство поиска значительно сократилось по сравнению с методом проб и проб, где мы должны сравнивать модели 2¹⁰ - 1 = 1023.

Прямой выбор почти аналогичен пошаговой регрессии, однако единственное отличие состоит в том, что при прямом выборе мы только продолжаем добавлять функции. Мы не удаляем уже добавленную функцию. на каждой итерации мы добавляем только те функции, которые увеличивают общую подгонку модели.

В обратном исключении на первом этапе мы включаем все предикторы, а на последующих этапах продолжаем удалять тот, который имеет наибольшее значение p (> .05 пороговое значение). после нескольких итераций будет получен окончательный набор функций, которые являются достаточно значительными, чтобы предсказать результат с желаемой точностью.

мы возьмем тот же пример набора данных mtcars и пошагово, как показано ниже:

На шаге 1 мы строим модель со всеми функциями, доступными в наборе данных. Затем соблюдайте несколько вещей:


Линия регрессии для 50 случайных точек в Гауссово распределение вокруг линии y = 1,5x + 2 (не показана).

Регрессионный анализ в основном используется для двух концептуально различных целей. Во-первых, регрессионный анализ широко используется для прогноз и прогнозирование, где его использование существенно пересекается с областью машинное обучение. Во-вторых, в некоторых ситуациях регрессионный анализ может использоваться для вывода причинно-следственные связи между независимыми и зависимыми переменными. Важно отметить, что сами по себе регрессии выявляют только отношения между зависимой переменной и набором независимых переменных в фиксированном наборе данных. Чтобы использовать регрессии для прогнозирования или для вывода причинно-следственных связей, соответственно, исследователь должен тщательно обосновать, почему существующие отношения имеют предсказательную силу для нового контекста или почему связь между двумя переменными имеет причинную интерпретацию. Последнее особенно важно, когда исследователи надеются оценить причинно-следственные связи, используя данные наблюдений. [2] [3]

Содержание

История

Самой ранней формой регрессии была метод наименьших квадратов, который был опубликован Legendre в 1805 г., [4] и по Гаусс в 1809 г. [5] И Лежандр, и Гаусс применили этот метод к проблеме определения на основе астрономических наблюдений орбит тел вокруг Солнца (в основном комет, но позже и недавно открытых малых планет). Гаусс опубликовал дальнейшее развитие теории наименьших квадратов в 1821 г. [6] включая версию Теорема Гаусса – Маркова.

Методы регрессии продолжают оставаться областью активных исследований. В последние десятилетия были разработаны новые методы надежная регрессия, регрессия, включающая коррелированные ответы, такие как Временные ряды и кривые роста, регрессия, в которой предиктором (независимой переменной) или переменными ответа являются кривые, изображения, графики или другие сложные объекты данных, методы регрессии, учитывающие различные типы отсутствующих данных, непараметрическая регрессия, Байесовский методы регрессии, регрессия, в которой переменные-предикторы измеряются с ошибкой, регрессия с большим количеством переменных-предикторов, чем наблюдений, и причинный вывод с регрессом.

Модель регрессии

На практике исследователи сначала выбирают модель, которую они хотели бы оценить, а затем используют выбранный ими метод (например, обыкновенный метод наименьших квадратов) для оценки параметров этой модели. В регрессионные модели входят следующие компоненты:

  • В неизвестные параметры, часто обозначаемый как скаляр или же вектор β < displaystyle beta>.
  • В независимые переменные, которые наблюдаются в данных и часто обозначаются как вектор Икс я < displaystyle X_ > (куда я < displaystyle i>обозначает строку данных).
  • В зависимая переменная, которые наблюдаются в данных и часто обозначаются с помощью скалярной Y я < displaystyle Y_ > .
  • В условия ошибки, которые нет непосредственно наблюдаются в данных и часто обозначаются с помощью скаляра е я < displaystyle e_ > .

Скрытые предположения

Сама по себе регрессия - это просто расчет с использованием данных. Чтобы интерпретировать результат регрессии как значимую статистическую величину, которая измеряет отношения в реальном мире, исследователи часто полагаются на ряд классических предположения. К ним часто относятся:

  • Выборка репрезентативна для населения в целом.
  • Независимые переменные измеряются без ошибок.
  • Отклонения от модели имеют ожидаемое значение, равное нулю, в зависимости от ковариат: E ( е я | Икс я ) = 0 < displaystyle E (e_ | X_ ) = 0>
  • Дисперсия остатков е я < displaystyle e_ > постоянно во всех наблюдениях (гомоскедастичность).
  • Остатки е я < displaystyle e_ > находятся некоррелированный друг с другом. Математически матрица дисперсии-ковариации ошибок диагональ.

Для того, чтобы оценка методом наименьших квадратов обладала желаемыми свойствами, достаточно нескольких условий: в частности, оценка Гаусс – Марков предположения подразумевают, что оценки параметров будут беспристрастный, последовательный, и эффективный в классе линейных несмещенных оценок. Практики разработали множество методов для поддержания некоторых или всех этих желаемых свойств в реальных условиях, поскольку эти классические допущения вряд ли будут выполняться в точности. Например, моделирование ошибки в переменных может привести к разумным оценкам, независимые переменные измеряются с ошибками. Стандартные ошибки, согласованные с гетероскедастичностью допускать отклонение е я < displaystyle e_ > изменять значения Икс я < displaystyle X_ > . Коррелированные ошибки, которые существуют в подмножествах данных или следуют определенным шаблонам, можно обрабатывать с помощью кластерные стандартные ошибки, географически взвешенная регрессия, или же Ньюи – Уэст стандартные ошибки, среди других методов. Когда строки данных соответствуют местоположениям в пространстве, выбор способа моделирования е я < displaystyle e_ > в пределах географических единиц может иметь важные последствия. [17] [18] Подполе эконометрика в основном сосредоточена на разработке методов, которые позволяют исследователям делать разумные выводы из реальной жизни в реальных условиях, где классические предположения не выполняются в точности.

Линейная регрессия

В множественной линейной регрессии есть несколько независимых переменных или функций от независимых переменных.

Возвращаемся к случаю прямой линии: учитывая случайную выборку из совокупности, мы оцениваем параметры совокупности и получаем модель выборочной линейной регрессии:

Минимизация этой функции приводит к набору нормальные уравнения, набор одновременных линейных уравнений относительно параметров, которые решаются для получения оценок параметров, β ^ 0 , β ^ 1 < displaystyle < widehat < beta>> _ , < widehat < beta>> _ > .

В случае простой регрессии формулы для оценок наименьших квадратов имеют вид

При предположении, что член ошибки генеральной совокупности имеет постоянную дисперсию, оценка этой дисперсии определяется следующим образом:

Это называется среднеквадратичная ошибка (MSE) регрессии. Знаменатель - это размер выборки, уменьшенный на количество параметров модели, оцененных на основе тех же данных, ( п − п ) < Displaystyle (п-р)>за п < displaystyle p>регрессоры или же ( п − п − 1 ) < Displaystyle (п-р-1)>если используется перехват. [19] В этом случае, п = 1 < displaystyle p = 1>так что знаменатель п − 2 < displaystyle n-2>.

В стандартные ошибки оценок параметров даются

При дальнейшем предположении, что член ошибки популяции распределен нормально, исследователь может использовать эти оцененные стандартные ошибки для создания доверительные интервалы и проводить проверка гипотез о параметры популяции.

Общая линейная модель

В более общей модели множественной регрессии есть п < displaystyle p>независимые переменные:

В нормальные уравнения находятся

В матричных обозначениях нормальные уравнения записываются как

Диагностика

После построения регрессионной модели может оказаться важным подтвердить степень соответствия модели и Статистическая значимость расчетных параметров. Обычно используемые проверки соответствия включают R-квадрат, анализ структуры остатки и проверка гипотез. Статистическую значимость можно проверить с помощью F-тест от общей подгонки, а затем t-тесты индивидуальных параметров.

Интерпретация этих диагностических тестов во многом основывается на допущениях модели. Хотя изучение остатков может использоваться для признания недействительной модели, результаты t-тест или же F-тест иногда труднее интерпретировать, если допущения модели нарушаются. Например, если член ошибки не имеет нормального распределения, в небольших выборках оценочные параметры не будут следовать нормальному распределению и усложнят вывод. Однако с относительно большими выборками Центральная предельная теорема может быть вызван таким образом, что проверка гипотез может продолжаться с использованием асимптотических приближений.

Ограниченные зависимые переменные

Ограниченные зависимые переменные, которые являются переменными ответа, которые категориальные переменные или переменные, которые должны попадать только в определенный диапазон, часто возникают в эконометрика.

Нелинейная регрессия

Если модельная функция не является линейной по параметрам, сумма квадратов должна быть минимизирована с помощью итерационной процедуры. Это приводит к множеству осложнений, которые кратко описаны в Различия между линейным и нелинейным методом наименьших квадратов.

Интерполяция и экстраполяция


Посередине интерполированная прямая линия представляет собой наилучший баланс между точками выше и ниже этой линии. Пунктирные линии представляют две крайние линии. Первые кривые представляют расчетные значения. Внешние кривые представляют собой прогноз для нового измерения. [20]

Модели регрессии предсказывают значение Y переменная при известных значениях Икс переменные. Прогноз в диапазон значений в наборе данных, используемый для подгонки модели, неофициально известен как интерполяция. Прогноз за пределами этот диапазон данных известен как экстраполяция. Выполнение экстраполяции сильно зависит от предположений регрессии. Чем дальше экстраполяция выходит за рамки данных, тем больше возможностей для отказа модели из-за различий между предположениями и выборочными данными или истинными значениями.

Обычно рекомендуется [ нужна цитата ] что при выполнении экстраполяции следует сопровождать оценочное значение зависимой переменной интервал прогноза что представляет собой неопределенность. Такие интервалы имеют тенденцию быстро расширяться по мере того, как значения независимых переменных выходят за пределы диапазона, охватываемого наблюдаемыми данными.

По этим и другим причинам некоторые склонны говорить, что было бы неразумно проводить экстраполяцию. [21]

Расчеты мощности и размера выборки

Другие методы

Хотя параметры регрессионной модели обычно оцениваются с использованием метода наименьших квадратов, использовались и другие методы:

    , например Байесовская линейная регрессия
  • Процентная регрессия для ситуаций, когда процент ошибок считается более подходящим. [23] , который более устойчив при наличии выбросов, что приводит к квантильная регрессия , требует большого количества наблюдений и требует больших вычислительных ресурсов. , что приводит к модели интервального прогнозирования
  • Дистанционное метрическое обучение, которое изучается путем поиска значимой дистанционной метрики в заданном входном пространстве. [24]

Программного обеспечения

Все основные пакеты статистического программного обеспечения выполняют наименьших квадратов регрессионный анализ и вывод. Простая линейная регрессия и множественная регрессия с использованием наименьших квадратов может быть выполнена в некоторых электронная таблица приложений и на некоторых калькуляторах. Хотя многие пакеты статистического программного обеспечения могут выполнять различные типы непараметрической и устойчивой регрессии, эти методы менее стандартизированы; разные программные пакеты реализуют разные методы, и метод с заданным именем может быть реализован по-разному в разных пакетах. Специальное программное обеспечение для регрессии было разработано для использования в таких областях, как анализ опросов и нейровизуализация.

Читайте также: