Линейный дискриминантный анализ кратко

Обновлено: 02.07.2024

В статистике , то линейный дискриминантный анализ или ADL (на английском языке, дискриминации линейного анализ или LDA ) является одним из прогностических методов дискриминантного анализа. Это включает в себя объяснение и прогнозирование принадлежности человека к заранее определенному классу (группе) на основе их характеристик, измеренных с использованием прогнозных переменных.

В примере статьи Discriminant Analysis , файла Flea Beetles , цель состоит в том, чтобы определить принадлежность блох к определенному виду на основе ширины и угла ее edéage (часть гениталий самцов насекомого).

Прогнозируемая переменная обязательно является категориальной (дискретной), в нашем примере она имеет 3 модальности. Все переменные-предикторы априори непрерывны. Однако можно обрабатывать дискретные переменные-предикторы при надлежащей подготовке данных.

Линейный дискриминантный анализ можно сравнить с контролируемыми методами, разработанными в машинном обучении, и логистической регрессией, разработанной в статистике.

Резюме

Предположения и формулы

У нас есть выборка наблюдений, разделенная на группы чисел . нет K нет k >

Байесовское правило

Цель состоит в том, чтобы создать правило присваивания, которое позволяет предсказать для данного наблюдения связанное с ним значение Y на основе значений, взятых X. Икс ( ω ) ↦ Y ( ω ) ω

Байесовское правило состоит в оценке апостериорной вероятности присвоения

п ( Y знак равно y k | Икс ) знак равно п ( Y знак равно y k ) × п ( Икс | Y знак равно y k ) ∑ я знак равно 1 K п ( Y знак равно y я ) × п ( Икс | Y знак равно y я ) ~ | ~ X) = ) \ times P (X ~ | ~ Y = y_ )> ^ P (Y = y_ ) \ times P (X ~ | ~ Y = y_ )>>>

Параметрический дискриминантный анализ - гипотеза мультинормальности

В основном есть два подхода к правильной оценке распределения : п ( Икс | Y знак равно y k ) )>

  • Непараметрический подход не делает никаких гипотез об этом распределении, но предлагает локальную процедуру оценки вероятностей в непосредственной близости от наблюдения, которое необходимо классифицировать. Наиболее известными процедурами являются метод оценки ядра и метод ближайшего соседа . Основная трудность - адекватно определить окрестности. ω
    • Второй подход делает предположение о распределении условных облаков точек, в данном случае мы говорим о параметрическом дискриминантном анализе . Наиболее часто используемая гипотеза, несомненно, является гипотезой мультинормальности (см. Нормальный закон ).


    В случае многомерного нормального закона распределение условных облаков точек записывается:

    ж k ( Икс ) знак равно п ( Икс | Y знак равно y k ) знак равно 1 ( 2 π ) j / 2 × | W k | 1 / 2 × е - 1 2 т ( Икс - μ k ) W k - 1 ( Икс - μ k ) (X) = P (X ~ | ~ Y = y_ ) = <(2 \ pi) ^ \ times | W_ | ^ >> \ times e ^ <- > \, ^ (X- \ mu _ ) W_ ^ (X- \ mu _ )>>

    где - определитель условной ковариационной матрицы дисперсии . | W k | |> y k >

    Задача состоит в том, чтобы определить максимум апостериорной вероятности отнесения, мы можем пренебречь всем, от чего не зависит . Применяя логарифм к соотношению Байеса, мы получаем дискриминантную оценку, пропорциональную : k пер ⁡ [ п ( Y знак равно y k | Икс ) ] ~ | ~ X)]>

    D ( Y знак равно y k , Икс ) знак равно 2 пер ⁡ [ п ( Y знак равно y k ) ] - пер ⁡ | W k | - т ( Икс - μ k ) W k - 1 ( Икс - μ k ) , X) = 2 \ ln [P (Y = y_ )] - \ ln | W_ | - \, ^ (X- \ mu _ ) W_ ^ (X- \ mu _ )>

    Таким образом, правило назначения становится . Y ( ω ) знак равно аргумент ⁡ Максимум k D ( Y знак равно y k , Икс ( ω ) ) D (Y = Y_ , X (\ omega))>

    Если мы полностью разработаем дискриминантную оценку, мы увидим, что она выражается как функция квадрата и перекрестного произведения между переменными-предикторами. Затем мы говорим о квадратичном дискриминантном анализе . Широко используется в исследованиях, поскольку ведет себя очень хорошо с точки зрения производительности по сравнению с другими методами, поэтому среди практиков он менее распространен. В самом деле, выражение различительной оценки является довольно сложным, и трудно четко определить направление причинной связи между прогностическими переменными и классом принадлежности. В частности, трудно выделить действительно определяющие переменные в классификации, интерпретация результатов довольно рискованна.

    Линейный дискриминантный анализ - гипотеза гомоскедастичности

    Второе предположение позволяет еще больше упростить вычисления, это предположение гомоскедастичности : ковариационные матрицы дисперсии идентичны от одной группы к другой. Геометрически это означает, что облака точек имеют одинаковую форму (и объем) в пространстве представления.

    В этом случае оценочная ковариационная матрица дисперсии является ковариационной матрицей внутриклассовой дисперсии, рассчитанной с использованием следующего выражения:

    Опять же, мы можем удалить из различающей оценки все, от чего больше не зависит , это становится: k

    D ( Y знак равно y k , Икс ) знак равно 2 пер ⁡ [ п ( Y знак равно y k ) ] - т ( Икс - μ k ) W k - 1 ( Икс - μ k ) , X) = 2 \ ln [P (Y = y_ )] - \, ^ (X- \ mu _ ) W_ ^ (X- \ mu _ )>

    Линейная функция ранжирования

    Разрабатывая выражение дискриминирующей оценки после введения гипотезы гомоскедастичности, мы видим, что она выражается линейно по отношению к прогнозирующим переменным.

    Следовательно, у нас есть столько классификационных функций, сколько модальностей прогнозируемой переменной, они представляют собой линейные комбинации следующей формы:


    Эта презентация привлекательна во многих отношениях. Возможно, изучая значение и знак коэффициентов, определить направление причинности в классификации. Точно так же, как мы увидим позже, становится возможным оценить значительную роль переменных в прогнозе.

    Надежность

    Допущения мультинормальности и гомоскедастичности могут показаться слишком ограничивающими, ограничивая возможности линейного дискриминантного анализа на практике.

    Ключевое понятие, которое следует помнить в статистике, - это понятие надежности. Даже если исходные предположения не слишком соблюдаются, метод все же может быть применен. Так обстоит дело с линейным дискриминантным анализом. Самое главное - думать об этом как о линейном разделителе. В этом случае, если облака точек линейно разделимы в пространстве представления, это может работать правильно.

    По сравнению с другими линейными методами, такими как логистическая регрессия , дискриминантный анализ демонстрирует сопоставимые характеристики. Тем не менее, он может пострадать, когда гипотеза гомоскедастичности очень сильно нарушена.

    Оценка

    Частота ошибок

    Обычно при обучении с учителем для оценки эффективности функции ранжирования мы сравниваем ее прогнозы с истинными значениями переменной, которая должна быть предсказана в файле данных. Результирующая перекрестная таблица называется матрицей путаницы : в строке - истинные классы членства, в столбце - предсказанные классы членства. Частота ошибок или неправильная классификация - это просто количество ошибочных классификаций, когда прогноз не совпадает с истинным значением, по сравнению с размером файла данных.

    Коэффициент ошибок привлекателен тем, что его легко интерпретировать, это оценка вероятности ошибки, если мы применяем функцию классификации в генеральной совокупности.

    Однако будьте осторожны, мы говорим о смещенной частоте или частоте ошибок повторной подстановки - частоте ошибок, измеренной на данных, которые использовались для построения функции классификации. Все просто потому, что на этой диаграмме представлены судьи и стороны. Правильная процедура будет заключаться в построении функции классификации на части данных, называемой обучением; затем оценить его на другой части данных, называемой тестом. Измеренная таким образом частота ошибок тестирования является надежным индикатором.

    На практике распределение данных при обучении и тестировании составляет 2/3 - 1/3. Но на самом деле настоящего правила нет. Самым важным является согласование двух противоречащих друг другу требований: иметь достаточно результатов теста, чтобы получить стабильную оценку ошибки, и в то же время оставлять достаточно средств для обучения, чтобы не ухудшать метод обучения.

    Когда числа малы и совместное использование данных с помощью обучающих тестов невозможно, существуют методы повторной выборки, такие как перекрестная проверка или бутстрап для оценки ошибки классификации.

    Разделимость - общая оценка

    Коэффициент ошибок позволяет оценивать и сравнивать методы, независимо от лежащих в их основе предположений. В случае линейного дискриминантного анализа мы можем использовать вероятностную модель для проверки гипотез.

    Первый тест позволяет ответить на следующий вопрос: можно ли различить облака точек в пространстве представления. Согласно полинормальной структуре, это сводится к проверке того, перепутаны ли условные центры тяжести (нулевая гипотеза) или по крайней мере один из этих центров тяжести значительно отклоняется от других (альтернативная гипотеза).

    Статистика теста Уилкса, ее выражение выглядит следующим образом: λ

    где - определитель внутриклассовой ковариационной матрицы дисперсии, определитель общей ковариационной матрицы дисперсии. | W | | V |

    Поскольку таблица критических значений закона Уилкса редко доступна в программном обеспечении, обычно используются преобразования Бартлетта и Рао, которые следуют закону KHI-2 и Фишера соответственно.


    Используя другую призму, мы обнаруживаем, что этот тест может быть выражен как многомерное обобщение одностороннего дисперсионного анализа ( ANOVA ), в данном случае мы говорим о MANOVA (многомерный дисперсионный анализ).

    Индивидуальная оценка переменных-предикторов

    Как и во всех линейных методах, можно оценивать каждую переменную-предиктор индивидуально и, возможно, исключать те, которые не имеют значения для различения.

    Статистика теста основана на вариации лямбды Уилкса при добавлении (J + 1) -й переменной в модель прогнозирования. Его формула выглядит следующим образом:

    Он следует закону Фишера со степенями свободы. ( K - 1 , нет - K - J )

    Пример

    Чтение результатов

    Линейный дискриминантный анализ был проведен на блохах, описанных в статье дискриминантный анализ . Результаты приведены ниже.

    Результаты по блохам adl.jpg

    Развертывание

    Чтобы классифицировать новое наблюдение с координатами ( Ширина = 150 и Угол = 15), мы применяем следующие функции.

    Принцип дискриминантного анализа и реализация языка R

    Содержание дискриминантного анализа

    Содержание:

    1. Линейный дискриминантный анализ
    2. Дискриминантный анализ
    3. Вторичный дискриминантный анализ
    4. Байесовский дискриминантный анализ

    1. Линейный дискриминантный анализ

    Предложено:

    Впервые он был предложен Фишером (1936) и использовался в классификации цветов, в которой использовались различные характеристики цветов (Например, длина и ширина лепестка, длина и ширина чашечки и т. Д.) Используйте метод линейной комбинации, чтобы стать одним значением переменной, а затем используйте метод сравнения одного значения, чтобы оценить разницу между вещами.
    Пример:
    Возьмем два типа дискриминации в качестве примера. Есть два типа образцов, которые n1,n2 Образцы, каждый измеренный p Показатели таковы.

    Серийный номер переменная классификация
    X1 X2 Xp Y
    1 x11 x12 x1p 1
    2 x21 x22 x2p 1
    1
    n1 xn11 xn12 xn1p 1
    1 2
    2 2
    2
    n2 xn21 xn22 xn2p 2

    Линейная дискриминантная функция может быть задана как Y = a1X1+ a2X2+……+ apXp = a’X , Сделайте дискриминантную функцию по индексу X1,X2,XP Значение определяет, к какому типу относится каждый образец.

    1. Найти линейную дискриминантную функцию Фишера (критерии линейного дискриминанта Фишера требуют, чтобы вариация между различными типами была как можно большей, а внутренняя вариация каждого типа - как можно меньше.
    2. Рассчитайте граничное значение дискриминанта (после нахождения ai подставьте дискриминантную функцию, чтобы получить дискриминантную функцию)
    3. Установите критерий

    Процесс реализации языка R подробно описан ниже.

    Согласно опыту, разница температур между сегодняшним днем ​​и вчерашним днем, x1 и x2, является двумя важными факторами для прогнозирования, будет ли завтра дождь или нет. Записи эксперимента таковы: спросите, сегодня мы измерили x1 = 8,1, x2 = 2,0, если мы прогнозируем дождь или солнечный завтра ?

    Grop x1 x2 weather
    1 -1.9 3.2 дождь
    1 -6.9 0.4 дождь
    1 5.2 2 дождь
    1 5 2.5 дождь
    1 7.3 0 дождь
    1 6.8 12.7 дождь
    1 0.9 -5.4 дождь
    1 -12.5 -2.5 дождь
    1 1.5 1.3 дождь
    1 3.8 6.8 дождь
    2 0.2 6.2 ясно
    2 -0.1 7.5 ясно
    2 0.4 14.6 ясно
    2 2.7 8.3 ясно
    2 2.1 0.8 ясно
    2 -4.6 4.3 ясно
    2 -1.7 10.9 ясно
    2 -2.6 13.1 ясно
    2 2.6 12.8 ясно
    2 -2.8 10 ясно

    Линейная дискриминационная функция в языке R lda()
    Форма выглядит следующим образом:
    lda(formula , data,……)
    formula Он находится в той же форме, что и регрессионный анализ, представленный последним одноклассником.
    Data Для фрейма данных.
    1. Сначала загрузите данные на язык R, затем нарисуйте график разброса данных и начальное наблюдение за распределением данных.



    2. Установить дискриминантную функцию

    3. Используйте обученную дискриминантную функцию для определения исходных данных.

    Из результатов видно, что в каждой из двух категорий имеется дискриминантная ошибка. 18 Верно. Оценка суждения 18/20=90%
    4. Составьте матрицу путаницы и найдите оценку


    Из этого результата также видно, что оценка 90% , Полученная дискриминантная функция y=-0.1035x1+0.2248x2 。
    Нарисуйте линию классификации как:

    5. Предсказать новые данные


    Как видно из результатов, когда x1 = 8.1 , x2 = 2.0 , Погода завтра классифицируется как 1 То есть завтра будет дождь.
    Добавьте новую точку на слой для просмотра визуализации. Черная точка, на которую указывает стрелка на рисунке, является новой точкой. Также видно, что точка попадает в категорию дождей.

    2. Дискриминантный анализ расстояния

    Основная идея различения расстояний состоит в том, чтобы рассчитать центр тяжести каждого типа отдельно по данным известной классификации, то есть средним по каждой группе. Критерий различения расстояний заключается в том, что если наблюдение, данное Реном, ближе всего к центру тяжести i-й категории, оно считается относящимся к i-й категории. Расстояние Махаланобиса обычно используется для различения.
    состоит из двух групп G1、G2 Извлечено из первого населения n1 Образцы, взятые у второй популяции n2 Образцы, измеренные для каждого образца P Показатели. Измеренный индекс любого образца X =(x1,x2,…… ,xp)' , Рассчитать образцы отдельно X К общему G1、G2 расстояние D(X , G1) и D(X , G2) По ближайшему критерию определить классификацию. То есть:


    Использование на языке R WeDiBaDis Пакет может реализовывать взвешенный дискриминантный анализ Махаланобиса.
    Следующее описание расстояния:
    Случайно выбранные 20 брендов телевизоров с рынка для расследования. В соответствии с показателем качества телевизора, функциональной оценкой, продажной ценой и состоянием продаж (всего два типа, бестселлеры и продажи), следующая статистика (1 - бестселлер и 2 - продажа).
    Существует новый производитель для продвижения своей продукции, показатель качества 8,0, показатель функции 7,5, цена 65 юаней. Каков сценарий этого производителя?

    Статус продаж Показатель качества Функциональная оценка Цена продажи
    1 8.3 4 29
    1 9.5 7 68
    1 8 5 39
    1 7.4 7 50
    1 8.8 6.5 55
    1 9 7.5 58
    1 7 6 75
    1 9.2 8 82
    1 8 7 67
    1 7.6 9 90
    1 7.2 8.5 86
    1 6.4 7 53
    1 7.3 5 48
    2 6 2 20
    2 6.4 4 39
    2 6.8 5 48
    2 5.2 3 29
    2 5.8 3.5 32
    2 5.5 4 34
    2 6 4.5 36

    Процесс реализации языка R:

    1) Загрузить данные и проанализировать, как данные представлены






    2) импорт WeDiBaDis Пакет для построения модели расстояния Махаланобиса. Использовать WDBdisc () Функция строит модель.

    WDBdisc Структура функции:
    WDBdisc(data, datatype, classcol, new.ind, distance, type, method)
    Data : Матрица обучающих данных или дистанционная матрица обучающих данных.
    Datatype : Если данные представляют собой матрицу данных, то datatype = “m” Если данные представляют собой матрицу расстояний, то datatype = “d” 。
    Classcol : Столбец, в котором находится категориальная переменная, по умолчанию это первый столбец.
    new.ind : Необязательный параметр для тестовых данных, если необходимо проверить новые данные, его необходимо добавить.
    distance : Метод расстояния, используемый в дискриминантном анализе. По умолчанию используется евклидово расстояние. опциональный “correlation” , “Bhattacharyya” , “Gower” , “Mahalanobis” , “BrayCurtis” , “Orloci” , “Hellinger” or “Prevosti” 。
    type : Если расстояние “Gower“ Расстояние, этот параметр обязателен. Этот параметр является списком.
    Method : Метод, используемый в дискриминантном анализе "DB" или "WDB" , По умолчанию "WDB" 。

    Из результатов обучения видно, что категория 1 Есть два неправильных суждения, категории 2 Неверное суждение, уровень суждения 85% 。
    Новые данные подставляются в модель для определения классификации новой категории.

    Согласно результатам прогноза, классификация новой категории 1 То есть продукты, продвигаемые новыми производителями, хорошо продаются, а перспективы новых производителей относительно оптимистичны.

    3. Вторичный дискриминантный анализ

    Когда ковариационная матрица между несколькими популяциями не одинакова, дискриминантная функция расстояния является нелинейной формой, обычно квадратичной функцией. Используется в R MASS В сумке qda() Функции для построения моделей.
    qda() Написание функций и lda() Точно так же студенты здесь просто пропустили это. Вы можете оглянуться назад на линейную дискриминантную функцию lda() Запись.
    На этот раз, взяв в качестве примера данные дистанционной дискриминации, модель строится с вторичной дискриминацией, и проверяется степень дискриминации модели.

    Можно видеть, что все модели, подготовленные с использованием 20 выборочных обучающих данных, являются правильными. Оценка суждения 100% , Это показывает, что применение вторичной дискриминации лучше, чем дистанционная дискриминация Махаланобиса.

    4. Байесовский дискриминантный анализ

    Несколько методов дискриминантного анализа, упомянутых выше, просты в расчете, понятны в результате и практичны. Однако есть два недостатка: один из них заключается в том, что дискриминирующий метод не имеет ничего общего с вероятностью общей численности населения, а второй - в том, что дискриминирующий метод не имеет ничего общего с потерями, вызванными неправильным суждением. Байесовский дискриминант - это дискриминантный метод, который учитывает эти два фактора.
    Мы также используем байесы для моделирования на примере вторичного дискриминантного анализа.
    1. Предположим, что предыдущие вероятности равны, т.е. q1=q2=1/2 , Дискриминантная функция эквивалентна fisher Линейная дискриминантная функция.

    2. Априорная вероятность отличается, возьмите q1 = 13/20, q2 = 7/20, а затем установите дискриминантную функцию Байеса

    Из-за небольшого количества выборок в нашей выборке, байесовская дискриминация в этом результате, является ли она одинаковой или различной по предыдущей вероятности, отлично оценивается для этого эксперимента. Дискриминантный результат лучше, чем дискриминантный анализ расстояния Махаланобиса.

    Из-за ограниченного пространства в этой статье не было написано о создании и продвижении дискриминантной функции. Я надеюсь, что вы можете проверить материалы и узнать сами.В дальнейшем вам будут представлены дополнительные навыки анализа данных на языке R, учебные пособия по EXCEL и PPT.
    Если у вас есть какие-либо вопросы, пожалуйста, оставьте комментарий в этой области и в частном порядке расскажите студентам Минмин, которые помогут вам решить их.Анализ данных, производство PPT, изготовление бумаги и высококачественная обработка изображенийСложность

    Линейный дискриминантный анализ ( LinearDiscriminantAnalysis ) и квадратичный дискриминантный анализ ( QuadraticDiscriminantAnalysis ) — это два классических классификатора с, как следует из их названия, линейной и квадратичной поверхностью принятия решений соответственно.

    Эти классификаторы привлекательны тем, что у них есть решения в замкнутой форме, которые можно легко вычислить, они по своей сути являются мультиклассами, доказали свою эффективность на практике и не имеют гиперпараметров для настройки.


    График показывает границы решения для линейного дискриминантного анализа и квадратичного дискриминантного анализа. Нижняя строка демонстрирует, что линейный дискриминантный анализ может изучать только линейные границы, в то время как квадратичный дискриминантный анализ может изучать квадратичные границы и, следовательно, более гибкий.

    1.2.1. Снижение размерности с помощью линейного дискриминантного анализа

    LinearDiscriminantAnalysis может использоваться для выполнения контролируемого уменьшения размерности путем проецирования входных данных на линейное подпространство, состоящее из направлений, которые максимизируют разделение между классами (в точном смысле, обсуждаемом в разделе математики ниже). Размерность вывода обязательно меньше, чем количество классов, так что в целом это довольно сильное снижение размерности и имеет смысл только в мультиклассовой настройке.

    Это реализовано в transform методе. Желаемую размерность можно установить с помощью n_components параметра. Этот параметр не имеет никакого влияния на fit и predict методы.

    Сравнение LDA и PCA 2D проекции набора данных Iris : Сравнение LDA и PCA для уменьшения размерности набора данных Iris

    1.2.2. Математическая формулировка классификаторов LDA и QDA

    И LDA, и QDA могут быть получены из простых вероятностных моделей, которые моделируют условное распределение данных по классам. $P(X|y=k)$ для каждого класса $k$. Затем прогнозы могут быть получены с использованием правила Байеса для каждой обучающей выборки.$x \in $R^d$:
    $$P(y=k | x) = \frac = \frac < \sum_P(x | y=l) \cdot P(y=l)>$$

    и выбираем класс $k$ что максимизирует эту апостериорную вероятность.

    В частности, для линейного и квадратичного дискриминантного анализа $P(x|y)$ моделируется многомерным распределением Гаусса с плотностью:
    $$P(x | y=k) = \frac <(2\pi)^|\Sigma_k|^>\exp\left(-\frac (x-\mu_k)^t \Sigma_k^ (x-\mu_k)\right)$$

    где $d$ количество функций.

    1.2.2.1. QDA

    Согласно модели, приведенной выше, бревно заднего отдела выглядит следующим образом:

    $$\begin\log P(y=k | x) &= \log P(x | y=k) + \log P(y = k) + Cst \ &= -\frac \log |\Sigma_k| -\frac (x-\mu_k)^t \Sigma_k^ (x-\mu_k) + \log P(y = k) + Cst,\end$$

    где постоянный член $C_$ соответствует знаменателю $P(x)$, в дополнение к другим постоянным членам из гауссиана. Прогнозируемый класс — это тот, который максимизирует этот логарифмический апостериор.

    Примечание Связь с гауссовским наивным байесовским методом

    Если в модели QDA предполагается, что ковариационные матрицы диагональны, то предполагается, что входные данные условно независимы в каждом классе, и результирующий классификатор эквивалентен гауссовскому наивному байесовскому классификатору naive_bayes.GaussianNB .

    1.2.2.2. LDA

    LDA — это частный случай QDA, где предполагается, что гауссианы для каждого класса имеют одну и ту же ковариационную матрицу: $\Sigma_k = \Sigma$ для всех $k$. Это уменьшает размер журнала до:
    $$\log P(y=k | x) = -\frac (x-\mu_k)^t \Sigma^ (x-\mu_k) + \log P(y = k) + Cst.$$

    Термин $(x-\mu_k)^t \Sigma^ (x-\mu_k)$ соответствует расстоянию Махаланобиса между образцамиx и среднее $\mu_k$. Расстояние Махаланобиса показывает, насколько близко $x$ из $\mu_k$, а также учитывает дисперсию каждой функции. Таким образом, мы можем интерпретировать LDA как присвоение $x$ к классу, среднее значение которого является наиболее близким с точки зрения расстояния Махаланобиса, с учетом априорных вероятностей класса.

    Лог-апостериор LDA также можно записать (Источник 3) как:
    $$\log P(y=k | x) = \omega_k^t x + \omega_ + Cst.$$

    где $\omega_k = \Sigma^ \mu_k$ и $\omega_ =-\frac \mu_k^t\Sigma^\mu_k + \log P (y = k)$. Эти величины соответствуют coef_ и intercept_ атрибутам, соответственно.

    Из приведенной выше формулы ясно, что LDA имеет линейную поверхность принятия решений. В случае QDA нет никаких предположений о ковариационных матрицах $\Sigma_k$ гауссианов, что приводит к квадратичным решающим поверхностям. См. (Источник 1) для более подробной информации.

    1.2.3. Математическая формулировка уменьшения размерности LDA

    Сначала обратите внимание, что K означает $\mu_k$ векторы в $R^d$, и они лежат в аффинном подпространстве $H$ размер не более $K−1$ (2 точки лежат на прямой, 3 точки лежат на плоскости и т. Д.).

    Как упоминалось выше, мы можем интерпретировать LDA как присвоение x классу, средний $\mu_k$ является ближайшим с точки зрения расстояния Махаланобиса с учетом априорных вероятностей класса. В качестве альтернативы LDA эквивалентно сначала сферированию данных, так что ковариационная матрица является тождественной, а затем назначению $x$ к ближайшему среднему с точки зрения евклидова расстояния (все еще с учетом априорных значений класса).

    Вычисление евклидовых расстояний в этом d-мерном пространстве эквивалентно первому проецированию точек данных в $H$, и вычисление расстояний там (поскольку другие измерения будут одинаково влиять на каждый класс с точки зрения расстояния). Другими словами, еслиx ближе всего к $\mu_k$ в исходном пространстве, то же самое будет и в $H$. Это показывает, что, неявно в классификаторе LDA, происходит уменьшение размерности за счет линейной проекции на $K−1$ пространственное пространство.

    Мы можем уменьшить размер еще больше, до выбранного $L$, проецируя на линейное подпространство $H_L$ что максимизирует дисперсию $\mu_^$ после проекции (по сути, мы выполняем форму PCA для преобразованных средств класса $\mu^*_k$). Этот $L$ соответствует n_components параметру, используемому в transform методе. См. (Источник 1) для более подробной информации.

    1.2.4. Оценка усадки и ковариации

    Параметр shrinkage также можно вручную установить между 0 и 1. В частности, значение 0 соответствует отсутствию усадки (что означает эмпирической ковариационной матрицы будет использоваться) , и значение 1 соответствует полной усадки (что означает , что диагональная матрица дисперсий будет использоваться в качестве оценки ковариационной матрицы). Установка для этого параметра значения между этими двумя экстремумами будет оценивать сокращенную версию ковариационной матрицы.

    Сжатая оценка ковариации Ледуа и Вольфа не всегда может быть лучшим выбором. Например, если распределение данных является нормальным, оценка Oracle Shrinkage Approximating sklearn.covariance.OAS дает меньшую среднеквадратичную ошибку, чем та, которую дает формула Ледуа и Вольфа, используемая с shrinkage = ”auto”. В LDA предполагается, что данные являются гауссовскими условно для класса. Если эти предположения верны, использование LDA с оценкой ковариации OAS даст лучшую точность классификации, чем использование Ледуа и Вольфа или эмпирической оценки ковариации.

    Оценщик ковариации можно выбрать с помощью covariance_estimator параметра discriminant_analysis.LinearDiscriminantAnalysis класса. Оценщик ковариации должен иметь метод соответствия и covariance_ атрибут, как и все оценщики ковариации в sklearn.covariance модуле.


    Нормальный, Ледуа-Вольф и линейный дискриминантный анализ OAS для классификации : сравнение LDA-классификаторов с эмпирической оценкой ковариации Ледуа-Вольфа и OAS.

    1.2.5. Алгоритмы оценивания

    Использование LDA и QDA требует вычисления логарифмической апостериорной функции, которая зависит от априорных значений класса. $P(y=k)$, класс означает $\mu_k$, и ковариационные матрицы.

    The ‘svd’ solver is the default solver used for LinearDiscriminantAnalysis , and it is the only available solver for QuadraticDiscriminantAnalysis . It can perform both classification and transform (for LDA). As it does not rely on the calculation of the covariance matrix, the ‘svd’ solver may be preferable in situations where the number of features is large. The ‘svd’ solver cannot be used with shrinkage. For QDA, the use of the SVD solver relies on the fact that the covariance matrix $\Sigma_k$ is, by definition, equal to $\fracX_k^tX_k = V S^2 V^t$ where $V$ comes from the SVD of the (centered) matrix: $X_k = U S V^t$. It turns out that we can compute the log-posterior above without having to explictly compute $\Sigma$: computing $S$ and $V$ via the SVD of $X$ is enough. For LDA, two SVDs are computed: the SVD of the centered input matrix $X$ and the SVD of the class-wise mean vectors.

    Решающая программа lsqr — это эффективный алгоритм, который работает только для классификации. Необходимо явно вычислить ковариационную матрицу $\Sigma$, а также поддерживает оценки усадки и пользовательские оценки ковариации. Этот решатель вычисляет коэффициенты $\omega_k = \Sigma^\mu_k$ решая для $\Sigma \omega =\mu_k$, что позволяет избежать явного вычисления обратного $\Sigma^$.

    Логистическая регрессия - это алгоритм классификации, традиционно ограниченный только двумя классификационными задачами.

    Если у вас более двух классов, то линейный дискриминантный анализ является предпочтительным методом линейной классификации.

    В этой статье вы найдете алгоритм линейного дискриминантного анализа (LDA) для классификации задач прогнозного моделирования. Прочитав этот пост, вы узнаете:

    • Ограничения логистической регрессии и необходимость линейного дискриминантного анализа.
    • Представление модели, которая извлекается из данных и может быть сохранена в файл.
    • Как модель оценивается по вашим данным.
    • Как делать прогнозы из изученной модели LDA.
    • Как подготовить ваши данные, чтобы получить максимальную отдачу от модели LDA.

    Этот пост предназначен для разработчиков, заинтересованных в прикладном машинном обучении, как работают модели и как их правильно использовать. Таким образом, не требуется никаких знаний в области статистики или линейной алгебры, хотя это поможет, если вы знаете оимею в видуа такжедисперсияраспределения.

    LDA - простая модель как для подготовки, так и для применения. Существует несколько интересных статистических данных о том, как настраивается модель и как получается уравнение прогнозирования, но не рассматривается в этом посте.


    Ограничения логистической регрессии

    Логистическая регрессия - это простой и мощный алгоритм линейной классификации. Он также имеет ограничения, которые предполагают необходимость альтернативных алгоритмов линейной классификации.

    • Задачи двух классов, Логистическая регрессия предназначена для задач двухклассовой или бинарной классификации. Он может быть расширен для многоклассовой классификации, но редко используется для этой цели.
    • Нестабильный с хорошо разделенными классами, Логистическая регрессия может стать нестабильной, когда классы хорошо разделены.
    • Нестабильный с несколькими примерами, Логистическая регрессия может стать нестабильной, когда имеется несколько примеров для оценки параметров.

    Линейный Дискриминантный Анализ затрагивает каждую из этих точек и является линейным методом для решения задач классификации с несколькими классами. Даже при наличии проблем с двоичной классификацией рекомендуется попробовать как логистическую регрессию, так и линейный дискриминантный анализ.

    Представление моделей LDA

    Представление LDA прямо вперед.

    Он состоит из статистических свойств ваших данных, рассчитанных для каждого класса. Для единственной входной переменной (x) это среднее значение и дисперсия переменной для каждого класса. Для нескольких переменных это одни и те же свойства, рассчитанные по многомерному гауссову, а именно средние и ковариационная матрица.

    Эти статистические свойства оцениваются на основе ваших данных и включаются в уравнение LDA для прогнозирования. Это значения модели, которые вы должны сохранить в файл для вашей модели.

    Давайте посмотрим, как эти параметры оцениваются.

    Получите БЕСПЛАТНУЮ карту алгоритмов Mind


    Я создал удобную карту разума из 60+ алгоритмов, организованных по типу.

    Загрузите его, распечатайте и используйте.

    Также получите эксклюзивный доступ к алгоритмам машинного обучения по электронной почте мини-курса.

    Изучение моделей LDA

    LDA делает некоторые упрощающие предположения о ваших данных:

    1. То, что ваши данные гауссовы, что каждая переменная имеет форму кривой колокола при построении графика.
    2. То, что каждый атрибут имеет одинаковую дисперсию, что значения каждой переменной в среднем изменяются примерно на одно и то же количество.

    С учетом этих допущений модель LDA оценивает среднее значение и отклонение от ваших данных для каждого класса. Об этом легко думать в одномерном случае (с одной входной переменной) с двумя классами.

    Среднее (mu) значение каждого входа (x) для каждого класса (k) можно оценить обычным способом, разделив сумму значений на общее количество значений.

    muk = 1 / nk * sum (x)

    Где muk - это среднее значение x для класса k, nk - количество экземпляров с классом k. Дисперсия рассчитывается по всем классам как среднеквадратичное отклонение каждого значения от среднего.

    сигма ^ 2 = 1 / (н-К) * сумма ((х-му) ^ 2)

    Где sigma ^ 2 - дисперсия для всех входных данных (x), n - количество экземпляров, K - количество классов, а mu - среднее значение для входа x.

    Создание прогнозов с LDA

    LDA делает прогнозы, оценивая вероятность того, что новый набор входных данных принадлежит каждому классу. Класс, который получает наибольшую вероятность, является выходным классом, и делается прогноз.

    Модель использует теорему Байеса для оценки вероятностей. краткоТеорема Байесаможет использоваться для оценки вероятности выходного класса (k) с учетом входных данных (x) с использованием вероятности каждого класса и вероятности данных, принадлежащих каждому классу:

    P (Y = x | X = x) = (PIk * fk (x)) / сумма (PIl * fl (x))

    Где PIk относится к базовой вероятности каждого класса (k), наблюдаемой в ваших тренировочных данных (например, 0,5 для 50-50-деления в задаче двух классов) В теореме Байеса это называется априорной вероятностью.

    Выше f (x) является оценочной вероятностью принадлежности x к классу. Гауссова функция распределения используется для f (x). Включив гауссову в приведенное выше уравнение и упростив его, мы получим приведенное ниже уравнение. Это называется дискриминирующей функцией, и класс, рассчитанный как имеющий наибольшее значение, будет выходной классификацией (y):

    Dk (x) = x * (muk / siga ^ 2) - (muk ^ 2 / (2 * sigma ^ 2)) + ln (PIk)

    Dk (x) - это дискриминирующая функция для класса k с учетом входных данных x, значения muk, sigma ^ 2 и PIk оцениваются по вашим данным.

    Как подготовить данные для LDA

    В этом разделе перечислены некоторые предложения, которые вы можете учесть при подготовке ваших данных для использования с LDA.

    • Проблемы классификации, Это может быть само собой разумеющимся, но LDA предназначен для задач классификации, где выходная переменная является категориальной. LDA поддерживает как бинарную, так и мультиклассовую классификацию.
    • Гауссово Распределение, Стандартная реализация модели предполагает гауссово распределение входных переменных. Подумайте о рассмотрении одномерных распределений каждого атрибута и использовании преобразований, чтобы сделать их более гауссово выглядящими (например, log и root для экспоненциальных распределений и Box-Cox для наклонных распределений).
    • Удалить выбросы, Попробуйте удалить выбросы из ваших данных. Они могут искажать базовую статистику, используемую для разделения классов в LDA, такую ​​как среднее значение и стандартное отклонение.
    • Та же дисперсия. LDAПредполагается, что каждая входная переменная имеет одинаковую дисперсию. Почти всегда хорошая идея стандартизировать ваши данные перед использованием LDA, чтобы они имели среднее значение 0 и стандартное отклонение 1.

    Расширения для LDA

    Линейный дискриминантный анализ - это простой и эффективный метод классификации. Поскольку он прост и так хорошо понятен, в методе есть много расширений и вариаций. Некоторые популярные расширения включают в себя:

    • Квадратичный Дискриминантный Анализ (QDA)Каждый класс использует свою собственную оценку дисперсии (или ковариации, когда имеется несколько входных переменных).
    • Гибкий дискриминантный анализ (FDA): Где используются нелинейные комбинации входов, такие как сплайны.
    • Регулярный дискриминантный анализ (RDA): Вводит регуляризацию в оценку дисперсии (фактически ковариации), смягчая влияние различных переменных на LDA.

    Дальнейшее чтение

    Этот раздел предоставляет некоторые дополнительные ресурсы, если вы хотите углубиться. Я должен зачислить книгуВведение в статистическое обучение: с приложениями в RНекоторое описание и обозначения в этом посте были взяты из этого текста, это отлично.

    книги

    Другой

      (примеры с Python) (Я не нашел это полезным) (включает ссылку на интерактивный интерфейс LDA)

    Резюме

    В этом посте вы обнаружили линейный дискриминантный анализ для классификации задач прогнозного моделирования. Ты выучил:

    Читайте также: