Метод главных компонент реферат

Обновлено: 30.06.2024

Функция "чтения" служит для ознакомления с работой. Разметка, таблицы и картинки документа могут отображаться неверно или не в полном объёме!


Министерство высшего образования Российской Федерации Кубанский государственный университетКафедра численного анализа

к курсовой работе по предмету

статистический анализ в экономикетема курсовой работы:

Выполнил : студент гр. 42

…Руководитель : доц. каф. численного анализа

Курсовая работа содержит14 страниц, 1 рисунок,

3 источника, 1 приложение.

МОДЕЛЬ, ГЛАВНАЯ КОМПОНЕНТА, КОРРЕЛЯЦИЯ, СОБСТВЕННЫЙ ВЕКТОР, ХАРАКТЕРНЫЙ ПРИЗНАК.

Целью работы являлось составление программы, реализующей выделение в данном факторном пространстве исходных признаков m главных компонент, или обобщенных признаков. Характерной особенностью пространства главных компонент является его ортогональность.

В результате выполнения курсовой работы была изучена математическая модель процесса поиска главных компонент, а также приемы программной реализации этого метода на языке программирования Turbo Pascal 7.0.

Краткие теоретические сведения…………………………..5

Описание программной реализации……………………….7

Приложение А – Текст программы метода главных компонент………………………………………………………10

Из числа методов, позволяющих обобщать значения элементарных признаков, метод главных компонент выделяется простой логической конструкцией и в то же время на его примере становятся понятными общая идея и целевые установки многочисленных методов факторного анализа.

Метод главных компонент дает возможность по m – числу исходных признаков выделить m главных компонент, или обобщенных признаков. Пространство главных компонент ортогонально.

Математическая модель метода главных компонент базируется на логичном допущении, что значения множества взаимосвязанных признаков порождают некоторый общий результат.

Краткие теоретические сведения

Решение задачи методом главных компонент сводится к поэтапному преобразованию матрицы исходных данных X (рисунок 1.1):

X R(S) Z Λ U V A F

Рисунок 1.1 – Схема математических преобразованийНа рисунке обозначено: X – матрица исходных данных размерностью n*m (n – число объектов наблюдения, m – число элементарных аналитических признаков); Z – матрица центрированных и нормированных значений признаков, элементы матрицы вычисляют по формуле: ; R – матрица парных корреляций: R = (1/n)*Z’*Z.

Если предварительнаястандартизация данных не

Похожие работы

2014-2022 © "РефератКо"
электронная библиотека студента.
Банк рефератов, все рефераты скачать бесплатно и без регистрации.

"РефератКо" - электронная библиотека учебных, творческих и аналитических работ, банк рефератов. Огромная база из более 766 000 рефератов. Кроме рефератов есть ещё много дипломов, курсовых работ, лекций, методичек, резюме, сочинений, учебников и много других учебных и научных работ. На сайте не нужна регистрация или плата за доступ. Всё содержимое библиотеки полностью доступно для скачивания анонимному пользователю

МОДЕЛЬ, ГЛАВНАЯ КОМПОНЕНТА, КОРРЕЛЯЦИЯ, СОБСТВЕННЫЙ ВЕКТОР, ХАРАКТЕРНЫЙ ПРИЗНАК.

Целью работы являлось составление программы, реализующей выделение в данном факторном пространстве исходных признаков m главных компонент, или обобщенных признаков. Характерной особенностью пространства главных компонент является его ортогональность.

В результате выполнения курсовой работы была изучена математическая модель процесса поиска главных компонент, а также приемы программной реализации этого метода на языке программирования Turbo Pascal 7.0 .

Введение ……………………………………………………….4

1 Краткие теоретические сведения…………………………..5

2 Описание программной реализации……………………….7

Приложение А – Текст программы метода главных компонент………………………………………………………10

ВВЕДЕНИЕ

Из числа методов, позволяющих обобщать значения элементарных признаков, метод главных компонент выделяется простой логической конструкцией и в то же время на его примере становятся понятными общая идея и целевые установки многочисленных методов факторного анализа.

Метод главных компонент дает возможность по m – числу исходных признаков выделить m главных компонент, или обобщенных признаков. Пространство главных компонент ортогонально.

Математическая модель метода главных компонент базируется на логичном допущении, что значения множества взаимосвязанных признаков порождают некоторый общий результат.

1 Краткие теоретические сведения

Решение задачи методом главных компонент сводится к поэтапному преобразованию матрицы исходных данных X (рисунок 1.1):


Рисунок 1.1 – Схема математических преобразований


На рисунке обозначено: X – матрица исходных данных размерностью n*m (n – число объектов наблюдения, m – число элементарных аналитических признаков); Z – матрица центрированных и нормированных значений признаков, элементы матрицы вычисляют по формуле: ; R – матрица парных корреляций: R = (1/n)*Z’*Z .

Если предварительнаястандартизация данных не проводилась, то на данном шаге получают матрицу S = (1/n)*X’*X , элементы матрицы X для расчета будут центрированными величинами.

Опишем дальнейшие шаги вычислений для метода главных компонент и объясним математический смысл полученных результатов.

Λ – диагональная матрица собственных (характеристических) чисел.

Множество решений λj находят решением характеристического уравнения |R - λE | = 0 . λj – это характеристики вариации, точнее, показатели дисперсии каждой главной компоненты. Суммарное значение Σ λj равно сумме дисперсий элементарных признаков Xj . При условии стандартизации исходных данных, эта сумма равна числу элементарных признаков m .

Решив характеристическое уравнение, находят его корни λj . После этого вычисляют собственные векторы матрицы R . Реально это означает решение m систем линейных уравнений для каждого λj при j = 1..m . В общем виде система имеет вид:


(1.1)

Приведенная система объединяет однородные линейные уравнения, и так как число ее уравнений равно числу неизвестных, она имеет бесконечное множество решений. Конкретные значения собственных векторов при этом можно найти, задавая произвольно по крайней мере величину одной компоненты каждого вектора.

A – матрица факторного отображения, ее элементы arj – весовые коэффициенты. Вначале A имеет размерность m*m – по числу элементарных признаков Xj , затем в анализе остается r наиболее значимых компонент, r ≤ m . Вычисляют матрицу A по известным данным матрицы собственных чисел Λ и нормированных собственных векторов V по формуле A = VΛ 1/2 .

F – матрица значений главных компонент размерностью r*n , F = A -1 Z’ . Эта матрица в общем виде записывается:




(1.2)

2 Описание программной реализации

Программа для реализации метода главных компонент была написана на языке Turbo Pascal 7.0 . Все вычисления выполнены в последовательности, представленной на рисунке 1.1. Обозначения программных переменных и массивов по возможности соответствуют изложенным выше. Программа является в достаточной степени универсальной, т.к. приспособлена для обработки массивов данных любой размерности (их размер ограничен только объемом доступной памяти). Однако в программе не предусмотрен ввод данных с клавиатуры. Размерность массивов задана константами, а массив исходных данных инициализируется также в теле программы. При необходимости ввода других данных можно легко скорректировать исходный текст программы.

Отдельной процедурой в программе описан вывод на экран матрицы m*m. В программе часто приходится проделывать эту операцию, поэтому она оформлена как процедура out.

Первой процедурой является центрирование и нормирование исходных данных. Оно выполняется в соответствии с описанными выше формулами.

Далее запрограммировано нахождение коэффициентов характеристического уравнения для корреляционной матрицы R . Оно производится в соответствии с рекуррентными соотношениями Фаддеева, т.е по следу матриц, производных из R , по формулам:

После вычисления рекуррентных соотношений находится характеристический полином:

Известно, что при m > 4 (2.2) не имеет общего решения. Однако мы знаем, что это уравнение имеет все вещественные корни, и что их число равно m . Для их нахождения используется итерационный метод Ньютона, поскольку исследуемая функция – полином и нет затруднений в вычислении ее производной. Итерационная формула Ньютона для i -й точки имеет вид:


, (2.3)

где j – номер итерации.

Далее в соответствии с (1.1) находим собственные векторы матрицы R . Для решения систем уравнений применялся метод Гаусса. Однако предварительно необходимо было исключить одно неизвестное. Для этого переменным umj были присвоены единичные значения, последний столбец перенесен в правую часть с обратным знаком, а последнее уравнение исключено из рассмотрения.

После получения матрицы собственных векторов U было проведено ее нормирование, в результате чего была получена матрица нормированных собственных векторов V .

Затем вычисляется матрица факторного отбражения A в соответствии с правилами умножения матриц.

Далее находится матрица, обратная к A , методом m -кратного пересчета элементов [3,с.358] по рекуррентным формулам:


где k – номер итерации, k=1..m . На заключительном этапе A -1 = -A(k) .

После нахождения матрицы, обратной A , находим матрицу F – матрицу факторного отображения и выводим ее на экран в транспонированном виде в соответствии с (1.2). На этом расчеты по методу главных компонент завершены.

ЗАКЛЮЧЕНИЕ

В данной курсовой работе была построена математическая модель и программная реализация метода главных компонент. Следует отметить, что в работе не была рассмотрена методика отсева несущественных факторов, и поэтому результирующая модель, выдаваемая программой на экран, содержит число компонент, равное числу исходных элементарных признаков m . К достоинствам разработанной программы можно отнести то, что она может работать с массивами исходных данных достаточно большой размерности.

ЛИТЕРАТУРА

1 Сошникова Л.А., Тамашевич В.Н., Уебе Г., Шебер М. Многомерный статистический анализ в экономике: Учеб. Пособие для вузов/Под ред. проф. Тамашевича. – М.: ЮНИТИ-ДАНА, 1999. –598с.

2 А. Епанешников, В. Епанешников. Программирование в среде Turbo Pascal 7.0. –3-е изд., стер. –М.: “ДИАЛОГ-МИФИ”, 1997. –288с.

3 Жуков Л.А., Стратан И.П. Установившиеся режимы сложных электрических сетей и систем: Методы расчетов. –М.: Энергия, 1979. – 416 с.

Целью данной курсовой является рассмотрение метода главных компонент. В соответствии с поставленной целью необходимо выполнить следующие задачи:
1. Рассмотрение статистического подхода в методе главных компонент
2. Примеры использования главных компонент в экономике
3. Экономико-математическое моделирование факторов (на примере КР)

Содержание работы

Введение………………………………………………………………..……….3
Глава 1 Метод главных компонент. Определение. Задачи метода. 5
Глава 2 Статистический подход в методе главных компонент. Примеры использования главных компонент в экономике. 9
Глава 3 Экономико-математическое моделирование факторов, определяющих уровень доступности жилья в Кыргызской Республике с помощью метода главных компонент…………………………………………11
ЗАКЛЮЧЕНИЕ…………………………………………………..…………….18
СПИСОК ЛИТЕРАТУРЫ………………………………. …………………..…20

Файлы: 1 файл

КУРСОВАЯ МЕТОД ГЛАВНЫХ.docx

Государственное образовательное учреждение

Высшего профессионального образования

Кыргызско-Российский Славянский университет

Кафедра математические методы в экономике

ПО МАТЕМАТИЧЕСКИМ МЕТОДАМ В ЭКОНОМИКЕ

на тему: “Метод главных компонент”

Выполнил студент группы М-2-10:

Кошоев Чингиз Маратович

Лукашева Ирина Викторовна

Глава 1 Метод главных компонент. Определение. Задачи метода. . . . 5

Глава 2 Статистический подход в методе главных компонент. Примеры использования главных компонент в экономике. . 9

Глава 3 Экономико-математическое моделирование факторов, определяющих уровень доступности жилья в Кыргызской Республике с помощью метода главных компонент…………………………………………11

Во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя интересуют в первую очередь лишь те признаки, которые обнаруживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому.

С другой стороны, не обязательно для описания состояния объекта использовать какие-то из исходных, непосредственно замеренных на нем признаков. Так, например, для определения специфики фигуры человека при покупке одежды достаточно назвать значения двух признаков (размер-рост), являющихся производными от измерений ряда параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) получающиеся при этом классы. Однако, как показали исследования, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от большого числа непосредственно замеряемых на объекте параметров.

Именно эти принципиальные установки заложены в сущность того линейного преобразования исходной системы признаков, которое приводит к главным компонентам.

Целью данной курсовой является рассмотрение метода главных компонент. В соответствии с поставленной целью необходимо выполнить следующие задачи:

1. Рассмотрение статистического подхода в методе главных компонент

2. Примеры использования главных компонент в экономике

3. Экономико-математическое моделирование факторов (на примере КР)

Глава 1 Метод главных компонент. Определение. Задачи метода

Как известно, социально-экономическое явление можно характеризовать целым рядом признаков. При большом наборе таких признаков в корреляционно-регрессионном анализе влияние связей становится затруднен, поэтому возникает необходимость сжатия, т.е. описание изучаемого явления (объекта) более укрупненным показателям, так называемыми "главными компонентами". Исходным степени здесь корреляционная матрица, на основании которой с использованием метода главных компонент может быть продлен анализ значений наблюдаемых признаков.

Правильно отобранные в корреляционную модель признаки, как правило, связаны между собой. Наличие таких связей между ними позволяет на основе одного фактора иметь информацию о другом. Существование тесной связи между признаками дает основание для исключения одной из них. Например, если в модель урожайности включены две переменные x и х 2 , характеризующих денежные затраты на гектар, первая - все виды, вторая - затраты на удобрения. Здесь практически будет лишним при включении в модель признаки x исследовать также и признак х 2 , поскольку она тесно связана с первой. Идея учета одного признака на основании второго лежит в основе метода главных компонент.

Следует отметить, что речь не идет только о двух признаки. В таком случае метод главных компонент малоэффективен. Его используют, как правило, при десятках взаеповьязаних признаков. При этом ставится цель "набрать" определенную часть общей вариации результативного признака минимальным количеством переменных. Последние подбирают до тех пор, пока сумма их дисперсий НЕ достигать заданной доли в дисперсии исследуемого явления (например, 60%, 80%, 90% и т.д.).

Метод главных компонент решает следующие задачи:

1. Возмещение скрытых, объективно существующих закономерностей в изменении явлений.

2. Характеристика изучаемого, числом признаков, значительно меньше взятых, на начальном этапе. Число главных компонент, выделенных в процессе исследования, будет содержать (в компактной форме) больше информации, чем изначально измерены признаки.

3. Выявление признаков, наиболее тесно связанных с главной компонентой. Иначе говоря, изучение связи при которой с изменением одной переменной изменяется закон распределения второй, между ними.

4. Прогнозирования уровней изучаемых явлений на основании уравнения регрессии, которое получено по информации главных компонент.

Преимущества такого метода прогнозирования в отличие от классического регрессионного анализа можно объяснить тем, что при последнем в модель пытаются включить максимально возможное количество факторов, в экономических явлениях часто характеризуются существенной кореллируемости (мультилинеарнистю). Прогноз по такими переменными, как правило, бывает не точным. Поэтому возникает задача о замене исходных взаимосвязанных переменных совокупности некоррелированных параметров. Эта задача решается математическим аппаратом - методом главных компонент, который представляет собой характеристики, построенные на основе первично измеренных признаков.

Реализация практических возможностей указанных выше задач, которые решаются методом главных компонент в области экономики, может быть представлена различным направлениям.

1. Анализ причинно - следственных взаимосвязей показателей и установления их стохастического связи с главными компонентами.

2. Выделение обобщающих экономических показателей.

3. Ранжирования результатов наблюдений по главным компонентам

4. Классификация объектов наблюдения.

5. Список исходной информации.

6. Построение уравнений регрессии по обобщающим экономическим показателям.

Как негативную сторону метода главных компонент следует назвать сложность математического аппарата, обусловленного абсолютностью знаний теории вероятностей, математической статистики, линейной алгебры, а также математического обеспечения ЭВМ. Формальное использование стандартных программ без понимания математической сути вычислительных процедур может привести к необоснованным выводам. Следует также помнить о профессиональные знания сути изучаемых экономических явлений. Только при таких условиях метод главных компонент может стать мощным математическим средством познания существующих реалий в области социально - экономических явлений.

Глава 2 Статистический подход в методе главных компонент. Примеры использования главных компонент в экономике

Компонентный анализ относится к многомерным методам снижения размерности. Он содержит один метод - метод главных компонент. В этом методе линейные комбинации случайных величин определяются характеристическими векторами ковариационной матрицы. Главные компоненты представляют собой ортогональную систему координат, в которой дисперсии компонент характеризуют их статистические свойства.

В зависимости от конкретных задач, решаемых в экономике, используется один из методов факторного анализа, или метод главных компонент.

Метод главных компонент считается статистическим методом. Однако есть другой подход, приводящий к методу главных компонент, но не являющийся статистическим. Этот подход связан с получением наилучшей проекции точек наблюдения в пространстве меньшей размерности. Для решения подобной задачи необходимо знать матрицу вторых моментов.

В статистическом подходе, задача будет заключаться в выделении линейных комбинаций случайных величин, имеющих максимально возможную дисперсию. Он опирается на ковариационную или корреляционную матрицу этих случайных величин. У этих двух разных подходов есть общий аспект: использование матрицы вторых моментов как исходной для начала анализа.

Из сказанного следует, что для овладения методом главных компонент необходимо пользоваться методами теории вероятностей и математической статистики на основе моделей линейной алгебры. Рассмотрим основные положения этих математических дисциплин, на которые опирается метод главных компонент.

Учитывая, что объекты исследования в экономике (фирма, завод, министерство, отрасль народного хозяйства, экономика страны) характеризуются большим, но конечным количеством признаков (характеристик), влияние которых подвергается воздействию большого количества случайных причин, в качестве моделей в статистическом плане возьмем многомерные распределения, а в алгебраическом - многомерное пространство признаков.

Если рассматривать с экономический точки зрения то метод главных компонент применяется в оценке стоимости бизнеса, так же этом метод применяется при анализе экономической безопасности региона, для анализа признаков, оказывающих наибольшее влияние на результаты деятельности банков.

Применение метода осуществляется так же в анализе рыночной конъюнктуры, модели рыночной конъюнктуры.

Говоря о методе многомерного статистического анализа при помощи главных компонент, а также оценки эффективности экономических организаций, экономических систем и систем управления рассматривают задачи обработки многомерных наблюдений в экономике и проблемы совершенствования метода главных компонент и расширения области его применения. Изучаются основные принципы исследования операций, используемые в теории эффективности; дается оценка эффективности на основе критериев - игровых, информационных, теории массового обслуживания.

Глава 3 Экономико-математическое моделирование факторов, определяющих уровень доступности жилья в Кыргызской Республике с помощью метода главных компонент

Рассмотрим, как доступность жилья в Кыргызстане зависит от социально-экономических факторов.

Для анализа будем использовать следующие данные, обозначенные в SPSS следующим образом:

Последняя переменная и будет анализируемым фактором.

Введем в SPSS все необходимые данные:

Перейдем во вкладку Analyze и выберем опцию Data reduction – Factor analysis.

Выберем для анализа метод главных компонент, указав Principal Components.

Наличие множества исходных признаков, характеризующих процесс функционирования объектов, заставляет отбирать из них наиболее существенные и изучать меньший набор показателей. Чаще исходные признаки подвергаются некоторому преобразованию, которое обеспечивает минимальную потерю информации. Такое решение может быть обеспечено методами снижения размерности, куда относят факторный и компонентный анализ.

Содержание

Введение 3
1 Факторный анализ
1.1 Цели, типы и этапы факторного анализа 4
1.2 Пример проведения факторного анализа 6
2 Метод главных компонент
2.1 Краткие теоретические сведения 8
2.2 Вычисление главных компонент 10
Заключение 17
Список использованных источников 18

Вложенные файлы: 1 файл

Эконометрика.docx

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ Российской Федерации

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

Институт менеджмента и бизнеса

Кафедра бизнес-информатики и математики

по курсу: Эконометрика

на тему: Факторный анализ. Метод главных компонент

Выполнил: ст. гр.
Руководитель:

1 Факторный анализ

1.1 Цели, типы и этапы факторного анализа 4

1.2 Пример проведения факторного анализа 6

2 Метод главных компонент

2.1 Краткие теоретические сведения 8

2.2 Вычисление главных компонент 10

Список использованных источников 18

Наличие множества исходных признаков, характеризующих процесс функционирования объектов, заставляет отбирать из них наиболее существенные и изучать меньший набор показателей. Чаще исходные признаки подвергаются некоторому преобразованию, которое обеспечивает минимальную потерю информации. Такое решение может быть обеспечено методами снижения размерности, куда относят факторный и компонентный анализ. Эти методы позволяют учитывать эффект существенной многомерности данных, дают возможность лаконичного или более простого объяснения многомерных структур. Они вскрывают объективно существующие, непосредственно не наблюдаемые закономерности при помощи полученных факторов или главных компонент. Они дают возможность достаточно просто и точно описать наблюдаемые исходные данные, структуру и характер взаимосвязей между ними. Сжатие информации получается за счет того, что число факторов или главных компонент – новых единиц измерения – используется значительно меньше, чем было исходных признаков.

К примеру, анализируя оценки, полученные по нескольким шкалам, исследователь отмечает, что они сходны между собой и имеют высокий коэффициент корреляции, в этом случае он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором, который влияет на многочисленные показатели других переменных, что приводит к возможности и необходимости отметить его как наиболее общий, более высокого порядка.

Таким образом, можно выделить две цели факторного анализа:

Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов. Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство данного метода также в том, что он – единственный математически обоснованный метод факторного анализа.

Факторный анализ – методика комплексного и системного изучения и измерения воздействия факторов на величину результативного показателя.

Типы факторного анализа

Существуют следующие типы факторного анализа:

1) Детерминированный (функциональный) – результативный показатель представлен в виде произведения, частного или алгебраической суммы факторов.

2) Стохастический (корреляционный) – связь между результативным и факторными показателями является неполной или вероятностной.

3) Прямой (дедуктивный) – от общего к частному.

4) Обратный (индуктивный) – от частного к общему.

5) Одноступенчатый и многоступенчатый.

6) Статический и динамический.

7) Ретроспективный и перспективный.

Также факторный анализ может быть разведочным – он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках и конфирматорным, предназначенным для проверки гипотез о числе факторов и их нагрузках. Практическое выполнение факторного анализа начинается с проверки его условий.

Обязательные условия факторного анализа:

  • Все признаки должны быть количественными;
  • Число признаков должно быть в два раза больше числа переменных;
  • Выборка должна быть однородна;
  • Исходные переменные должны быть распределены симметрично;
  • Факторный анализ осуществляется по коррелирующим переменным.

При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонент внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей.

Этапы факторного анализа

Как правило, факторный анализ проводится в несколько этапов.

Этапы факторного анализа:

1 этап. Отбор факторов.

2 этап. Классификация и систематизация факторов.

3 этап. Моделирование взаимосвязей между результативным и факторными показателями.

4 этап. Расчет влияния факторов и оценка роли каждого из них в изменении величины результативного показателя.

5 этап. Практическое использование факторной модели (подсчет резервов прироста результативного показателя).

1.2 Пример проведения факторного анализа

Постройте факторную модель зависимости результативного показателя (объема продаж) от материальных затрат и материалоемкости продукции, используя исходные данные, приведенные в табл. 1.1. Укажите тип модели. Расчеты влияния факторов, связанных с использованием материальных ресурсов, выполните методом цепных подстановок.

Таблица 1.1 Исходные данные для проведения факторного анализа объема продаж.

Чистая прибыль тыс.руб.

Материальные затраты тыс.руб.

Материалоемкость продукции руб.

Рассмотрим простейшую двухфакторную мультипликативную модель вида :

Алгоритм ее решения методом цепных подстановок:

В Отчетном году: M=460

В предыдущем году: M=510

УОподст.=1000×0,5=500→ 500-510= -10

У1подст.=1000×0,46=460→460- 500= -40

Вывод: материальные затраты в отчетном периоде снизились на 50 тыс.руб., за счет снижения чистой прибыли на 20 тыс.руб, материальные затраты понизились на 10 тыс.руб, а за счет понижения материалоемкости на 0,04 руб. материальные затраты так же снизились до 40 тыс.руб.

2.1 Краткие теоретические сведения

Решение задачи методом главных компонент сводится к поэтапному преобразованию матрицы исходных данных X (рисунок 2.1):

Рисунок 2.1 – Схема математических преобразований

На рисунке обозначено: X – матрица исходных данных размерностью n*m (n – число объектов наблюдения, m – число элементарных аналитических признаков); Z – матрица центрированных и нормированных значений признаков, элементы матрицы вычисляют по формуле: ; R – матрица парных корреляций: R = (1/n)*Z’*Z.

Если предварительная стандартизация данных не проводилась, то на данном шаге получают матрицу S = (1/n)*X’*X, элементы матрицы X для расчета будут центрированными величинами.

Опишем дальнейшие шаги вычислений для метода главных компонент и объясним математический смысл полученных результатов.

Λ – диагональная матрица собственных (характеристических) чисел.

Множество решений λj находят решением характеристического уравнения |R - λE| = 0. λj – это характеристики вариации, точнее, показатели дисперсии каждой главной компоненты. Суммарное значение Σλj равно сумме дисперсий элементарных признаков Xj. При условии стандартизации исходных данных, эта сумма равна числу элементарных признаков m.

Решив характеристическое уравнение, находят его корни λj. После этого вычисляют собственные векторы матрицы R. Реально это означает решение m систем линейных уравнений для каждого λj при j = 1..m. В общем виде система имеет вид:

Приведенная система объединяет однородные линейные уравнения, и так как число ее уравнений равно числу неизвестных, она имеет бесконечное множество решений. Конкретные значения собственных векторов при этом можно найти, задавая произвольно по крайней мере величину одной компоненты каждого вектора.

A – матрица факторного отображения, ее элементы arj – весовые коэффициенты. Вначале A имеет размерность m*m – по числу элементарных признаков Xj, затем в анализе остается r наиболее значимых компонент, r ≤ m. Вычисляют матрицу A по известным данным матрицы собственных чисел Λ и нормированных собственных векторов V по формуле A = VΛ1/2.

F – матрица значений главных компонент размерностью r*n, F = A-1Z’. Эта матрица в общем виде записывается:

2.2 Вычисление главных компонент

Первой главной компонентой Z1 исследуемой системы признаков Х1, Х2, Х3 , Х4 ,…, Хn называется такая центрировано – нормированная линейная комбинация этих признаков, которая среди прочих центрировано – нормированных линейных комбинаций этих признаков, имеет дисперсию наиболее изменчивую.

В качестве второй главной компоненты Z2 мы будем брать такую центрировано – нормированную комбинацию этих признаков, которая:

  1. не коррелированна с первой главной компонентой,
  2. среди всех возможных комбинаций исходных признаков, которые не

не коррелированны с первой главной компонентой, эта комбинация имеет наибольшую дисперсию.

K-ой главной компонентой Zk (k=1…m) мы будем называть такую центрировано – нормированную комбинацию признаков, которая:

  1. не коррелированна с к-1 предыдущими главными компонентами,
  2. среди всех возможных комбинаций исходных признаков, которые не

не коррелированны с к-1 предыдущими главными компонентами, эта комбинация имеет наибольшую дисперсию.

Введём ортогональную матрицу U и перейдём от переменных Х к переменным Z, причём

Вектор выбирается т. о., чтобы дисперсия была максимальной. После получения выбирается т. о., чтобы дисперсия была максимальной при условии, что не коррелированно с и т. д.

Так как признаки измерены в несопоставимых величинах, то удобнее будет перейти к центрированно-нормированным величинам. Матрицу исходных центрированно-нормированных значений признаков найдем из соотношения:

где - несмещенная, состоятельная и эффективная оценка математического ожидания,

-несмещенная, состоятельная и эффективная оценка дисперсии.

Центрирование и нормирование произведено с помощью программы"Stadia".

Так как признаки центрированы и нормированы, то оценку корреляционной матрицы можно произвести по формуле:

Перед тем как проводить компонентный анализ, проведем анализ независимости исходных признаков.

Проверка значимости матрицы парных корреляций с помощью критерия Уилкса.

Строим статистику , распределена по закону с степенями свободы.

т.к > , то гипотеза Н0 отвергается и матрица является значимой, следовательно, имеет смысл проводить компонентный анализ.

Проверим гипотезу о диагональности ковариационной матрицы

Строим статистику , распределена по закону с степенями свободы.

=123,21, (0,05;10) =18,307 т.к > то гипотеза Н0 отвергается и имеет смысл проводить компонентный анализ.

Для построения матрицы факторных нагрузок необходимо найти собственные числа матрицы , решив уравнение .

Используем для этой операции функцию eigenvals системы MathCAD, которая возвращает собственные числа матрицы:


Метод главных компонент (англ. Principal Components Analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретен К. Пирсоном (англ. Karl Pearson) [1] в 1901 г. Применяется во многих областях, таких как распознавание образов, компьютерное зрение, сжатие данных и т.п. Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных или к сингулярному разложению матрицы данных. Иногда метод главных компонент называют преобразованием Карунена-Лоэва (англ. Karhunen-Loeve) [2] или преобразованием Хотеллинга (англ. Hotelling transform).

Содержание


Иллюстрация к работе К. Пирсона (1901): даны точки [math] P_i[/math] на плоскости, [math] p_i[/math] — расстояние от [math] P_i[/math] до прямой [math] AB[/math] . Ищется прямая [math] AB[/math] , минимизирующая сумму [math]\sum_i p_i^2[/math]

Пусть имеется $n$ числовых признаков $f_j(x), j = 1, . , n$. Объекты обучающей выборки будем отождествлять с их признаковыми описаниями: $x_i \equiv (f_1(x_i), . f_n(x_i)), i = 1, . l$. Рассмотрим матрицу $F$, строки которой соответствуют признаковым описаниям обучающих объектов: $$F_ = \begin f_1(x_1) & . & f_n(x_1)\\ . & . & . \\ f_1(x_l) & . & f_n(x_l) \end = \begin x_1\\ . \\ x_l \end.$$

Исчерпывающее решение сформулированной задачи даёт следующая теорема.

Если [math]m \leq rank \, F[/math] , то минимум [math]\Delta^2(G, U)[/math] достигается, когда столбцы матрицы [math]U[/math] есть собственные векторы [math]F^T F[/math] , соответствующие [math]m[/math] максимальным собственным значениям. При этом [math]G = F U[/math] , матрицы [math]U[/math] и [math]G[/math] ортогональны.

Запишем необходимые условия минимума:

Поскольку искомые матрицы $G$ и $U$ невырождены, отсюда следует:

[math] \begin G = F U (U^T U)^;\\ U = F^T G (G^T G)^. \end [/math]

Функционал $\Delta^2(G, U)$ зависит только от произведения матриц $G U^T$, поэтому решение задачи $\Delta^2(G, U) \to \mathop_$ определено с точностью до произвольного невырожденного преобразования $R: G U^T = (G R) (R^ U^T)$. Распорядимся свободой выбора $R$ так, чтобы матрицы $U^T U$ и $G^T G$ оказались диагональными. Покажем, что это всегда возможно.

Пусть $\tilde \tilde^T$ — произвольное решение задачи.

Матрица $\tilde^T \tilde$ симметричная, невырожденная, положительно определенная, поэтому существует невырожденная матрица $S_$ такая, что $S^ \tilde^T \tilde (S^)^T = I_m$.

Матрица $S^T \tilde^T \tilde S$ симметричная и невырожденная, поэтому существует ортогональная матрица $T_$ такая, что $T^T (S^T \tilde^T \tilde S) T = diag(\lambda_1, . \lambda_m) \equiv \Lambda$ — диагональная матрица. По определению ортогональности $T^T T = I_m$.

Преобразование $R = S T$ невырождено. Положим $G = \tilde R$, $U^T = R^ \tilde^T$. Тогда

[math]G^T G = T^T (S^T \tilde^T \tilde S) T = \Lambda;\\ U^T U = T^ (S^ \tilde^T \tilde (S^)^T) (T^)^T = (T^T T)^ = I_m.[/math]

В силу $G U^T = \tilde \tilde^T$ матрицы $G$ и $U$ являются решением задачи $\Delta^2(G, U) \to \mathop_$ и удовлетворяют необходимому условию минимума. Подставим матрицы $G$ и $U$ в

[math] G = F U (U^T U)^;\\ U = F^T G (G^T G)^. [/math]

Благодаря диагональности $G^T G$ и $U^T U$ соотношения существенно упростятся:

[math] \begin G = F U;\\ U \Lambda = F^T G. \end [/math]

Подставим первое соотношение во второе, получим $U \Lambda = F^T F U$. Это означает, что столбцы матрицы $U$ обязаны быть собственными векторами матрицы $F^T F$, а диагональные элементы $\lambda_1, . \lambda_m$ - соответствующими им собственными значениями.

Аналогично, подставив второе соотношение в первое, получим $G \Lambda = F F^T G$, то есть столбцы матрицы $G$ являются собственными векторами $F F^T$, соответствующими тем же самым собственным значениям.

Подставляя $G$ и $U$ в функционал $\Delta^2(G, U)$, находим:

[math]\Delta^2(G, U)[/math] = [math]\| F - G U^T \|^2[/math] = [math]tr \, (F^T - U G^t)(F - G U^T)[/math] = [math]tr \, F^T (F - G U^T)[/math] = [math]tr \, F^T F - tr \, F^T G U^T[/math] = [math]\| F \|^2 - tr \, U \Lambda U^T[/math] = [math]\| F \|^2 - tr \, \Lambda[/math] = [math]\sum_^ \lambda_j - \sum_^ \lambda_j - \sum_^ \lambda_j,[/math]

где $\lambda_1 , . \lambda_n$ - все собственные значения матрицы $F^T F$. Минимум $\Delta^2$ достигается, когда $\lambda_1, . \lambda_m$ — наибольшие $m$ из $n$ собственных значений.

Если $m = n$, то $\Delta^2(G, U) = 0$. В этом случае представление $F = G U^T$ является точным и совпадает с сингулярным разложением: $F = G U^T = V D U^T$, если положить $G = V D$ и $\Lambda = D^2$. При этом матрица $V$ ортогональна: $V^T V = I_m$.

Диагональность матрицы $G^T G = \Lambda$ означает, что новые признаки $g_1, . g_m$ не коррелируют на объектах из обучающей выборки. Ортогональное преобразование $U$ называют декоррелирующим или преобразованием Карунена–Лоэва. Если $m = n$, то о прямое и обратное преобразование вычисляются с помощью одной и той же матрицы $U: F = G U^T$ и $G = F U$.

Главные компоненты содержат основную информацию о матрице $F$. Число главных компонент $m$ называют также эффективной размерностью задачи. На практике её определяют следующим образом. Все собственные значения матрицы $F^T F$ упорядочиваются по убыванию: $\lambda_1 \geq . \geq \lambda_n \geq 0$. Задаётся пороговое значение $\epsilon \in [0, 1]$, достаточно близкое к нулю, и определяется наименьшее целое $m$, при котором относительная погрешность приближения матрицы $F$ не превышает $\epsilon$:


Метод главных компонент применим всегда. Распространённое утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких к нормальным) неверно: в исходной формулировке К. Пирсона ставится задача об аппроксимации конечного множества данных и отсутствует даже гипотеза о их статистическом порождении, не говоря уж о распределении.

Однако метод не всегда эффективно снижает размерность при заданных ограничениях на точность $E(m)$. Прямые и плоскости не всегда обеспечивают хорошую аппроксимацию. Например, данные могут с хорошей точностью следовать какой-нибудь кривой, а эта кривая может быть сложно расположена в пространстве данных. В этом случае метод главных компонент для приемлемой точности потребует нескольких компонент (вместо одной), или вообще не даст снижения размерности при приемлемой точности.

Больше неприятностей могут доставить данные сложной топологии. Для их аппроксимации также изобретены различные методы, например самоорганизующиеся карты Кохонена [4] или нейронный газ [5] . Если данные статистически порождены с распределением, сильно отличающимся от нормального, то для аппроксимации распределения полезно перейти от главных компонент к независимым компонентам [6] , которые уже не ортогональны в исходном скалярном произведении. Наконец, для изотропного распределения (даже нормального) вместо эллипсоида рассеяния получаем шар, и уменьшить размерность методами аппроксимации невозможно.

Читайте также: