Анализ временных рядов и прогнозирование кратко

Обновлено: 04.07.2024

В примерах в данной статье данные генерятся при каждой загрузке страницы. Если Вы хотите посмотреть пример с другими значениями - обновите страницу .

Составляющие временного ряда

При анализе временного ряда выделяют три составляющие: тренд, сезонность и шум. Тренд - это общая тенденция, сезонность, как следует из названия - влияния периодичности (день недели, время года и т.д.) и, наконец, шум - это случайные факторы.

Что бы понять отличие этих трёх величин, смоделируем функцию расстояния от земли до луны. Известно, что в среднем луна каждый год отдаляется на 4 см - это тренд, в течение дня луна совершает оборот вокруг земли и расстояние колеблется от ~362600 км до ~405400 км - это сезонность. Шум - это "случайные" факторы, например, влияние других планет. Если мы изобразим сумму этих трёх графиков, то мы получим временной ряд - функцию, показывающую изменение расстояния от земли до луны во времени.

Тренд. Методы сглаживания

Методы сглаживания необходимы для удаления шума из временного ряда. Существуют различные способы сглаживания, основные - это метод скользящей средней и метод экспоненциального сглаживания.

Метод скользящей средней

Идея метода скользящего среднего заключается в смещении точки графика на среднее значение некоторого интервала. В качестве интервала берут нечётное количество участков, например, три - предыдущий, текущий и следующий периоды, находится среднее и принимается в качестве сглаженного значения:

У данного метода есть проблема: случайное высокое или низкое значение сильно влияют на скользящую линию. В качестве решения были введены веса. Для распределение веса используют оконные функции, основные оконные функции - это окно Дирихле (прямоугольная функция), В-сплайны, полиномы, синусоидальные и косинусоидальные:

Минусы использования скользящей средней - это сложность вычислений и некорректные данные на концах графика.

Исходные данные	Скользящая средняя	Взвешенная скользящая средняя (синусоидальное окно, n=5)	Взвешенная скользящая средняя (окно Ганна, n=5)
800	840	283	0
879	865	474	400
916	973	523	440
1295	1021	613	458
992	1230	661	648
1715	1366	780	496
1460	1256	862	858
856	1522	819	730
2056	1507	836	428
1655	1547	958	1028
1620	1970	1064	828
2549	1788	1148	810
1328	1977	1158	1275
2412	2269	1209	664
2788	2451	1331	1206
3275	2843	1702	1394
2896	2916	1824	1638
2704	3076	1781	1448
3428	3298	1794	1352
4163	3432	2761	1714
Таблица 1. Сглаживание методом скользящей средней

График 6. Сглаживание скользящей средней. Красный - исходные данные, персиковый - скользящая средняя, жёлтая и охра - скользящая средняя, взвешенная синусоидальным окном с n=7 и n=3 соответственно

Как видно из графика, увеличение n выдаёт более плавную функцию, таким образом нивелируя более мелкие колебания во временном ряду. Обратите внимание, что при сглаживании не имеет значения, совпадает график среднего с графиком данных или нет, целью является построение правильной формы.

Метод экспоненциального сглаживания

Метод экспоненциального сглаживания получил своё название потому, что в сглаженной функции экспоненциально убывает влияние предыдущего периода с неким коэффициентом чувствительности α. Сглаженное значение находится как разница между предыдущим действительным значением и рассчитанным значением:

Коэффициент чувствительности, α, выбирается между 0 и 1, в качестве базиса используют значение 0,3. Если есть достаточная выборка, то коэффициент подбирается путём оптимизации.

Исходные данные	Экспоненциальное сглаживание, α=0,1	Экспоненциальное сглаживание, α=0,6
800	800	800
879	-640	160
916	664	463
1295	-506	364
992	585	631
1715	-427	343
1460	556	892
856	-354	519
2056	404	306
1655	-158	1111
1620	308	549
2549	-115	752
1328	358	1229
2412	-189	305
2788	411	1325
3275	-91	1143
2896	409	1508
2704	-79	1134
3428	342	1169
4163	35	1589
Таблица 2. Экспоненциальное сглаживание

Методы прогнозирования

Методы прогнозирования основываются на выявлении тенденции во временном ряду и последующем использовании найденного значения для предсказания будущих значений. В методах прогнозирования выделяют тренд и сезонность, в общем случае, все типы сезонности могут быть найдены последовательными итерациями. Например, при анализе данных за год, можно выделить сезонность времени года, а в оставшемся тренде найти сезонность по дням недели и так далее.

Двойное экспоненциальное сглаживание

Двойное экспоненциальное сглаживание выдаёт сглаженное значение уровня и тенденции.

Внимание! Может возникнуть путаница, метод Хольт-Винтерса отличается терминами: тренд, сезонность и шум соответственно называются уровень, тренд и сезонность.

Smooth - сглаживание, сглаженный уровень на период τ, s_τ, зависит от значения уровня на текущий период (D_τ), тренда за предыдущий период (t_τ-1) и рассчитанного сглаженного значения на предыдущий период (s_τ-1):
s_τ = αD_τ + (1 - α)(s_τ-1 + t_τ-1)

Trend - тенденция, тренд на период τ, t_τ, зависит от рассчитанного сглаженного значения за предыдущий и текущий периоды (s_τ и s_τ-1) и от предыдущей тенденции:
t_τ = β(s_τ-s_τ-1) + (1-β)t_τ-1

Рассчитанные по данным формулам уровень и тренд могут быть использованы в прогнозировании:
D'_τ+h = s_τ + h·t_τ

При расчёте, значения s и t для первого периода назначают s₁ = D₁ и t=0

График 8. Данные (персиковая линия), экспоненциальное сглаживание - уровень (жёлтая линия), тренд (линия цвета охры) и прогноз (чёрная линия) методом экспоненциального сглаживания

Метод Хольт-Винтерса

Метод Хольт-Винтерса включает в себя сезонную составляющую, т.е. периодичность. Существуют две разновидности метода - мультипликативный и аддитивный. В отличие от двойного экспоненциального сглаживания, метод Хольт-Винтерса изучает также влияние периодичности.

Общая идея нахождения значений сглаженного уровня, тренда и периодичности заключается в следующем: сглаженный уровень (s - smooth, иногда используют l - level) - это базовый уровень значений, тренд (t - trend) - это показатель скорости роста, разница между сглаженными значениями текущего и предыдущего периода. Для изучения периодичности (p - period), мы разбиваем данные на периоды размером k и выделяем влияние каждого элемента (1,2. k) периода на сглаженный уровень.

Для более точных расчётов вводится показатель обратной связи.

В общем понимании, обратная связь - это влияние предыдущих значений на новые: например, когда Вы начинаете говорить, Вы регулируете громкость своего голоса в зависимости от того, что слышат Ваши уши - это и есть обратная связь.

Для начала расчётов, значения s, t и k, в самом простом виде, могут быть выбраны как s_τ = D_τ, t = 0, p = 0.

Для прогнозирования используется следующая формула:

Мультипликативный метод Хольт-Винтерса

Мультипликативный метод отличается от аддитивного тем, что параметры, влияющие на периодичность и сглаженный уровень рассчитываются отношением:

Для прогнозирования используется следующая формула:

Метод Хольт-Винтерса в excel

Таблица для скачивания в форматах ods и xls.

Качество прогнозирования

Проверка качества прогнозирования возможна в случае наличия достаточной выборки и является важной проверкой на достоверность прогноза, для проверки и оптимизации значений α, β и γ необходимо построить прогноз на существующие данные, например, если у нас в наличии данные за пять лет и мы хотим предсказать следующий год, то необходимо построить модель на первых четырёх годах, проверить и оптимизировать коэффициенты для минимизации ошибки между прогнозом и данными на 5й год. После оптимизации модель может быть перестроена с учётом последнего периода для повышения точности, далее следует построение прогноза.

Методы оптимизации будут описаны в отдельной статье, ниже представлен пример прогнозирования методом Хольт Винтерса.

График 9. Пример предсказания посещаемости сайта на основе данных за четыре недели. Жёлтая линия - исходные данные, красная - прогноз на пятую неделю на основе первых четырёх. Закрашена линия сглаженного уровня при α=0.4, β=0.1, γ=0.5

В этой статье мы рассмотрим несколько простых подходов прогнозирования временных рядов.

План статьи

Краткое описание тренажера

Import the data
Здесь все просто — импортируем данные. Иногда бывает так, что сырых данных достаточно для формирования более-менее внятного прогноза. Именно первый и второй прогнозы в статье моделируются на основании сырых данных, то есть для прогноза заработной платы используются необработанные данные о заработной плате в прошлые периоды.

Aggregate the data
В статье не используется агрегация данных ввиду отсутствия необходимости. Однако зачастую, данные могут быть представлены неравными временными интервалами. В таком случае, просто необходимо их агрегировать. Например, данные с торгов ценными бумагами, валютой и другими финансовыми инструментами необходимо агрегировать. Обычно берут среднее значение в интервале, но можно и максимальное, минимальное, стандартное отклонение и другие статистики.

Preprocessing the data
В нашем случае, речь идет в первую очередь о предобработке данных, благодаря которой, временной ряд приобретает свойство гомоскедастичности (через логарифмирование данных) и становится стационарным (через дифференцирование ряда).

Exogenous values
В этом блоке кода мы объединяем все экзогенные данные в одну таблицу.

Union the data (create dataset)
В этом блоке кода мы объединяем значения временного ряда и экзогенных признаков в одну таблицу. Другими словами — готовим датасет, на основании, которого будем обучать модель, тестировать качество и формировать прогноз.

Learning the model
Здесь все понятно — мы просто обучаем модель.

Row data: predict & forecast
Данный этап является заключительным. Если, модель обучалась на предобработанных данных, например, мы их прологарифмировали, то для получения прогноза заработной платы в рублях, а не логарифма рублей, нам следует перевести прогноз обратно в рубли.

Также хотелось бы отметить, что в статье используется одномерный временной ряд для предсказания заработной платы. Однако ничего не мешает использовать многомерный ряд, например добавить данные курса рубля к доллару или какой-либо другой ряд.

Решение в лоб

Будем считать, что данные о заработной плате в прошлом, могут аппроксимировать заработную плату в будущем. Иначе можно сказать — размер заработной платы, например, в январе зависит от того, какая заработная плата была в декабре, ноябре, октябре,…

Давайте возьмем значения заработной платы в 12-ть прошлых месяцев для предсказания заработной платы в 13-й месяц. Другими словами для каждого целевого значения у нас будет 12 признаков.

Признаки будем подавать на вход Ridge Regression библиотеки sklearn. Параметры модели берем по умолчанию за исключением параметра alpha, его установили на 0, то есть по сути мы используем обычную регрессию.

Это и есть решение в лоб — оно самое простое:) Бывают ситуации, когда нужно очень срочно дать хоть какой-то результат, а времени на какую-либо предобработку просто нет или не хватает опыта, чтобы оперативно обработать или добавить данные. Вот в таких ситуациях, можно в качестве baseline использовать сырые данные для построения прогноза. Забегая вперед, отмечу, что качество модели оказалось сопоставимо с качеством моделей, в которых используется предобработка данных.

Давайте посмотрим, что у нас получилось.

На первый взгляд результат выглядит хоть и неидеально, но близко к действительности.

В соответствии со значениями коэффициентов регрессии, наибольшее влияние на прогноз заработной платы оказывает значение заработной платы ровно год назад.

Попробуем добавить в модель экзогенные переменные.

Добавление экзогенных переменных

Сформируем новый датасет и посмотрим на качество модели.

Качество получилось ниже. Визуально заметно, что прогноз выглядит не совсем правдоподобно в части роста заработной платы в декабре.

Давайте теперь проведем первую предобработку данных.

Коррекция гетероскедастичности.

Если мы посмотрим на график заработной платы за период с 2010 по 2020 гг, то мы увидим, что ежегодно разброс заработной платы внутри года между месяцами растет.

Ежегодный рост дисперсии от месяца к месяцу приводит к гетероскедастичности. Для улучшения качества прогнозирования нам следует избавиться от этого свойства данных и привести их к гомоскедастичности.

Для этого воспользуемся обычным логарифмированием и посмотрим как выглядит прологарифмированный ряд.

Обучим модель на прологарифмированном ряду

В итоге качество предсказаний на обучающей и тестовой выборках действительно улучшилось, однако прогноз на 2021 год по сравнению с прогнозом первой модели визуально выглядит менее правдоподобным. Скорее всего использование экзогенных факторов ухудшает модель.

Приведение ряда к стационарному

Приводить ряд к стационарному будем следующим образом:

Определяем разницу между целевым значением заработной платы и значением год назад: t — (t-12) = dif_1
Определяем разницу между полученным и смещенным на 1 месяц значением: dif_1 — (dif_1-1) = dif_2

Ряд действительно выглядит стационарным, об этом также говорит значение критерия Дики-Фуллера.

Ожидать хорошее качество предсказаний на обучающей и тестовой выборках на обработанных данных, то есть на стационарном ряду не приходится, так как по сути, в этом случае модель должна предсказывать значения белого шума. Но нам, для прогнозирования заработной платы, уже совсем не обязательно использовать регрессию, так как, приводя ряд к стационарному, мы по-простому говоря, определили формулу аппроксимации целевой переменной. Но мы не будем отходить от канонов и воспользуемся регрессионной моделью, к тому же у нас есть экзогенные факторы.

Давайте посмотрим, что получилось.

Вот так выглядит предсказание стационарного ряда. Как и ожидали — не очень-то и хорошо :)

А вот предсказание и прогноз заработной платы.

Качество заметно улучшилось и прогноз визуально стал выглядеть правдоподобным.

Теперь сформируем прогноз без использования экзогенных переменных

Качество еще улучшилось и правдоподобность прогноза сохранилась :)

Прогнозирование с помощью однослойной нейронной сети

На вход нейронной сети будем подавать имеющиеся датасеты. Так как наша сеть однослойная, то по сути это и есть та же самая линейная регрессия с незамысловатыми модификациями и ожидать сильно большую разницу в качестве предсказаний не стоит.

Для начала посмотрим на саму сеть

Теперь пару слов о том, как будем ее обучать.

Фиксируем random seed для целей воспроизводимости результата
Инициализируем модель
Задаем функцию потерь — MSELoss
Выбираем в качестве оптимизатора Adam optimizer
Указываем начальный шаг обучения и определяем условие, при котором шаг понижается. Отмечу, что правильный выбор шага и его дальнейшее изменение (обычно уменьшение) приносит хорошие плоды
Указываем количество эпох обучения
Запускаем обучение
На вход сети подаем целиком датасет, так как он очень маленький и разбивать его на батчи не имеет смысла
При обучении, каждую тысячу эпох формируем графики значения функции потерь на обучающей и тестовой выборках. Это позволяет нам контролировать переобучение или не дообучение модели.

Не будем рассматривать качество предсказаний для каждого датасета отдельно (желающие могут посмотреть подробности на гите). Давайте сравним итоговые результаты.

Качество на тестовой выборке с использованием Ridge Regression

Качество на тестовой выборке с использованием Single layer NN

Как мы и ожидали, принципиальной разницы между обычной регрессией и простой однослойной нейронной сетью не оказалось. Конечно, нейронки дают больше маневра для обучения: можно менять оптимизаторы, регулировать шаги обучения, использовать скрытые слои и функции активации, можно пойти еще дальше и использовать рекуррентные нейронные сети — RNN. К слову, лично мне не удалось получить вменяемого качества в данной задаче с использованием RNN, однако на просторах интернета можно встретить много интересных примеров прогнозирования временных рядов с использованием LSTM.

Временные ряды — это актуальный инструмент, применимый во множестве решений, от предсказания цен на акции, прогнозов погоды, планирования бизнеса, до распределения ресурсов. Несмотря на то, что прогнозирование может быть сведено к построению контролируемой регрессии, существуют особенности, связанные с временным характером наблюдений, которые необходимо учитывать, используя специальные инструменты.

Содержание

Как и большинство других видов анализа, анализ временных рядов предполагает, что данные содержат систематическую составляющую (обычно включающую несколько компонент) и случайный шум (ошибку), который затрудняет обнаружение регулярных компонент. Большинство методов исследования временных рядов включает различные способы фильтрации шума, позволяющие увидеть регулярную составляющую более отчетливо. Большинство регулярных составляющих временных рядов принадлежит к двум классам: они являются либо трендом, либо сезонной составляющей. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени. Сезонная составляющая — это периодически повторяющаяся компонента. Оба эти вида регулярных компонент часто присутствуют в ряде одновременно.

Данные упорядочены относительно неслучайных моментов времени, и, значит, в отличие от случайных выборок, могут содержать в себе дополнительную информацию, поэтому нельзя пользоваться обычными способами валидации. Чтобы избежать смещения оценки необходимо удостовериться, что обучающие наборы данных содержат только наблюдения, которые произошли до событий из валидирующиx наборов.

Возможным способом преодоления данной проблемы будет использование скользящего окна, как описано здесь. Эта процедура называется кросс-валидацией временного ряда и может быть вкратце описана следующей картинкой (рис. 1), в которой синие точки обозначают тренировочный набор данных, а красные соответствующие валидационные наборы данных.

Если необходимо предсказать следующие $n$ шагов, то можно заранее кросс-валидировать $1,2. n$.
Таким образом можно также сравнить качество предсказаний для разных временных горизонтов.

Определив лучшую модель, можно применить её ко всему обучающему набору и оценить его работу на следующем во времени наборе данных. Оценка работы может быть дана с использованием метода скользящего окна [1] , который используем при кросс-валидации, но без переподсчёта параметра модели.

В данной части используется несколько разных моделей для предсказания изменений в промышленном производстве,
которые для примера будем оценивать численно, как количество электрооборудования, произведённого в зоне Евро (рис. 2, 3).

Набор данных описывает ежемесячное производство электрооборудования (компьютеры электрические и оптические приборы) в зоне евро (17 стран) в период с января 1996 по март 2012 года (см. график ниже). Последние два года будем использовать при тестировании.

Существует 10 моделей прогнозирования, у каждой имеются свои достоинства и недостатки. Ниже, используя каждую модель, предскажем 12 месяцев, соответственно, значение $t+1, t+2, …, t + 12$. Имеет смысл использовать среднюю абсолютную ошибку для работы оценки модели.

Предсказания для каждого горизонта соотвествуют последнему наблюдаемому значению $Y(t + h|t) = Y(t)$.

Такие предскания предполагают, что стохастическая [2] модель генерирует случайное блуждание.

Расширение наивной модели сезонно-наивная модель (англ. Season Naive, SNAIVE) — сезонно-наивная модель предполагает, что временной ряд имеет сезонную компоненту, и что период сезонности $T$.

Прогнозы SNAIVE-модели описываются формулой $\dot(t+h|t) = Y(t+h-T)$.

Получаемые прогнозы следующие $T$ шагов совпадают с предыдущими $T$ шагами. Эти модели часто используются как ориентировочные модели. Следующий графики показывают предсказания двух моделей для 2007 года (рис. 4, 5).

Если данные показывают, что они восприимчивы к периодическим (сезонным) изменениям (ежедневно, еженедельно, ежеквартально, ежегодно), то будет полезным разложить исходный временной ряд на сумму трёх компонентов.

$Y(t) = S(t) + T(t) + R(t)$
$S(t)$ — сезонный компонент.
$T(t)$ — компонент трендового цикла.
$R(t)$ — остаток.
Существуют несколько способов для такого разложения, но наиболее простой называется классическим разложением и заключается в том, чтобы оценить тренд $T(t)$ через скользящее среднее, посчитать $S(t)$, как среднее без тренда $Y(t) - T(t)$ для каждого сезона.
Посчитать остаток, как $R(t) = Y(t) - T(t)-S(t)$.

Классическое разложение можно расширить несколькими способами.
Расширение позволяет использовать данный метод при:

непостоянной величине сезона;
посчитать начальные и конечные значения декомпозиции;
избежать лишнего сглаживания;

Обзор методов разложений ряда можно увидеть по ссылке. Используется реализация из стандартной библиотеки (рис. 6).

Одним из способов использования декомпозиции для прогнозирования будет:
1) Разложить обучающий набор алгоритмом.
2) Посчитать сезонное отклонение ряда $Y(t) - S(t)$, используя любую модель для прогнозирования сезонно-чувствительного временного ряда.
3) Добавить прогнозам сезонность последнего временного периода во временном ряду (в нашем случае $S(t)$ для прошлого года).

На следующем графике показаны сезонные индексы ряда с учётом сезонности (рис. 7).

Следующий график показывает расчёты для 2007 года с использованием декомпозиции и наивной модели (рис. 8) для сезонно-изменяемого временного ряда.

Также как и экспоненциальное сглаживание, интегрированная модель авторегрессии скользящего среднего (англ. autoregressive integrated moving average, ARIMA) также часто используются для прогноза временных рядов.

$x(t) = \psi + \phi_1 * x_(t-1) + \phi_2 * x_(t-2) + \phi_3 * x_(t-3) + . + \epsilon$
Где $\psi$ — свободный член (константа).

$x_t = \mu + \epsilon_t - \theta_1 * \epsilon_ - \theta_2 * \epsilon_ - . $
Где $\mu$ — константа.

ARIMA — комбинация этих двух подходов. Так как эти подходы требуются стационарности временного ряда, может понадобится продифференциировать/проинтегрировать ряд. То есть рассматировать ряд разностей, а не исходный ряд.

Сезонная интегрированная модель авторегрессии скользящего среднего (англ. season autoregressive integrated moving average, SARIMA) учитывает сезонность, добавляя линейную комбинацию прошлых сезонных значений и/или прошлых ошибок прогноза. Более подробную информацию про ARIMA, SARIMA читайте по ссылке.

Данные графики показывают предсказания полученные для 2007 года, с использованием модели SARIMA (рис. 11,12).

В предыдущих моделях считалось, что слагаемое ошибки в стохастическом процессе генерации временного ряда имело одинаковую дисперсию.

В GARСH-модели (англ. Generalized AutoRegressive Conditional Heteroscedasticity, GARCH) предполагается, что слагаемое ошибки следует авторегрессионному скользящему среднему (англ. AutoRegressive Moving Average, ARMA), соответственно слагаемое меняется по ходу времени. Это особенно полезно при моделировании финансовых временных рядов, так как диапазон изменений тоже постоянно меняется (рис. 13).

В 1982 году была предложена ARCH — модель, описываемая формулой:

$\sigma^2(t) = \alpha + \sum_^b_ir^_$
где $\alpha$ — коэффициент задержки
$\sigma^2(t)$ - волатильность
$\sum_^b_ir^_$ - линенйная комбинация абсолютных значений нескольких последних изменений значений.

Позднее была создана GARCH — обобщённая ARCH модель, которая также учитывает предыдущие оценки дисперсии. Формула может быть записана так: $\sigma^2(t) = \alpha + \sum_^b_ir^_ \sum_^

c_i\sigma^_$
где p — количество предшествующих оценок, влияющих на текущее значение.
с — весовые коэффициенты предыдущих оценок.

Обычно ARMA используется и для учёта среднего, более подробное введение в Garsh и различные варианты можно найти здесь.

Динамические линейные модели представляют другой класс моделей предсказания временных рядов (рис. 14). Идея заключается в том, что в каждый момент времени $t$ эти модели соответствуют линейной модели, но коэффициент регрессии постоянно меняется.
Пример динамической линейной модели ниже:
$y(t) = ⍺(t) + tβ(t) + w(t)$,
$⍺(t) = ⍺(t-1) + m(t)$,
$β(t) = β(t-1) + r(t)$,
$w(t)$ ~ $N(0,W)$, $m(t)$ ~ $N(0,M)$, $r(t)$ ~ $N(0,R)$.

В предыдущей модели коэффициенты $a(t)$ и $b(t)$ следуют случайному блужданию.

Динамические линейные модели могут быть построены в рамках Байесовской системы. Тем не менее и этот метод можно улучшить, подробности здесь.

TBATS (англ. Trigonometric seasonality, Box-Cox transformation, ARMA errors, Trend and Seasonal components) — это модели, которые основаны на экспоненциальном сглаживании (рис. 15).
Главной особенностью TBATS является возможность взаимодействия с несколькими сезонностями. Моделируя каждую функцию сезонности отдельным тригонометрическим отображением построенным на рядах Фурье.

Классическим примером комплексной сезонности будет отображение ежедневных объемов продаж, которое имеет, как еженедельные колебания, так и ежегодные.

Больше информации можно прочиать тут.

Ещё одна модель, способная взаимодействовать с несколькими сезонностями (рис. 16). Это ПО с открытым исходным кодом от Фейсбука (ссылка).

Prophet считает, что временной ряд может быть разложен следующим образом:
$y(t) = g(t) + s(t) + h(t) + ε(t)$,
$g(t)$ — тренд,
$s(t)$ — сезонность,
$h(t)$ — каникулы, т.е аномальные данные,
$ε(t)$ — ошибки.

Подгонка модели представляет собой упражнение по подгонке кривой, поэтому она явно не учитывает структуру временной зависимости в данных. Это также позволяет проводить наблюдения с нерегулярным интервалом.
Есть два варианта временных рядов тренда: модель насыщающего роста и кусочно-линейная модель. Модель многопериодной сезонности основана на рядах Фурье [4] . Эффект известных и заказных выходных дней может быть легко включен в модель.
Модель Prophet вставлена в байесовскую структуру и позволяет сделать полный апостериорный вывод, чтобы включить неопределенность параметров модели в неопределенность прогноза.

Модель авторегрессии нейронной сети (англ. Neural NETwork AutoRegression, NNETAR) представляет собой полносвязную нейронную сеть. Модель NNETAR принимает на вход последние элементы последовательности до момента времени $t$ и выводит прогнозируемое значение в момент времени $t + 1$. Для выполнения многоэтапных прогнозов сеть применяется итеративно.

Модель можно описать уравнением $y_t = f(y_) + \epsilon_t$
где $y_ = (y_, y_, . )'$ — вектор, содержащий запаздывающие значения,
f — нейронная сеть, с 4 скрытыми узлами в каждом слое,
$\epsilon_t$ — считаем, что ряд ошибок гомокседастичен (и возможно имеет нормальное распределение).

Мы можем моделировать будущие выборочные пути этой модели итеративно, случайным образом генерируя значение для $\epsilon_t$ либо из нормального распределения, либо путем повторной выборки из исторических значений.
Так что если $\epsilon^*_$ — случайная выборка из распределения ошибок в момент времени $T+1$,
тогда $y^*_ = f(y_T) + \epsilon^*_$ — один из возможных вариантов распределения прогнозов для $y_$
Установив $y^*_ = (y^*_, y_)'$, мы можем повторить процесс, чтобы получить $y^*_ = f(y_) + \epsilon_$.

Таким образом, мы можем итеративно моделировать будущий путь выборки. Повторно моделируя выборочные пути, мы накапливаем знания о распределении всех будущих значений на основе подобранной нейронной сети.

Блок cети долго-краткосрочной памяти (англ. Long short-term memory, LSTM) могут использоваться для прогнозирования временных рядов (а также других рекуррентных нейронных сетей).
Состояние сети LSTM представлено через вектор пространства состояний. Этот метод позволяет отслеживать зависимости новых наблюдений от прошлых (даже очень далеких).
Вообще говоря, LSTM представляют собой сложные модели, и они редко используются для прогнозирования одного временного ряда, поскольку для их оценки требуется большой объем данных.
Однако они обычно используются, когда необходимы прогнозы для большого количества временных рядов (как показано здесь).

Выполнен выбор модели с помощью процедуры перекрестной проверки, описанной ранее. Не рассчитывая его для динамических линейных моделей и моделей LSTM из-за их высокой вычислительной стоимости и низкой производительности.
На следующем рисунке показана средняя абсолютная ошибка (англ. Mean Absolute Error, MAE) с перекрестной проверкой для каждой модели и для каждого временного горизонта (рис. 17):

Модель NNETAR по сезонно скорректированным данным была лучшей моделью для данной задачи, поскольку она соответствовала самому низкому значению MAE, прошедшему перекрестную проверку.
Чтобы получить объективную оценку наилучшей производительности модели, вычислим MAE на тестовом наборе (рис. 18), получив оценку, равную 5,24. На следующем рисунке можно увидеть MAE, оцененную на тестовой выборке для каждого временного горизонта.

Использование разных моделей для разных временных горизонтов,
Объединение нескольких прогнозов (например, с учетом среднего прогноза),
Агрегация начальных данных.

Большинство ранее описанных моделей позволяют легко включать изменяющиеся во времени предикторы. Они могут быть извлечены из одного и того же временного ряда или могут соответствовать внешним предикторам (например, временному ряду другого индекса). В последнем случае необходимо обратить внимание на то, чтобы не использовать информацию из будущего, которая могла бы быть удовлетворена путем прогнозирования предикторов или использования версий c ошибками.

Обратите внимание, что в данном конспекте рассматривается случай, когда у нас есть один временной ряд для прогнозирования. Когда у нас много временных рядов, может быть предпочтительнее глобальный подход, поскольку он позволяет нам оценивать более сложную и потенциально более точную модель. Подробнее о глобальном подходе здесь.

Составляющие временного ряда

Тренд. Методы сглаживания

Метод скользящей средней

Минусы использования скользящей средней - это сложность вычислений и некорректные данные на концах графика.

Исходные данные	Скользящая средняя	Взвешенная скользящая средняя (синусоидальное окно, n=5)	Взвешенная скользящая средняя (окно Ганна, n=5)
800	814	283	0
828	887	462	400
1034	955	531	414
1157	1111	609	517
1424	1288	724	579
1535	1316	832	712
1148	1239	838	768
849	1283	708	574
1600	1392	698	425
1970	1582	898	800
1910	1705	1113	985
1339	1952	1062	955
2588	1741	1130	670
1125	2107	1083	1294
3376	2036	1336	563
1055	1625	1229	1688
944	1773	1027	528
1718	1372	726	472
1772	1556	910	859
1788	1759	1417	886
Таблица 1. Сглаживание методом скользящей средней

Метод экспоненциального сглаживания

Исходные данные	Экспоненциальное сглаживание, α=0,1	Экспоненциальное сглаживание, α=0,6
800	800	800
828	-640	160
1034	659	433
1157	-490	447
1424	557	515
1535	-359	648
1148	477	662
849	-315	424
1600	368	340
1970	-171	824
1910	351	852
1339	-125	805
2588	246	481
1125	37	1360
3376	79	131
1055	267	1973
944	-135	-156
1718	216	629
1772	-23	779
1788	198	752
Таблица 2. Экспоненциальное сглаживание

Методы прогнозирования

Двойное экспоненциальное сглаживание

Двойное экспоненциальное сглаживание выдаёт сглаженное значение уровня и тенденции.

Smooth - сглаживание, сглаженный уровень на период τ, s_τ, зависит от значения уровня на текущий период (D_τ), тренда за предыдущий период (t_τ-1) и рассчитанного сглаженного значения на предыдущий период (s_τ-1):
s_τ = αD_τ + (1 - α)(s_τ-1 + t_τ-1)

Trend - тенденция, тренд на период τ, t_τ, зависит от рассчитанного сглаженного значения за предыдущий и текущий периоды (s_τ и s_τ-1) и от предыдущей тенденции:
t_τ = β(s_τ-s_τ-1) + (1-β)t_τ-1

Рассчитанные по данным формулам уровень и тренд могут быть использованы в прогнозировании:
D'_τ+h = s_τ + h·t_τ

При расчёте, значения s и t для первого периода назначают s₁ = D₁ и t=0

Метод Хольт-Винтерса

Для более точных расчётов вводится показатель обратной связи.

В общем понимании, обратная связь - это влияние предыдущих значений на новые: например, когда Вы начинаете говорить, Вы регулируете громкость своего голоса в зависимости от того, что слышат Ваши уши - это и есть обратная связь.

Для начала расчётов, значения s, t и k, в самом простом виде, могут быть выбраны как s_τ = D_τ, t = 0, p = 0.

Для прогнозирования используется следующая формула:

Мультипликативный метод Хольт-Винтерса

Для прогнозирования используется следующая формула:

Метод Хольт-Винтерса в excel

Таблица для скачивания в форматах ods и xls.

Качество прогнозирования

Читайте также: