Імовірнісні моделі для аналізу та прогнозування часових рядів
Досліджені основні результати використання апарату прихованих марківських моделей для аналізу часових рядів та пов’язані з ними діаграми впливу. Розглянуті особливості використання апарату марківських ланцюжків для аналізу часових рядів та навчання марківських ланцюжків....
Gespeichert in:
Datum: | 2008 |
---|---|
Hauptverfasser: | , |
Format: | Artikel |
Sprache: | Ukrainian |
Veröffentlicht: |
Інститут проблем штучного інтелекту МОН України та НАН України
2008
|
Schlagworte: | |
Online Zugang: | http://dspace.nbuv.gov.ua/handle/123456789/7152 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Zitieren: | Імовірнісні моделі для аналізу та прогнозування часових рядів / І.В. Баклан, Г.А. Степанкова // Штучний інтелект. — 2008. — № 3. — С. 505-515. — Бібліогр.: 13 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-7152 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-71522010-03-25T12:01:18Z Імовірнісні моделі для аналізу та прогнозування часових рядів Баклан, І.В. Степанкова, Г.А. Нейросетевые и нечеткие системы Досліджені основні результати використання апарату прихованих марківських моделей для аналізу часових рядів та пов’язані з ними діаграми впливу. Розглянуті особливості використання апарату марківських ланцюжків для аналізу часових рядів та навчання марківських ланцюжків. Исследованы основные результаты использования скрытых марковских моделей для анализа временных рядов и связанные с ними диаграммы влияния. Рассмотрены особенности использования аппарата марковских цепочек для анализа временных рядов, а также обучение марковских цепочек. Researched the results of using Hidden Markov Models for time series analysis with their linkage to influence diagrams. Reviewed features of using Markovs chains for time series analysis and self-learning of Markov chains. 2008 Article Імовірнісні моделі для аналізу та прогнозування часових рядів / І.В. Баклан, Г.А. Степанкова // Штучний інтелект. — 2008. — № 3. — С. 505-515. — Бібліогр.: 13 назв. — укр. 1561-5359 http://dspace.nbuv.gov.ua/handle/123456789/7152 519.86:519.857.3:519.217 uk Інститут проблем штучного інтелекту МОН України та НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Ukrainian |
topic |
Нейросетевые и нечеткие системы Нейросетевые и нечеткие системы |
spellingShingle |
Нейросетевые и нечеткие системы Нейросетевые и нечеткие системы Баклан, І.В. Степанкова, Г.А. Імовірнісні моделі для аналізу та прогнозування часових рядів |
description |
Досліджені основні результати використання апарату прихованих марківських моделей для аналізу часових
рядів та пов’язані з ними діаграми впливу. Розглянуті особливості використання апарату марківських
ланцюжків для аналізу часових рядів та навчання марківських ланцюжків. |
format |
Article |
author |
Баклан, І.В. Степанкова, Г.А. |
author_facet |
Баклан, І.В. Степанкова, Г.А. |
author_sort |
Баклан, І.В. |
title |
Імовірнісні моделі для аналізу та прогнозування часових рядів |
title_short |
Імовірнісні моделі для аналізу та прогнозування часових рядів |
title_full |
Імовірнісні моделі для аналізу та прогнозування часових рядів |
title_fullStr |
Імовірнісні моделі для аналізу та прогнозування часових рядів |
title_full_unstemmed |
Імовірнісні моделі для аналізу та прогнозування часових рядів |
title_sort |
імовірнісні моделі для аналізу та прогнозування часових рядів |
publisher |
Інститут проблем штучного інтелекту МОН України та НАН України |
publishDate |
2008 |
topic_facet |
Нейросетевые и нечеткие системы |
url |
http://dspace.nbuv.gov.ua/handle/123456789/7152 |
citation_txt |
Імовірнісні моделі для аналізу та прогнозування часових рядів / І.В. Баклан, Г.А. Степанкова // Штучний інтелект. — 2008. — № 3. — С. 505-515. — Бібліогр.: 13 назв. — укр. |
work_keys_str_mv |
AT baklanív ímovírnísnímodelídlâanalízutaprognozuvannâčasovihrâdív AT stepankovaga ímovírnísnímodelídlâanalízutaprognozuvannâčasovihrâdív |
first_indexed |
2025-07-02T09:58:51Z |
last_indexed |
2025-07-02T09:58:51Z |
_version_ |
1836528783552675840 |
fulltext |
«Штучний інтелект» 3’2008 505
7Б
УДК 519.86:519.857.3:519.217
І.В. Баклан, Г.А. Степанкова
Національна академія управління, м. Київ, Україна
iii2@online.ua, astepankova@mail.ru
Імовірнісні моделі для аналізу
та прогнозування часових рядів
Досліджені основні результати використання апарату прихованих марківських моделей для аналізу часових
рядів та пов’язані з ними діаграми впливу. Розглянуті особливості використання апарату марківських
ланцюжків для аналізу часових рядів та навчання марківських ланцюжків.
Вступ
В українській мові є чимало слів, які позначають спробу зазирнути у майбутнє:
передчуття, інтуїція, прогнозування, ознака, передбачення, пророкування, пророцтво,
віщування, гадання та таке інше. До математичних методів має відношення, мабуть,
тільки прогнозування та передбачення.
Людину завжди цікавило майбутнє. Цей інтерес зрозумілий та не позбавлений здо-
рового глузду – точна інформація про розмір ринкового попиту, зміни цін, курсів валют
через тиждень, місяць, рік надають володарю знань можливість впливати на ситуацію
сьогодні для отримання прибутку, дивідендів та преференцій у майбутньому. Оскільки
економічні умови здійснення бізнесу змінюються з часом, менеджерам особливо вима-
гається «тримати руку на пульсі» цих змін для результативного виконання ділових
операцій.
Одним із заходів, яким менеджери можуть скористатися при оцінці ефективності
майбутніх керівних рішень, є прогнозування. На цей час розроблено багато методів
прогнозування, у яких загальна мета – завбачити з тим чи іншим ступенем надійності
майбутні події та врахувати цей прогноз при плануванні управлінських рішень.
Формально використовується два підходи до прогнозування – якісний та кількісний.
Методи якісного прогнозування важливі, коли дані за минулі проміжки часу недоступні
або ненадійні. Наприклад, при прогнозуванні обсягу продажу цілком нового товару, який
не існував ще на ринку. Усі якісні методи (наприклад, метод експертної оцінки,
дельфійський метод) занадто суб’єктивні і тому не досить достовірні. Кількісні методи
базуються на використанні інформації за минулі періоди часу; при дослідженні тенденцій
процесу в минулому можна з’ясувати основні взаємозалежності між величинами та
видати більш надійний прогноз на майбутнє.
Усі методи кількісного прогнозування також можливо розподілити на два типи:
причинні методи та методи, які базуються на аналізі часових рядів. Перші з них (що звуть
часто методами моделювання процесів) мають у складі визначення значимих чинників та
функціональної залежності відгуку від цих чинників із застосуванням множинного
регресійного аналізу або економетричного моделювання (факторний аналіз). Прогноз за
часовими рядами, в свою чергу, передбачає визначення прогнозного значення змінної
виключно на підставі минулих та поточних значень цієї ж змінної. В найпростішому
випадку прогнозування може бути результативно виконано за допомогою звичайного
спостереження за явищем з цікавлячої нас сторони.
Баклан І.В., Степанкова Г.А.
«Искусственный интеллект» 3’2008 506
7Б
Прогнозування на основі часових рядів – один із самих популярних підходів до
прогнозування розвитку економічних процесів, об’ємів торгових операцій, об’ємів вироб-
ництва та накопичення продукції на складах, оцінювання альтернативних економічних
стратегій, формування бюджетів підприємств та держави, прогнозування та менеджмент
економічних і фінансових ризиків та інше.
Спочатку розглянемо основні визначення та результати щодо використання апарату
прихованих марківських моделей для аналізу часових рядів [1], [2]. Буде розглянутий
апарат марківських ланцюжків. Розглянемо особливості використання апарату марківсь-
ких ланцюжків для аналізу часових рядів. Дамо класифікацію марківських моделей.
Також розглянемо приховані марківські моделі (ПММ) та пов’язані з ними діаграми
впливу.
Марківські ланцюжки
Розглянемо алфавіт { }JsssS ,,, 21 …= та послідовність випадкових величин
…… ,,,, 10 nXXX , які приймають значення на цьому алфавіті S . Стан js в послідовності,
яку називають множиною або простором станів. Для зручності надалі стани будемо
позначати їх індексами і тоді { }JS ,,2,1 …= .
Послідовність випадкових величин { }∞=0nnX називається марківським ланцюжком
(МЛ), якщо для всіх 1≥n та Sjjj n ∈,,, 21 … має місце:
( ) ( )111100 ,, −−−− ====== nnnnnnnn jXjXPjXjXjXP … . (1)
Зміст МЛ полягає в тому, що якщо nn jX = – майбутній випадок, то умовна
ймовірність цього випадку, яка задається історичною послідовністю 0 0 ,X j=
1 1 1 1, , n nX j X j− −= =… , залежить тільки від свого безпосереднього попередника
1 1n nX j− −= та не залежить від 221100 ,,, −− === nn jXjXjX … .
Рівняння, наведене в (1), відоме як марківська властивість.
Нехай { }∞=0nnX – МЛ. Якщо jX n = , то ми кажемо, що ланцюжок знаходиться у
стані j на момент часу n або ланцюжок у момент часу n перейшов до стану j . Тоді
умовні ймовірності
( )iXjXPp nnji === −1 , 1≥n , Sji ∈, . (2)
Виникає ряд запитань. В яких випадках МЛ має унікальний інваріантний розподіл?
Чи існує збіжність до інваріантного розподілу? У загальному випадку на ці запитання
досить важко відповісти. Але для кінцевих просторів станів відповіді можуть бути
отримані. Надалі нас будуть цікавити марківські ланцюжки цього типу.
Про МЛ { }∞=0nnX говорять, що він ергодичний, якщо існує розподіл ймовірностей
( )Jaaa ,,1 …= , заданий на фазовому просторі S , такий, що
( ) an
n
=
∞→
πlim (3)
для будь-якого початкового розподілу ( )0π .
Безсумнівно, що ліміт-розподіл a повинен бути унікальним. Для ергодичного МЛ
ліміт-розподіл та інваріантний розподіл ідентичні.
Наведемо умови достатності ергодичності:
Припустимо, що ( ) jjin
anp =
∞→
lim для усіх j та незалежно від i . Візьмемо 1=n та,
припускаючи, що в рівнянні Чапмена-Колмогорова ∞→m , ми отримаємо
( ) ( ) ( ) =⋅=+= ∑
=
∞→∞→
J
k
jkjkmjimj pmpmpa
1
1lim1lim
Імовірнісні моделі для аналізу та прогнозування часових рядів
«Штучний інтелект» 3’2008 507
7Б
( ) ∑∑
==
⋅=⋅=
J
k
jkk
J
k
jkk papa
11
1 ,
оскільки ( ) jkjk pp =1 для першого кроку. Інакше кажучи,
∑
=
⋅=
J
k
jkkj paa
1
, Jj ,,1…= . (4)
Останній вираз може бути записаний як aPa = . Таким чином, ми бачимо, що
лімітні властивості матриць переходів n кроків також пов’язані з питанням лімітації
розподілів.
Навчання марківських ланцюжків
Тепер ми будемо застосовувати кроки байєсова моделювання до тренування послі-
довності, яка використовує родину марківських моделей. Марківська модель повністю
визначається матрицею переходів та початковим розподілом ймовірностей. Імовірнісне
навчання передбачає:
1. Марківський імовірнісний розподіл визначає ймовірність будь-якої послідов-
ності, обумовленої матрицею переходів та початковим розподілом.
2. Передування, яке виражає невизначеність про матрицю переходів та початковий
розподіл.
Якщо (1) об’єднано відомим чином з процесом тренування послідовності, ми отри-
муємо функцію правдоподібності, що стосується родини марківських моделей. Функція
правдоподібності комбінована з (2) через байєсівські правила породжує апостеріорний
розподіл для параметрів родини марківських моделей. Використовуючи (1) та (2), ми та-
кож обчислюємо прогнозований розподіл та отримуємо порівняльну модель за допо-
могою байєсівських чинників.
Розглянемо максимальну достовірність для марківських ланцюжків.
Нехай θ – матриця ймовірностей переходів:
=
JJJJ
J
J
θθθ
θθθ
θθθ
θ
…
…
…
21
22212
12111
. (5)
Нас турбує оцінка моделі θ в родині імовірнісних моделей ( )θxp для навчання
послідовності x з 1+n станів в 1+nS
( ) 1
10
+∈= n
n Sjjj …x .
Як було показано раніше, для МЛ
( ) ( ) ( )∏ −
=====
ll jjjnn jXjXjXPp
10
0,, 1100 θπθθx . (6)
Тоді під моделлю родини будемо розуміти обумовлену на ( )0
0j
π та θ=Θ , послі-
довність станів в x , що є виходом Марківського ланцюжку { } 0n n
X
≥
із стаціонарними
ймовірностями переходу θ .
Тут ми маємо щонайбільше JJ −2 параметрів переходу та 1−J початкових
ймовірностей для оцінки використання даних x . Ми робимо апроксимацію з тим, щоб
знехтувати початковим розподілом як частиною проблеми оцінювання.
Баклан І.В., Степанкова Г.А.
«Искусственный интеллект» 3’2008 508
7Б
Як функцію θ для фіксованого x забезпечення апроксимації або умовної функції
правдоподібності візьмемо
( ) ∏
=
−
=
n
l
jj ll
L
1
1
θθ . (7)
Відповідна логарифмічна функція правдоподібності:
( ) ∑
=
−
=
n
l
jj ll
1
1
lnθθ . (8)
Тепер розглянемо максимальну достовірність матриці переходів.
Введемо запис для кількості часу, який вимагається для переходу від i до j в
( )njjj …10=x . Маємо
=jin кількість таких l, що nl1 ≤≤ , ijl =−1 , jjl = . (9)
Використовуючи підрахунок частоти jin , ми можемо записати функцію достовір-
ності таким чином:
( ) ∏∏
= =
=
J
i
J
j
n
ji
jiL
1 1
θθ . (10)
Без сумніву, всі jin – достатні статистики для цієї моделі родини. Логарифмічна
достовірність з (8) буде тепер мати вигляд:
( ) ∑∑
= =
=
J
i
J
j
jijin
1 1
lnθθ . (11)
Нехай також
=in кількість таких l, що nl1 ≤≤ , ijl =−1 , jjl = , (12)
так, що in дорівнює кількості часу, за який досягається стан i в послідовності x , в тому
числі й перехід за останній проміжок часу.
Розглянемо усереднену модель та апостеріорний розподіл для рядків матриці
переходу.
Припустимо, що невизначеність ряду θ в (5)
( )Jiii θθθ ,,1 …=
моделюється незалежними спадковими величинами, що мають відповідну щільність Ді-
ріхле для Ji ,,1…= .
Нехай L
L RS ⊂ буде симплекс
( )
==≥= ∑
=
1,,,1,0,,
1
1
L
i
iiLL LiS θθθθ …… .
Нехай для 0>iα
( )
∈=
∏
=
−
.0
,S,,,,,
L1
1
1
i
1
i
випадкумупротилежноу
якщо
Z L
L
i
L θθ
θ
θθφ
α
…… .
Тут
( )∏
∑
=
=
Γ
Γ
= L
i
i
L
i
i
Z
1
11
α
α
.
Імовірнісні моделі для аналізу та прогнозування часових рядів
«Штучний інтелект» 3’2008 509
7Б
В цьому випадку щільність ( )Lθθφ ,,1 … називають щільністю Діріхле. За звичай її
позначають
( )LDir αα ,,1 … .
Якщо kL ==== ααα …21 , то будемо говорити про симетричну щільність
Діріхле. Щільність Діріхле має властивість
( ) 1,, 11 =∫
LS
LL dd θθθθφ …… ,
доведення якої було наведене у Вілкса [3].
В нашому випадку маємо:
( ) ( )
( )
∏
∏ =
−
=
⋅
Γ
Γ
=⋅⋅
J
j
q
jiJ
j
jii
i
Jiii
jii
q
qqDir
1
1
1
111 ,,; αθ
α
α
ααθ … , (13)
де
0>iα , 0>jiq , 1
1
=∑
=
J
j
jiq . (14)
Тоді ми будемо використовувати у якості щільності спільного апріорного розподілу
щільність багатомірного розподілу Діріхле:
( )∏
=
⋅⋅
J
i
Jiii qqDir
1
111 ,,; ααθ … . (15)
Таким чином, щільність апостеріорного розподілу дорівнює:
( )
( )
( )
( )xp
q
xp
J
j
q
ji
J
i
J
j
jii
i jii∏∏
∏ =
−
=
=
⋅
Γ
Γ
=
1
1
1
1
αθ
α
α
θ , (16)
де ( )xp є нормалізація, яка переводить ( )xp θ стохастичну щільність в θ .
Тепер розглянемо прогнозну ймовірність.
Можно запитати, що таке наша ймовірність
( )x;1 iXjXP nn ==+ ,
де вказано, що ймовірність базується на підготовленій послідовності ( ) 1
10
+∈= n
n Sjjj …x .
Враховуючи наш підхід до марківського моделювання x в попередньому розділі, однією
з відповідей могла би бути
( ) jinnML iXjXP θ€;€
1 ===+ x ,
вбудовуючи оцінку максимальної достовірності ймовірності переходу.
З точки зору спостережності ми повинні розглядати тільки унікальну послідовність
x для ( )xjXP n =+1 та забезпечувати відповідь як
( ) jjnML n
jXP θ€€
1 ==+ x ,
оскільки nj – остання перемінна у послідовності.
Існують інші шляхи, як відповісти на поставлені питання нашого дослідження. Ви-
користовуючи послідовність x , можемо взяти апостеріорну щільність для θ й тоді забез-
печити нову матрицю переходів за допомогою моделі усереднення
( ) ( )1 ;n n i jP X j X i p dθ θ θ∗
+ = = = ∫x x . (17)
Баклан І.В., Степанкова Г.А.
«Искусственный интеллект» 3’2008 510
7Б
Застосовуючи (15), отримуємо
( ) ( )1 ;n n r sP X r X s p dθ θ θ∗
+ = = = =∫x x
( )
( )
( )
( )xp
srI
q
ji
J
i
J
j
jii
i ,
1
1
⋅
Γ
Γ∏
∏=
=
α
α
,
де
( ) ∫∏
=
−
= i
J
j
qan
jisrji dsrI jiiji θθθ
1
1, .
Використовуючи широковідому формулу для оцінки варіаційних інтегралів Діріхле,
ми отримаємо замість (17) наступний вираз
( )
ss
rssrs
nn n
qn
sXrXP
α
α
+
+
===+
∗ x;1 . (18)
Параметри sα та rsq , як й раніше, відіграють роль псевдолічильника спостережень
та упорядковувача.
Приховані марківські моделі
Приховані марківські моделі (ПММ) (раніше відомі під назвами – стохастична
функція марківського ланцюжку або марківське джерело) – випадковий процес, пород-
жений двома взаємозалежними стохастичними механізмами. Це – марківські ланцюжки,
що лежать в основі, із скінченою кількістю станів та множиною випадкових функцій,
кожна з яких асоційована з відповідним станом. При дискретних моментах часу процес
знаходиться в деякому стані та спостереження генерується випадковою функцією, яка
відповідає чинному стану. Базовий марківський ланцюжок змінює свій стан відповідно до
його матриці переходів.
Спостерігати можливо тільки результат випадкових функцій, прив’язаних до кож-
ного стану, та неможливо прямо спостерігати стани базового марківського ланцюжку.
Таким чином, марківський ланцюжок є фактично прихованим, що й дало назву цій родині
моделей – прихована марківська модель.
У принципі результатом від станів прихованого марківського ланцюжку може бути
багатомірний випадковий процес, який має деяку безперервну функцію спільного розпо-
ділу. У цій статті ми обмежимося розглядом процесів із дискретним скінченим алфавітом.
ПММ може розглядатися як родина моделей для послідовності спостережень з
послідовності спостережень { }1 2, , , KO o o o= … . Модель базується на ідеї прихованої
послідовності переходів марківських станів. Дамо більш формальне визначення ПММ.
Прихований марківський ланцюжок – це марківський ланцюжок { }∞=0nnX , який приймає
значення на скінченому фазовому просторі { }JS ,,2,1 …= з J станів. Умовні ймовірності
( )iXjXPa nnji === −1 , 1≥n , Sji ∈, . (19)
Матриця переходів будується як
( ) JJ
jijiaA ,
1,1 ==
= (20)
із добре відомими нам обмеженнями:
0≥jia , 1
1
=∑
=
J
j
jia .
Імовірнісні моделі для аналізу та прогнозування часових рядів
«Штучний інтелект» 3’2008 511
7Б
В момент часу 0=n стан 0X визначається розподілом ймовірностей ( ) ( )jXPj == 00π
з ( ) ( ) ( )( )0,,00 1 Jπππ …= .
Помітний випадковий процес – це випадковий процес { }∞=0nnY із скінченим фазовим
простором { }KoooO ,,, 21 …= , де JK ≠ . Процеси { }∞=0nnX та { }∞=0nnY для довільних
фіксованих n пов’язані розподілом умовних ймовірностей
( ) ( )jXoYPkb nknj === .
Встановимо, що
( ){ } KJ
ijj kbB ,
1,1 ==
= .
Будемо називати її матрицею ймовірностей розповсюдження. Це інша стохастична
матриця в тому сенсі, що
( ) 0≥kb j , ( ) 1
1
=∑
=
K
k
j kb .
Для довільної послідовності станів njjj …10 ймовірність послідовності nooo …10
визначається як:
( ) ( )∏
=
=====
n
l
jlnnnn lbBjXjXoYoYP
0
0000 ,,,,, …… . (21)
Інакше кажучи, виділені спостереження умовно незалежні від заданої послідовності
станів.
Процес { }∞=0nnY може розглядатися як функція від марківського ланцюжку, та в
загальному випадку не є марківським ланцюжком.
До набору переваг цих припущень можна записати спільну ймовірність nooo …10 та
njjj …10 як
( )( ) ===== 0,,;,,,,, 0000 πBAjXjXoYoYP nnnn ……
( ) ( )( ) =⋅= 0,,,,,,,,, 000 πAXXPBXXYYP nnn ………
( ) ( ) ∏∏
==
−
⋅⋅=
n
l
jj
n
l
jlj ll
alb
10
10
0π .
Перебудовуючи останній вираз, отримаємо:
( )( ) ===== 0,,;,,,,, 0000 πBAjXjXoYoYP nnnn ……
( ) ( ) ( )∏
=
−
⋅⋅=
n
l
jljjjj lbab
ll
1
100
00π .
Надалі ми отримуємо спільний розподіл ймовірностей nooo …10 як неістотний
розподіл, підсумовуючи всі можливі шляхи побудови послідовностей станів. Це
запишемо наступним чином:
( )( ) ( ) ( ) ( )∑ ∑ ∏
= = =
−
==
J
j
J
j
n
l
jljjjjn
n
ll
lbabBAYYP
1 1 1
0
0
100
000,,;,, ππ …… . (22)
Таким чином, скінчені вимірні розподіли ймовірностей { }∞=1nnY є повністю визна-
ченими нашим вибором стохастичних матриць A , B та початковим розподілом ( )0π .
Отже, ми можемо використовувати повний запис для цієї моделі
( )( )0,, πλ BA= .
Баклан І.В., Степанкова Г.А.
«Искусственный интеллект» 3’2008 512
7Б
Різноманітні статті та навчальні посібники про ПММ містять одну незначну відмін-
ність, що стосується формулювання ( )oP в (23). У статті Левінсона [4] та статті 1960 року
Баума та Петрі була наведена наступна формула:
( ) ( ) ( ) ∏∏
==
−
⋅⋅=
n
l
jj
n
l
jljnn ll
albXXYYP
11
00 10
0;,,,,, πλ…… , (23)
яка означає, що не існує розповсюдження в початковому стані або що початковий стан є
станом «мовчання» (не будемо забувати, що в цих статтях головним застосуванням цього
математичного апарату було розпізнавання голосу). З іншого боку, це говорить про те, що
завжди відомо, що початковий стан буде тим же самим. Загальний вигляд цієї формули
(23) веде початок з роботи Рабінера [5]. Так що потрібно ретельно розглянути та
порівняти різноманітні варіанти формул для ПММ.
Джелайнек визначав приховані марківські моделі в термінах розподілу роз-
повсюдження, яке є функцією від переходу стану. Формально це можна подати так, що
( ) ( )jXoYPkb nknj === замінюється на ( ) ( )jXiXoYPkb nnknji ==== − ,1 . Легко
побачити, що це твердження повністю тотожне тому, що використовувалось вище.
Коли ми кажемо «стохастичний механізм», це припускає наступні кроки генерації
послідовностей в 1+ℜN :
1. Вибір початкового стану 00 jX = , яке відповідає розподілу ( )0π .
2. Встановити 0=n .
3. Обрати kn oY = , яке відповідає розподілу ймовірностей появи спостережень в
стані nj – ( )kb
nj
.
4. Перевести до нового стану 11 ++ = nn jX , яке відповідає розподілу ймовірностей
переходу до цього стану –
1+nn jja .
5. Збільшити n на одиницю та повернутися до кроку 3, якщо Nn ≤ , або перервати
роботу алгоритму в протилежному випадку.
Наведена вище процедура може використовуватися як генератор вибірки, так і як
модель для генерації даної послідовності відповідною ПММ.
Тепер розглянемо діаграми впливу та нестандартні ПММ.
Стандартні приховані марківські моделі можна розглядати як граф, наведений на
рис. 1. Цей вид графів відомий під назвою діаграми впливу або мережі довіри (див. у
Сміта [6]). Кожний вузол у графі зображає випадкову величину, яка описує стан nX або
результат спостережень nY в деякий момент часу n . На рис. 1 ребра (стрілки) зображують
напрям впливу. Граф зображує модель припущень. Умова марковості означає, що якщо
нам відомо, який стан j був відвіданий у момент часу n , то ніяка інша інформація з
минулого неважлива для майбутнього. На рис. 1 nX відокремлює попередню змінну від
майбутньої: після видалення nX з графу змінні mX ( nm > ) стануть від’єднаними від
змінних kX ( nk < ).
В термінах діаграм впливу можна легко осягнути та працювати не тільки у межах
стандартних ПММ. Приклади нестандартних моделей подані на наступних рисунках:
на рис. 2 зображена авторегресивна ПММ, на рис. 3 – спарена ПММ, на рис. 4 – факторна
ПММ. Ключем для розуміння зображеного повинні стати круги, які мають у собі стани
прихованого ланцюжку, та трикутники з виданими на відповідні моменти часу станами.
Детальний розгляд факторних ПММ, поданих на рис. 4, дається у Грахрамані та Джорда-
на [7]. Бойз розглядав у своїй роботі [8] застосування авторегресивних ПММ в аналізі
біологічних послідовностей.
Імовірнісні моделі для аналізу та прогнозування часових рядів
«Штучний інтелект» 3’2008 513
7Б
Для згаданої вище родини стандартних прихованих марківських моделей існує три
основні проблеми, вирішення яких необхідно для використання ПММ для аналізу часових
рядів.
1. Оцінка або проблема кількісного показника.
2. Проблема декодування.
3. Оцінка результату або проблема навчання.
X0 XNXn-1 Xn Xn+1
Y0 Yn-1 Yn Yn+1 YN
... ...
... ...
Рисунок 1 – Діаграма впливу: стандартна ПММ
Xn-1 Xn Xn+1
Yn-1 Yn Yn+1
Рисунок 2 – Діаграма впливу: авторегресивна ПММ
Xn-1 Xn Xn+1
Yn-1 Yn Yn+1
An-1 An An+1
Bn-1 Bn Bn+1
Рисунок 3 – Діаграма впливу: спарена ПММ
Баклан І.В., Степанкова Г.А.
«Искусственный интеллект» 3’2008 514
7Б
Xn-1 Xn Xn+1
Yn-1 Yn Yn+1
An-1 An An+1
Рисунок 4 – Діаграма впливу: факторна ПММ
Оцінка результату для заданої досліджуваної послідовності nooO …0= має в своїй
основі пошук моделі:
( )( )0,, πλ BA= ,
яка визначає найбільш ймовірну модель для породження заданої послідовності noo …0 ,
що також отримала назву тренувальної послідовності.
Для вирішення проблеми оцінки результату ми повинні піддати аналізу наступне.
1. Максимальна правдоподібність MLλ€ визначається так:
( )λλ
λ
;,,maxarg€
00 nnML oYoYP === … .
Ймовірність у правій частині тотожності задана в (23). Цей вираз може мати різні
ступені складності в залежності від реальних виразів для умовних розподілів в B . MLλ€ –
для стандартної ПММ, обчисленої за допомогою алгоритма Баума-Уелша, який осно-
ваний на тих самих процедурах, що й алгоритм максимального очікування для скінчених
сумішей.
2. Навчання максимуму апостеріорі MAPλ€ :
( ) ( )λφλλ
λ
;,,maxarg€
00 nnMAP oYoYP === … ,
де ( )λφ – щільність апріорного розподілу.
3. Мінімальна розрізнююча інформація, що була введена Ефараїмом [9], базується
на мінімізації відповідної відстані Куллбека.
4. Гладкі алгоритми навчання. Гладка параметризація λ робиться для того, щоб
використовувати метод градієнтного спуску. Технологія була розвинута Балді [10].
5. Навчання за Вітербі. Якщо ми встановимо, що
( ) ( )λλ ;,,;,,max 0000
0
nnnnjj
oYoYjXjXPV
n
=====∗ ……
…
,
й спробуємо знайти таке λ , що максимізує ( )λ∗V , тоді вже ми можемо говорити про
навчання за Вітербі. Цей метод був розвинений та проаналізований Джуангом та Рабі-
нером [11].
Умову для обчислювання оцінки та навчання в стандартних та нестандартних ПММ
сформулював Люк [12].
Сміт та інші [13] ввели загальну структуру графічних моделей для імовірнісних
незалежних мереж, завдяки яким можна вивести чисельні алгоритми для кількісної
оцінки та проблеми вирівнювання в інший спосіб, ніж це було представлено в цьому
тексті. Технологія імовірнісних незалежних мереж може також використовуватися при
вирішенні цих проблем для ряду нестандартних ПММ.
Імовірнісні моделі для аналізу та прогнозування часових рядів
«Штучний інтелект» 3’2008 515
7Б
Висновки
В цій статті були досліджені основні результати щодо використання апарату прихо-
ваних марківських моделей для аналізу часових рядів. Були розглянуті особливості
використання апарату марківських ланцюжків для аналізу часових рядів. Також ми
розглянули приховані марківські моделі та пов’язані з ними діаграми впливу.
В результаті проведених теоретичних та практичних експериментів було показано,
що має сенс застосування ПММ для аналізу та прогнозування економічних часових рядів.
Література
1. Степанкова Г.А., Баклан І.В. Деякі підходи до навчання прихованих марківських моделей // Матеріали
міжнародної наукової конференції «Інтелектуальні системи прийняття рішень та проблеми обчислю-
вального інтелекту». – Євпаторія. – 2008. – Т. 3 (ч. 2) – С. 87-91.
2. Баклан И.В., Степанкова А.А. Алгоритмы обучения скрытых марковских моделей // Системний аналіз та
інформаційні технології: Матеріали Х Міжнародної науково-технічної конференції (Київ, 20 – 24 травня
2008 р.). – К.: НТУУ «КПІ», 2008. – С.170.
3. Wilks S.S. (1962): Mahematical Statistics, John Wiley and Sons, New York and London.
4. Levinson S.E., Rabiner L.R., Sondhi M.M. An Introduction to the Applications of Theory of Probabilistic
Functions of a Markov Chain to Automatic Speech Recognition // The Bell System Technical Journal. – 1983. –
№ 62. – P. 1053-1074.
5. Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proc. of
the IEEE. – 1989. – № 77. – P. 257-286.
6. Smith J.Q. Influence diagramsfor statistical modelling // Annals of Statistics. – 1989. – № 17. – P. 654-672.
7. Grahramani Z. and Jordan M. Factorial hidden Markov models // Machine Learning. – 1997. – № 29. – P. 245-273.
8. Boys R.J., Henderson D. and Wilkinson D.J. Detecting homogeneous segments in DNA sequences using hidden
Markov models // Applied Stistacs. – 2000. – № 49. – Part 2. – P. 269-285.
9. Ephraim Y., Dembo A. and Rabiner L.R. Minimum Discrimination Information Approach for Hidden Markov
Modelling // IEEE Trans. jn Information Theory. – 1989. – № 35. – P. 1000-1013.
10. Baldi P. and Chauvin Y. Smooth On-Line Learning Algorithms for Hidden Markov Models // Neural Computa-
tion. – 2000. – № 6. – P. 307-318.
11. Juang B.H. and Rabiner L.R. The segmental K-means Algorithm for Estimating Parameters of Hidden Markov
Models // IEEE Transactions on Acoustics, Speech and Signal Processing. – 1990. – № 38. – P. 1639-1641.
12. Lucke H. Which Stochastic Models Allow Baum-Welch Training? // IEEE Transactions on Signal Processing. –
1996. – № 44. – P. 2746-2756.
13. Smyth P., Heckerman D. and Jordan M.L. Probabilistic Independence Networks for hidden Markov probability
models // Neural Computation. – 1997. – № 9. – P. 227-269.
И.В. Баклан, А.А. Степанкова
Вероятностные модели для анализа и прогнозирования временных рядов
Исследованы основные результаты использования скрытых марковских моделей для анализа временных
рядов и связанные с ними диаграммы влияния. Рассмотрены особенности использования аппарата
марковских цепочек для анализа временных рядов, а также обучение марковских цепочек.
I.V. Baklan, A.A. Stepankova
Probability Models for Analysis and Forecasting of Time Series
Researched the results of using Hidden Markov Models for time series analysis with their linkage to influence
diagrams. Reviewed features of using Markovs chains for time series analysis and self-learning of Markov chains.
Стаття надійшла до редакції 21.07.2008.
|