Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки
Досліджено керовану стохастичну модель найскорішого виявлення моменту неполадки та слабкокеровану стохастичну модель керування процесом неполадки.
Збережено в:
Дата: | 2003 |
---|---|
Автор: | |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
2003
|
Назва видання: | Системні дослідження та інформаційні технології |
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/50317 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки / М.В. Андрєєв // Систем. дослідж. та інформ. технології. — 2003. — № 3. — С. 111-119. — Бібліогр.: 3 назв. — укр. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-50317 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-503172013-10-11T03:05:52Z Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки Андрєєв, М.В. Методи аналізу та управління системами в умовах ризику і невизначеності Досліджено керовану стохастичну модель найскорішого виявлення моменту неполадки та слабкокеровану стохастичну модель керування процесом неполадки. Исследованы управляемая стохастическая модель наискорейшего обнаружения момента разладки и слабоуправляемая стохастическая модель управления процессом разладки. A controlled stochastic model of quick disorder moment detection and a weakly controlled stochastic model of disorder process control have been investigated. 2003 Article Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки / М.В. Андрєєв // Систем. дослідж. та інформ. технології. — 2003. — № 3. — С. 111-119. — Бібліогр.: 3 назв. — укр. 1681–6048 http://dspace.nbuv.gov.ua/handle/123456789/50317 519.87: (62.50 + 519.718) uk Системні дослідження та інформаційні технології Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Ukrainian |
topic |
Методи аналізу та управління системами в умовах ризику і невизначеності Методи аналізу та управління системами в умовах ризику і невизначеності |
spellingShingle |
Методи аналізу та управління системами в умовах ризику і невизначеності Методи аналізу та управління системами в умовах ризику і невизначеності Андрєєв, М.В. Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки Системні дослідження та інформаційні технології |
description |
Досліджено керовану стохастичну модель найскорішого виявлення моменту неполадки та слабкокеровану стохастичну модель керування процесом неполадки. |
format |
Article |
author |
Андрєєв, М.В. |
author_facet |
Андрєєв, М.В. |
author_sort |
Андрєєв, М.В. |
title |
Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки |
title_short |
Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки |
title_full |
Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки |
title_fullStr |
Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки |
title_full_unstemmed |
Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки |
title_sort |
синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки |
publisher |
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України |
publishDate |
2003 |
topic_facet |
Методи аналізу та управління системами в умовах ризику і невизначеності |
url |
http://dspace.nbuv.gov.ua/handle/123456789/50317 |
citation_txt |
Синтез оптимальних стратегій планування стохастичного експерименту в задачах найскорішого виявлення неполадки / М.В. Андрєєв // Систем. дослідж. та інформ. технології. — 2003. — № 3. — С. 111-119. — Бібліогр.: 3 назв. — укр. |
series |
Системні дослідження та інформаційні технології |
work_keys_str_mv |
AT andrêêvmv sintezoptimalʹnihstrategíjplanuvannâstohastičnogoeksperimentuvzadačahnajskoríšogoviâvlennânepoladki |
first_indexed |
2025-07-04T11:54:58Z |
last_indexed |
2025-07-04T11:54:58Z |
_version_ |
1836717283191291904 |
fulltext |
© М.В. Андрєєв, 2003
Системні дослідження та інформаційні технології, 2003, № 3 111
TIДC
МЕТОДИ АНАЛІЗУ ТА УПРАВЛІННЯ
СИСТЕМАМИ В УМОВАХ РИЗИКУ І
НЕВИЗНАЧЕНОСТІ
УДК 519.87: (62.50 + 519.718)
СИНТЕЗ ОПТИМАЛЬНИХ СТРАТЕГІЙ ПЛАНУВАННЯ
СТОХАСТИЧНОГО ЕКСПЕРИМЕНТУ В ЗАДАЧАХ
НАЙСКОРІШОГО ВИЯВЛЕННЯ НЕПОЛАДКИ
М.В. АНДРЄЄВ
Досліджено керовану стохастичну модель найскорішого виявлення моменту не-
поладки та слабкокеровану стохастичну модель керування процесом неполадки.
ВСТУП
У деяких розділах математики вживається термін «біфуркація» щодо ситуа-
ції, коли розглядається об’єкт або розв’язок нелінійного диференціального
рівняння, залежний від параметра, і в будь-якому околі деякого значення
цього параметра досліджувані якісні властивості об’єкта або розв’язку не є
однаковими для всіх значень параметра. Тобто при цьому значенні парамет-
ра, яке називають «біфуркаційним значенням» або «точкою біфуркації»,
відбуваються якісні зміни в поведінці об’єкта або розв’язку рівняння, і саме
тому виникає задача своєчасного виявлення моменту появи певних особли-
востей поведінки об’єктів різної природи. Зокрема, в іноземній літературі з
питань теорії особливостей замість «біфуркації» вживають термін «катаст-
рофи». У цій статті розглядається задача найскорішого виявлення так звано-
го «моменту неполадки», — терміну, що в науковій літературі різного про-
філю часто вживається замість «біфуркація» та «катастрофа».
Задача неполадки (a problem of disorder) часто виникає в різних сферах
людської діяльності, скажімо, в технічній, економічній та інших галузях на-
родного господарства; у страховій, соціальній сферах, включаючи, напри-
клад, проблематику діагностики та передбачень тощо. Розв’язання такої за-
дачі може бути успішним лише при чіткому з’ясуванні суті проблеми, що
забезпечує оптимальний вибір математичної моделі в умовах невизначенос-
ті та введення критерію оптимізації, на основі якого побудована стратегія
буде оптимальною.
Під терміном «неполадка», як правило, розуміють вихід із ладу або ре-
жиму нормального функціонування живого організму, технічного пристрою,
економіки тощо. Для лікаря, інженера, менеджера, економіста виникає зада-
ча виявлення моменту неполадки на основі спостережень відповідно за ста-
ном здоров’я, точності технічного пристрою, якості продукції виробничого
М.В. Андрєєв
ISSN 1681–6048 System Research & Information Technologies, 2003, № 3 112
процесу в економіці, причому в момент неполадки відбувається зміна якості
процесу відповідно здоров’я — хвороба, точність — хибність, якість —
брак. Таким чином виникає задача виявлення моменту неполадки [1].
КЕРОВАНА МОДЕЛЬ СТОХАСТИЧНОГО ЕКСПЕРИМЕНТУ ВИЯВЛЕННЯ
МОМЕНТУ НЕПОЛАДКИ
Момент неполадки 0>ζ , заданий на ймовірносному просторі ),,( PFΩ ,
тобто 0>ζ )(mod P , ∞<ζM . Позначимо: ),0[ ∞+=+R — числова мно-
жина невід’ємних дійсних чисел; }...,2,1,{ == nXX n — процес спостере-
жень; { }...,2,1),( == nXuU nn — стратегія керування, причому =)( nn Xu
+∈= Ruu nn, . Рівняння моделі керованого стохастичного експерименту
задано у вигляді
…,2,1,1 =+=+ nuXX nnn (1)
Послідовність }1,{ ≥= nuU n є стратегією керування, а також контролю за
виявленням моменту неполадки, яку необхідно побудувати або синтезувати,
оскільки nu в (1) як рішення в момент n приймається у стані nX , а nu як
n -й інтервал контролю визначає 1+nX .
Функція
( ){ } 0,,,0max),( >>−++= caxuxcaMux ζζϕ (2)
характеризує середні втрати, якщо у стані 0>x приймається рішення u , де
a — вартість кожного рішення 1, ≥nun ; c — штраф за невиявлення непо-
ладки при цьому рішенні.
Для моделі },2,1,{ …== nXX n , керованою стратегією ,{ nuU =
},2,1 …=n , за умови xX =1 визначимо марковський момент
{ }kk XXk ≤<== − )(:inf)( 1 ωζωττ (3)
попадання моделі в область ),[ ∞+= ζG . Позначимо через
{ })()1(),()(
1
1
ζτϕψ ττ
τ
−++−=
⎪⎭
⎪
⎬
⎫
⎪⎩
⎪
⎨
⎧
= ∑
−
=
uXcaMuXMU U
x
n
nn
U
xx (4)
очікувані усереднені втрати, пов’язані зі стратегією U , де U
xM — символ
математичного сподівання, взятого за мірою, що відповідає моделі спосте-
режень X , керованою стратегією U , з початковим станом x . Функціонал
)(Uxψ називається критерієм оптимальності стратегії U .
Постає задача: за умови 0}{ >> xP ζ знайти мінімальний ризик
xUx x
U
∀= )(inf)( ψρ . (5)
Мінімальний ризик )(xρ можна трактувати як мінімальні очікувані
усереднені втрати, пов’язані з оптимальною стратегією контролю функціо-
Синтез оптимальних стратегій планування стохастичного експерименту …
Системні дослідження та інформаційні технології, 2003, № 3 113
нування моделі від початку, коли вона знаходиться в стані x , і до настання
моменту неполадки ζ .
Стратегія *U називається оптимальною, якщо xxUx ∀= )()( * ρψ .
Розглянемо умови, за яких існує оптимальна стратегія контролю.
Простір +R являється локально компактним. Позначимо =+R
}{+∞= + ∪R . Очевидно +R — компактний простір.
Оскільки ∞+=∞+ ),( nXϕ , τ<n , а отже ∞+=)(Uxψ , то оптимальне
рішення можна вибрати так, щоб +∈= RuXU nn )( n∀ . А тому в подаль-
шому можна вважати, що простір допустимих рішень є компактним.
Нехай { }…,2,1, == nuU n — довільна стратегія, така, що 0=mu ,
τ<m . Побудуємо відповідно нову стратегію { }…,2,1, == nuU n таким
чином:
mnuu nn <= , ,
mnuu nn ≥= + ,1 .
Тоді одержимо
xUU xx ∀< )()( ψψ . (6)
Тому в подальшому можна розглядати тільки такі стратегії { }1, ≥= nuU n ,
коли nun ∀> 0 .
За цих умов справедливі такі твердження.
Лема. Мінімальний ризик )(xρ (5) є обмеженою, монотонно неспад-
ною та неперервною функцією.
Доведення. Розглянемо стратегію { }…,2,1,1 =≡= nuU n . Тоді для
всіх 0≥x маємо
[ ] ∞<+−≤+−−≤ cMacxMaUx )1(1)()( ζζψ .
Тому
0)1()(inf)( ≥∀+−≤= xcMaUx x
U
ζψρ .
Отже, обмеженість )(xρ обґрунтована.
Позначимо через )(zM множину всіх допустимих стратегій для почат-
кового стану z . Нехай yx <≤0 . За кожної довільної стратегії
{ } )(,2,1,)()( yMnuU y
n
y ∈== … побудуємо відповідну стратегію =)(xU
{ } )(,2,1,)( xMnu x
n ∈== … таким чином: )()(
1
)(
1 xyuu yx −+= , )()( y
n
x
n uu = ,
2≥∀ n і позначимо множину таких стратегій через )(xM . Видно, що
)()( xMxM ⊂ . З іншого боку, за побудовою )()( )()( y
y
x
x UU ψψ = ,
)()( yMU y ∈∀ . Тому
)()(inf)(inf)(inf)(
)()()(
yUUUx x
yMU
x
xMU
x
xMU
ρψψψρ ==≤=
∈∈∈
,
М.В. Андрєєв
ISSN 1681–6048 System Research & Information Technologies, 2003, № 3 114
тобто yxyx <≤ ),()( ρρ .
Отже, неспадна монотонність )(xρ обгрунтована.
Нехай U — довільна стратегія; τ — момент першого попадання
}1,{ ≥= nXX n в область G , який задається формулою (3).
Тоді, за будь-якого 0>ε для )(Ux εψ − маємо
{ }[ ]+−≥−=− cUXPU xx εψζεψ τε )()(
{ }[ ]=−−++<−+ + )()( 1 εψζε τττ XXcaUXP x
{ }−≥−−= ζεεψ τXPcUx )(
[ ] { } cUXPXXca x εψζεε τττ −≥<−−−+− + )()( 1 , (7)
а для )(Ux εψ + отримуємо
{ }[ ]++<+= −+ cUXPU xx εψζεψ τε )()( 1
{ }[ ]=−−−−≥++ −− )()( 11 εψζε τττ XXcaUXP x
{ } [ ]×−−+−<++= −− )()( 11 εζεεψ τττ XXcaXPcUx
{ } cUXP x εψζετ +≤≥+× − )(1 . (8)
Із (7), (8) випливає, що
cxx ερερ −≥− )()( , (9)
cxx ερερ +≤+ )()( . (10)
Із (9), (10) та неспадної монотонності випливає неперервність )(xρ .■
Теорема 1. Мінімальний ризик )(xρ є розв’язком рівняння
⎭
⎬
⎫
⎩
⎨
⎧
+
>
+>
+=
>
)(
}{
}{),(inf)(
0
ux
xP
uxPuxx
u
ρ
ζ
ζ
ϕρ , (11)
де
[ ]=>−+⋅+= ),0(max),( xuxcaMux ζζϕ
{ } ∫
+
−+
>
+=
ux
x
dtFtux
xP
ca )()( ζζ
.
Існує оптимальна стаціонарна стратегія )(** xuu = , яка реалізує
infimum в правій частині рівняння оптимальності (11), тобто
)(
}{
}{),()( *
*
* ux
xP
uxPuxx +
>
+>
+= ρ
ζ
ζ
ϕρ , (12)
Синтез оптимальних стратегій планування стохастичного експерименту …
Системні дослідження та інформаційні технології, 2003, № 3 115
де xu ∀+∞<< *0 .
Доведення. В силу адитивності критерію оптимальності (4) із виразу
для мінімального ризику (5) при ζ<x маємо
=
⎥
⎥
⎦
⎤
⎢
⎢
⎣
⎡
== ∑
−
=
1
1
),(inf)(inf)(
τ
ϕψρ
n
nn
U
x
U
x
U
uXMUx
⎥
⎦
⎤
⎢
⎣
⎡
>
>
+= )(
}{
}{
),(inf 2
1
2
11 x
xP
xP
uxM U
x
U
ρ
ζ
ζ
ϕ =
⎥
⎦
⎤
⎢
⎣
⎡
+
>
+>
+=
>
)(
}{
}{),(inf
0
ux
xP
uxPux
u
ρ
ζ
ζ
ϕ .
Оскільки }{ uxP +>ζ є напівнеперервною за u функцією, то infimum в
правій частині виразу для )(xρ досягається, а тому стратегія )(** xuu = існує.■
Теорема 2. Рівняння оптимальності (11) має єдиний розв’язок.
Доведення ґрунтується на методиці наближеного розв’язання рівняння
(11) із застосуванням методу послідовних наближень.
При кожному …,2,1, =nn за індукцією будуємо послідовність функ-
цій …,2,1),()( =mxV n
m ,
покладаючи
⎥
⎦
⎤
⎢
⎣
⎡
+
>
+>
+=
≥
+ )(
}{
}{),(inf)( )(
1
)(
1 uxV
xP
uxPuxxV n
m
n
u
n
m ζ
ζ
ϕ ,
де …,2,1),()(
1 =nxV n — довільна обмежена функція.
Тоді розв’язок )(xρ рівняння (11) має вигляд
xxVx n
mmn
∀=
∞→∞→
)(limlim)( )(ρ ,
причому для множини допустимих стратегій
⎭
⎬
⎫
⎩
⎨
⎧ ∀≥== k
n
ukuM kkn
1:...,2,1,
на скінченному інтервалі збіжність рівномірна. ■
Теорема 3. Нехай ζ задовольняє умову, що при ζ<x залишок )( x−ζ
має такий же розподіл, як і величина ζ (таку властивість має експоненціа-
льний закон розподілу). Тоді мінімальний ризик )(xρ (11) не залежить від
x , тобто const)( =xρ x∀ .
Доведення. Позначимо через )(xζρ ризик, що відповідає випадковій
величиніζ . Якщо в розглянутій задачі в якості вихідної випадкової величи-
ни взяти x−=′ ζζ , то
ζρρ ζζ ′<∀+=′ txtt )()( .
М.В. Андрєєв
ISSN 1681–6048 System Research & Information Technologies, 2003, № 3 116
Зокрема,
ζρρ ζζ <∀≡′ tx)()0( . (13)
За теоремою 2 )(xζρ — єдиний розв’язок, який визначається в стані x
розподілом ζ . Звідси з урахуванням умови щодо властивості розподілу ζ
випливає
xxx ∀=′ )()( ζζ ρρ .
Зокрема,
)0()0( ζζ ρρ =′ . (14)
Із (13), (14) отримуємо
xx ∀== const)0()( ζζ ρρ . ■
СЛАБКОКЕРОВАНА МОДЕЛЬ СТОХАСТИЧНОГО ЕКСПЕРИМЕНТУ
КЕРУВАННЯ ПРОЦЕСОМ НЕПОЛАДКИ
Розглядається слабкокерована стохастична модель [1], яка описується про-
цесом марковського відновлення з фазовим простором станів (ФПС)
}0{:0 ∪EE = , ...},...,2,1{ NE = , вкладений ланцюг Маркова (ВЛМ)
{ }...,2,1, == nXX n
εε якого задається збуреною матрицею перехідних ймо-
вірностей (МПЙ) ff PPP 10 εε −= , де 0P — МПЙ незбуреного ергодичного
ланцюга Маркова зі стаціонарним розподілом }...,,...,,{ 21 Nρρρρ = ;
{ }…,2,1,)( === nuxff nn — стаціонарна стратегія керування; fP1 — ма-
триця збурень, керована стратегією f , 10 << ε ; )( fPI ε− — звідно-
оборотна матриця (оператор) f∀ . Елементи матриці збурень =fP1
{ }Erkp kf
kr ∈= ,;)(,1 залежать від керувань і задовольняють умовам
1;0: )0(,1
00
0
00
)(,1
0 =−>∈∃ fkf
k pppEk ε .
Момент неполадки εζ визначається як момент першого досягнення
ВЛМ нульового стану поглинання 0=x . Якщо у стані 0>x прийнято рі-
шення u , то очікуваний в середньому доход за один період часу в цьому
стані задається функцією ),( uxϕ , обмеженою за сукупністю змінних ux, .
Критерій якості або оптимальності стратегії f визначається функціоналом
fuε — оцінкою стратегії f у вигляді
[ ]xxLMxu ff == 0)(ε , (15)
де ∑
=
+=
εζ
ϕ
0
1)(
n
nx uL
n
.
Синтез оптимальних стратегій планування стохастичного експерименту …
Системні дослідження та інформаційні технології, 2003, № 3 117
Оцінку стратегії )(xu f
ε можна трактувати як очікуваний наробок,
пов’язаний зі стратегією керування f моделлю з початковим станом x та
моментом її неполадки f
εζ . Стратегія керування *f — оптимальна, якщо
0)()(
*
≥− xuxu ff
εε xf ,∀ .
Вектор очікуваного наробку для стаціонарної стратегії f із класу F
допустимих стратегій задовольняє рівняння
ffff uPPu εε εϕ )( 10 −+= , (16)
в якому задані вектор
{ }Ekkfk
f ∈= ));((ϕϕ
і матриці
{ } { }ErkpPErkpP kf
kr
f
kr ∈=∈= ,;;,; )(,1
1
0
0 .
Відповідне рівняння Беллмана для оптимального очікуваного наробку
*
εu має вигляд
{ }*
10
* )(sup εε εϕ uPPu ff
Ff
−+=
∈
. (17)
Розв’язок рівняння (17) шукаємо у вигляді степеневого ряду за сте-
пенями ε
∑
∞
−=
=
1
**
m
m
muu εε , (18)
коефіцієнти якого задовольняють систему рівнянь
0)( *
10 =− −uPI ,
[ ] ,sup)( *
11
*
00 −
∈
−=− uPuPI ff
Ff
ϕ
1,inf)( *
11
*
0 ≥−=− −
∈
muPuPI m
f
Ff
m
m
, (19)
де підкласи 1, ≥mFm допустимих стратегій визначаються рекурентно
{ }*
11
*
001 )(: −−=−∈= uPuPIFfF ffϕ ,
{ } 2,)(: *
11
*
01 ≥−=−∈= −− muPuPIFfF m
f
mmm .
Застосовуючи до системи рівнянь (19) методику узагальненого обер-
нення звідно-оборотного оператора ]( 0PI − , маємо
1
***
1 ˆˆ qu ϕ=− ,
М.В. Андрєєв
ISSN 1681–6048 System Research & Information Technologies, 2003, № 3 118
0,ˆˆ **
0
* ≥+= mqRu mmm 1ψϕ , (20)
де Π−Π+−= −1
00 )( PIR — узагальнений обернений оператор для )( 0PI − ;
][ ρ⊗=Π 1 — проектор, у виразі якого символ ⊗ означає операцію тензор-
ного множення;
∑=⎥⎦
⎤
⎢⎣
⎡=
∈
;))((ˆ;ˆˆsupˆˆ
** kfqq kk
fff
Ff
ϕρϕϕϕ
∑= )(,1
0ˆ kf
kk
f Pq ρ ; 1 — одиниця в E ;
[ ] ****
0 ˆˆˆsup qqq ff
Ff
ϕϕϕ −=
∈
,
[ ] 2,ˆˆinf ****
1 ≥−=
∈
+ mqqq f
m
f
mFfm ψψϕ ,
∑
∈
==
Ek
mk
f
mm
ff
m kfRP ))((ˆ,*
01 ψρψϕψ .
Оптимальна стратегія керування *f процесом неполадки реалізує su-
premum та infimum в правих частинах рівнянь системи (19).
У випадку, коли параметр ε достатньо малий або наближається до ну-
ля, значення оцінки оптимальної стратегії *
εεu достатньо близьке або на-
ближається до коефіцієнта *
1−u розкладу ряду (18). Тоді говорять про асимп-
тотично оптимальну стратегію af , що реалізує supremum в правій частині
другого рівняння відносно *
0u системи (19).
Зазначимо, що в основі подання розв’язку рівняння оптимальності (17)
у вигляді (18), (19) лежить плідна ідея методу ланцюжків М.М. Боголюбова
сукупно з ідеєю методу послідовної оптимізації стохастичних моделей або у
нашому випадку марковських процесів рішень.
СИНТЕЗ ОПТИМАЛЬНИХ СТРАТЕГІЙ КОНТРОЛЮ ТА КЕРУВАННЯ В
ЗАДАЧАХ НЕПОЛАДКИ В УМОВАХ НЕВИЗНАЧЕНОСТІ
До цих пір вважалося, що ми повністю спостерігаємо траєкторію керованого
експерименту
…… →→→→
−+
−+ t
u
t
u
m
u
m xxxx
tmm 11
11 , (21)
де стани tx — це елементи множин tX . Припустимо зараз, що стан експе-
рименту в момент t описується парою tt yx , причому перша компонента
стає нам відомою, а друга — ні. Таким чином, дійсна еволюція експеримен-
Синтез оптимальних стратегій планування стохастичного експерименту …
Системні дослідження та інформаційні технології, 2003, № 3 119
ту задається траєкторією — частково спостережуваною випадковою керова-
ною послідовністю
…… →→→→
−+
−−++ tt
u
tt
u
mm
u
mm yxyxyxyx
tmm 11
1111 , (22)
а спостерігаємо, як і раніше, траєкторію (21).
Неспостережувані стани ty — це елементи якихось множин tY . Вони
впливають як на механізм переходу до чергового стану, так і на одержува-
ний прибуток.
Щоб визначити міру у просторі траєкторій, необхідно задати початко-
вий розподіл µ і стратегію керування π . У математичній статистиці роз-
глядається байєсів підхід, при якому для невідомого стану my вводиться
апріорний розподіл ймовірностей.
Стратегія π не може залежати від значень неспостережуваних станів
…,, 1+mm yy . Оскільки значення tx стає нам відомим, то для вибору керу-
вання tu суттєвим є апостеріорний розподіл tv для ty за спостереженим
tx . Ми включаємо розподіл tv в історію спостережень, від якої залежить
вибір чергового керування. При цьому tx — будь-яка точка tX , а tv —
умовна ймовірносна міра на tY . Зазначимо: якщо всі простори неспостере-
жуваних станів tY складаються лише з однієї точки, то ми одержуємо мо-
дель експерименту з повною інформацією. Задачу зведення моделі з непов-
ною інформацією до моделі з повною інформацією у загальному випадку
розглянуто у роботі [2].
У роботі [3] розглянуто задачу оптимальної зупинки випадкових про-
цесів в дискретному часі за неповними даними та їх редукцію до задачі оп-
тимальної зупинки випадкових процесів в дискретному часі за повними да-
ними. Основний результат роботи полягає у тому, що за деяких умов щодо
критерію оптимальності та динаміки кожної із компонент частково спосте-
режуваної двохкомпонентної випадкової послідовності отримано швидкість
збіжності порядку ε ціни оптимальної зупинки неспостережуваної компо-
ненти до гранично ідеальної ціни за умови, що точність спостережень стає
ідеальною, тобто неточність спостережень характеризується малим параме-
тром ε , який збігається до нуля.
ЛІТЕРАТУРА
1. Андрєєв М.В. Синтез оптимальних стратегій контролю та керування в задачах
неполадки // Теорія еволюційних рівнянь. Міжнар. конф. «П’яті Боголю-
бовські читання». — 22–24 травня 2002 р. Кам’янець-Подільський. Тези
доп. — С. 20–21.
2. Андрєєв М.В. Адаптивні слабкокеровані марковські та напівмарковські процеси
в дискретному часі // Системні дослідження та інформаційні технології. —
2003. — № 2. — С. 92–107.
3. Ферманн Х. Сходимость цен при оптимальной остановке частично наблюдае-
мых случайных последовательностей относительно квадратичного крите-
рия // Теория вероятностей и ее применение. — 1981. — 26. Вып. 2. —
С. 364–369.
Надійшла 02.06.2003
|