Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров
Предложена и исследована методика объяснения нейросетевых решений. Рассмотрен подход к решению проблемы дефицита обучающих примеров на примере предсказания роста биржевых котировок....
Збережено в:
Дата: | 2008 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | Russian |
Опубліковано: |
Інститут проблем штучного інтелекту МОН України та НАН України
2008
|
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/7149 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров / Я.С. Коровин, С.Н. Матвеев // Штучний інтелект. — 2008. — № 3. — С. 534-539. — Бібліогр.: 3 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-7149 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-71492010-03-25T12:01:01Z Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров Коровин, Я.С. Матвеев, С.Н. Нейросетевые и нечеткие системы Предложена и исследована методика объяснения нейросетевых решений. Рассмотрен подход к решению проблемы дефицита обучающих примеров на примере предсказания роста биржевых котировок. Запропонована і досліджена методика пояснення нейромережних розв’язків. Розглянутий підхід до розв’язання проблеми дефіциту навчальних прикладів за зразком завбачення зростання біржевих котирувань. A methodic of neuronetwork decision explanations' is depicted and analyzed. One solution approach of training patterns lack problem on the example of prediction of stock quotation growth is considered. 2008 Article Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров / Я.С. Коровин, С.Н. Матвеев // Штучний інтелект. — 2008. — № 3. — С. 534-539. — Бібліогр.: 3 назв. — рос. 1561-5359 http://dspace.nbuv.gov.ua/handle/123456789/7149 004.81:159.953.52 ru Інститут проблем штучного інтелекту МОН України та НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
topic |
Нейросетевые и нечеткие системы Нейросетевые и нечеткие системы |
spellingShingle |
Нейросетевые и нечеткие системы Нейросетевые и нечеткие системы Коровин, Я.С. Матвеев, С.Н. Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров |
description |
Предложена и исследована методика объяснения нейросетевых решений. Рассмотрен подход к решению
проблемы дефицита обучающих примеров на примере предсказания роста биржевых котировок. |
format |
Article |
author |
Коровин, Я.С. Матвеев, С.Н. |
author_facet |
Коровин, Я.С. Матвеев, С.Н. |
author_sort |
Коровин, Я.С. |
title |
Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров |
title_short |
Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров |
title_full |
Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров |
title_fullStr |
Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров |
title_full_unstemmed |
Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров |
title_sort |
методика объяснения нейросетевого вывода. о подходе к решению проблемы дефицита обучающих примеров |
publisher |
Інститут проблем штучного інтелекту МОН України та НАН України |
publishDate |
2008 |
topic_facet |
Нейросетевые и нечеткие системы |
url |
http://dspace.nbuv.gov.ua/handle/123456789/7149 |
citation_txt |
Методика объяснения нейросетевого вывода. О подходе к решению проблемы дефицита обучающих примеров / Я.С. Коровин, С.Н. Матвеев // Штучний інтелект. — 2008. — № 3. — С. 534-539. — Бібліогр.: 3 назв. — рос. |
work_keys_str_mv |
AT korovinâs metodikaobʺâsneniânejrosetevogovyvodaopodhodekrešeniûproblemydeficitaobučaûŝihprimerov AT matveevsn metodikaobʺâsneniânejrosetevogovyvodaopodhodekrešeniûproblemydeficitaobučaûŝihprimerov |
first_indexed |
2025-07-02T09:58:42Z |
last_indexed |
2025-07-02T09:58:42Z |
_version_ |
1836528774246563840 |
fulltext |
«Искусственный интеллект» 3’2008 534
7К
УДК 004.81:159.953.52
Я.С. Коровин, С.Н. Матвеев
НИИ многопроцессорных вычислительных систем имени академика А.В. Каляева
Южного федерального университета, г. Таганрог, Россия
НГДУ «Комсомольскнефть», г. Сургут, Россия
korovin@mvs.tsure.ru, matveev_sn@ngdukn.surgutneftegas.ru
Методика объяснения нейросетевого вывода.
О подходе к решению проблемы дефицита
обучающих примеров
Предложена и исследована методика объяснения нейросетевых решений. Рассмотрен подход к решению
проблемы дефицита обучающих примеров на примере предсказания роста биржевых котировок.
Введение
Целью данной статьи является решение двух актуальных проблем нейроинфор-
матики: объяснения решений нейронной сети и решения проблемы недостатка обу-
чающих примеров при операции нейросетевого предсказания.
Нейронные сети (НС) в отличие от экспертных систем (ЭС) позволяют одновре-
менно анализировать множество параметров и не требуют при этом явной формализации
правил вывода. В то же время технология нейронных сетей не представляет возможным
проследить всю цепочку вывода (т.к. нейросетевое распознавание является аналогом опе-
рации сравнения с эталоном), но и логику принятия итогового решения как такового в
итоге. В связи с этим объяснение решений нейронной сети является актуальной научной
проблемой нейроинформатики. В статье предлагается подход к ее решению.
Наряду с этим в вопросе нейросетевого предсказания нередко «слабым звеном»
выступает фактор дефицита примеров для обучения нейронной сети. Рассматривается и
исследуется методика генерации искусственных примеров, получаемых из уже имеющих-
ся применением к ним различного рода преобразований на примере предсказания
биржевых котировок.
1. Извлечение правил из нейронных сетей
Пусть A обозначает набор из N свойств A1,A2...AN, а {a} – множество возможных
значений, которое может принимать свойство Ai. Обозначим через С множество классов
c1,c2...cN. Для обучающей выборки известны ассоциированные пары векторов входных и
выходных значений (a1...am,ck), где ck∈C. Алгоритм извлечения разделяющих правил
включает три этапа:
1. Обучение нейронной сети. На этом данном этапе многослойный перцептрон
обучается до получения требуемого уровня качества распознавания.
2. Прореживание нейронной сети. Обученная нейронная сеть содержит все возмож-
ные связи между входными нейронами и нейронами скрытого слоя, а также между
последними и выходными нейронами. Полное число этих связей обычно столь велико,
что из анализа их значений невозможно извлечь обозримые для пользователя классифи-
цирующие правила. Прореживание заключается в удалении излишних связей и нейронов,
Методика объяснения нейросетевого вывода. О подходе к решению проблемы…
«Штучний інтелект» 3’2008 535
7К
не приводящем к увеличению ошибки классификации сетью. Результирующая сеть обыч-
но содержит немного нейронов и связей между ними и ее функционирование поддается
исследованию.
3. Извлечение правил. На этом этапе из прореженной нейронной сети извлекаются
правила, имеющие форму «если (a1⊗ q1) и (a2⊗ q2) и ... и (an ⊗ qn), то», где – константы,
⊗ – оператор отношения (=, ≥, ≤, <). Предполагается, что эти правила достаточно
очевидны при проверке и легко применяются к БД больших размерностей.
1.1. Обучение нейронной сети
Предположим, что обучающий набор данных Z необходимо разбить на два класса
A и B. В этом случае сеть должна содержать N входных и 2 выходных нейрона. Каждому
из классов будут соответствовать следующие активности выходных нейронов (1,0) и (0,1).
В качестве функции активации промежуточных нейронов используется гиперболический
тангенс, так что их состояния изменяются в интервале [-1,1]. В то же время функцией
активации выходных нейронов является функция Ферми (состояния в интервале [0,1]).
Обозначим через , ( 1, 2)k
i io = состояния выходных нейронов при предъявлении на вход
сети вектора признаков k-го объекта kx . Будем считать, что этот объект правильно
классифицирован сетью, если
1max η≤−to k
i
k
ii ,
где: 1 1kt = , если kx A∈ и 2 1kt = если kx B∈ , а 0 0,5η< < . В остальных случаях 1 0kt = .
Минимизируемая функция ошибки должна не только направлять процесс обучения
в сторону правильной классификации всех объектов обучающей выборки, но и делать
малыми значения многих связей в сети, чтобы облегчить процесс их прореживания.
0 1E E Eε= + ,
где
))1log()1(log(0
k
i
k i
k
i
k
i
k
i oootE ∑∑ −−+−=
функция взаимной энтропии, минимизация которой происходит быстрее, чем миними-
зация среднеквадратичной ошибки. Штрафная функция:
∑∑∑∑
= == = +
+
+
=
hN
l i
o
il
o
il
N
j
N
l
h
lj
h
lj
w
w
w
w
AE
1
2
1
2
2
1 1
2
2
1 )(1
)(
)(1
)(
.
Здесь hN – число нейронов в скрытом слое, h
liw – величина связи между j -м входным и l -м
скрытым нейронами, o
ilw – вес связи между l -м скрытым и i -м выходным нейронами [1].
Использование регуляризирующего члена E1 приводит к дифференциации весов по
величинам, уменьшая большинство, но сохраняя значения некоторых из них. Обучение
сети производится методом обратного распространения ошибки.
1.2. Прореживание нейронной сети
Полное число связей в обученной сети составляет ( )o hN N N+ . Можно показать,
что связь между входным и промежуточным нейроном h
ljw можно удалить без снижения
точности классификации сетью при выполнении условий , , 2max o h
i i l l jw w η≤ ± и
1 2 0,5η η+ < . Аналогичным образом, удаление связи ,
o
i lw не влияет на качество классифи-
кации, если , 2
o
i lw η≤ ± .
Коровин Я.С., Матвеев С.Н.
«Искусственный интеллект» 3’2008 536
7К
1.3. Извлечение правил
1. Выбирается значение параметра (0,1)ε ∈ , управляющего числом кластеров ак-
тивности нейрона скрытого слоя. Пусть 1h – активность этого нейрона при предъявлении
сети первого вектора обучающего набора. Положим число кластеров 1clustN = , положе-
ние кластера 1 1(1) , (1) 1, (1)clustA h count sum h= = .
2. Для всех векторов выборки обучающих примеров 1,...k K=
– определяется активность нейрона скрытого слоя h ,
– если существует индекс j , такой что
{1,..., }
( ) min ( )
clust
clust clustj N
h A j h A j
∈
− = − и
( )clusth A j ε− ≤ ,
то
( ) : ( ) 1, ( ) : ( )clust clustcount j count j sum N sum N h= + = + ,
иначе
1, ( ) ,
( ) 1, ( ) .
clust clust clust clust
clust clust
N N A N h
count N sum N h
= + =
= =
3. Заменить clustA на среднее значение активаций нейрона, объединенных в один и
тот же кластер:
1( ) ( ) / ( ), ,...,clust clustA j sum j count j j N= .
4. Проверить точность классификации объектов сетью при замене истинных
значений активации нейрона скрытого слоя на ( )clustA j .
5. Если точность классификации оказалась ниже заданного значения, то уменьшить
значение ε и вернуться к шагу 1.
2. Методика решения проблемы дефицита
обучающих примеров
Рассмотрим предлагаемую методику на конкретном примере нейросетевого пред-
сказания биржевых котировок.
Предположим, что имеется кривая роста котировок за предыдущий период (бан-
ковский день, сессию и т.д.). Соответствие данных по осям выступает как выборка
обучающих примеров, однако их количество недостаточно для качественного обучения
нейронной сети. Используя опыт биржевых экспертов, можно заключить, что в основном
игроки обращают внимание на форму кривой цен, а не на конкретные значения по осям.
Поэтому если немного «растянуть» по оси котировок весь временной ряд, то полученный
в результате такого преобразования ряд также можно использовать для обучения наряду с
исходным. Таким образом, увеличивается число примеров за счет использования априор-
ной информации, вытекающей из психологических особенностей восприятия временных
рядов участниками рынка.
Еще один способ решения упомянутой выше проблемы в области предсказания
состояния рынка – это так называемое использование скрытой симметрии в валютной
торговле. Смысл этой симметрии в том, что валютные котировки могут рассматриваться с
двух точек зрения, например как ряд DM/$ или как ряд $/DM. Возрастание одного из них
Методика объяснения нейросетевого вывода. О подходе к решению проблемы…
«Штучний інтелект» 3’2008 537
7К
соответствует уменьшению другого. Это свойство можно использовать для удвоения числа
примеров: каждому примеру вида 1 1 1( ,..., , )t d t t tX X X X− + − +→ можно добавить его симмет-
ричный аналог 1 1 1( ,..., , )t d t t tX X X X− + − +− − − → − . Эксперименты по нейросетевому пред-
сказанию показали, что для основных валютных рынков учет симметрии поднимает
норму прибыли примерно в два раза, конкретно – с 5 % годовых до 10 % годовых, с учетом
реальных транзакционных издержек [2].
2.1. Измерение качества предсказаний
Хотя предсказание финансовых рядов и сводится к задаче аппроксимации много-
мерной функции, оно имеет свои особенности, как при формировании входов, так и при
выборе выходов нейросети. Первый аспект, касающийся входов, мы уже обсудили.
Теперь коснемся особенностей выбора выходных переменных. Но прежде ответим на
главный вопрос: как измерить качество финансовых предсказаний. Это поможет опреде-
лить наилучшую стратегию обучения нейросети.
2.2. Связь предсказуемости с нормой прибыли
Особенностью предсказания финансовых временных рядов является стремление к
получению максимальной прибыли, а не минимизации среднеквадратичного отклонения,
как это принято в случае аппроксимации функций.
В простейшем случае ежедневной торговли прибыль зависит от верно уга-
данного знака изменения котировки. Поэтому нейросеть нужно ориентировать именно
на точность угадывания знака, а не самого значения. Найдем, как связана норма при-
были с точностью определения знака в простейшей постановке ежедневного вхож-
дения в рынок [2].
Обозначим на момент t : полный капитал игрока tK , относительное изменение
котировки ttt CCx /∆= , а в качестве выхода сети возьмем степень ее уверенности в знаке
этого изменения ]1,1[−∈ty . Такая сеть с выходной нелинейностью вида )(αtgy = обу-
чается предсказывать знак изменения и выдает прогноз знака с амплитудой, пропор-
циональной его вероятности. Тогда возрастание капитала на шаге t примет вид:
)],(1[1 ttttt yxxKK += − ,
где δ – доля капитала, «в игре». Выигрыш за все время игры:
∑
=
+=
t
k
kkt yxKK
1
0 )])(1ln[exp(
нам и предстоит максимизировать, выбрав оптимальный размер ставок σ . Пусть в сред-
нем игрок угадывает долю ε+=
2
1p знаков и соответственно ошибается с вероят-
ностью ε−=
2
1q . Тогда логарифм нормы прибыли:
δδ xqxptKKt −++= 1ln()1ln()/ln( 0 ,
а следовательно и сама прибыль, будет максимальным при значении
2
)( xqp −=δ
и составит в среднем:
Коровин Я.С., Матвеев С.Н.
«Искусственный интеллект» 3’2008 538
7К
2
2
2
2
0 2
2
)()/ln( εαt
x
x
qptKKt =−≈ .
Здесь мы ввели коэффициент 1/ 22
≤= xxα . Например, для Гауссова распре-
деления 8,0≈α .
В итоге получаем следующую оценку нормы прибыли при заданной величине
предсказуемости знака I, выраженной в битах:
It
t KK α20= .
То есть для ряда с предсказуемостью I в принципе возможно удвоить капитал за
)/(1 It α= вхождений в рынок. Таким образом, даже небольшая предсказуемость знака
изменения котировок способна обеспечить весьма заметную норму прибыли.
Подчеркнем, что оптимальная норма прибыли требует достаточно аккуратной игры,
когда при каждом вхождении в рынок игрок рискует строго определенной долей
капитала:
εαεδ 6.12/)(/ 22
≈=−==∆ xxqpxKK ,
где K∆ – типичная при данной ситуации рынка x величина выигрыша или проиг-
рыша [2]. Как меньшие, так и большие значения ставок уменьшают прибыль. Причем
чересчур рискованная игра может привести к проигрышу при любой предсказательной
способности [3].
2.3. Выбор функционала ошибки
Если принять, что целью предсказаний финансовых временных рядов является мак-
симизация прибыли, логично настраивать нейросеть именно на этот конечный результат.
Например, при игре по описанной выше схеме для обучения нейросети можно выбрать
следующую функцию ошибки обучения, усредненную по всем примерам из обучающей
выборки:
)]sgn(1ln[ ttt yxE δ+−= .
Здесь доля капитала в игре введена в качестве дополнительного выхода сети, наст-
раиваемого в процессе обучения. При таком подходе первый нейрон, ty , с функцией
активации )(δtgf = даст вероятность возрастания или убывания курса, в то время как
второй выход сети tδ даст рекомендованную долю капитала в игре на данном шаге.
Поскольку, однако, в соответствии с предыдущим анализом, эта доля должна быть
пропорциональна степени уверенности предсказания, можно заменить два выхода сети –
одним, положив tt yδδ = , и ограничиться оптимизацией всего одного глобального пара-
метра δ , минимизирующего ошибку:
]1ln[ tt yxE δ+−= .
Тем самым, появляется возможность регулировать ставку в соответствии с уровнем
риска, предсказываемым сетью. Игра с переменными ставками приносит большую
прибыль, чем игра с фиксированными ставками. Действительно, если зафиксировать
Методика объяснения нейросетевого вывода. О подходе к решению проблемы…
«Штучний інтелект» 3’2008 539
7К
ставку, определив ее по средней предсказуемости, то скорость роста капитала будет
пропорциональна 2ε , тогда как если определять оптимальную ставку на каждом шаге,
то – пропорциональна 122 −≥ εε .
Приведенные выше примеры показывают, как важно уметь правильно оценить ка-
чество предсказания и как можно использовать эту оценку для увеличения прибыльности
от одних и тех же предсказаний.
На следующем этапе можно пойти еще дальше и вместо среднего использовать
взвешенное мнение нескольких нейронных сетей одновременно. При этом веса следует
выбирать адаптивно, максимизируя предсказательную способность группы на обучаю-
щей выборке. В итоге хуже обученные сети из группы (комитета нейронных сетей)
вносят меньший вклад и не портят предсказания).
Приведенные подходы планируется программно реализовать при создании универ-
сальной системы поддержки принятия решений операторов сложных технических
объектов критических областей деятельности. Апробация системы будет проводиться
на примере системы оперативного обнаружения внутрисменных простоев добываю-
щего фонда скважин нефтегазодобывающих предприятий Западной Сибири.
Литература
1. Ежов А.А., Шумский С.А. Нейрокомпьютинг и его применения в экономике и бизнесе. – Режим доступа:
www.intuit.ru.
2. Информация РИА «Росбизнесконсалтинг». – Режим доступа: www.rbc.ru.
3. Гончаров М., Daniel D. Добыча знаний из CRM систем // Открытые системы. – № 3. – 2008.
Я.С. Коровін, С.Н. Матвєєв
Методика пояснення нейромережного висновку. Про підхід до розв’язання проблеми дефіциту
навчальних прикладів
Запропонована і досліджена методика пояснення нейромережних розв’язків. Розглянутий підхід до
розв’язання проблеми дефіциту навчальних прикладів за зразком завбачення зростання біржевих котирувань.
Ya.S. Korovin, S.N. Matveyev
A methodic of neuronetwork decision explanations' is depicted and analyzed. One solution approach of training
patterns lack problem on the example of prediction of stock quotation growth is considered.
Статья поступила в редакцию 17.07.2008.
|