Оценки надежности работы классификаторов на основании функции неподобия

Запропоновано підходи до обчислення верхніх оцінок вірогідності розпізнавання, що сприяють їх використанню для більш широкого класу моделей. Одна з оцінок стосується визначення стійкості покриття об’єктів класифікуючими алгоритмами на підставі розподілу відстаней між об’єктами, а інша — змінного кон...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2012
Автори: Русын, Б.П., Таянов, В.А., Луцык, А.А.
Формат: Стаття
Мова:Russian
Опубліковано: Інститут кібернетики ім. В.М. Глушкова НАН України 2012
Назва видання:Кибернетика и системный анализ
Теми:
Онлайн доступ:http://dspace.nbuv.gov.ua/handle/123456789/84132
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Оценки надежности работы классификаторов на основании функции неподобия / Б.П. Русын, В.А. Таянов, А.А. Луцык // Кибернетика и системный анализ. — 2012. — Т. 48, № 4. — С. 132-141. — Бібліогр.: 15 назв. — рос.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-84132
record_format dspace
spelling irk-123456789-841322015-07-04T03:01:41Z Оценки надежности работы классификаторов на основании функции неподобия Русын, Б.П. Таянов, В.А. Луцык, А.А. Системный анализ Запропоновано підходи до обчислення верхніх оцінок вірогідності розпізнавання, що сприяють їх використанню для більш широкого класу моделей. Одна з оцінок стосується визначення стійкості покриття об’єктів класифікуючими алгоритмами на підставі розподілу відстаней між об’єктами, а інша — змінного контролю з виключенням по одному, що дає можливість значно простіше і швидше будувати оцінки. The approaches to calculating the upper-bound estimates of the recognition probability are proposed. This allows using them for a more general class of models. One of the estimates determines the stability of the object coverage by classification algorithms based on the distribution of the distances between objects. The second estimate is concerned with leave-one-out cross-validation. This makes the estimation much faster and easier. 2012 Article Оценки надежности работы классификаторов на основании функции неподобия / Б.П. Русын, В.А. Таянов, А.А. Луцык // Кибернетика и системный анализ. — 2012. — Т. 48, № 4. — С. 132-141. — Бібліогр.: 15 назв. — рос. 0023-1274 http://dspace.nbuv.gov.ua/handle/123456789/84132 004.93+519.2 ru Кибернетика и системный анализ Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Системный анализ
Системный анализ
spellingShingle Системный анализ
Системный анализ
Русын, Б.П.
Таянов, В.А.
Луцык, А.А.
Оценки надежности работы классификаторов на основании функции неподобия
Кибернетика и системный анализ
description Запропоновано підходи до обчислення верхніх оцінок вірогідності розпізнавання, що сприяють їх використанню для більш широкого класу моделей. Одна з оцінок стосується визначення стійкості покриття об’єктів класифікуючими алгоритмами на підставі розподілу відстаней між об’єктами, а інша — змінного контролю з виключенням по одному, що дає можливість значно простіше і швидше будувати оцінки.
format Article
author Русын, Б.П.
Таянов, В.А.
Луцык, А.А.
author_facet Русын, Б.П.
Таянов, В.А.
Луцык, А.А.
author_sort Русын, Б.П.
title Оценки надежности работы классификаторов на основании функции неподобия
title_short Оценки надежности работы классификаторов на основании функции неподобия
title_full Оценки надежности работы классификаторов на основании функции неподобия
title_fullStr Оценки надежности работы классификаторов на основании функции неподобия
title_full_unstemmed Оценки надежности работы классификаторов на основании функции неподобия
title_sort оценки надежности работы классификаторов на основании функции неподобия
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2012
topic_facet Системный анализ
url http://dspace.nbuv.gov.ua/handle/123456789/84132
citation_txt Оценки надежности работы классификаторов на основании функции неподобия / Б.П. Русын, В.А. Таянов, А.А. Луцык // Кибернетика и системный анализ. — 2012. — Т. 48, № 4. — С. 132-141. — Бібліогр.: 15 назв. — рос.
series Кибернетика и системный анализ
work_keys_str_mv AT rusynbp ocenkinadežnostirabotyklassifikatorovnaosnovaniifunkciinepodobiâ
AT taânovva ocenkinadežnostirabotyklassifikatorovnaosnovaniifunkciinepodobiâ
AT lucykaa ocenkinadežnostirabotyklassifikatorovnaosnovaniifunkciinepodobiâ
first_indexed 2025-07-06T11:05:11Z
last_indexed 2025-07-06T11:05:11Z
_version_ 1836895344193961984
fulltext ÓÄÊ 004.93+519.2 Á.Ï. ÐÓÑÛÍ, Â.À. ÒÀßÍÎÂ, À.À. ËÓÖÛÊ ÎÖÅÍÊÈ ÍÀÄÅÆÍÎÑÒÈ ÐÀÁÎÒÛ ÊËÀÑÑÈÔÈÊÀÒÎÐΠÍÀ ÎÑÍÎÂÀÍÈÈ ÔÓÍÊÖÈÈ ÍÅÏÎÄÎÁÈß Êëþ÷åâûå ñëîâà: âåðõíÿÿ îöåíêà âåðîÿòíîñòè ðàñïîçíàâàíèÿ, ñêîëüçÿùèé êîíò- ðîëü, óñòîé÷èâîñòü ïîêðûòèÿ îáúåêòîâ êëàññèôèöèðóþùèìè àëãîðèòìàìè, ðàñ- ïðåäåëåíèå ðàññòîÿíèé, ïðàâàÿ (ëåâàÿ) àñèììåòðèÿ, ìåòðèêà, êëàññ îáúåêòîâ. ÂÂÅÄÅÍÈÅ Â íàñòîÿùåå âðåìÿ îöåíêè âåðîÿòíîñòè ïðàâèëüíîãî ðàñïîçíàâàíèÿ áàçèðóþò- ñÿ íà àëãîðèòìàõ ñêîëüçÿùåãî êîíòðîëÿ (cross validation) [1]. Îäíàêî òàêèå àë- ãîðèòìû (èñêëþ÷åíèå ïî îäíîìó è äðóãèå) òðóäîåìêèå ñ òî÷êè çðåíèÿ âû÷èñ- ëåíèé è êîìáèíàòîðíûõ ïåðåãðóïïèðîâîê âûáîðêè. Ïîýòîìó íåîáõîäèìî ðàç- ðàáîòàòü ïîäõîäû ê ïîñòðîåíèþ âåðõíèõ îöåíîê íàèáîëüøåãî çíà÷åíèÿ ñðåäíåé âåðîÿòíîñòè ïðàâèëüíîãî ðàñïîçíàâàíèÿ äëÿ çíà÷èòåëüíî ìåíüøåãî ÷èñëà êîìáèíàòîðíûõ ïåðåãðóïïèðîâîê. Ýòî âîçìîæíî, ïîñêîëüêó îáó÷àþùèå äàííûå ïðàêòè÷åñêè âñåãäà ñîäåðæàò èçáûòîê èíôîðìàöèè, ÷òî ïðîÿâëÿåòñÿ â åå ÷àñòè÷íîì äóáëèðîâàíèè. Ñ òî÷êè çðåíèÿ ïåðåîáó÷åíèÿ, ïîñòðîåíèå âåðõ- íèõ îöåíîê îçíà÷àåò, ÷òî ïåðåä àëãîðèòìîì êëàññèôèêàöèè ïîñòàâëåíî íàèáî- ëåå ñëîæíóþ çàäà÷ó (ðàññìàòðèâàåòñÿ âûáîðêà, íà êîòîðîé äàííûé àëãîðèòì áóäåò îøèáàòüñÿ ÷àùå, ÷åì íà îñòàëüíûõ âûáîðêàõ èç ãåíåðàëüíîé ñîâîêóï- íîñòè), âêëþ÷àþùóþ â ñåáÿ ïðîèçâîëüíûå áîëåå ïðîñòûå ïîäâûáîðêè [1, 2], ò.å. îöåíêè íàèáîëüøåãî çíà÷åíèÿ ñðåäíåé âåðîÿòíîñòè ïðàâèëüíîãî ðàñïîçíàâà- íèÿ ìîäåëèðóþò êëàññèôèêàöèþ íàèáîëåå ñëîæíûõ ïîäâûáîðîê îáó÷àþùåé âûáîðêè. ×åì ìåíüøå âåðîÿòíîñòü ïîïàäàíèÿ â êîíòðîëüíóþ âûáîðêó áîëåå ñëîæíûõ ïîäâûáîðîê ïî ñðàâíåíèþ ñ òåìè, êîòîðûå âõîäèëè â îáó÷àþùóþ âû- áîðêó, òåì íàäåæíåå áóäåò îöåíêà. Âìåñòå ñ òåì ïðè ïîñòðîåíèè îöåíîê äëÿ ìàêñèìàëüíîãî çíà÷åíèÿ ñðåäíåé âåðîÿòíîñòè ïðàâèëüíîãî ðàñïîçíàâàíèÿ âñåé âûáîðêè, ñîâîêóïíîñòè ïîäâûáîðîê, à òàêæå ãðóïïû àëãîðèòìîâ îöåíèâàåòñÿ íàèáîëüøàÿ âåðîÿòíîñòü óñòîé÷èâîãî ïîêðûòèÿ êàæäîãî îáúåêòà â îòäåëüíîñ- òè. Ïîä âåðîÿòíîñòüþ óñòîé÷èâîãî ïîêðûòèÿ êàæäîãî îáúåêòà â îòäåëüíîñòè ïîíèìàåòñÿ âåðîÿòíîñòü åãî ïðàâèëüíîé êëàññèôèêàöèè ïðè èñïîëüçîâàíèè â ðÿäå ïîäâûáîðîê èç ãåíåðàëüíîé ñîâîêóïíîñòè îáúåêòîâ.  êàæäîì èç ýòèõ ñëó÷àåâ âåðîÿòíîñòü âû÷èñëÿåòñÿ êàê ñðåäíåâçâåøåííîå çíà÷åíèå âåðîÿòíîñòåé ïî îáúåêòàì ñ ó÷åòîì âåðîÿòíîñòè èõ ïîÿâëåíèÿ, à òàêæå èõ âàæíîñòè ëèáî ïî àëãîðèòìàì (â àëãîðèòìàõ ãîëîñîâàíèÿ âåñà ïðèñâàèâàþòñÿ àëãîðèòìàì â çàâèñèìîñòè îò íàäåæíîñòè èõ ýêñïåðòèçû [3]), ëèáî ïî îáîèì ôàêòîðàì. Òàêèì îáðàçîì, ïîëó÷àåòñÿ áîëåå òî÷íàÿ ïîëíàÿ îöåíêà ñâåðõó äëÿ ñðåäíåé âåðîÿòíîñòè ïðàâèëüíîãî ðàñïîçíàâàíèÿ.  òåîðèè ðàñïîçíàâàíèÿ îáðàçîâ òàêæå ïðèíÿòî îöåíèâàòü ñëîæíîñòü äàííûõ èìåííî ñ òî÷êè çðåíèÿ èõ êëàññèôèêàöèè.  ýòîì ñëó÷àå ñëîæíîñòü äàííûõ îöå- íèâàåòñÿ íà îñíîâàíèè áëèçîñòè êëàññîâ, ê êîòîðûì ýòè äàííûå ïðèíàäëåæàò, ôîðìû ãèïåðïîâåðõíîñòè èõ ïåðåñå÷åíèÿ, à òàêæå ôîðì èõ ñîáñòâåííûõ ïîâåð- õíîñòåé, êîëè÷åñòâà äàííûõ êëàññîâ, íàõîäÿùèõñÿ äîñòàòî÷íî áëèçêî ê ðàçäåëÿþ- ùåé ãèïåðïîâåðõíîñòè, è òåõ, êîòîðûå íàõîäÿòñÿ ïî äðóãóþ ñòîðîíó ðàçäåëÿþùåé ãèïåðïîâåðõíîñòè, ò.å. èìåþò îòðèöàòåëüíûé îòñòóï [4]. 132 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2012, ¹ 4 © Á.Ï. Ðóñûí, Â.À. Òàÿíîâ, À.À. Ëóöûê, 2012 ÏÎÑÒÀÍÎÂÊÀ ÇÀÄÀ×È Â íàñòîÿùåé ðàáîòå ñòàâèòñÿ îáùàÿ ïðîáëåìà ïîñòðîåíèÿ îöåíîê âåðîÿòíîñòè ïðàâèëüíîé êëàññèôèêàöèè îáúåêòîâ âûáîðîê, êîòîðàÿ õàðàêòåðèçóåò íàäåæ- íîñòü êëàññèôèêàöèè. Âíà÷àëå ðàññìàòðèâàåòñÿ çàäà÷à ïîñòðîåíèÿ îöåíîê âå- ðîÿòíîñòè ïðàâèëüíîé êëàññèôèêàöèè êàæäîãî îáúåêòà â îòäåëüíîñòè. Äàííàÿ âåðîÿòíîñòü îöåíèâàåòñÿ ïðè óñëîâèè, ÷òî èçâåñòíà ïðèíàäëåæíîñòü êàæäîãî ðàññìàòðèâàåìîãî îáúåêòà ê òîìó ëèáî èíîìó êëàññó, ò.å. ðàññìàòðèâàåòñÿ îáó- ÷àþùàÿ âûáîðêà. Ýòà âåðîÿòíîñòü ìîæåò áûòü îöåíåíà íà îñíîâàíèè ðàñïðåäå- ëåíèÿ îòñòóïîâ äëÿ ñîîòâåòñòâóþùèõ ìîäåëåé ëèáî ðàñïðåäåëåíèåì ðàññòîÿíèé ìåæäó îáúåêòàìè, â îáùåì ñëó÷àå ýòî îäíî è òî æå. Ïîäðîáíî äàííûå âîïðîñû ðàññìàòðèâàþòñÿ íèæå. Ñðåäíÿÿ âåðîÿòíîñòü ïðàâèëüíîé êëàññèôèêàöèè âñåé âûáîðêè îïðåäåëÿåòñÿ êàê ìàòåìàòè÷åñêîå îæèäàíèå îò óæå èçâåñòíûõ âåðîÿò- íîñòåé ïðàâèëüíîé êëàññèôèêàöèè êàæäîãî îáúåêòà â îòäåëüíîñòè. Ïðè ýòîì íå îáÿçàòåëüíî çíàòü àïðèîðíûå âåðîÿòíîñòè, êîòîðûå çà÷àñòóþ íåèçâåñòíû. Äàëåå, îñíîâûâàÿñü íà ïîëóêîëüöå èç îïåðàöèé ( , )min � [5], ìîæíî ïîêàçàòü, ÷òî ñðåäíåå îò âåðõíèõ îöåíîê ïðàâèëüíîé êëàññèôèêàöèè êàæäîãî îáúåêòà â îòäåëüíîñòè áóäåò âåðõíåé îöåíêîé ñðåäíåé âåðîÿòíîñòè ïðàâèëüíîé êëàññè- ôèêàöèè âñåõ îáúåêòîâ àíàëèçèðóåìîé âûáîðêè. Çàòåì ðàññìàòðèâàåòñÿ çàäà÷à âû÷èñëåíèÿ îöåíêè ïðàâèëüíîé êëàññèôèêàöèè â óñëîâèÿõ ñêîëüçÿùåãî êîíòðîëÿ.  [1] àíàëèçèðóåòñÿ ïîëíûé ñêîëüçÿùèé êîí- òðîëü. Îäíàêî ïðîâîäèòü åãî â óñëîâèÿõ áîëüøèõ âûáîðîê î÷åíü òðóäîåìêàÿ çàäà- ÷à ñ òî÷êè çðåíèÿ âû÷èñëåíèé. Ïîëíûé ñêîëüçÿùèé êîíòðîëü âêëþ÷àåò â ñåáÿ ìíîãîêðàòíóþ ïåðåãðóïïèðîâêó âûáîðêè ìåòîäàìè ñêîëüçÿùåãî êîíòðîëÿ ñ âîç- âðàòîì ïî îäíîìó, ñ âîçâðàòîì ïî k , îöåíèâàíèåì ïî áëîêàì ðàçìåðíîñòüþ q, à òàêæå èõ ïåðåãðóïïèðîâêîé [4].  ñâÿçè ñ ýòèì öåëü çàäà÷è — ðàçðàáîòàòü ìåòîä ïîñòðîåíèÿ âåðõíèõ îöåíîê äëÿ îöåíêè ïîëíîãî ñêîëüçÿùåãî êîíòðîëÿ, èñïîëüçóÿ ñêîëüçÿùèé êîíòðîëü ñ íåáîëüøèì ÷èñëîì ïåðåãðóïïèðîâîê âûáîðêè.  îáùåì ñëó÷àå èäåÿ, çàëîæåííàÿ â îñíîâó ïðåäëàãàåìîãî ïîäõîäà, ïðåäñòàâëÿåò ñîáîé îöåíêó çàâèñèìîñòè f x x( , )2 3 , åñëè çàäàíû çàâèñèìîñòè f x x( , )1 2 è f x x( , )1 3 . Êàê ïðàâèëî, ðåøèòü ýòó çàäà÷ó íå ïðåäñòàâëÿåòñÿ âîçìîæíûì, ïîýòîìó çäåñü îïèñàíû ðåøåíèÿ ëèøü äëÿ ÷àñòíûõ ñëó÷àåâ. Ïîñêîëüêó â äàííîé ðàáîòå ðàñ- ñìàòðèâàþòñÿ ìåòðè÷åñêèå êëàññèôèêàòîðû, ïðåäëîæåí âàðèàíò ðåøåíèÿ çàäà÷è ñ ïîìîùüþ íåðàâåíñòâà òðåóãîëüíèêà, ÷òî â îáùåì ñëó÷àå ïðåäñòàâëÿåò ñîáîé íåðàâåíñòâî Êîøè–Øâàðöà [6]. ÂÀÆÍÛÅ ÇÀÄÀ×È ÒÅÎÐÈÈ ÌÀØÈÍÍÎÃÎ ÎÁÓ×ÅÍÈß Â ñîâðåìåííîé òåîðèè ìàøèííîãî îáó÷åíèÿ ñóùåñòâóåò äâå ñåðüåçíûå ïðîáëåìû: ïîëó÷åíèå òî÷íûõ âåðõíèõ îöåíîê âåðîÿòíîñòè íåæåëàòåëüíîãî ïåðåîáó÷åíèÿ è ñïîñîáîâ åãî óñòðàíåíèÿ. Ïîä ïåðåîáó÷åíèåì àëãîðèòìà ðàñïîçíàâàíèÿ ïîäðàçó- ìåâàåòñÿ ðàçíîñòü ìåæäó âåðîÿòíîñòÿìè ïðàâèëüíîãî ðàñïîçíàâàíèÿ ïðè êîíòðîëå è îáó÷åíèè. Îöåíèâàåòñÿ âåðîÿòíîñòü òîãî, ÷òî ïåðåîáó÷åíèå íå ïðåâûñèò çàäàí- íûé âåðîÿòíîñòíûé ïîðîã �. Íà äàííûé ìîìåíò íàèáîëåå òî÷íûå îöåíêè ñèëü- íî çàâûøåíû. Ýêñïåðèìåíòàëüíî óäàëîñü óñòàíîâèòü ïðè÷èíû ýòîãî.  ïîðÿäêå óìåíüøåíèÿ âëèÿíèÿ íàèáîëåå ñóùåñòâåííûìè èç íèõ ÿâëÿþòñÿ ñëåäóþùèå [1]. � Ïðåíåáðåæåíèå ýôôåêòîì ðàññëîåíèÿ èëè ëîêàëèçàöèè ñåìåéñòâà àë- ãîðèòìîâ. Äàííàÿ ïðîáëåìà îáóñëàâëèâàåòñÿ òåì, ÷òî ðåàëüíî ðàáîòàåò íå âñå ìíîæåñòâî àëãîðèòìîâ, à òîëüêî îïðåäåëåííàÿ åãî ÷àñòü, çàâèñÿùàÿ îò çàäà÷è. Êîýôôèöèåíò çàâûøåííîñòè — îò íåñêîëüêèõ äåñÿòêîâ äî ñîòåí òûñÿ÷. � Ïðåíåáðåæåíèå ñõîäñòâîì àëãîðèòìîâ. Êîýôôèöèåíò çàâûøåííîñòè — îò íåñêîëüêèõ ñîòåí äî äåñÿòêîâ òûñÿ÷ ðàç. Ýòîò ôàêòîð âñåãäà ñóùåñòâåíåí è ìåíüøå çàâèñèò îò çàäà÷è, ÷åì ïåðâûé. � Ýêñïîíåíöèàëüíàÿ àïïðîêñèìàöèÿ «õâîñòà» ãèïåðãåîìåòðè÷åñêîãî ðàñ- ïðåäåëåíèÿ. Êîýôôèöèåíò çàâûøåííîñòè ìîæåò ñîñòàâëÿòü íåñêîëüêî äåñÿòêîâ. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2012, ¹ 4 133 � Ïðåäñòàâëåíèå âåðõíåé îöåíêè ïðîôèëÿ ðàçíîîáðàçèÿ îäíèì ñêàëÿð- íûì êîýôôèöèåíòîì ðàçíîîáðàçèÿ. Êîýôôèöèåíò çàâûøåííîñòè ÷àñòî ïîðÿä- êà åäèíèöû, îäíàêî â íåêîòîðûõ ñëó÷àÿõ ìîæåò äîñòèãàòü íåñêîëüêèõ äåñÿòêîâ. Ýôôåêò ïåðåîáó÷åíèÿ ñîñòîèò â òîì, ÷òî èñïîëüçóåòñÿ àëãîðèòì ñ ìèíè- ìàëüíûì ÷èñëîì îøèáîê íà îáó÷àþùåé âûáîðêå, ò.å. ïðîâîäèòñÿ îäíîñòîðîííÿÿ íàñòðîéêà àëãîðèòìîâ. Ïåðåîáó÷åíèå òåì áîëüøå, ÷åì áîëüøàÿ êîìïîçèöèÿ àë- ãîðèòìîâ èñïîëüçóåòñÿ. Ýòî ñïðàâåäëèâî äëÿ àëãîðèòìîâ, âçÿòûõ èç ðàñïðåäåëå- íèÿ ñëó÷àéíî è íåçàâèñèìî.  ñëó÷àå çàâèñèìîñòè àëãîðèòìîâ (â ðåàëüíîé ñèòóà- öèè îíè, êàê ïðàâèëî, òàêèìè è ÿâëÿþòñÿ) äîïóñêàåòñÿ óìåíüøåíèå ïåðåîáó÷å- íèÿ. Îíî ìîæåò âîçíèêíóòü äàæå ïðè âûáîðå âñåãî îäíîãî èç äâóõ àëãîðèòìîâ. Ðàññëîåíèå àëãîðèòìîâ ïî ÷èñëó îøèáîê è óâåëè÷åíèå èõ ïîäîáèÿ óìåíüøàþò âåðîÿòíîñòü ïåðåîáó÷åíèÿ. Ðàññìîòðèì äóïëåò âûáîðêà–àëãîðèòì. Êàæäûé àëãîðèòì ïîêðûâàåò îïðå- äåëåííîå ÷èñëî îáúåêòîâ îáó÷àþùåé âûáîðêè. Åñëè èñïîëüçîâàòü âíóòðåííèå êðèòåðèè [7] (íàïðèìåð, â ñëó÷àå ìåòðè÷åñêèõ êëàññèôèêàòîðîâ), òî ìîæíî îöå- íèòü óñòîé÷èâîñòü ýòîãî ïîêðûòèÿ è ñóçèòü ÷èñëî ïîêðûòûõ îáúåêòîâ ñîãëàñíî çàäàííîìó óðîâíþ óñòîé÷èâîñòè. Òàêèì îáðàçîì, äëÿ òîãî ÷òîáû ïîêðûòü áîëü- øåå ÷èñëî îáúåêòîâ, íåîáõîäèìî ïðèìåíèòü áîëüøåå ÷èñëî àëãîðèòìîâ. Ýòè àë- ãîðèòìû äîëæíû áûòü ïîõîæèìè è èìåòü ðàçíûé óðîâåíü îøèáîê. Ýòî íàèëó÷- øèå ñîâðåìåííûå ñòðàòåãèè ïîñòðîåíèÿ êîìïîçèöèè àëãîðèòìîâ [1]. Îäíàêî ïðè èñïîëüçîâàíèè òåñòîâûõ äàííûõ, ê êîòîðûì êîìïîçèöèÿ àëãîðèòìîâ íåàäàïòè- ðîâàíà, îøèáêà êëàññèôèêàöèè ìîæåò ñèëüíî îòëè÷àòüñÿ îò ìèíèìàëüíîé, ïîëó- ÷åííîé íà îáó÷àþùèõ äàííûõ. ÏÎÑÒÐÎÅÍÈÅ ÎÖÅÍÎÊ ÂÅÐÎßÒÍÎÑÒÍÎÉ ÓÑÒÎÉ×ÈÂÎÑÒÈ ÏÎÊÐÛÒÈß ÎÁÚÅÊÒΠÀËÃÎÐÈÒÌÀÌÈ ÒÈÏÀ kNN ÄËß ÎÄÈÍÎ×ÍÛÕ ÈÑÏÛÒÀÍÈÉ Êà÷åñòâî ðàáîòû êëàññèôèêàòîðîâ, ïîñòðîåííûõ íà îñíîâàíèè ðàíãîâîãî ãîëîñî- âàíèÿ è ñ èñïîëüçîâàíèåì ðàçäåëÿþùèõ ãèïåðïëîñêîñòåé (R-ìîäåëåé [3, c. 13]), ïðèíÿòî õàðàêòåðèçîâàòü ïîíÿòèåì îòñòóïà (margin), ïðåäñòàâëÿþùåì ðàññòîÿ- íèå îáúåêòà îò ðàçäåëÿþùåé ãèïåðïëîñêîñòè [4]. ×åì áîëüøèé îòñòóï, òåì ëó÷øèì ñ÷èòàåòñÿ êëàññèôèêàòîð. Ïîíÿòèå îòñòóïà ïðèìåíèìî ê êëàññèôèêà- òîðàì, ïîñòðîåííûì ñ ïîìîùüþ R-ìîäåëåé, à òàêæå íà îñíîâàíèè ôóíêöèè ïîäîáèÿ. Ê ïîñëåäíèì îòíîñÿòñÿ âñå ìåòðè÷åñêèå êëàññèôèêàòîðû. Îäíàêî åñëè âñå îáúåêòû èëè ïîäàâëÿþùåå èõ áîëüøèíñòâî èìåþò ïðèáëèçèòåëüíî îäèíàêîâûé îòñòóï è ãðóïïèðóþòñÿ îäèí âîçëå äðóãîãî, òî â ýòîì ñëó÷àå ðåç- êî ïàäàåò èõ èíôîðìàòèâíîñòü. Ýòî çíà÷èò, ÷òî âìåñòî âñåõ îáúåêòîâ ìîæíî îñòàâèòü îäèí èëè íåñêîëüêî, èñïîëüçóåìûõ äëÿ îáó÷åíèÿ. Òàêîé ïîäõîä ïî- ðîæäàåò îäíó èç ãëàâíûõ ïðè÷èí, îáóñëàâëèâàþùèõ ïåðåîáó÷åíèå. Îäíîñòî- ðîííÿÿ íàñòðîéêà àëãîðèòìà íà îñíîâàíèè áëèçêîé ïî ñóùíîñòè îáó÷àþùåé èíôîðìàöèè ïðèâîäèò ê òîìó, ÷òî íà êîíòðîëüíîé âûáîðêå îí ìîæåò ÷àñòî îøèáàòüñÿ, äàæå åñëè íå îøèáàëñÿ íà îáó÷àþùåé âûáîðêå. Äåéñòâèòåëüíî, âåðîÿòíîñòü òîãî, ÷òî â óñëîâèÿõ îáó÷àþùåé âûáîðêè âîçìîæíà òàêàÿ æå ñè- òóàöèÿ, áëèçêà ê íóëþ. Ïîýòîìó äëÿ îáó÷åíèÿ ïðèíÿòî èñïîëüçîâàòü íåïîõîæèå è «òðóäíûå» äëÿ àëãîðèòìà îáúåêòû ñ ìàëûìè çíà÷åíèÿìè îòñòóïà. Ýòà èäåÿ ïðèìåíÿåòñÿ, â ÷àñò- íîñòè, â ìåòîäå îïîðíûõ âåêòîðîâ (Support Vector Machine) èëè ìåòîäå âçâåøåí- íîãî ãîëîñîâàíèÿ [3]. Èñïîëüçóåì îáîáùåííûé ïîäõîä äëÿ õàðàêòåðèñòèêè êëàñ- ñèôèêàòîðîâ íà îñíîâàíèè ïîíÿòèÿ îòñòóïà. Ðåçóëüòàòîì ðàáîòû ìåòðè÷åñêèõ êëàññèôèêàòîðîâ ÿâëÿþòñÿ ðàíæèðîâàííûå äàííûå (îáúåêòû áàçû äàííûõ, ñîð- òèðîâàííûå ïî ñòåïåíè ïîäîáèÿ òåñòîâîìó îáúåêòó ). Äëÿ òàêèõ êëàññèôèêàòî- ðîâ ïîíÿòèå îòñòóïà ïðåäñòàâëÿåòñÿ ñëåäóþùèì îáðàçîì. Ââîäèòñÿ ýêâèâàëåíò- íàÿ êëàññè÷åñêîìó îòñòóïó õàðàêòåðèñòèêà, êîòîðàÿ ìîæåò áûòü ïðåäñòàâëåíà êàê íîðìèðîâàííîå ðàññòîÿíèå îò òåñòîâîãî îáúåêòà äî óñðåäíåííîãî îáúåêòà 134 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2012, ¹ 4 áàçû äàííûõ èëè ïîñëåäíåãî îáúåêòà èç îäíîðîäíîé (ñòðàòåãè÷åñêîé) [8] ïîñëå- äîâàòåëüíîñòè «ñâîèõ» îáúåêòîâ. Äîïóñêàåòñÿ, ÷òî õîòÿ áû ÷àñòü «ñâîèõ» îáúåê- òîâ ðàçìåùàåòñÿ â íà÷àëå ñïèñêà âîçìîæíûõ ïðåòåíäåíòîâ. Òàêèì îáðàçîì, ãà- ðàíòèðóåòñÿ êîððåêòíîñòü äîïóùåíèÿ. Äëÿ áîëåå ñòðîãîãî îïðåäåëåíèÿ äàííîé õàðàêòåðèñòèêè íåîáõîäèìî ââåñòè ïîíÿòèå ðàñïðåäåëåíèÿ ðàññòîÿíèé ìåæäó îáúåêòàìè. Èçâåñòíî, ÷òî ïðîöåññ ñ íå- çàâèñèìûìè ïðèðàùåíèÿìè [9] èìååò íîðìàëüíîå ðàñïðåäåëåíèå ñ íóëåâûì ñðåä- íèì è ëèíåéíî èçìåíÿþùåéñÿ äèñïåðñèåé. Êàæäîå ñëåäóþùåå ïðèðàùåíèå áóäåò èìåòü áîëüøóþ äèñïåðñèþ, ÷åì ïðåäûäóùåå. Ñîâîêóïíîñòü ðàññòîÿíèé â ïðèçíà- êîâîì ïðîñòðàíñòâå îò ïðîèçâîëüíîãî îáúåêòà äî âñåõ îñòàëüíûõ ÿâëÿåòñÿ àíàëî- ãîì ïðîöåññà ñ íåçàâèñèìûìè ïðèðàùåíèÿìè, åñëè ðàññìàòðèâàòü ïîïàðíûå ðàñ- ñòîÿíèÿ ìåæäó îáúåêòàìè âûáîðêè, äèñïåðñèÿ êîòîðîãî îãðàíè÷èâàåòñÿ çàìêíó- òîñòüþ ïðèçíàêîâîãî ïðîñòðàíñòâà. Ðàñïðåäåëåíèå ðàññòîÿíèé ñóùåñòâóåò, ïîñêîëüêó ñóùåñòâóåò ðàñïðåäåëåíèå íåçàâèñèìûõ ïðèðàùåíèé [9]. Ïîñêîëüêó ïðîèçâîëüíîå ðàññòîÿíèå — ýòî âñåãäà ïîëîæèòåëüíàÿ âåëè÷èíà, òî åå ìàòåìàòè- ÷åñêîå îæèäàíèå áîëüøå íóëÿ, åñëè îíî íå ðàâíî íóëþ. ×òîáû ïåðåéòè ê íîðìàëüíîìó ðàñïðåäåëåíèþ ñ íóëåâûì ìàòåìàòè÷åñêèì îæèäàíèåì, íåîáõîäèìî ñäåëàòü ñäâèã âëåâî âñåãî ðàñïðåäåëåíèÿ íà âåëè÷èíó, ðàâíóþ ìàòåìàòè÷åñêîìó îæèäàíèþ. Çàêîí ðàñïðåäåëåíèÿ ñîâîêóïíîñòè ðàññòî- ÿíèé îïðåäåëÿåòñÿ ñîãëàñíî öåíòðàëüíîé ïðåäåëüíîé òåîðåìå, èç êîòîðîé ñëåäóåò, ÷òî ñóììà ïðîèçâîëüíûõ ñëó÷àéíûõ âåëè÷èí áóäåò èìåòü àñèìïòîòè- ÷åñêè íîðìàëüíîå ðàñïðåäåëåíèå [10]. Ìàòåìàòè÷åñêîå îæèäàíèå è äèñïåðñèþ ïëîòíîñòè ðàñïðåäåëåíèÿ âåðîÿòíîñòåé ìîæíî îöåíèòü, íàïðèìåð, ìåòîäîì ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ [11]. Ïîñêîëüêó çíà÷åíèÿ ðàññòîÿíèé ìîãóò áûòü ïðîèçâîëüíûìè ïî ìîäóëþ, òî ïðîöåäóðà íåïàðàìåòðè÷åñêîãî îöåíèâàíèÿ ôîðìû çàêîíà ðàñïðåäåëåíèÿ íåóñå- ÷åííûìè ÿäåðíûìè ôóíêöèÿìè áóäåò êîððåêòíîé. Ïóñòü íåïàðàìåòðè÷åñêè îöåíåíà ïëîòíîñòü ðàñïðåäåëåíèÿ ðàññòîÿíèé ìåæ- äó îáúåêòàìè, çàäàííûìè âåêòîðàìè x è y : ( )p x , x d� ( , )x y . Ñîãëàñíî íåðàâåí- ñòâó ×åáûøåâà [12] âåðîÿòíîñòü òîãî, ÷òî íàéäåòñÿ ðàññòîÿíèå, ïðåâûøàþùåå íåêîòîðîå ïîðîãîâîå çíà÷åíèå ðàññòîÿíèé � , ðàâíà p x dx x ( ) | |� � � � � � 2 2 . Ðàññìîòðèì ñëó÷àé ðàâåíñòâà ìàòåìàòè÷åñêîãî îæèäàíèÿ è ìîäû ðàñïðåäå- ëåíèÿ p x( ). Âåðõíèé ïðåäåë îäíîìîäàëüíîãî ðàñïðåäåëåíèÿ ñ ìîäîé � � 0 íåðà- âåíñòâîì Ãàóññà [13] ïðåäñòàâëÿåòñÿ â âèäå P x(| | ) � �� �� � 4 9 2 , (1) ãäå � � � �2 2 0 2 � ( ) . Ïóñòü � �� �0 0 è � � . Òîãäà ïîðîã � �� ��� � , à � � �� / . Èòàê, íåðàâåí- ñòâî Ãàóññà äëÿ ïîðîãà � ìîæåò áûòü ïðåäñòàâëåíî â âèäå p x dx x ( ) | |� � � � � � 4 9 2 2 . (2) Òàêèì îáðàçîì, ñîãëàñíî íåðàâåíñòâó Ãàóññà äëÿ îäíîìîäàëüíûõ ðàñïðåäåëåíèé ñ ìîäîé, ðàâíîé ìàòåìàòè÷åñêîìó îæèäàíèþ, îöåíêà â 2,25 ðàçà ëó÷øå òîé, êî- òîðàÿ ïîëó÷àåòñÿ ñîãëàñíî íåðàâåíñòâó ×åáûøåâà. Ýòî ìàêñèìàëüíî õîðîøàÿ îöåíêà ïðè óñëîâèè, ÷òî íåèçâåñòåí êîíêðåòíûé âèä ðàñïðåäåëåíèÿ, à èçâåñòíû ëèøü îïðåäåëåííûå åãî ñâîéñòâà. Ïðè ñèììåòðè÷íîñòè îäíîìîäàëüíîãî ðàñïðå- äåëåíèÿ ìîäà ðàâíà ìàòåìàòè÷åñêîìó îæèäàíèþ, à â ÷àñòíîì ñëó÷àå íîðìèðî- âàííîñòè îáà ïàðàìåòðà ðàâíû íóëþ. Îäíàêî â îáùåì ñëó÷àå èíîãäà ðåàëüíûé çàêîí ðàñïðåäåëåíèÿ íå ÿâëÿåòñÿ ñèììåòðè÷íûì. Ïðè ýòîì âîçìîæíà ëåâàÿ ëèáî ïðàâàÿ àñèììåòðèÿ ôóíêöèè ïëîòíîñòè ðàñïðåäåëåíèÿ âåðîÿòíîñòåé (ÔÏÐÂ). ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2012, ¹ 4 135 ÏÎÑÒÐÎÅÍÈÅ ÎÖÅÍÎÊ ÂÅÐÎßÒÍÎÑÒÈ ÓÑÒÎÉ×ÈÂÎÃÎ ÏÎÊÐÛÒÈß ÎÁÚÅÊÒΠÀËÃÎÐÈÒÌÀÌÈ ÒÈÏÀ kNN ÄËß ÎÏÐÅÄÅËÅÍÍÛÕ ÊËÀÑÑΠÐÀÑÏÐÅÄÅËÅÍÈÉ ÐÀÑÑÒÎßÍÈÉ ÌÅÆÄÓ ÎÁÚÅÊÒÀÌÈ Ðàçäåëèì ÔÏРíà äâå ÷àñòè: íàõîäÿùèåñÿ ñïðàâà è ñëåâà îò ìàêñèìóìà. Åñëè ïëîùàäü ïîä ïðàâîé ÷àñòüþ ÔÏРáîëüøå ëåâîé, òî ñ÷èòàåòñÿ, ÷òî ýòî ïðàâàÿ àñèììåòðèÿ, à åñëè íàîáîðîò, òî ëåâàÿ (ðèñ. 1, à è á ñîîòâåòñòâåííî). Ðàññìîòðèì îöåíêè, ïîëó÷åííûå ñ ïîìîùüþ íåðàâåíñòâà Ãàóññà äëÿ îáîèõ ñëó÷àåâ. Äëÿ ïðàâîé àñèììåòðèè ñäåëàåì ðàñïðåäåëåíèå ñèììåòðè÷íûì îòíî- ñèòåëüíî ëåâîé ÷àñòè, ò.å. ëåâóþ ÷àñòü îñòàâëÿåì áåç èçìåíåíèé è îòîáðàæàåì åå ñèììåòðè÷íî âìåñòî èñõîäíîé ïðàâîé ÷àñòè. Ïóñòü íåêîòîðàÿ òî÷êà x0 ïðèíàäëåæèò ëåâîé ÷àñòè ðàñïðåäåëåíèÿ. Òîãäà ôóíêöèÿ ðàñïðåäåëåíèÿ âåðî- ÿòíîñòåé (ÔÐÂ) P X x( )� 0 äëÿ ñèììåòðè÷íîãî ñëó÷àÿ âñåãäà áîëüøå äëÿ êàæ- äîé òî÷êè â ëåâîé ÷àñòè ÔÐÂ, íåæåëè â èñõîäíîì ñëó÷àå. Íàñ èíòåðåñóþò ïåðâûå îáúåêòû â ñïèñêå âîçìîæíûõ ïðåòåíäåíòîâ, ñîîòâåòñòâóþùèå ëåâîé ÷àñòè ðàñïðåäåëåíèÿ. Èìåííî ýòî äàåò îñíîâàíèå äëÿ èñêóññòâåííîé ñèììåò- ðèçàöèè çàêîíà ðàñïðåäåëåíèÿ, ÿâëÿþùåãîñÿ â îáùåì ñëó÷àå àñèììåòðè÷íûì. Ïðè ýòîì ÔРáóäåò âåðõíåé îöåíêîé äëÿ îøèáêè ðàñïîçíàâàíèÿ. Ïðîàíàëèçèðóåì ïîëó÷åííûé ðåçóëüòàò. Ïðåäâàðèòåëüíî îòìåòèì, ÷òî äëÿ ëó÷øåãî ïîíèìàíèÿ ïðåäëîæåííîãî ïðèåìà, à òàêæå îáëåã÷åííîé èíòåðïðåòàöèè ðåçóëüòàòîâ íåò íåîáõîäèìîñòè â íîðìèðîâêå ÔÏРê åäèíè÷íîé ïëîùàäè. Îòìåòèì, ÷òî îöåíêà äèñïåðñèè ìîæåò áûòü ïðîâåäåíà òîëüêî ïî îäíîé ÷àñòè ðàñïðåäåëåíèÿ (â äàííîì ñëó÷àå — ëåâîé). Ýòî ñâÿçàíî ñ òåì, ÷òî îáúåêòû ÷àñòè ðàñïðåäåëåíèÿ, êîòîðûå íå ó÷àñòâóþò â îïðåäåëåíèè îöåíêè äèñïåðñèè, çíà÷è- òåëüíî óäàëåíû îò çîíû ïðèíÿòèÿ ðåøåíèé (â äàííîì ñëó÷àå — ïåðâûõ îáúåêòîâ â ñïèñêå âîçìîæíûõ ïðåòåíäåíòîâ) è íå îêàçûâàþò ñóùåñòâåííîãî âëèÿíèÿ íà ïðèíèìàåìîå ðåøåíèå. Óìåíüøåíèå åäèíè÷íîé ïëîùàäè ñâèäåòåëüñòâóåò î òîì, ÷òî ìû ïîëó÷àåì áîëåå òî÷íóþ îöåíêó, íåæåëè ïî âñåìó ðàñïðåäåëåíèþ. Óâåëè- ÷åíèå ïëîùàäè, íàîáîðîò, ñâèäåòåëüñòâóåò îá óõóäøåíèè îöåíêè. Îñîáûé èíòåðåñ ïðåäñòàâëÿþò îòêëîíåíèÿ ðàññòîÿíèé âëåâî îò ìàòåìàòè÷åñ- êîãî îæèäàíèÿ ïðè èñïîëüçîâàíèè k NN êëàññèôèêàòîðîâ ñ íåáîëüøèìè çíà÷åíèÿ- ìè k. Ïîñêîëüêó îöåíêà äèñïåðñèè ÔÏРäëÿ ïîñòðîåíèÿ îöåíêè Ãàóññà ïðîâîäè- ëàñü ïî ëåâîé ÷àñòè ðàñïðåäåëåíèÿ, òî î÷åâèäíî, ÷òî ýòà îöåíêà â ñëó÷àå ñèììåò- ðè÷íîé ÔÏРìåíüøå èñõîäíîé, ÷òî äåëàåò îöåíêó áîëåå òî÷íîé. Ê òîìó æå ñèììåòðèÿ ïîçâîëÿåò ñäåëàòü îöåíêó Ãàóññà ìàêñèìàëüíî òî÷íîé ñîãëàñíî íåðàâåí- ñòâó (2), à âñå âìåñòå ïîçâîëÿåò ñóùåñòâåííî óëó÷øèòü îáùóþ âåðõíþþ îöåíêó. 136 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2012, ¹ 4 Ðèñ. 1 x0 �0 � x0 p x( ) p x( ) x x0 � �0 à á Ðàññìîòðèì ÔÏРâ ñëó÷àå ëåâîé àñèììåòðèè. Òåïåðü äèñïåðñèÿ ñèììåòðè- çèðîâàííîé ÔÏРáóäåò áîëüøå èñõîäíîé, à åäèíñòâåííûì ïðåèìóùåñòâîì òàêî- ãî ïðåîáðàçîâàíèÿ áóäåò ñèììåòðèÿ âíîâü ïîëó÷åííîãî çàêîíà ðàñïðåäåëåíèÿ.  äàííîì ñëó÷àå òàêæå íåò íåîáõîäèìîñòè â íîðìèðîâêå ÔÏÐÂ. Óâåëè÷åíèå ïëî- ùàäè ïîä êðèâîé îçíà÷àåò, ÷òî âêëþ÷åíû äîïîëíèòåëüíûå îáúåêòû, êîòîðûå íå ó÷àñòâóþò â ðàñïîçíàâàíèè. Ýòî óõóäøàåò îöåíêó Ãàóññà, ïîñêîëüêó âîçðîñëî çíà- ÷åíèå îöåíåííîé äèñïåðñèè. Ðåøåíèå î òîì, êàêóþ îöåíêó èñïîëüçîâàòü — ñ ïðå- îáðàçîâàíèåì ñèììåòðèè èëè ïî èñõîäíîìó ðàñïðåäåëåíèþ, íåîáõîäèìî ïðèíè- ìàòü, èìåÿ çíà÷åíèÿ ìàòåìàòè÷åñêîãî îæèäàíèÿ, ìîäû è äèñïåðñèè îáåèõ ÔÏÐÂ. Ïðîàíàëèçèðóåì ñâÿçü îöåíêè Ãàóññà ñî çíà÷åíèÿìè ÔРP X x( )� 0 . Ïðà- âàÿ ÷àñòü ðàñïðåäåëåíèÿ íå ïðåäñòàâëÿåò èíòåðåñà, ïîýòîìó åñëè âìåñòî îöåíêè Ãàóññà âçÿòü ÔÐÂ, òî ýòî áóäåò âåðõíåé îöåíêîé ïî îòíîøåíèþ ê èñõîäíîé îöåí- êå. Ïðè ýòîì íå èìåþò çíà÷åíèÿ íè âèä àñèììåòðèè, íè ñàìà àñèììåòðèÿ â ÔÏÐÂ. Èòàê, âåðõíÿÿ îöåíêà çíà÷åíèÿìè ÔРïî îòíîøåíèþ ê îöåíêå Ãàóññà êàñàåòñÿ êàê ñèììåòðè÷íûõ, òàê è àñèììåòðè÷íûõ ÔÏÐÂ. Çàâûøåííîñòü îöåíêè Ãàóññà ïî îòíîøåíèþ ê çíà÷åíèÿì ÔÐÂ, áåçóñëîâíî, êîìïåíñèðóåòñÿ ëèøü â ñëó÷àå ïðàâîé àñèììåòðèè.  ñëó÷àå ëåâîé àñèììåòðèè ñòåïåíü êîìïåíñàöèè çàâèñèò îò ñîîòíîøåíèÿ ìåæäó çíà÷åíèÿìè äèñïåðñèè è ðàçíèöû | |� � 0 . Åñëè ÔÏРíå èìååò ÷åòêî âûðàæåííîé ñòðóêòóðû (ñóùåñòâîâàíèå ýêñòðå- ìóìà, ñèììåòðèÿ, ïðàâàÿ àñèììåòðèÿ), òî ìîæíî âîñïîëüçîâàòüñÿ íåïàðàìåòðè- ÷åñêèì îöåíèâàíèåì, â ðåçóëüòàòå êîòîðîãî ïîëó÷àåì íåïðåðûâíóþ ÔÏÐÂ. Ýòó ôóíêöèþ ìîæíî èíòåãðèðîâàòü è äèôôåðåíöèðîâàòü ïî îïðåäåëåíèþ. Ïîñêîëü- êó íîðìàëüíàÿ ÔÏРõàðàêòåðèçóåòñÿ ìèíèìàëüíîé îøèáêîé êëàññèôèêàöèè äëÿ äàííîãî ïîðîãà � è íå ïðåâûøàåò 4 9 2 2 � � [13, 14] â ñëó÷àå îäíîìîäàëüíîé ñèì- ìåòðè÷íîé ÔÏРëèáî ÔÏРñ ïðàâîé àñèììåòðèåé, äâóñòîðîííåå íåðàâåíñòâî äëÿ äàííîé îøèáêè ðàñïîçíàâàíèÿ çàïèøåì 0 5 1 4 9 2 2 , � � � � � � �� � � �� � �erf � � � � � , (3) ãäå � � 0 . Ïðîàíàëèçèðóåì îáùóþ âîçìîæíóþ ôîðìó ïîòåíöèàëüíî ïîëó÷àåìûõ ÔÏРðàññòîÿíèé ìåæäó îáúåêòàìè. Âñå ðàñïðåäåëåíèÿ áóäóò èìåòü ýêñòðåìó- ìû, ïîñêîëüêó ÔÏРñóùåñòâóåò íà èíòåðâàëå [ , )0 � , à ïëîòíîñòü â îêðåñòíîñòè íóëÿ è äëÿ áîëüøèõ ðàññòîÿíèé íå ìîæåò áûòü âûñîêîé, òàê êàê ýòè ñîáûòèÿ ìà- ëîâåðîÿòíû. Ïðàâàÿ àñèììåòðèÿ (ñì. ðèñ. 1, à) áîëåå âåðîÿòíàÿ, ïîñêîëüêó ÔÏРðàññòîÿíèé îãðàíè÷åíà íóëåì è íå èìååò ñòðîãèõ îãðàíè÷åíèé. ÎÖÅÍÊÈ ÂÅÐÎßÒÍÎÑÒÍÎÉ ÓÑÒÎÉ×ÈÂÎÑÒÈ ÏÎÊÐÛÒÈß ÎÁÚÅÊÒΠÀËÃÎÐÈÒÌÀÌÈ ÒÈÏÀ kNN  ÓÑËÎÂÈßÕ ÄÂÓÕ ÊËÀÑÑÎÂ, ÈÌÅÞÙÈÕ ÇÀÄÀÍÍÛÅ ÐÀÇÌÅÐÛ Ðàññìîòðèì ðàñïðîñòðàíåííóþ çàäà÷ó êëàññèôèêàöèè â óñëîâèÿõ äâóõ êëàññîâ. Îáîçíà÷èì ðàçìåðû êëàññîâ s1 è s2 . Òîãäà åñëè âåðîÿòíîñòü çàìåùåíèÿ îáúåêòà èç êëàññà ðàçìåðîì s1 â ïðåäåëàõ äîâåðèòåëüíîãî èíòåðâàëà ðàâíà �1, òî âåðîÿò- íîñòü íåçàìåùåíèÿ îáúåêòîâ èç ýòîãî æå êëàññà îáúåêòàìè èç êëàññà ðàçìåðîì s2 ðàâíà ( )1 1 2 � s ïðè óñëîâèè íåçàâèñèìîñòè îáúåêòîâ [15]. Äëÿ äðóãîãî êëàñ- ñà ïðè ñîîòâåòñòâóþùèõ èçìåíåíèÿõ â îáîçíà÷åíèÿõ ýòà âåðîÿòíîñòü ðàâíà ( )1 2 1 � s . Åñëè ââåñòè íåêîòîðûé âèðòóàëüíûé êëàññ è äîïóñòèòü, ÷òî çàìåùå- íèå ïðîèçâîëüíîãî îáúåêòà ýòîãî êëàññà îáúåêòàìè èç óïîìÿíóòûõ äâóõ êëàññîâ ÿâëÿåòñÿ äîñòîâåðíûì ñîáûòèåì, òî ìîæíî çàïèñàòü ñëåäóþùåå óðàâíåíèå: � � �(( ) ( ) )1 1 11 2 2 1 � �s s , (4) îòêóäà ìíîæèòåëü ïðîïîðöèîíàëüíîñòè � âû÷èñëÿåòñÿ òðèâèàëüíî. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2012, ¹ 4 137 Èíîãäà èìåþò ìåñòî ñèòóàöèè, êîãäà ðàññòîÿíèÿ ìåæäó îáúåêòàìè ðàâíû íóëþ. Ïðè ýòîì íåïàðàìåòðè÷åñêè îöåíåííîå ðàñïðåäåëåíèå îäíîãî èç êëàññîâ ìîæåò èìåòü ìàêñèìóì â òî÷êå, ñîîòâåòñòâóþùåé íóëåâîìó ðàññòîÿíèþ. Ïóñòü ïëîòíîñòè ðàñïðåäåëåíèé â íóëåâîé òî÷êå ðàâíû p1 0( ) è p2 0( ). Îöåíêà ñîîòíî- øåíèÿ ìåæäó âåðîÿòíîñòÿìè ìîæåò áûòü çàäàíà â âèäå p p s s 1 20 02 1( ) / ( ) èëè ln ( ( ) / ( ) )p p s s 1 20 02 1 . Ïðè ýòîì íåîáõîäèìî ñäåëàòü ãðàíè÷íûé ïåðåõîä îò ÔРê ÔÏÐÂ, ïîñêîëüêó îíè ñâÿçàíû ìåæäó ñîáîé îïåðàöèåé äèôôåðåíöèðîâàíèÿ. Ñîîòíîøåíèå ln ( ( ) / ( ) )p p s s 1 20 02 1 ( ln ( ( ) / ( ) )p p s s 2 10 01 2 èëè â îáùåì ñëó÷àå ln ( ( ) / ( ) )p p s s 1 2 2 1� � (ln ( ( ) / ( ) )p p s s 2 1 1 2� � ) ìîæíî èñïîëüçîâàòü äëÿ ïîñòðîåíèÿ êëàññèôèêàòîðà âèäà ln ( ) ( ) p p s s 1 2 1 2 1 � � �� ; ln ( ) ( ) p p s s 1 2 1 2 1 � � �� èëè ln ( ) ( ) p p s s 2 1 2 1 2 � � �� ; ln ( ) ( ) p p s s 2 1 2 1 2 � � �� , (5) ãäå çíà÷åíèå ln ( ) ( ) p p s s 1 2 2 1 0 � � � èëè ln ( ) ( ) p p s s 2 1 1 2 0 � � � íå âëèÿåò íà ðåçóëüòàòû êëàñ- ñèôèêàöèè, à ðåøåíèå ìîæåò áûòü ïðèíÿòî â ïîëüçó ëþáîãî êëàññà.  ñëó÷àå íåïà- ðàìåòðè÷åñêîãî îöåíèâàíèÿ âåðîÿòíîñòü òàêîãî çíà÷åíèÿ ïðàêòè÷åñêè ðàâíà íóëþ. ÂÅÐÕÍßß ÎÖÅÍÊÀ ÄËß ÌÅÒÎÄÀ ÑÊÎËÜÇßÙÅÃÎ ÊÎÍÒÐÎËß ÌÅÒÐÈ×ÅÑÊÈÕ ÀËÃÎÐÈÒÌΠÊËÀÑÑÈÔÈÊÀÖÈÈ Ìåòîäû ñêîëüçÿùåãî êîíòðîëÿ íåðàçðûâíî ñâÿçàíû ñ òàêèì ïîíÿòèì, êàê îáîá- ùàþùàÿ ñïîñîáíîñòü àëãîðèòìîâ êëàññèôèêàöèè. Ïîä îáîáùàþùåé ñïîñîáíîñ- òüþ àëãîðèòìîâ ïîäðàçóìåâàåòñÿ èõ ñïîñîáíîñòü îòíîñèòü îáúåêòû ñî ñõîæè- ìè ñâîéñòâàìè ê îäíîìó è òîìó æå êëàññó. Êà÷åñòâî àëãîðèòìîâ, ñ òî÷êè çðå- íèÿ îáîáùàþùåé ñïîñîáíîñòè, ïðèíÿòî õàðàêòåðèçîâàòü íà îñíîâàíèè ÷àñòîòû (âåðîÿòíîñòè) îøèáîê, êîòîðûå ñîâåðøàåò òîò èëè èíîé àëãîðèòì. Ïðè ýòîì âàæíî òàêæå ïðåäâèäåòü ÷àñòîòó îøèáîê íà êîíòðîëüíîé âûáîðêå, ê êîòîðîé àëãîðèòì êëàññèôèêàöèè íåàäàïòèðîâàí. ×àñòîòó îøèáîê íà êîíòðîëüíîé âû- áîðêå ìîæíî ïðåäâèäåòü íà îñíîâàíèè ãèïîòåçû î íåçàâèñèìîñòè îáúåêòîâ âûáîðêè (êîòîðàÿ îáû÷íî âñåãäà âûïîëíÿåòñÿ [1]), à òàêæå îáîáùàþùåé ñïî- ñîáíîñòè àëãîðèòìîâ. Åñëè ñóùåñòâóåò òåñíàÿ ñâÿçü ìåæäó ÷àñòîòîé îøèáîê ïðè îáó÷åíèè è íà êîíòðîëå, òî, óìåíüøàÿ ÷àñòîòó îøèáîê ïðè îáó÷åíèè (÷àñòî îíà ïðàêòè÷åñêè ðàâíà íóëþ), ìû ñìîæåì óìåíüøèòü åå òàêæå è íà êîíòðîëå èëè ïðåäâèäåòü åå ñ áîëüøîé âåðîÿòíîñòüþ. Ïóñòü X — ïðîñòðàíñòâî îáúåêòîâ (object space); Y — ìíîæåñòâî èìåí êëàññîâ (class name set); y X Y* : � — öåëåâàÿ ôóíêöèÿ (target function), çíà÷åíèÿ êîòîðîé èçâåñòíû ëèøü íà îáúåêòàõ êîíå÷íîé îáó÷àþùåé âûáîðêè äëèíû l : X x y X Yl i i i l� � � � ( , ) 1 , y y xi i� * ( ) .  áàçå äàííûõ ñóùåñòâóþò êëàññû ýòàëî- íîâ (class patterns) Ci , i n�1, , ïðè÷åì s Ci i� | | — ðàçìåðû êëàññîâ. Ïðåäïîëàãàåò- ñÿ, ÷òî ðàçìåðû si âñåõ êëàññîâ îäèíàêîâûå è ðàâíû s. Ïîñêîëüêó ñóùåñòâóåò âû- áîðêà êîíòðîëüíûõ îáúåêòîâ U , ïîäàþùèõñÿ íà ðàñïîçíàâàíèå, òî îáùåå êîëè- ÷åñòâî îáúåêòîâ, ó÷àñòâóþùèõ â ïðîöåññå ðàñïîçíàâàíèÿ, ðàâíî n s U� � | | . Ïóñòü îöåíåííàÿ ÷àñòîòà îøèáîê (error frequency) àëãîðèòìà êëàññèôèêàöèè a X l� �( ) íà îáó÷àþùåé âûáîðêå X Xl L� : ( , ) | | [ ( ) ( )]*a U U a u y u x U � � �� 1 , ãäå çàïèñü x U� îçíà÷àåò, ÷òî îáúåêò îòíîñèòñÿ ê êîíòðîëüíîé ïîñëåäîâàòåëüíîñòè, à çà- ïèñü [ ( ) ( )]*a u y u� âîñïðèíèìàåòñÿ êàê ôóíêöèÿ èíäèêàöèè íåñîâïàäåíèÿ îòâåòà àëãîðèòìà a u( ) è ïðàâèëüíîãî îòâåòà y u* ( ) äëÿ ýòîãî îáúåêòà. 138 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2012, ¹ 4 Íà ïðàêòèêå îïòèìàëüíîå çíà÷åíèå k ïîäáèðàåòñÿ ïî êðèòåðèþ ñêîëüçÿùåãî êîíòðîëÿ (cross-validation) ñ èñêëþ÷åíèåì îáúåêòîâ ïî îäíîìó (leave-one-out, LOO). Äëÿ êàæäîãî îáúåêòà x Xi l� ïðîâåðÿåòñÿ, ïðàâèëüíî ëè îí êëàññèôèöè- ðóåòñÿ ïî ñâîèì k áëèæàéøèì ñîñåäÿì: LOO( , ) [ ( ; \ , ) ] mink X a x X x k yl i l i l i i k � � � � � 1 . (6) Èäåÿ ïðåäëàãàåìîãî ïîäõîäà ñîñòîèò â ñëåäóþùåì. Àíàëèçèðóþòñÿ ðàññòîÿ- íèÿ ìåæäó òåñòîâûì îáúåêòîì è îáúåêòàìè áàçû äàííûõ. Òîãäà íà îñíîâàíèè ðàññòîÿíèé îò òåñòîâîãî îáúåêòà äî îáúåêòîâ áàçû äàííûõ íåîáõîäèìî ïðåäâè- äåòü ðàññòîÿíèÿ ìåæäó îáúåêòàìè áàçû äàííûõ. Íà ïåðâûé âçãëÿä ìîæåò ïîêà- çàòüñÿ, ÷òî òàêèå îöåíêè ìåíåå òî÷íû, íåæåëè ïîëó÷àåìûå íà îñíîâàíèè ïîëíîãî ñêîëüçÿùåãî êîíòðîëÿ ïî âûáîðêå. Îäíàêî åñëè äîêàçàòü, ÷òî ýòè îöåíêè ïðåä- ñòàâëÿþò ñîáîé âåðõíèå îöåíêè îòíîñèòåëüíî ÷àñòîòû (âåðîÿòíîñòè) îøèáîê, òî îíè áóäóò ìåíåå ÷óâñòâèòåëüíû ê ôàêòîðàì, îáóñëàâëèâàþùèì ïåðåîáó÷åíèå. Ïóñòü ñòåïåíü ïîäîáèÿ ìåæäó îáúåêòàìè õàðàêòåðèçóåòñÿ íà îñíîâàíèè ïî- íÿòèÿ ðàññòîÿíèÿ. Ïî îïðåäåëåíèþ ðàññòîÿíèå ìåæäó äâóìÿ âåêòîðàìè ïðèçíà- êîâ (x è y) ñîîòâåòñòâóþùèõ îáúåêòîâ äîëæíî óäîâëåòâîðÿòü ñëåäóþùèì óñëîâèÿì: 1) d x x d y y( , ) ( , )� � 0 ; 2) d x y d y x( , ) ( , )� (äëÿ òîãî ÷òîáû ðàññòîÿíèå áûëî ìåòðèêîé, íåîáõîäèìî âûïîëíåíèå åùå îä- íîãî äîïîëíèòåëüíîãî óñëîâèÿ, íàçûâàåìîãî íåðàâåíñòâîì òðåóãîëüíèêà): 3) d x y d x z d y z( , ) ( , ) ( , )� � . Ìåòðèêîé ÿâëÿåòñÿ îáîáùåííàÿ ìåòðèêà Ìèíêîâñêîãî ñ ïîêàçàòåëåì ñòåïå- íè p � 1: d x y x y a x yi i p i n p i i n i i( , ) | | | | / � � � � � � � � � � � � � � � � 1 1 1 � � � � � � � 1 1 / ( ) | | p i i n i iC p a x y , (7) ãäå ìóëüòèïëèêàòèâíûé ìíîæèòåëü C p( ) ïðåäñòàâëÿåòñÿ â âèäå C p a x yi i n i i p p ( ) | | ( )/ � � � � � � � � � � 1 1 , a x yi i i p� | | 1 , p � 0 . (8) Ïðîàíàëèçèðóåì ðàññòîÿíèÿ ìåæäó îáúåêòàìè ñ òî÷êè çðåíèÿ àäåêâàòíîãî îïèñàíèÿ ïîäîáèÿ ìåæäó îáúåêòàìè, à òàêæå ìåòðèêè Ìèíêîâñêîãî äëÿ ðàçëè÷- íûõ ïîêàçàòåëåé p. Ââåäåì ïîíÿòèå ãëóáèíû ìåòðèêè M d x z d y z d x y � �( , ) ( , ) ( , ) . Òà- êèì îáðàçîì, ÷åì áîëüøå çíà÷åíèå ãëóáèíû ìåòðèêè, òåì ñòðîæå âûïîëíÿåòñÿ óñëîâèå òðåóãîëüíèêà. Äëÿ ìåòðèêè Ìèíêîâñêîãî åå ãëóáèíà âîçðàñòàåò ñ ðîñòîì ïîêàçàòåëÿ p. Ïî îïðåäåëåíèþ M � 1. Îñòàåòñÿ âûÿñíèòü, êàê âëèÿåò òà èëè èíàÿ ìåòðèêà íà ïåðåðàñïðåäåëåíèå ðàññòîÿíèé ìåæäó îáúåêòàìè. Ñíà÷àëà ðàññìîòðèì åâêëèäîâóþ ìåòðèêó (ïîêàçàòåëü â îáîáùåííîé ìåòðè- êå Ìèíêîâñêîãî ðàâåí 2): d x y x yi i i n ( , ) | | / � � � � � � � � � � 2 1 1 2 . Ïóñòü èçâåñòíû ðàññòîÿíèÿ ìåæäó òåñòîâûì îáúåêòîì è îáúåêòàìè áàçû äàííûõ: d d x yi i� ( , ) è d d x yj j� ( , ). Íåîáõîäèìî îöåíèòü ðàññòîÿíèå d y yij i j( , ) íà îñíîâàíèè äâóõ èçâåñòíûõ ðàñ- ñòîÿíèé.  òåîðèè ðàñïîçíàâàíèÿ îáðàçîâ èëè òåîðèè ìàøèííîãî îáó÷åíèÿ ýòà çàäà÷à ñâîäèòñÿ ê îöåíêå ðåçóëüòàòîâ íà êîíòðîëå, êîãäà èçâåñòíû ðåçóëüòàòû ëèøü íà îáó÷àþùåé âûáîðêå. Êîëè÷åñòâî äàííûõ, èñïîëüçóåìûõ äëÿ îáó÷åíèÿ, çíà÷èòåëüíî ìåíüøå òîãî êîëè÷åñòâà äàííûõ, êîòîðîå ìîæíî áûëî áû ïîëó÷èòü ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2012, ¹ 4 139 êîìáèíàòîðíîé ïåðåãðóïïèðîâêîé âûáîðêè. Ýòî íóæíî äëÿ áûñòðîãî îïðåäåëå- íèÿ ïàðàìåòðîâ áåç ó÷åòà ðåçóëüòàòîâ ðàñïîçíàâàíèÿ àëãîðèòìàìè ïîëíîãî ñêîëüçÿùåãî êîíòðîëÿ, ò.å. ïðîâîäèòñÿ íåïîëíûé ñêîëüçÿùèé êîíòðîëü ñ ãëóáè- íîé, çíà÷èòåëüíî ìåíüøå òîé, ÷òî ìîæåò áûòü ïîëó÷åíà ïåðåãðóïïèðîâêîé îá- ùåé âûáîðêè íà òåñòîâóþ è îáó÷àþùóþ. Ðàññìîòðèì â êà÷åñòâå ïðèìåðà òðè ðàññòîÿíèÿ: d d x y1 1� ( , ) , d d x y2 2� ( , ) è d d x y3 3� ( , ) äëÿ åâêëèäîâîé ìåòðèêè è ïðîñòðàíñòâà R 2 . Ñîîòâåòñòâåííî íå- îáõîäèìî îöåíèòü ðàññòîÿíèÿ d d y y12 1 2� ( , ) , d d y y13 1 3� ( , ) è d d y y23 2 3� ( , ) . Âû÷èñëèì èõ ñ ïîìîùüþ òåîðåìû êîñèíóñîâ: d d d d d d d12 1 2 2 2 1 2 1 22� � cos ( , ) , d d d d d d d13 1 2 3 2 1 3 1 32� � cos ( , ) , (9) d d d d d d d23 2 2 3 2 2 3 2 32� � cos ( , ) . Äëÿ òîãî ÷òîáû îïðåäåëèòü ðàññòîÿíèÿ d12 , d13 è d23 , íåîáõîäèìî çíàòü ñî- îòâåòñòâóþùèå óãëû ìåæäó âåêòîðàìè. Âîçìîæíû äâà âàðèàíòà: 1) ïðèìåíèòü ïàðàëëåëüíî åâêëèäîâîé êîñèíóñíóþ ìåòðèêó; 2) âû÷èñëèòü çàâûøåííóþ îöåíêó äëÿ ñîîòâåòñòâóþùèõ ðàññòîÿíèé, íàêëà- äûâàÿ îïðåäåëåííûå óñëîâèÿ íà óãëû ìåæäó âåêòîðàìè. Ïåðâûé ñïîñîá ãàðàíòèðóåò òî÷íîå âû÷èñëåíèå ðàññòîÿíèé ëèøü â ñëó÷àå åâêëèäîâîé ìåòðèêè. Âòîðîé ñïîñîá èñïîëüçóåòñÿ ëèøü êàê áàçîâûé äëÿ åâêëè- äîâîé ìåòðèêè, ÷òî â äàëüíåéøåì ïîçâîëèò îöåíèâàòü ñîîòíîøåíèÿ ìåæäó ðàñ- ñòîÿíèÿìè ñ ïîìîùüþ äðóãèõ ìåòðèê. ×àñòî íåò íåîáõîäèìîñòè îïðåäåëÿòü ðàñ- ñòîÿíèå àáñîëþòíî òî÷íî, ÷òîáû ðåçóëüòàòû ðàñïîçíàâàíèÿ áûëè èäåíòè÷íûìè; êðîìå òîãî, òàêàÿ îöåíêà äàåò çàïàñ óñòîé÷èâîñòè ðåçóëüòàòîâ ðàñïîçíàâàíèÿ. Ïîýòîìó ðàññìîòðèì âòîðîé âàðèàíò. Äîïóñòèì, ÷òî óãëû ìåæäó âåêòîðàìè d1, d2 è d3 íàõîäÿòñÿ â ïðåäåëàõ [ ; / ]0 � . Ýòî âûòåêàåò èç òîãî, ÷òî åñëè óãîë ðàâåí �/ , äîñòèãàåòñÿ ìàêñèìàëüíîå ðàçëè÷èå ìåæäó îáúåêòàìè, îïèñûâàåìûìè ñî- îòâåòñòâóþùèìè âåêòîðàìè. Ïðè ýòîì äëÿ òîãî ÷òîáû áîëüøèé èç âîçìîæíûõ óãëîâ ìåæäó âåêòîðàìè ðàññòîÿíèé áûë ðàâåí �/ , õîòÿ áû îäèí èç óãëîâ, îáðà- çîâàííûõ âåêòîðàìè ðàññòîÿíèé d1, d2 è d3 ñ ïîëîæèòåëüíîé ïîëóîñüþ, äîëæåí áûòü íå ìåíüøå �/ . Ïóñòü äëÿ êëàññèôèêàöèè çàäàííîé ïîñëåäîâàòåëüíîñòè îáúåêòîâ âàæíûìè ÿâëÿþòñÿ k áëèæàéøèõ ñîñåäåé. Ïðîàíàëèçèðóåì ïðîöåññ ïðèíÿòèÿ ðåøåíèÿ íà îñíîâàíèè àëãîðèòìà áëèæàéøèõ ñîñåäåé. Äëÿ íåãî ðàñ- ñòîÿíèÿ d12 , d13 è d23 ìîãóò áûòü âû÷èñëåíû ñëåäóþùèì îáðàçîì: d d d d d l 12 1 2 2 2 1 22 2 � � � � � � �cos , d d d d d l 13 1 2 3 2 1 32 2 � � � � � � �cos , (10) d d d d d l 23 2 2 3 2 2 32 2 � � � � � � �cos . Ýòîò ñïîñîá âû÷èñëåíèÿ ðàññòîÿíèé îñíîâàí íà äîïóùåíèè î ðàâíîìåðíîñ- òè ðàñïðåäåëåíèÿ óãëîâ ìåæäó ñîîòâåòñòâóþùèìè âåêòîðàìè ðàññòîÿíèé. Äëÿ çàäà÷è ðàñïîçíàâàíèÿ òàêîå äîïóùåíèå ñîîòâåòñòâóåò íàèõóäøåìó ñëó÷àþ. Èòàê, íà îñíîâàíèè (10) ïîëó÷åíû âåðõíèå îöåíêè äëÿ ñîîòâåòñòâóþùèõ ðàññòî- ÿíèé. Òåïåðü ýòè ðàññòîÿíèÿ äëÿ ïðîèçâîëüíîé ïîñëåäîâàòåëüíîñòè îáúåêòîâ è âåêòîðîâ, êîòîðûå èì ñîîòâåòñòâóþò, çàïèøåì òàê: d d d d d j i l i j k j iij i j i j� � � � � � � � �2 2 2 2 1cos ( ) , , , ; { } . (11) 140 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2012, ¹ 4 Ðàññìîòðèì èçìåíåíèå ðàññòîÿíèé ìåæäó îáúåêòàìè ïðè ïðèìåíåíèè äðó- ãèõ ìåòðèê, ó÷èòûâàÿ äâà âîçìîæíûõ ñëó÷àÿ ïî îòíîøåíèþ ê åâêëèäîâîé ìåòðè- êå. Ïåðâûé êàñàåòñÿ ìåòðèê ñ ïîðÿäêîì p � 2, à âòîðîé — 1 2� �p . Ïðîàíàëèçè- ðóåì èçìåíåíèå ñîîòíîøåíèÿ ìåæäó âåêòîðàìè ðàññòîÿíèé íà îñíîâàíèè ïîíÿ- òèÿ ãëóáèíû ìåòðèêè M . Ñ ðîñòîì ïîêàçàòåëÿ p â îáîáùåííîé ìåòðèêå Ìèíêîâñêîãî ãëóáèíà ìåòðèêè M ðàñòåò. Ïðè ýòîì äëÿ ñëó÷àÿ p � 2 ãëóáèíà ìåò- ðèêè âñåãäà áîëüøå, ÷åì äëÿ p � 2, à äëÿ 1 2� �p — ñîîòâåòñòâåííî ìåíüøå. Òà- êèì îáðàçîì, åâêëèäîâàÿ ìåòðèêà ÿâëÿåòñÿ íåêîòîðîé ãðàíèöåé ðàçäåëà â ïðî- ñòðàíñòâå ìåòðèê, îòíîñèòåëüíî êîòîðîé ïðîâîäèòñÿ ñðàâíåíèå. Ïîýòîìó åâêëè- äîâàÿ ìåòðèêà íàèáîëåå èñïîëüçóåìàÿ â ïðèêëàäíûõ çàäà÷àõ, à ðàññòîÿíèÿ, âû÷èñëÿåìûå ñ åå ïîìîùüþ, ïîíÿòíû ñ òî÷êè çðåíèÿ èíòåðïðåòàöèè. ÇÀÊËÞ×ÅÍÈÅ Â íàñòîÿùåé ðàáîòå ïîñòðîåíû è èññëåäîâàíû îöåíêè âåðîÿòíîñòè ïðàâèëüíîé êëàññèôèêàöèè äëÿ êëàññèôèêàòîðîâ, èñïîëüçóþùèõ â êà÷åñòâå ìåðû ïîäîáèÿ ôóíêöèþ ðàññòîÿíèé. Ðåçóëüòàòû îöåíèâàíèÿ ïîëó÷åíû íà îñíîâàíèè ôóíêöèè ðàñïðåäåëåíèÿ ðàññòîÿíèé ìåæäó îáúåêòàìè. Ïðè ýòîì ðàññìîòðåíû ðàçíûå ÷àñ- òè÷íûå ñëó÷àè ôîðìû ôóíêöèè ðàñïðåäåëåíèÿ. Ïîñòðîåíû äâóñòîðîííèå âåðõíèå îöåíêè îäèíî÷íîãî ðàñïîçíàâàíèÿ è ðàñïîçíàâàíèÿ äëÿ äâóõ êëàññîâ çàäàííûõ ðàçìåðîâ. Ïðåäëîæåí ìåòîä êëàññèôèêàöèè íà îñíîâàíèè ñîîòíîøåíèÿ ïëîòíîñ- òåé ðàñïðåäåëåíèÿ âåðîÿòíîñòåé â íóëåâîé è ïðîèçâîëüíûõ òî÷êàõ. Ðàçðàáîòàí ïîäõîä ê ïîñòðîåíèþ îöåíîê ìàêñèìàëüíîãî çíà÷åíèÿ âåðîÿòíîñòè ïðàâèëüíîãî ðàñïîçíàâàíèÿ äëÿ êëàññèôèêàòîðîâ íà îñíîâàíèè ôóíêöèè ðàññòîÿíèé (êëàññè- ôèêàòîðîâ òèïà k NN) ñ ïîìîùüþ íåãëóáîêîãî ñêîëüçÿùåãî êîíòðîëÿ. ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1. V o r o n t s o v K . V . Combinatorial probability and the tightness of generalization bounds // Pattern Recognition and Image Analysis. — 2008. — 18, N 2. — P.243–259. 2. V a p n i k V . The nature of statistical learning theory. — New York: Springer-Verlag, 2000. — 314 p. 3. Æ ó ð à â ë å â Þ . È . Îá àëãåáðàè÷åñêîì ïîäõîäå ê ðåøåíèþ çàäà÷ ðàñïîçíàâàíèÿ èëè êëàñ- ñèôèêàöèè // Ïðîáëåìû êèáåðíåòèêè. — 1978. — 33. — Ñ. 5–68. 4.  î ð î í ö î â Ê .  . Ìàøèííîå îáó÷åíèå è àíàëèç äàííûõ // Êóðñ ëåêöèé «Ìàòåìàòè÷åñêèå ìåòîäû îáó÷åíèÿ ïî ïðåöåäåíòàì». — http: // www.ccas.ru/voron/teaching.html. 5. Ø ë å ç è í ã å ð Ì . , à ë à â à ÷  . Äåñÿòü ëåêöèé ïî ñòàòèñòè÷åñêîìó è ñòðóêòóðíîìó ðàñïîçíàâàíèþ. — Êèåâ: Íàóê. äóìêà, 2004. — 545 ñ. 6. M o o n T . K . , S t i r l i n g W . C . Mathematical methods and algorithms for signal processing. — N.J.: Prentice-Hall, 2000. — 937 p. 7. K a p u s t i i B . E . , R u s y n B . P . , T a y a n o v V . A . Classifier optimization in small sample size condition // Automatic Control and Computer Sci. — 2006. — 40, N 5. — P. 17–22. 8. Ê à ï ó ñ ò ³ é Á . Î . , Ð ó ñ è í Á . Ï . , Ò à ÿ í î â  . À . Êîìá³íàòîðíà îö³íêà âïëèâó çìåíøåí- íÿ ³íôîðìàö³éíîãî ïîêðèòòÿ êëàñ³â íà óçàãàëüíþþ÷ó âëàñòèâ³ñòü 1NN àëãîðèòì³â êëàñèô³êàö³¿ // Èñêóññòâåííûé èíòåëëåêò. — 2008. — ¹ 1. — Ñ. 49–54. 9. Ê à ð ë è í Ñ . Îñíîâû òåîðèè ñëó÷àéíûõ ïðîöåññîâ. — Ì.: Ìèp, 1971. — 576 ñ. 10. Ê î ð î ë þ ê  . Ñ . , Ï î ð ò å í ê î Í . È . , Ñ ê î ð î õ î ä À .  . , Ò ó ð á è í À . Ô . Ñïðàâî÷íèê ïî òåîðèè âåðîÿòíîñòåé è ìàòåìàòè÷åñêîé ñòàòèñòèêå. — Ì.: Íàóêà, 1985. — 640 ñ. 11. B i s h o p C . M . Pattern recognition and machine learning (Information science and statistics). — London: Springer, 2006. — 738 p. 12. W e i s s t e i n E . W . Chebyshev inequality. — http://mathworld.wolfram.com/Chebyshev Inequality.html, 10.12.2008. 13. W e i s s t e i n E . W . Gauss inequality. — http://mathworld.wolfram.com/GaussInequality.html, 10.12.2008. 14. Ò ó Ä æ . , à î í ñ à ë å ñ Ð . Ïðèíöèïû ðàñïîçíàâàíèÿ îáðàçîâ. — Ì.: Ìèð, 1978. — 416 ñ. 15. Ê à ï ó ñ ò è é Á . Î . , Ð ó ñ û í Á . Ï . , Ò à ÿ í î â  . À . Íîâûé ïîäõîä ê îïðåäåëåíèþ âåðîÿò- íîñòè ïðàâèëüíîãî ðàñïîçíàâàíèÿ îáúåêòîâ ìíîæåñòâ // ÓÑèÌ. — 2005. — ¹ 2. — Ñ. 8–13. Ïîñòóïèëà 07.12.2011 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2012, ¹ 4 141