Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения
Рассмотрены оригинальные средства усовершенствования формул метода максимального правдоподобия для логистической регрессии, формулы веса категории переменной, формулы показателя значения информации и формулы индекса Джини для обеспечения возможности использования непрерывной целевой переменной, прин...
Gespeichert in:
Datum: | 2015 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | Russian |
Veröffentlicht: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2015
|
Schriftenreihe: | Кибернетика и системный анализ |
Schlagworte: | |
Online Zugang: | http://dspace.nbuv.gov.ua/handle/123456789/124939 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Zitieren: | Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения / А.Н. Солошенко // Кибернетика и системный анализ. — 2015. — Т. 51, № 6. — С. 174-187. — Бібліогр.: 8 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-124939 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-1249392017-10-13T03:03:27Z Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения Солошенко, А.Н. Программно-технические комплексы Рассмотрены оригинальные средства усовершенствования формул метода максимального правдоподобия для логистической регрессии, формулы веса категории переменной, формулы показателя значения информации и формулы индекса Джини для обеспечения возможности использования непрерывной целевой переменной, принимающей вероятностные значения. Методикой реализации исследования является использование непрерывных весовых функций с определенными ограничениями для подсчета обобщенного логарифма функции правдоподобия, его обобщенного вектора градиента и обобщенной матрицы Гессе, а также использование возможностей теории вероятностей для обобщения веса категории переменной и индекса Джини. Розглянуто оригінальні засоби вдосконалення формул методу максимальної правдоподібності для логістичної регресії, формули ваги категорії змінної, формули показника значення інформації і формули індексу Джині для забезпечення можливості використання неперервної цільової змінної, що набуває ймовірнісних значень. Методикою реалізації дослідження є використання неперервних вагових функцій з певними обмеженнями для обчислення узагальненого логарифма функції правдоподібності, його узагальненого вектора градієнта та узагальненої матриці Гессе, а також використання можливостей теорії ймовірностей для узагальнення ваги категорії змінної та індексу Джині. The author proposes original tools that are the improvements of formulas in the maximum likelihood estimation method for logistic regression, weight of Eeidence formula, including information value indicator formula, and the Gini coefficient formula to make it possible to use continuous target variable taking on probabilistic values. The research implementation methodologies are the application of the continuous weight functions meeting certain conditions to evaluate the generalized logarithm of the likelihood function, including its generalized gradient vector and generalized Hessian matrix, and application of probability theory to generalize the weight of evidence and the Gini coefficient. 2015 Article Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения / А.Н. Солошенко // Кибернетика и системный анализ. — 2015. — Т. 51, № 6. — С. 174-187. — Бібліогр.: 8 назв. — рос. 0023-1274 http://dspace.nbuv.gov.ua/handle/123456789/124939 303.732.4:519.237.5 ru Кибернетика и системный анализ Інститут кібернетики ім. В.М. Глушкова НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
topic |
Программно-технические комплексы Программно-технические комплексы |
spellingShingle |
Программно-технические комплексы Программно-технические комплексы Солошенко, А.Н. Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения Кибернетика и системный анализ |
description |
Рассмотрены оригинальные средства усовершенствования формул метода максимального правдоподобия для логистической регрессии, формулы веса категории переменной, формулы показателя значения информации и формулы индекса Джини для обеспечения возможности использования непрерывной целевой переменной, принимающей вероятностные значения. Методикой реализации исследования является использование непрерывных весовых функций с определенными ограничениями для подсчета обобщенного логарифма функции правдоподобия, его обобщенного вектора градиента и обобщенной матрицы Гессе, а также использование возможностей теории вероятностей для обобщения веса категории переменной и индекса Джини. |
format |
Article |
author |
Солошенко, А.Н. |
author_facet |
Солошенко, А.Н. |
author_sort |
Солошенко, А.Н. |
title |
Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения |
title_short |
Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения |
title_full |
Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения |
title_fullStr |
Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения |
title_full_unstemmed |
Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения |
title_sort |
обобщение логистической регрессии, веса категории переменной и индекса джини для непрерывной целевой переменной, принимающей вероятностные значения |
publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
publishDate |
2015 |
topic_facet |
Программно-технические комплексы |
url |
http://dspace.nbuv.gov.ua/handle/123456789/124939 |
citation_txt |
Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения / А.Н. Солошенко // Кибернетика и системный анализ. — 2015. — Т. 51, № 6. — С. 174-187. — Бібліогр.: 8 назв. — рос. |
series |
Кибернетика и системный анализ |
work_keys_str_mv |
AT sološenkoan obobŝenielogističeskojregressiivesakategoriiperemennojiindeksadžinidlânepreryvnojcelevojperemennojprinimaûŝejveroâtnostnyeznačeniâ |
first_indexed |
2025-07-09T02:17:38Z |
last_indexed |
2025-07-09T02:17:38Z |
_version_ |
1837133946747355136 |
fulltext |
ÓÄÊ 303.732.4:519.237.5
À.Í. ÑÎËÎØÅÍÊÎ
ÎÁÎÁÙÅÍÈÅ ËÎÃÈÑÒÈ×ÅÑÊÎÉ ÐÅÃÐÅÑÑÈÈ, ÂÅÑÀ ÊÀÒÅÃÎÐÈÈ
ÏÅÐÅÌÅÍÍÎÉ È ÈÍÄÅÊÑÀ ÄÆÈÍÈ ÄËß ÍÅÏÐÅÐÛÂÍÎÉ ÖÅËÅÂÎÉ
ÏÅÐÅÌÅÍÍÎÉ, ÏÐÈÍÈÌÀÞÙÅÉ ÂÅÐÎßÒÍÎÑÒÍÛÅ ÇÍÀ×ÅÍÈß
Àííîòàöèÿ. Ðàññìîòðåíû îðèãèíàëüíûå ñðåäñòâà óñîâåðøåíñòâîâàíèÿ ôîðìóë ìåòîäà
ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ äëÿ ëîãèñòè÷åñêîé ðåãðåññèè, ôîðìóëû âåñà êàòåãîðèè
ïåðåìåííîé, ôîðìóëû ïîêàçàòåëÿ çíà÷åíèÿ èíôîðìàöèè è ôîðìóëû èíäåêñà Äæèíè äëÿ
îáåñïå÷åíèÿ âîçìîæíîñòè èñïîëüçîâàíèÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþ-
ùåé âåðîÿòíîñòíûå çíà÷åíèÿ. Ìåòîäèêîé ðåàëèçàöèè èññëåäîâàíèÿ ÿâëÿåòñÿ èñïîëüçîâà-
íèå íåïðåðûâíûõ âåñîâûõ ôóíêöèé ñ îïðåäåëåííûìè îãðàíè÷åíèÿìè äëÿ ïîäñ÷åòà îáîá-
ùåííîãî ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ, åãî îáîáùåííîãî âåêòîðà ãðàäèåíòà è îáîá-
ùåííîé ìàòðèöû Ãåññå, à òàêæå èñïîëüçîâàíèå âîçìîæíîñòåé òåîðèè âåðîÿòíîñòåé äëÿ
îáîáùåíèÿ âåñà êàòåãîðèè ïåðåìåííîé è èíäåêñà Äæèíè.
Êëþ÷åâûå ñëîâà: ëîãèñòè÷åñêàÿ ðåãðåññèÿ, âåñ êàòåãîðèè ïåðåìåííîé, èíäåêñ Äæèíè,
ìåòîä ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ, êðåäèòíûé ñêîðèíã, àíàëèç îòêëîíåííûõ çàÿâîê.
ÂÂÅÄÅÍÈÅ
Îäíîé èç íàèáîëåå âàæíûõ çàäà÷ ìàòåìàòè÷åñêîãî è ñòàòèñòè÷åñêîãî ìîäåëè-
ðîâàíèÿ è ïðîãíîçèðîâàíèÿ ÿâëÿåòñÿ çàäà÷à áèíàðíîé êëàññèôèêàöèè âõîäÿ-
ùèõ äàííûõ èñõîäÿ èç èìåþùåéñÿ èíôîðìàöèè îá àíàëîãè÷íûõ äàííûõ ñ èç-
âåñòíûìè öåëåâûìè èñõîäàìè, êîòîðûå îòâå÷àþò äâóì âçàèìíî èñêëþ÷àþùèì
êëàññàì íà ïðèìåðå èíäèêàòîðà ðåàëèçàöèè êðåäèòíîãî ñîáûòèÿ: íàñòóïëåíèÿ
èëè îòñóòñòâèÿ äåôîëòà â çàäà÷àõ êðåäèòíîãî ñêîðèíãà [1]. Íàèáîëåå âàæíîé
ïðîáëåìîé ïðè ñêîðèíãîâîì ìîäåëèðîâàíèè ÿâëÿåòñÿ ó÷åò è àíàëèç îòêëîíåí-
íûõ çàÿâîê (reject inference) — ðàíåå âõîäÿùèõ äàííûõ ñ íåèçâåñòíûì è íå-
íàáëþäàåìûì áèíàðíûì èñõîäîì, â öåëÿõ îáåñïå÷åíèÿ ñòàáèëüíîñòè îáó÷àþ-
ùåé âûáîðêè îòíîñèòåëüíî âõîäÿùåãî ïîòîêà èíôîðìàöèè â êðèòåðèÿõ ðàñ-
ïðåäåëåíèé âõîäÿùèõ ïàðàìåòðîâ [2]. Äëÿ çàäà÷ áèíàðíîé êëàññèôèêàöèè â
êðåäèòíîì ñêîðèíãå îáû÷íî èñïîëüçóåòñÿ áèíàðíàÿ ëîãèñòè÷åñêàÿ ðåãðåñ-
ñèÿ [3] — ÷àñòíûé ñëó÷àé êàòåãîðèàëüíîé ëîãèñòè÷åñêîé ðåãðåññèè [4].
Íåäîñòàòêîì êëàññè÷åñêîé áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè ÿâëÿåòñÿ ïî-
ñòóëèðîâàíèå è îãðàíè÷åíèå öåëåâîé ïåðåìåííîé â îáëàñòè îïðåäåëåíèÿ òîëüêî
áèíàðíûõ çíà÷åíèé [3–5]. Îãðàíè÷åíèå ïðåäïîëàãàåò ÷èñëà 0 è 1 åäèíñòâåííûìè
âîçìîæíûìè çíà÷åíèÿìè äëÿ ôàêòè÷åñêîé öåëåâîé ïåðåìåííîé ïðè îáó÷åíèè
ìîäåëè. Íà âûõîäå ìîäåëè ïîëó÷àåì ïðîãíîçíûå çíà÷åíèÿ öåëåâîé ïåðåìåííîé
êàê äåéñòâèòåëüíûå ÷èñëà — âåðîÿòíîñòè ïðèíàäëåæíîñòè ê êëàññó áóäóùåãî
åäèíè÷íîãî èñõîäà. Îáëàñòü îïðåäåëåíèÿ öåëåâîé ïåðåìåííîé äåëàåò íåâîçìîæ-
íûì âêëþ÷åíèå äàííûõ ñ íåèçâåñòíûì èñõîäîì â îáó÷àþùóþ âûáîðêó êàê ÷àñ-
òè÷íî êëàññèôèöèðîâàííûõ äàííûõ ñ âåðîÿòíîñòíûìè ïðîãíîçíûìè ìåòêàìè.
Áèíàðíûé ïîäõîä ïîçâîëÿåò âûïîëíÿòü òîëüêî âçâåøèâàíèå ýëåìåíòîâ âûáîðêè
ïóòåì âêëþ÷åíèÿ îäíîãî è òîãî æå ýëåìåíòà â îáó÷àþùóþ âûáîðêó îïðåäåëåí-
íîå ÷èñëî ðàç (îäèíàêîâîå äëÿ âñåõ ýëåìåíòîâ), âîçìîæíî ñ ðàçíûìè èñõîäàìè.
Ïðèìåðîì ÿâëÿþòñÿ äàííûå ñ íåèçâåñòíûìè, íî âåðîÿòíîñòíî ïðîãíîçèðóåìûìè
èñõîäàìè (ñîîòíîøåíèå âêëþ÷åííûõ èñõîäîâ äëÿ êàæäîãî ýëåìåíòà äîëæíî â
êàêîé-òî ñòåïåíè ñîîòâåòñòâîâàòü ïðèñâîåííîé âåðîÿòíîñòè ïðîãíîçà). Ïðè èñ-
ïîëüçîâàíèè äàííîãî ïîäõîäà âûáîðêó ñ èçâåñòíûìè èñõîäàìè íåîáõîäèìî
âêëþ÷àòü çàäàííîå ÷èñëî ðàç ñ ôàêòè÷åñêèìè áèíàðíûìè èñõîäàìè.
174 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6
© À.Í. Ñîëîøåíêî, 2015
Ïîýòîìó àêòóàëüíîé ÿâëÿåòñÿ çàäà÷à îáîáùåíèÿ ëîãèñòè÷åñêîé ðåãðåññèè
äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå
çíà÷åíèÿ, ÷òî â ÷àñòíîì ñëó÷àå îòâå÷àåò ìíîæåñòâó áèíàðíûõ çíà÷åíèé (ñ âå-
ðîÿòíîñòüþ 0% è 100%), îñîáåííî äëÿ çàäà÷ âêëþ÷åíèÿ è àíàëèçà îòêëîíåí-
íûõ çàÿâîê (reject inference) [6]. Òàêæå äëÿ îáåñïå÷åíèÿ ïîëíîãî öèêëà ïî-
ñòðîåíèÿ ñêîðèíãîâîé ìîäåëè [5] àêòóàëüíûìè ÿâëÿþòñÿ âîïðîñû îïðåäåëå-
íèÿ ïîêàçàòåëÿ âåñà êàòåãîðèè ïåðåìåííîé è èíäåêñà Äæèíè [5, 7] â òåðìèíàõ
íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ.
Àêòóàëüíîñòü ðàññìàòðèâàåìîé òåìàòèêè çàòðàãèâàåò ñîâðåìåííûå âîïðîñû
èíòåëëåêòóàëüíîãî àíàëèçà äàííûõ è ñâèäåòåëüñòâóåò î íåîáõîäèìîñòè ðàñ-
øèðåíèÿ âîçìîæíîñòåé âåðîÿòíîñòíîãî âûâîäà íåèçâåñòíûõ çíà÷åíèé öåëå-
âîé ïåðåìåííîé [8].
ÏÎÑÒÀÍÎÂÊÀ ÇÀÄÀ×È
Îáúåêòàìè èññëåäîâàíèÿ ÿâëÿþòñÿ ìåòîä ëîãèñòè÷åñêîé ðåãðåññèè (ìåòîä ìàê-
ñèìàëüíîãî ïðàâäîïîäîáèÿ), ôîðìóëà âåñà êàòåãîðèè ïåðåìåííîé è ìåòîäû
ïîäñ÷åòà ïîêàçàòåëÿ Äæèíè.
Ïðåäìåòîì èññëåäîâàíèÿ ÿâëÿåòñÿ îáîáùåíèå ìåòîäà ìàêñèìàëüíîãî ïðàâ-
äîïîäîáèÿ îòíîñèòåëüíî ìîäåëèðîâàíèÿ ñ ïîìîùüþ ëîãèñòè÷åñêîé ðåãðåññèè
äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà-
÷åíèÿ, à òàêæå îáîáùåíèå ôîðìóëû âåñà êàòåãîðèè ïåðåìåííîé è ïîäñ÷åòà
èíäåêñà Äæèíè.
Öåëü èññëåäîâàíèÿ: 1) îïðåäåëåíèå îáîáùåííûõ ôîðìóë äëÿ îáîáùåííîãî ëî-
ãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ, à òàêæå åãî ïåðâîé è âòîðîé ïðîèçâîäíûõ (âåêòî-
ðà ãðàäèåíòà è ìàòðèöû Ãåññå) ñ èñïîëüçîâàíèåì ëîãèñòè÷åñêîé ôóíêöèè â öåëÿõ
ðåàëèçàöèè ìåòîäà Íüþòîíà äëÿ ÷èñëåííîãî ïîäñ÷åòà ïàðàìåòðîâ ðåãðåññèè äëÿ
ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ;
2) îïðåäåëåíèå îáîáùåííîé ôîðìóëû ïîäñ÷åòà âåñà êàòåãîðèè ïåðåìåííîé (Weight
of Evidence, WoE) äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âå-
ðîÿòíîñòíûå çíà÷åíèÿ; 3) îïðåäåëåíèå ôîðìóëû ïîäñ÷åòà Äæèíè äëÿ ñëó÷àÿ íåïðå-
ðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ.
ÎÁÎÁÙÅÍÈÅ ËÎÃÈÑÒÈ×ÅÑÊÎÉ ÐÅÃÐÅÑÑÈÈ,
ÏÎÄÑ×ÅÒÀ ÂÅÑÀ ÊÀÒÅÃÎÐÈÈ ÏÅÐÅÌÅÍÍÎÉ È ÈÍÄÅÊÑÀ ÄÆÈÍÈ
Êëàññè÷åñêàÿ ñòàòèñòè÷åñêàÿ ìîäåëü ëîãèñòè÷åñêîé ðåãðåññèè ïðåäïîëàãàåò
èñïîëüçîâàíèå ëîãèò-ïðåîáðàçîâàíèÿ [4] îò ïîëèíîìà ïåðâîãî ïîðÿäêà — ëè-
íåéíîé êîìáèíàöèè âõîäÿùèõ ïåðåìåííûõ ñî ñâîáîäíûì ÷ëåíîì, êîòîðûé
ìîæíî ïðåäñòàâèòü êàê ñêàëÿðíîå ïðîèçâåäåíèå (inner product) âåêòîðà êîýô-
ôèöèåíòîâ ëîãèñòè÷åñêîé ðåãðåññèè è âåêòîðà âõîäÿùèõ ïàðàìåòðîâ, äîïîë-
íåííîãî åäèíè÷íîé êîíñòàíòîé â êà÷åñòâå ïåðâîé êîîðäèíàòû (ïåðâîé âõîäÿ-
ùåé ïåðåìåííîé). Ëîãèò-ïðåîáðàçîâàíèå ñêàëÿðíîãî ïðîèçâåäåíèÿ ÿâëÿåòñÿ
ôóíêöèåé êóìóëÿòèâíîãî ðàñïðåäåëåíèÿ îò ñêàëÿðíîãî ïðîèçâåäåíèÿ äëÿ ëî-
ãèñòè÷åñêîãî ðàñïðåäåëåíèÿ ñ íóëåâûì ìàòåìàòè÷åñêèì îæèäàíèåì è ñðåäíå-
êâàäðàòè÷åñêèì îòêëîíåíèåì, ðàâíûì p / 3 [4]:
P
e
( , )
( , )
c x
c x
=
+ -
1
1
. (1)
Ôóíêöèÿ ïðàâäîïîäîáèÿ â îáùåì âèäå äëÿ çàäà÷è áèíàðíîé êëàññèôèêàöèè
èìååò âèä [4]
L L X P Pi
i y
i
i yi i
( ) ( , , ) ( , ) ( ( , ))
: :
c c y c x c x= = -
= =
Õ Õ
1 0
1 . (2)
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 175
Ëîãàðèôì ýòîé ôóíêöèè èìååò âèä [4]
ln ( ) ln ( , , ) ln ( , ) ln ( ( , ))
: :
L L X P Pi
i y
i
ii
c c y c x c x= = + -
=
å
1
1
yi =
å
0
. (3)
Âî ìíîãèõ ïóáëèêàöèÿõ äëÿ äàííîãî ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ
òàêæå ïðåäëàãàåòñÿ ôîðìà çàïèñè â âèäå îäíîé ñóììû [4]
ln ( ) ln ( , , ) ( ln ( , ) ( ) ln ( ( , ))L L X y P y Pi i i ic c y c x c x= = + - -1 1 )
i
n
=
å
1
. (4)
Äàííàÿ çàïèñü ïðåäïîëàãàåò èñïîëüçîâàíèå äâóõ èíäèêàòîðíûõ ôóíêöèé —
äëÿ íóëÿ è åäèíèöû:
ln ( ) ln ( , , ) ( ( ) ln ( , ) ( ) ln ({ } { }L L X y P yi i ic c y c x= = I + I -1 0 1 P i
i
n
( , )))c x
=
å
1
. (5)
Îáîáùåíèå ëîãèñòè÷åñêîé ðåãðåññèè äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðå-
ìåííîé yi , ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ, ñîñòîèò â èñïîëüçîâàíèè âå-
ñîâîé ôóíêöèè, çàâèñèìîé îò íåïðåðûâíîé öåëåâîé ïåðåìåííîé:
ln ( ) ( ( ) ln ( , ) ( ( )) ln ( ( , )))L w y P w y Pi i i i
i
n
c c x c x= + - -
=
1 1
1
å . (6)
Ôîðìóëà (6) ïðåäñòàâëÿåò ñóììó âûïóêëûõ êîìáèíàöèé.
Ïðåäëàãàåìûå îãðàíè÷åíèÿ íà âåñîâóþ ôóíêöèþ:
w
w
y w y
y yi j
( ) ;
( ) ;
[ ; ]: ( ) [ ; ] ;
[ ; ], [
1 1
0 0
0 1 0 1
0 1 0
=
=
" Î Î
" Î " Î ; ]: ( ) ( ).1 y y w y w yi j i j> Þ >
ì
í
ïï
î
ï
ï
(7)
Ïåðâûå äâà îãðàíè÷åíèÿ îáîáùàþò ñëó÷àé áèíàðíîé äèñêðåòíîñòè. Òðåòüå
îãðàíè÷åíèå îïèñûâàåò îáëàñòü îïðåäåëåíèÿ è îáëàñòü çíà÷åíèé âåñîâîé
ôóíêöèè. ×åòâåðòîå îãðàíè÷åíèå îáåñïå÷èâàåò ìîíîòîííîñòü íåïðåðûâíîé âå-
ñîâîé ôóíêöèè.
Ïðèìåðîì ïîðîæäàåìîãî âåñîâîé ôóíêöèåé ñåìåéñòâà ëîãàðèôìîâ ôóíêöèè
ïðàâäîïîäîáèÿ ÿâëÿåòñÿ ñåìåéñòâî, ïîðîæäàåìîå ñòåïåííîé âåñîâîé ôóíêöèåé:
w y y( ) = a . (8)
Äîñòàòî÷íûì óñëîâèåì âûïîëíåíèÿ îãðàíè÷åíèé (7) ÿâëÿåòñÿ îáëàñòü
çíà÷åíèé ïàðàìåòðà
a > 0 . (9)
Ïðè a =1 ïîëó÷àåì êëàññè÷åñêóþ ôîðìóëó ëîãàðèôìà ôóíêöèè ïðàâäîïîäî-
áèÿ (4):
w y y
L L X w y P w y
i i
i i i
( ) ;
ln ( ) ln ( , , ) ( ( ) ln ( , ) ( (
=
= = + -c c y c x 1 )) ln ( ( , ))).1
1
-
ì
í
ï
îï =
å P i
i
n
c x (10)
Âûâåäåì îáîáùåííûå àíàëèòè÷åñêèå ôîðìóëû ïåðâîé è âòîðîé ïðîèçâîä-
íûõ (âåêòîðà ãðàäèåíòà è ìàòðèöû Ãåññå) îáîáùåííîãî ëîãàðèôìà ôóíêöèè
ïðàâäîïîäîáèÿ (6) ñ âåñîâîé ôóíêöèåé è äîêàæåì èõ ïðèìåíèìîñòü äëÿ ñëó÷àÿ
íåïðåðûâíîé öåëåâîé ïåðåìåííîé.
Òåîðåìà 1.  ëîãèñòè÷åñêîé ðåãðåññèè ïðè çàìåíå â êëàññè÷åñêîé ôîðìóëå
äëÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ (4) âñåõ çíà÷åíèé öåëåâîé ïåðåìåííîé
yi íà ñîîòâåòñòâóþùèå çíà÷åíèÿ ôóíêöèè îò öåëåâîé ïåðåìåííîé w yi( ) (â ñëó-
÷àå îáîáùåíèÿ (6) äëÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿò-
íîñòíûå çíà÷åíèÿ) âûïîëíÿþòñÿ ñëåäóþùèå óñëîâèÿ:
176 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6
1) ìàòðèöà Ãåññå äëÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ ñîâïàäàåò ñ êëàñ-
ñè÷åñêîé ìàòðèöåé Ãåññå äëÿ ñëó÷àÿ áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè (ñîâïà-
äàåò ñ êëàññè÷åñêîé ìàòðèöåé Ãåññå äëÿ ëîãàðèôìà êëàññè÷åñêîé ôóíêöèè
ïðàâäîïîäîáèÿ);
2) â ôîðìóëå âåêòîðà ãðàäèåíòà äëÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ îòíî-
ñèòåëüíî ñëó÷àÿ áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè (îòíîñèòåëüíî êëàññè÷åñêîé
ôîðìóëû âåêòîðà ãðàäèåíòà äëÿ ëîãàðèôìà êëàññè÷åñêîé ôóíêöèè ïðàâäîïîäîáèÿ)
âñå çíà÷åíèÿ öåëåâîé ïåðåìåííîé yi çàìåíÿþòñÿ ñîîòâåòñòâóþùèìè çíà÷åíèÿìè
ïðîèçâîëüíîé ôóíêöèè îò öåëåâîé ïåðåìåííîé w yi( ) àíàëîãè÷íî èñõîäíîé çàìåíå.
Äîêàçàòåëüñòâî. Ïðîèçâîäíàÿ ñîñòàâëÿþùåé ôóíêöèè ëîãèò-ïðåîáðàçîâà-
íèÿ ïî âåêòîðó c èìååò âèä [4]
¶
¶
=
+
= -
-
-
P e
e
P P
( , )
( )
( , )( ( , ))
( , )
( , )
c x
c
x c x c x x
c x
c x1
1
2
. (11)
Ïåðâàÿ ïðîèçâîäíàÿ îáîáùåííîãî ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ (6) (âåê-
òîð ãðàäèåíòà) èìååò âèä
d L
d
w y
d P
d
w y
d P
i
i
i
iln ( )
( )
ln ( , )
( ( ))
ln ( ( , )c
c
c x
c
c x
= + -
-
1
1 )
di
n
c
æ
è
ç
ö
ø
÷
=
å
1
, (12)
d L
d
w y
P
dP
d
w y
P
i
i
i i
i
ln ( ) ( )
( , )
( , ) ( ( ))
( ,
c
c c x
c x
c c x
= +
-
-
1
1 )
( ( , ))d P
d
i
i
n 1
1
-æ
è
çç
ö
ø
÷÷
=
å
c x
c
, (13)
d L
d
w y
P
dP
d
w y
P
i
i
i i
i
ln ( ) ( )
( , )
( , ) ( ( ) )
( ,
c
c c x
c x
c c x
= +
-
-
1
1 )
( , )dP
d
i
i
n c x
c
æ
è
çç
ö
ø
÷÷
=
å
1
, (14)
d L
d
w y P w y Pi i i i
i
nln ( )
( ( )( ( , )) ( ( ) ) ( , ))
c
c
c x c x= - + -
=
å 1 1
1
x i , (15)
g c
c
c
c x x( )
ln ( )
( ( ) ( , ))= = -
=
åd L
d
w y Pi i
i
n
i
1
. (16)
Âòîðàÿ ïðîèçâîäíàÿ îáîáùåííîãî ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ (6)
(ìàòðèöà Ãåññå) èìååò âèä
d L
d
d w y P
d
i i
i
n
i2
2
1ln ( )
( ( ) ( , ))
c
c
c x x
c
=
-
=
å
, (17)
H
d L
d
P Pi i
i
n
i i( )
ln ( )
( , )( ( , ))c
c
c
c x c x x x= = - -
=
å
2
2
1
1 T . (18)
Âòîðàÿ ïðîèçâîäíàÿ (18) íå çàâèñèò îò öåëåâîé ïåðåìåííîé è èìååò âèä
êëàññè÷åñêîé ìàòðèöû Ãåññå äëÿ êëàññè÷åñêîé áèíàðíîé ëîãèñòè÷åñêîé ðåãðåñ-
ñèè [4]. Ìàòðèöà Ãåññå ÿâëÿåòñÿ ñèììåòðè÷íîé, êàê ëèíåéíàÿ êîìáèíàöèÿ ïðîèç-
âåäåíèé Êðîíåêåðà âåêòîðîâ èçìåðåíèé âõîäÿùèõ ïàðàìåòðîâ, èçíà÷àëüíî
äîïîëíåííûõ åäèíèöåé.
Äîêàçàòåëüñòâî òåîðåìû 1 çàâåðøåíî.
Ñëåäñòâèå èç òåîðåìû 1. Ïåðâàÿ ïðîèçâîäíàÿ (16) ïðè âåñîâîé ôóíêöèè,
ðàâíîé íåïðåðûâíîé öåëåâîé ïåðåìåííîé (10) (íàïðèìåð, ïðè åäèíè÷íîì çíà÷å-
íèè a ñåìåéñòâà ñòåïåííûõ ôóíêöèé), ñîîòâåòñòâóåò êëàññè÷åñêîìó âåêòîðó ãðà-
äèåíòà äëÿ êëàññè÷åñêîé áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè [4]:
g c
c
c
c x x( | ( ) )
ln ( )
( ( , ))w y y
d L
d
y Pi i
i
n
i= = = -
=
å
1
. (19)
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 177
Îäíèì èç îñíîâíûõ âûâîäîâ ÿâëÿåòñÿ òî, ÷òî çàïèñü êëàññè÷åñêîé áèíàðíîé
ðåãðåññèè â âèäå (4) ïîëíîñòüþ ïðèìåíèìà äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðå-
ìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ, è êëàññè÷åñêèå ôîðìóëû (19) è
(18) äëÿ ïåðâîé è âòîðîé ïðîèçâîäíûõ (âåêòîðà ãðàäèåíòà è ìàòðèöû Ãåññå) âåðíû
è íå òðåáóþò èçìåíåíèÿ ïðè èñïîëüçîâàíèè ìåòîäà Íüþòîíà. Ïðè äîêàçàòåëüñòâå
ôîðìóë ïðîèçâîäíûõ íå èñïîëüçîâàëîñü îãðàíè÷åíèå áèíàðíîé äèñêðåòíîñòè.
Âòîðûì âàæíûì çàêëþ÷åíèåì ÿâëÿåòñÿ âîçìîæíîñòü îáîáùåíèÿ è èçìåíå-
íèÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ ñîãëàñíî ôîðìóëå (6) ñ ïîìîùüþ âåñî-
âûõ ôóíêöèé, ÷òî îáåñïå÷èâàåò âûïóêëóþ êîìáèíàöèþ. Ýòè ôóíêöèè íå âëèÿþò
íà ñëó÷àé áèíàðíîé öåëåâîé ïåðåìåííîé áëàãîäàðÿ îãðàíè÷åíèÿì (7). Îáîáùåí-
íàÿ ìàòðèöà Ãåññå (18) ïðè èñïîëüçîâàíèè âåñîâîé ôóíêöèè íå èçìåíÿåòñÿ îòíî-
ñèòåëüíî êëàññè÷åñêîé, à ôîðìóëà âåêòîðà ãðàäèåíòà (16) èçìåíÿåòñÿ
íåçíà÷èòåëüíî îòíîñèòåëüíî êëàññè÷åñêîé ôîðìóëû (19).
Ñîãëàñíî ìåòîäó Íüþòîíà [4]
c c c g ck k k kH+
-= -1
1 ( ) ( ) . (20)
Äëÿ çàâåðøåíèÿ ìåòîäà Íüþòîíà [4] òðåáóåòñÿ âûïîëíåíèå óñëîâèÿ
| | | |c ck k+ - <1 e . (21)
Òðåòèé âàæíûé âûâîä ñîñòîèò â âîçìîæíîñòè ïðèáëèæåíèÿ êîýôôèöèåíòîâ
ïðåäëàãàåìîãî íåïðåðûâíîãî îáîáùåíèÿ ëîãèñòè÷åñêîé ðåãðåññèè äëÿ âåðîÿò-
íîñòíîé öåëåâîé ïåðåìåííîé ñ ïîìîùüþ êîýôôèöèåíòîâ êëàññè÷åñêîé áèíàðíîé
ëîãèñòè÷åñêîé ðåãðåññèè ïðè ñîçäàíèè èñêóññòâåííîé âûáîðêè ñ áèíàðíîé öåëå-
âîé ïåðåìåííîé â ñëó÷àå, åñëè âåñîâàÿ ôóíêöèÿ ðàâíà íåïðåðûâíîé öåëåâîé ïå-
ðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ. Ïðè ýòîì èñïîëüçóþòñÿ ìíî-
æåñòâåííûå âêëþ÷åíèÿ îäíèõ è òåõ æå íàáëþäåíèé ñ îðèãèíàëüíîé âûáîðêè â
èñêóññòâåííóþ âûáîðêó, íî ñ ðàçíûìè áèíàðíûìè èñõîäàìè, ïðîïîðöèîíàëüíî
íåïðåðûâíûì âåðîÿòíîñòÿì áèíàðíûõ èñõîäîâ â îðèãèíàëüíîé âûáîðêå. Ýòîò
âûâîä ñôîðìóëèðóåì â âèäå ñëåäóþùåé òåîðåìû.
Òåîðåìà 2. Êîýôôèöèåíòû áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè íà èñêóñ-
ñòâåííîé âûáîðêå ðàçìåðà mn ñòðåìÿòñÿ ê êîýôôèöèåíòàì íåïðåðûâíîãî îáîá-
ùåíèÿ ëîãèñòè÷åñêîé ðåãðåññèè íà îðèãèíàëüíîé âûáîðêå ðàçìåðà n ïðè m ® ¥ ,
åñëè èñêóññòâåííàÿ âûáîðêà ôîðìèðóåòñÿ íà îñíîâàíèè îðèãèíàëüíîé âûáîðêè
ñëåäóþùèì îáðàçîì:
1) èñêóññòâåííàÿ âûáîðêà ñîäåðæèò m m yi i0 ( , ) âõîæäåíèé âåêòîðîâ íàáëþ-
äåíèÿ x i ñ öåëåâîé ïåðåìåííîé, ðàâíîé íóëþ, è m m yi i1 ( , ) âõîæäåíèé ñ öåëåâîé
ïåðåìåííîé, ðàâíîé åäèíèöå; ïðè ýòîì èìååì ðàâåíñòâî
m m y m m y mi i i i0 1( , ) ( , )+ = " Îi n{ , ..., }1 ; (22)
2) âûïîëíÿåòñÿ ñëåäóþùåå ìíîæåñòâî óñëîâèé îòíîñèòåëüíî íåïðåðûâíîé
öåëåâîé ïåðåìåííîé yi , ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ
m m y
m
yi i
m
i
1 ( , )
®
®¥
" Îi n{ , ..., }1 . (23)
Äâà óñëîâèÿ âûïîëíÿþòñÿ (â îáðàòíîì ïîðÿäêå), íàïðèìåð, ïðè èñïîëüçîâà-
íèè ôóíêöèè öåëîé ÷àñòè:
m m y my
m m y m m m y
i i i
i i i i
1
0 1
( , ) [ ];
( , ) ( , ).
=
= -
ì
í
î
(24)
Äîêàçàòåëüñòâî. Äëÿ èñêóññòâåííîé âûáîðêè êëàññè÷åñêàÿ ôóíêöèÿ ïðàâ-
äîïîäîáèÿ áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè â òåðìèíàõ îðèãèíàëüíîé âûáîð-
178 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6
êè, èñïîëüçóÿ ôîðìóëó (2), íî ñ ó÷åòîì ìíîæåñòâåííûõ âõîæäåíèõ êàæäîãî íàá-
ëþäåíèÿ îðèãèíàëüíîé âûáîðêè â ïîäìíîæåñòâà äâóõ ðàçíûõ êëàññîâ èñêóñ-
ñòâåííîé âûáîðêè, èìååò ñëåäóþùèé âèä:
L P Pmn i
m m y
i n
i
mi i( ) ( ( , )) ( ( , ))
( , )
{ , ..., }
c c x c x= -
Î
Õ 1 0
1
1 i im y
i n
( , )
{ , ..., }Î
Õ
1
, (25)
L P Pmn i
m m y
i
m m y
i
i i i i( ) ( ( , )) ( ( , ))
( , ) ( , )
{ ,
c c x c x= -
Î
1 01
1 ..., }n
Õ . (26)
Ôîðìóëà êîðíÿ ñòåïåíè m ôóíêöèè ïðàâäîïîäîáèÿ Lmn ( )c ñ ó÷åòîì ðàâåí-
ñòâà (22) èìååò âèä
L P Pmn
m
i
m m y
m
i
m m y
m
i i i i
( ) ( ( , )) ( ( , ))
( , ) ( , )
c c x c x= -
-1 1
1
1
æ
è
ç
ö
ø
÷
Î
Õ
i n{ , ..., }1
. (27)
Ïðåäåë êîðíÿ ñòåïåíè m ôóíêöèè ïðàâäîïîäîáèÿ Lmn ( )c ïðè m ® ¥ ñ ó÷å-
òîì ðàâåíñòâà (23) èìååò âèä
" Î = -
®¥
-
Î
c c c x c xR L P P
C
m
mn
m
i
y
i
y
i
i i: lim ( ) ( ( , )) ( ( , ))
{
1
1
1, ..., }n
Õ , (28)
" Î =
®¥
c c cR L L
C
m
mn
m: lim ( ) ( ) , (29)
ãäå L( )c — êëàññè÷åñêàÿ ôóíêöèÿ ïðàâäîïîäîáèÿ. Ýòî îáîáùåííî ïðèìåíÿåò-
ñÿ äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå
çíà÷åíèÿ, ò.å.
L L X P Pi
y
i
y
i
n
i i( ) ( , , ) ( ( , )) ( ( , ))c c y c x c x= = - -
=
å 1
1
1
, (30)
÷òî â òåðìèíàõ âûðàæåíèÿ (10) çàïèñûâàåòñÿ êàê
w y y
L L X P P
i i
i
w y
i
i
( ) ;
( ) ( , , ) ( ( , )) ( ( , ))
( )
=
= = - -c c y c x c x1
1 w y
i
n
i( )
=
å
ì
í
ï
îï 1
. (31)
Âûðàæåíèå (29) ìîæíî ïåðåïèñàòü ñëåäóþùèì îáðàçîì:
" Îc R
C : ln lim ( ) ln ( )
m
mn
m L L
®¥
æ
è
ç
ö
ø
÷ =c c , (32)
" Îc R
C : lim
ln ( )
ln ( )
m
mnL
m
L
®¥
=
c
c , (33)
ò.å. " Îc R
C ïðè äîñòàòî÷íî áîëüøîì çíà÷åíèè m
ln ( ) ln ( )L m Lmn c c» , (34)
èëè, áîëåå òî÷íî, äëÿ âûðàæåíèÿ (33) òî÷å÷íàÿ ñõîäèìîñòü ôîðìóëèðóåòñÿ
" Î " > $ Îc cR m N
C , ( , )e e0 , " > -½
½
½ ½
½
½<m m
L
m
Lmn( , ):
ln ( )
ln ( )c
c
ce e , (35)
" Î
ì
í
î
ü
ý
þ
®
=
¥
c
c
cR
L
m
L
C mn
m
:
ln ( )
ln ( )
1
, (36)
ãäå N — ìíîæåñòâî íàòóðàëüíûõ ÷èñåë.
Î÷åâèäíî, ÷òî
c c c
c c c
mn
R
mn
R
mn
m
R
C C C
L L
* ( ) ( )= = =
Î Î Î
agrmax agrmax agrmax ln ( )Lmn
m c , (37)
c c
c
c c
mn
R
mn
R
mn
C C
L
L
m
* ln ( )
ln ( )
= =
Î Î
agrmax agrmax . (38)
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 179
Ôîðìóëû (37) è (38) îïèñûâàþò âåêòîð îïòèìàëüíûõ êîýôôèöèåíòîâ áèíàð-
íîé ëîãèñòè÷åñêîé ðåãðåññèè. Äàëåå ââåäåì îáîçíà÷åíèå
c c c
c c
n
R R
C C
L L
* ( ) ln ( )= =
Î Î
agrmax agrmax , (39)
à òàêæå îáîçíà÷åíèå ïîäìíîæåñòâà â ïðîñòðàíñòâå R
C :
R rr
C = £{ : || || }c c , (40)
R Rr
C CÌ . (41)
Òîãäà âûðàæåíèÿ (38) è (39) ïðèìóò âèä
c cmn
r R
mn
r R
mn
r
C
r
C
L
L* lim ln ( ) lim
ln (
= =
®¥ ®¥
agrmax agrmax
c)
m
, (42)
c cn
r Rr
C
L
* lim ln ( )=
®¥
agrmax . (43)
Ñ ó÷åòîì óòâåðæäåíèÿ (35) ââåäåì îáîçíà÷åíèå
m mr
Rr
C
( , ) max ( , )c ce e= . (44)
Àíàëîãè÷íî âûðàæåíèþ (35) çàïèñûâàåòñÿ ðàâíîìåðíàÿ ñõîäèìîñòü íà Rr
C :
" > $ Î " Î " > -½
e e e0 m N R m m
L
m
Lr r
C
r
mn( , ) , , ( , ):
ln ( )
ln ( )c c c
c
c
½
½ ½
½
½< e , (45)
lim
ln ( )
ln ( )
m R
mn
r
C
L
m
L
®¥ Î
-½
½
½ ½
½
½=sup
c
c
c 0 , (46)
ln ( )
ln ( )
,
L
m
Lmn
R mr
C
c
c
®¥
¾ ®¾ ¾ ¾¾ . (47)
Äàëåå, èñïîëüçóÿ (42) è ðàâíîìåðíóþ ñõîäèìîñòü íà Rr
C ïðè m ® ¥ (47)
lim lim lim
ln ( )
lim*
m
mn
m r R
mn
r
r
C
L
m®¥ ®¥ ®¥ ®¥
= =c
c
agrmax agrmax
R R m
mn
r
C
r
C
L
m
lim
ln ( )
, ®¥
c
, (48)
à òàêæå ïðàâóþ ÷àñòü âûðàæåíèÿ (47) è ðàâåíñòâî (43), ïîëó÷àåì
lim lim ln ( )* *
m
mn
r R
n
r
C
L
®¥ ®¥
= =c c cagrmax . (49)
Äîêàçàòåëüñòâî òåîðåìû 2 çàâåðøåíî.
Âåñîâàÿ ôóíêöèÿ, êîòîðàÿ îòëè÷íà îò êëàññè÷åñêîé, ò.å. íå ðàâíà öåëåâîé
ïåðåìåííîé, âíîñèò ñìåùåíèå â ïðîãíîçíóþ âåðîÿòíîñòü ïðè âåðîÿòíîñòíûõ
çíà÷åíèÿõ öåëåâîé ïåðåìåííîé, íî íå âíîñèò íèêàêèõ èçìåíåíèé äëÿ êëàññè÷åñ-
êîãî áèíàðíîãî ñëó÷àÿ áëàãîäàðÿ ïðåäëîæåííûì îãðàíè÷åíèÿì (7). Ýòîò ôàêò
ìîæíî ó÷èòûâàòü ïðè àíàëèçå îòêëîíåííûõ çàÿâîê (reject inference) [2, 6].
Êëàññè÷åñêàÿ ôîðìóëà âåñà êàòåãîðèè ïåðåìåííîé — êàòåãîðèàëüíîé (äèñ-
êðåòíîé) õàðàêòåðèñòèêè èìååò âèä [2]
WoE g bi i i= ln ( / ) . (50)
Êàòåãîðèàëüíûé ïîêàçàòåëü g i — ýòî îòíîøåíèå êîëè÷åñòâà ýëåìåíòîâ ñ åäè-
íè÷íûì öåëåâûì ðåçóëüòàòîì â ñåãìåíòå êàòåãîðèè ñ íîìåðîì i ê îáùåìó êî-
ëè÷åñòâó ýëåìåíòîâ ñ åäèíè÷íûì öåëåâûì ðåçóëüòàòîì âñåõ êàòåãîðèé:
g
G
G
G
G
i
i
i
i
c
i= =
=
å
1
. (51)
180 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6
Òàêèì îáðàçîì, îïåðèðóåì ðàñïðåäåëåíèåì ýëåìåíòîâ ñ åäèíè÷íûì öåëåâûì
ðåçóëüòàòîì ïî äèñêðåòíûì èëè äèñêðåòèçèðîâàííûì çíà÷åíèÿì ïåðåìåííîé
(êàòåãîðèÿì ïåðåìåííîé), ïîýòîìó èìååò ìåñòî ðàâåíñòâî
g i
i
c
=
=
å 1
1
. (52)
Àíàëîãè÷íî êàòåãîðèàëüíûé ïîêàçàòåëü bi — ýòî îòíîøåíèå êîëè÷åñòâà
ýëåìåíòîâ ñ íóëåâûì öåëåâûì ðåçóëüòàòîì â ñåãìåíòå êàòåãîðèè ñ íîìåðîì i ê
îáùåìó êîëè÷åñòâó ýëåìåíòîâ ñ íóëåâûì öåëåâûì ðåçóëüòàòîì âñåõ êàòåãîðèé:
b
B
B
B
B
i
i
i
i
c
i= =
=
å
1
. (53)
Òàêæå îïåðèðóåì ðàñïðåäåëåíèåì ýëåìåíòîâ ñ íóëåâûì öåëåâûì ðåçóëüòàòîì
ïî äèñêðåòíûì èëè äèñêðåòèçèðîâàííûì çíà÷åíèÿì ïåðåìåííîé (êàòåãîðèÿì
ïåðåìåííîé), îòñþäà èìååì
bi
i
c
=
=
å 1
1
. (54)
Íà îñíîâàíèè âåñîâ êàòåãîðèè ïåðåìåííîé è äâóõ ðàñïðåäåëåíèé, g i è bi ,
ïîäñ÷èòûâàåòñÿ ïîêàçàòåëü çíà÷åíèÿ èíôîðìàöèè (Information Value, IV) — ïðî-
èçâîäíûé îò ðàññòîÿíèÿ Êóëüáàêà–Ëåéáëåðà [2, 3]:
IV g b
g
b
g b WoEi i
i
ii
c
i i i
i
c
= -
æ
è
çç
ö
ø
÷÷ = -
= =
å å( ) ln ( )
1 1
. (55)
Óñîâåðøåíñòâîâàíèå âåñà êàòåãîðèè ïåðåìåííîé WoE îïðåäåëÿåòñÿ ôîðìóëîé
WoE
y
y
i
ij
j
n
ij
j
n
i
c
i
i
=
æ
è
ç
ç
ç
ç
ç
ö
ø
÷
÷
÷
÷
÷
-
-
=
==
å
åå
ln ln
(
1
11
1 y
y
ij
j
n
ij
j
n
i
c
i
i
)
( )
=
==
å
åå -
æ
è
ç
ç
ç
ç
ç
ö
ø
÷
÷
÷
÷
÷
1
11
1
. (56)
Çäåñü ââåäåíà äâîéíàÿ íóìåðàöèÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé yij , ãäå
èíäåêñ i îçíà÷àåò íîìåð êëàñòåðà (âñåãî èìååì c êëàñòåðîâ), à èíäåêñ j —
âíóòðåííþþ íóìåðàöèþ â êëàñòåðå. Îñîáåííîñòü îáîáùåíèÿ ñîñòîèò â èñ-
ïîëüçîâàíèè ñóìì âåðîÿòíîñòåé îïðåäåëåííîãî èñõîäà â êëàñòåðå, ñîîòíåñåí-
íîé ê îáùåé ñóììå âåðîÿòíîñòåé îïðåäåëåííîãî èñõîäà. Îáîáùåííîå çíà÷å-
íèå èíôîðìàöèè IV òàêæå ìîæíî çàïèñàòü ñ èñïîëüçîâàíèåì äàííîãî ïîäõîäà:
IV
y
y
y
y
ij
j
n
ij
j
n
i
c
ij
j
n
ij
j
i
i
i
= -
-
-
=
==
=
=
å
åå
å
1
11
1
1
1
1
( )
( )
n
i
c
ij
j
n
ij
j
n
i
ci
i
i
y
yåå
å
åå
=
=
==
æ
è
ç
ç
ç
ç
ç
ö
ø
÷
÷
÷
÷
÷
æ
è
ç
1
1
11
ln
ç
ç
ç
ç
ö
ø
÷
÷
÷
÷
÷
-
-
-
æ
è
ç
ç
ç
=
==
å
åå
ln
( )
( )
1
1
1
11
y
y
ij
j
n
ij
j
n
i
c
i
iç
ç
ö
ø
÷
÷
÷
÷
÷
æ
è
ç
ç
ç
ç
ç
ö
ø
÷
÷
÷
÷
÷
=
å
i
c
1
, (57)
IV
y
y
y
y
ij
j
n
ij
j
n
i
c
ij
j
n
ij
j
i
i
i
= -
-
-
=
==
=
=
å
åå
å
1
11
1
1
1
1
( )
( )
n
i
c
i
i
c
i
WoE
åå
å
=
=
æ
è
ç
ç
ç
ç
ç
ö
ø
÷
÷
÷
÷
÷
1
1
. (58)
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 181
Òåîðåìà 3. Íà èñêóññòâåííîé âûáîðêå ðàçìåðà mn ñ áèíàðíûì èñõîäîì, ïî-
ñòðîåííîé íà îðèãèíàëüíîé âûáîðêå ðàçìåðà n ñ ñîáëþäåíèåì äâóõ óñëîâèé òåî-
ðåìû 2, ïðè m ® ¥ êëàññè÷åñêèå âåñà êàòåãîðèé ïåðåìåííûõ è çíà÷åíèÿ èíôîð-
ìàöèè ñòðåìÿòñÿ ê ïðåäëîæåííûì îáîáùåíèÿì (56) è (58) äëÿ ñëó÷àÿ íåïðåðûâ-
íîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ.
Äîêàçàòåëüñòâî. Ôîðìà çàïèñè âòîðîãî óñëîâèÿ òåîðåìû 2 ïðè ââåäåíèè
äâîéíîé èíäåêñàöèè (íîìåð ñåãìåíòà è íîìåð âíóòðè ñåãìåíòà) èìååò ñëåäóþ-
ùèé âèä:
" Î " Î ®
®¥
i c j n
m m y
m
yi
ij ij
m
ij{ , ..., }, { , ..., }:
( , )
1 1
1
, (59)
à ôîðìà çàïèñè ïåðâîãî óñëîâèÿ òåîðåìû 2 îòíîñèòåëüíî m m yij ij0 ( , ) èìååò âèä
m m y m m m yij ij ij ij0 1( , ) ( , )= - . (60)
Êëàññè÷åñêèå ôîðìóëû (51) è (53) äëÿ àíàëèçà âûáîðêè ñ áèíàðíûì èñõî-
äîì â ñëó÷àå èñêóññòâåííîé âûáîðêè èìåþò âèä
g m
G m
G m
m m y
m m y
i
i
i
i
c
ij ij
j
n
ij ij
i
( )
( )
( )
( , )
( , )
= =
=
=
å
å
1
1
1
1
j
n
i
c i
==
åå
11
, (61)
b m
B m
B m
m m y
m m y
i
i
i
i
c
ij ij
j
n
ij ij
i
( )
( )
( )
( , )
( , )
= =
=
=
å
å
1
0
1
0
j
n
i
c i
==
åå
11
. (62)
Ðàçäåëèâ ÷èñëèòåëü è çíàìåíàòåëü âûðàæåíèé (61) è (62) íà m ñ ó÷åòîì (59)
è (60), âû÷èñëèì ïðåäåëû âûðàæåíèé (61) è (62):
lim ( )
lim
( , )
lim
( ,m
i
m
ij ij
j
n
m
ij
g m
m m y
m
m m y
i
®¥
®¥=
®¥
=
å 1
1
1 ij
j
n
i
c
ij
j
n
ij
j
n
i
c
m
y
y
i
i
i)
==
=
==
åå
å
åå
=
11
1
11
, (63)
lim ( )
lim
( , )
li
m
i
m
ij ij
j
n
b m
m m y
m
i
®¥
®¥==
-
æ
è
ç
ç
ö
ø
÷
÷
-
å 1
1
1
1
m
( , )
( )
(
m
ij ij
j
n
i
c
ij
j
n
m m y
m
y
i
i
®¥==
=
æ
è
ç
ç
ö
ø
÷
÷
=
-
åå
å
1
11
1
1
1
11
-
==
åå yij
j
n
i
c i
)
. (64)
Ââåäåì îáîçíà÷åíèÿ ñîãëàñíî êëàññè÷åñêèì ôîðìóëàì (50) è (55) äëÿ èñêóñ-
ñòâåííîé âûáîðêè ñ áèíàðíûì èñõîäîì
WoE m
g m
b m
i
i
i
( ) ln
( )
( )
=
æ
è
çç
ö
ø
÷÷ , (65)
IV m g m b m
g m
b m
g mi i
i
ii
c
i( ) ( ( ) ( )) ln
( )
( )
( (= -
æ
è
çç
ö
ø
÷÷ =
=
å
1
) ( )) ( )-
=
å b m WoE mi i
i
c
1
. (66)
182 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6
Ïðåäåë âåñà êàòåãîðèè ïåðåìåííîé ñ èñïîëüçîâàíèåì ïðåäåëîâ (63) è (64):
lim ( ) ln
m
i
ij
j
n
ij
j
n
i
c
WoE m
y
y
i
i®¥
=
==
=
æ
è
ç
ç
ç
ç
ç
ö
ø
÷
÷
å
åå
1
11
÷
÷
÷
-
-
-
æ
è
ç
ç
ç
ç
ç
ö
ø
÷
÷
÷
÷
=
==
å
åå
ln
( )
( )
1
1
1
11
y
y
ij
j
n
ij
j
n
i
c
i
i
÷
. (67)
Ïðåäåë çíà÷åíèÿ èíôîðìàöèè ñ èñïîëüçîâàíèåì ïðåäåëîâ (63), (64) è (67):
lim ( )
m
IV m
®¥
=
= -
-
-
=
==
=
=
å
åå
åy
y
y
y
ij
j
n
ij
j
n
i
c
ij
j
n
ij
j
n
i
i
i
i
1
11
1
1
1
1
( )
( )åå
å
åå
=
=
==
æ
è
ç
ç
ç
ç
ç
ö
ø
÷
÷
÷
÷
÷
æ
è
ç
ç
ç
i
c
ij
j
n
ij
j
n
i
c
y
y
i
i
1
1
11
ln
ç
ç
ö
ø
÷
÷
÷
÷
÷
-
-
-
æ
è
ç
ç
ç
ç
ç
=
==
å
åå
ln
( )
( )
1
1
1
11
y
y
ij
j
n
ij
j
n
i
c
i
i
ö
ø
÷
÷
÷
÷
÷
æ
è
ç
ç
ç
ç
ç
ö
ø
÷
÷
÷
÷
÷
=
å
i
c
1
, (68)
lim ( )
( )
(
m
ij
j
n
ij
j
n
i
c
ij
j
n
IV m
y
y
y
i
i
i
®¥
=
==
== -
-å
åå
å
1
11
1
1
1
11
1 -
æ
è
ç
ç
ç
ç
ç
ö
ø
÷
÷
÷
÷
÷
==
®¥= åå
å
y
WoE m
ij
j
n
i
c m
i
i
c
i
)
lim ( ) . (69)
Òàêèì îáðàçîì, ñîãëàñíî îáîçíà÷åíèÿì (56) è (57) âûïîëíÿþòñÿ ðàâåíñòâà
lim ( )
m
i iWoE m WoE
®¥
= , (70)
lim ( )
m
IV m IV
®¥
= , (71)
ò.å. êëàññè÷åñêèå ïîêàçàòåëè äëÿ èñêóññòâåííîé âûáîðêè ñ áèíàðíûì èñõîäîì ñõî-
äÿòñÿ ê ïðåäëàãàåìûì îáîáùåííûì ïîêàçàòåëÿì âåñîâ êàòåãîðèé ïåðåìåííûõ è
çíà÷åíèÿì èíôîðìàöèè íà îðèãèíàëüíîé âûáîðêå ñ âåðîÿòíîñòíûì èñõîäîì. Äîêà-
çàíî òàêæå âûïîëíèìîñòü ðàâåíñòâà (58) ñîãëàñíî ïîëó÷åííîìó ðàâåíñòâó (69).
Äîêàçàòåëüñòâî òåîðåìû 3 çàâåðøåíî.
Îñíîâíûìè ñïîñîáàìè ïîäñ÷åòà ïîêàçàòåëÿ Äæèíè, èñïîëüçóåìûìè äëÿ òå-
ñòèðîâàíèÿ è îöåíêè êà÷åñòâà ìîäåëè, ÿâëÿþòñÿ êðèâàÿ Ëîðåíöà, à òàêæå êðèâàÿ
îïåðàöèîííîé õàðàêòåðèñòèêè ïðèåìíèêà (Receiver Operating Characteristic curve)
[2, 3, 7], êîòîðóþ ìîæíî ïðåîáðàçîâàòü â ãðàôèê çàâèñèìîñòè çíà÷åíèé êóìóëÿ-
òèâíîé ôóíêöèè ðàñïðåäåëåíèÿ íóëåâûõ («ïëîõèõ») ýëåìåíòîâ îò çíà÷åíèé êó-
ìóëÿòèâíîé ôóíêöèè ðàñïðåäåëåíèÿ åäèíè÷íûõ («õîðîøèõ») ýëåìåíòîâ. Îáå êó-
ìóëÿòèâíûå ôóíêöèè ïðåäñòàâëåíû â âèäå ïàðàìåòðè÷åñêîãî ãðàôèêà ñ ïàðàìåò-
ðîì óðîâíÿ ïîðîãà îòñå÷åíèÿ äëÿ ïðîãíîçèðóåìîé âåðîÿòíîñòè ìîäåëè.
Âõîäÿùèì íàáîðîì ÿâëÿåòñÿ íàáîð äâóõìåðíûõ âåêòîðîâ ôàêòè÷åñêèõ è
ïðîãíîçèðóåìûõ çíà÷åíèé ( , )y si i . Òîãäà ôîðìóëà, êîòîðàÿ îáîáùàåòñÿ äëÿ
ïîäñ÷åòà èíäåêñà Äæèíè, èìååò âèä [7]
GINI F s dF sB
s S
G= -
æ
è
ç
ç
ö
ø
÷
÷
æ
è
ç
ö
ø
÷
Î
ò ( ) ( )
1
2
1
2
. (72)
Äàëåå èíòåãðàë ìîæíî îöåíèòü ÷èñëåííî [7]:
F s dF s
F s F s
F s F sB
s S
G
B i B i
G i G i( ) ( )
( ( ) ( ))
( ( ) ( )
Î
-
-ò =
+
-1
1
2
)
s SiÎ
å . (73)
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 183
Îáîáùåíèå êóìóëÿòèâíûõ ðàñïðåäåëåíèé:
F t
y
y
G
i
i s t
i
i
n
i( )
:
=
£
=
å
å
1
, (74)
F t
y
y
B
i
i s t
i
i
n
i( )
( )
( )
:
=
-
-
£
=
å
å
1
1
1
. (75)
Òåîðåìà 4. Íà èñêóññòâåííîé âûáîðêå ðàçìåðà mn ñ áèíàðíûì èñõîäîì, ïî-
ñòðîåííîé íà îðèãèíàëüíîé âûáîðêå ðàçìåðà n ñ ñîáëþäåíèåì äâóõ óñëîâèé òåî-
ðåìû 2, ïðè m ® ¥ êëàññè÷åñêèé èíäåêñ Äæèíè äèñêðåòíîé ìîäåëè áèíàðíîãî
âûáîðà ñòðåìèòñÿ ê ïðåäëîæåííîìó îáîáùåíèþ (72)–(75) äëÿ ìîäåëè ñ íåïðå-
ðûâíîé âõîäÿùåé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ.
Äîêàçàòåëüñòâî. Â òåîðåìàõ 2 è 3 äîêàçàíà ñõîäèìîñòü âåñîâ êàòåãîðèé ïå-
ðåìåííûõ è âåêòîðà êîýôôèöèåíòîâ ëîãèñòè÷åñêîé ðåãðåññèè, ÷òî îáóñëîâëèâà-
åò ñõîäèìîñòü ïðîãíîçèðóåìûõ çíà÷åíèé s m si
m
i( ) ®
®¥
. Ïîýòîìó ïðåäåëû êëàñ-
ñè÷åñêèõ ýìïèðè÷åñêèõ ôóíêöèé ðàñïðåäåëåíèÿ äëÿ èñêóññòâåííîé âûáîðêè
ñ ó÷åòîì äâóõ óñëîâèé òåîðåìû 2 èìåþò ñëåäóþùèé âèä (óñëîâèå lim ( )
m
is m t
®¥
£
çàìåíÿåòñÿ ìíîæèòåëåì — èíäèêàòîðíîé ôóíêöèåé íåðàâåíñòâà, ÷òî ïîäòâåðæ-
äàåò êîððåêòíîñòü ðàññóæäåíèé, èçëîæåííûõ íèæå):
lim ( , )
m
GF t m
®¥
=
= =
®¥
£
=
®¥å
å
lim
( , )
( , )
lim
: ( )
m
i i
i s m t
i i
i
n
m
i
m m y
m m y
m
i
1
1
1
1 ( , )
lim
( , )
: lim ( )
:
m y
m
m m y
m
y
i
i s m t
m
i i
i
n
i
i sm
i
®¥
£
®¥=
å
å
=
1
1
i t
i
i
n
y
£
=
å
å
1
,
lim ( , )
m
BF t m
®¥
=
= =
-
®¥
£
=
®¥å
å
lim
( , )
( , )
lim
: ( )
m
i i
i s m t
i i
i
n
m
m m y
m m y
m
i
0
0
1
1 1
11
i i
i s m t
m
i i
m y
m
m m y
m
m
i
( , )
lim
( , )
: lim ( )
æ
è
ç
ö
ø
÷
-
æ
®¥
£
®¥
å
è
ç
ö
ø
÷
=
-
-
=
£
=
å
å
å
i
n
i
i s t
i
i
n
y
y
i
1 1
1
1
( )
( )
:
.
 òåðìèíàõ îáîçíà÷åíèé (74) è (75) ïîëó÷åííûé ðåçóëüòàò ïðèíèìàåò âèä
lim ( , ) ( )
m
G GF t m F t
®¥
= ,
lim ( , ) ( )
m
B BF t m F t
®¥
= .
Êàê ñëåäñòâèå, ñ ó÷åòîì âñåõ óïîìÿíóòûõ ôàêòîâ ñõîäèòñÿ ïîêàçàòåëü ïëî-
ùàäè ïîä êðèâîé (Area Under Curve, AUC) àíàëîãè÷íî èíòåãðàëó Ëåáåãà:
AUC m AUC F s m m dF s m mm B
s m S m
G( ) ( ( ), ) ( ( ), )
( ) ( )
= =
Î
ò ,
184 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6
AUCm =
=
+
--
-
( ( ( ), ) ( ( ), ))
( ( ( ), ) ( (
F s m m F s m m
F s m m F sB i B i
G i G i
1
1
2
m m
s m S mi
), )),
( ) ( )Î
å
lim
( ( ) ( ))
( ( ) ( ))
m
m
B i B i
G i G i
s S
AUC
F s F s
F s F s
i
®¥
-
-
Î
=
+
-1
1
2
å .
Òîãäà ñîãëàñíî (72) ñõîäèòñÿ ïîñëåäîâàòåëüíîñòü
lim ( ) lim ( )
m m
GINI m AUC m GINI
®¥ ®¥
= - =2 1 .
Äîêàçàòåëüñòâî òåîðåìû 4 çàâåðøåíî.
Êàê óêàçàíî â äîêàçàòåëüñòâå òåîðåìû 4, â òåîðåìå 2 äîêàçûâàåòñÿ ñõîäèìîñòü
îòíîñèòåëüíî öåëåâîé ïåðåìåííîé â óñëîâèÿõ íåçàâèñèìîñòè îò ïàðàìåòðà m äëÿ
îðèãèíàëüíîé ìàòðèöû íàáëþäåíèé, íî â óñëîâèÿõ èñïîëüçîâàíèÿ âåñîâ êàòåãî-
ðèé ïåðåìåííûõ â êà÷åñòâå çíà÷åíèé âõîäÿùèõ ïåðåìåííûõ äëÿ ìàòðèöû íàáëþ-
äåíèé âàæåí ôàêò ñõîäèìîñòè äëÿ WoE, ÷òî äîêàçàíî â òåîðåìå 3. Òàêèì îáðà-
çîì, ãàðàíòèðóåòñÿ ñõîäèìîñòü êîìïëåêñíîãî êëàññè÷åñêîãî ïîäõîäà íà äâóõ
óðîâíÿõ, êîãäà â êà÷åñòâå âõîäÿùèõ ïåðåìåííûõ â ëîãèñòè÷åñêîé ðåãðåññèè èñ-
ïîëüçóåòñÿ WoE. Äàííûé ïîäõîä âêëþ÷àåò:
• ðàñ÷åò ìàòðèöû íàáëþäåíèé ñ ïîìîùüþ WoE-ïðåîáðàçîâàíèé äëÿ âõîäÿ-
ùèõ êàòåãîðèàëüíûõ (ëèáî äèñêðåòèçèðîâàííûõ íà èíòåðâàëû) ïåðåìåííûõ ñ èñ-
ïîëüçîâàíèåì ïðåäëîæåííîé ôîðìóëû äëÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé;
• âûïîëíåíèå ìîäåëèðîâàíèÿ ñ ïîìîùüþ ëîãèñòè÷åñêîé ðåãðåññèè ñ èñ-
ïîëüçîâàíèåì ôîðìóëû äëÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé è íåêîòîðîé âå-
ñîâîé ôóíêöèè (íàïðèìåð, ðàâíîé öåëåâîé ïåðåìåííîé).
ÏÐÈÌÅÐ ÏÎÑÒÐÎÅÍÈß ÑÊÎÐÈÍÃÎÂÎÉ ÌÎÄÅËÈ Ñ ÈÑÏÎËÜÇÎÂÀÍÈÅÌ ÂÅÑÎÂÎÉ
ÔÓÍÊÖÈÈ, ÐÀÂÍÎÉ ÍÅÏÐÅÐÛÂÍÎÉ ÂÅÐÎßÒÍÎÑÒÍÎÉ ÖÅËÅÂÎÉ ÏÅÐÅÌÅÍÍÎÉ
 ðàññìîòðåííîì íèæå ïðèìåðå îáó÷àåìàÿ ìîäåëü ïðåäíàçíà÷åíà äëÿ ïðîãíîçè-
ðîâàíèÿ èíäèêàòîðà îòñóòñòâèÿ âûõîäà çà áîëåå ÷åì 60 äíåé ïðîñðî÷êè çà ïåðè-
îä äåâÿòè ìåñÿöåâ íàáëþäåíèÿ ïîñëå äàòû âûäà÷è äëÿ ïîòðåáèòåëüñêîãî êðåäè-
òîâàíèÿ.  ìîäåëü âêëþ÷åíû ñëåäóþùèå êàòåãîðèàëüíî-èíòåðâàëüíûå ïåðåìåí-
íûå ñ ñîîòâåòñòâóþùèìè êîýôôèöèåíòàìè îáîáùåííîé ëîãèñòè÷åñêîé ðåãðåññèè:
1) îòðàñëü è òèï ñîáñòâåííîñòè îðãàíèçàöèè òðóäîóñòðîéñòâà
(c1 = 0,508406067253879) ;
2) ïîë è âîçðàñò êëèåíòà (c2 = 0,597316083071572);
3) îáðàçîâàíèå è òåêóùèé ñòàæ ðàáîòû â îðãàíèçàöèè
(c3 = 0,464335289146336);
4) îáðàçîâàíèå, ñåìåéíîå ïîëîæåíèå è êîëè÷åñòâî äåòåé
(c4 = 0,493999578172318);
5) îòðàñëü, äîëæíîñòü è îáùèé ñòàæ ðàáîòû (c5 = 0,209020022855618).
Êîýôôèöèåíò ñìåùåíèÿ ìîäåëè ëîãèñòè÷åñêîé ðåãðåññèè:
c0 = 2,65817577386769. Ðåçóëüòàòû ïîäñ÷åòà îáîáùåííûõ âåñîâ êàòåãîðèé WoE
äàíû â òàáëèöå (Information Value = 0.261555978700409). Èñïîëüçîâàíèå âåðîÿò-
íîñòíîé öåëåâîé ïåðåìåííîé îòâå÷àåò àíàëèçó îòêëîíåííûõ çàÿâîê [2, 6], âûïîë-
íåííîãî ñ ïîìîùüþ óñîâåðøåíñòâîâàííîãî ìåòîäà èòåðàòèâíîé êëàññèôèêàöèè
äëÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé [6]. Ïðè ýòîì òîëüêî äëÿ îòêëîíåííûõ
çàÿâîê âåðîÿòíîñòè âñåãäà áëèçêè ñ òî÷íîñòüþ äî 10 6- ê ñîîòâåòñòâóþùèì îá-
ðàòíûì ïðîãíîçàì íà îáó÷àþùåé âûáîðêå. Èíäåêñ Äæèíè íà áèíàðíîé òåñòîâîé
âûáîðêå ðàâåí 40,11%, à îáîáùåííûé èíäåêñ Äæèíè íà îáó÷àþùåé âûáîðêå (îá-
ðàòíûå ïðîãíîçû) ðàâåí 40,18%.
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 185
ÇÀÊËÞ×ÅÍÈÅ
Ïðåäëîæåíî îáîáùåíèå ìåòîäà ìîäåëèðîâàíèÿ ñ ïîìîùüþ ëîãèñòè÷åñêîé ðå-
ãðåññèè ïóòåì îáîáùåíèÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ íà íåïðåðûâ-
íûé îòðåçîê [0; 1] äåéñòâèòåëüíîé îñè äëÿ öåëåâîé ïåðåìåííîé, ÷òî ïîçâîëÿåò
èñïîëüçîâàòü âåðîÿòíîñòíóþ öåëåâóþ ïåðåìåííóþ â ìåòîäå ìàêñèìàëüíîãî
ïðàâäîïîäîáèÿ (Maximum Likelihood Estimation method). Òàêæå îïðåäåëåíî
îáîáùåíèå ôîðìóëû äëÿ ïîäñ÷åòà âåñà êàòåãîðèè ïåðåìåííîé è èíäåêñà Äæè-
íè äëÿ ñëó÷àÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé. Äîêàçàíî ÷åòûðå òåîðåìû:
1) î ôîðìóëàõ âåêòîðà ãðàäèåíòà è ìàòðèöû Ãåññå äëÿ âåñîâîé ôóíêöèè ñ èñ-
ïîëüçîâàíèåì âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé; 2) î âîçìîæíîñòè ïðèáëè-
æåíèÿ êîýôôèöèåíòîâ ëîãèñòè÷åñêîé ìîäåëè ñ âåðîÿòíîñòíîé öåëåâîé ïåðå-
ìåííîé ñ ïîìîùüþ ìîäåëè íà ñïåöèàëüíî ïîñòðîåííîé èñêóññòâåííîé âûáîð-
êå ñ áèíàðíûì èñõîäîì, åñëè âåñîâàÿ ôóíêöèÿ ðàâíà âåðîÿòíîñòíîé öåëåâîé
ïåðåìåííîé; 3) î ñõîäèìîñòè WoE-ïðåîáðàçîâàíèé äëÿ âõîäÿùèõ êàòåãîðèàëü-
íûõ (ëèáî äèñêðåòèçèðîâàííûõ íà èíòåðâàëû) ïåðåìåííûõ íà èñêóññòâåííî
ïîñòðîåííûõ ïðèáëèæàþùèõ âûáîðêàõ ñ áèíàðíûì èñõîäîì; 4) î ñõîäèìîñòè
èíäåêñà Äæèíè íà èñêóññòâåííî ïîñòðîåííûõ ïðèáëèæàþùèõ âûáîðêàõ ñ áè-
íàðíûì èñõîäîì. Ñëåäñòâèå ïåðâîé òåîðåìû îêîí÷àòåëüíî ïîäòâåðæäàåò ïðè-
ìåíèìîñòü êëàññè÷åñêîãî ìåòîäà Íüþòîíà (âêëþ÷àÿ êëàññè÷åñêèå ôîðìóëû
âåêòîðà ãðàäèåíòà è ìàòðèöû Ãåññå) áåç èçìåíåíèé ïðè îáîáùåíèè êëàññè÷åñ-
êîé ìîäåëè ëîãèñòè÷åñêîé ðåãðåññèè íà âåðîÿòíîñòíóþ öåëåâóþ ïåðåìåííóþ,
èñïîëüçóÿ âåñîâóþ ôóíêöèþ, ðàâíóþ öåëåâîé ïåðåìåííîé.
186 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6
Ò à á ë è ö à
Ïåðåìåííûå
(ïîë, âîçðàñò)
Äîëÿ
âûáîðêè,
%
Ñóììà âåðîÿòíîñòè
Äîëÿ (%) ñóììû
âåðîÿòíîñòè
Çíà÷åíèå
WoEíàñòóï-
ëåíèÿ
äåôîëòà
íåíàñòóï-
ëåíèÿ
äåôîëòà
íàñòóï-
ëåíèÿ
äåôîëòà
íåíàñòóï-
ëåíèÿ
äåôîëòà
Ì, £ 25 9,00 2 610,33171 16 511,66829 18,75 8,31 – 0,81336
Ì, 26 2̧9 ëåò 8,76 1 691,91162 16 938,08838 12,15 8,53 – 0,35424
Ì, 30 3̧4 ëåò 8,79 1 479,30018 17 212,69982 10,62 8,66 – 0,20387
Ì, 35 4̧1 ëåò 9,24 1 284,60993 18 348,39007 9,23 9,24 0,00114
Ì, 42 4̧9 ëåò 6,68 737,17629 13 470,82371 5,29 6,78 0,24751
Ì, >49 ëåò 6,39 526,14319 13 049,85681 3,78 6,57 0,55301
Æ, £ 27 ëåò 10,11 2 046,35376 19 444,64624 14,70 9,79 – 0,40643
Æ, 28 3̧3 ëåò 9,02 1 153,93200 18 011,06800 8,29 9,07 0,08987
Æ, 34 4̧0 ëåò 9,88 980,09372 20 029,90628 7,04 10,08 0,35939
Æ, 41 4̧7 ëåò 7,89 600,96158 16 172,03842 4,32 8,14 0,63456
Æ, 48 5̧4 ëåò 7,01 440,11943 14 462,88057 3,16 7,28 0,83435
Æ, >54 ëåò 7,23 372,86867 14 998,13133 2,68 7,55 1,03651
Îáùèé èòîã: 100%
13 923,80205 198 650,19795
100% 100% 0
212 574
Ïðåäëîæåííûå îáîáùåíèÿ èìåþò ñóùåñòâåííûå ïðåèìóùåñòâà ïåðåä êëàññè-
÷åñêèìè ôîðìóëàìè ïîäñ÷åòà. Ãëàâíûì ïðåèìóùåñòâîì è îòëè÷èåì îò êëàññè÷åñêîãî
ñëó÷àÿ ÿâëÿåòñÿ âîçìîæíîñòü èñïîëüçîâàíèÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé ëèáî
íåïðåðûâíîé öåëåâîé ïåðåìåííîé äðóãîé ïðèðîäû [5], ïðèíèìàþùåé çíà÷åíèÿ ñ èí-
òåðâàëà 0% ¸100%, íàïðèìåð äëÿ ìîäåëèðîâàíèÿ ïîêàçàòåëÿ îòíîñèòåëüíûõ ïîòåðü,
ïðè÷èíÿåìûõ äåôîëòîì (Loss Given by Default). Ïðåèìóùåñòâîì òàêæå ÿâëÿåòñÿ
îáîáùåíèå âñåãî ïðîöåññà ìîäåëèðîâàíèÿ äëÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé —
ïîäãîòîâêè âõîäÿùèõ çíà÷åíèé ïåðåìåííûõ â âèäå îáîáùåííîãî ïðåîáðàçîâàíèÿ
â âåñ êàòåãîðèè ïåðåìåííîé, ïîäñ÷åòà êîýôôèöèåíòîâ îáîáùåííîé ëîãèñòè÷åñêîé
ðåãðåññèè, îöåíêè êà÷åñòâà ðàçðàáîòàííîé ìîäåëè ñ ïîìîùüþ îáîáùåííîãî èíäåêñà
Äæèíè. Êðîìå òîãî, èìåþòñÿ äîêàçàòåëüñòâà êëàññè÷åñêèõ ôîðìóë äëÿ ìåòîäà ìàêñè-
ìàëüíîãî ïðàâäîïîäîáèÿ, âåñà êàòåãîðèè ïåðåìåííîé è èíäåêñà Äæèíè äëÿ áèíàðíîé
öåëåâîé ïåðåìåííîé, êàê ÷àñòíîãî ñëó÷àÿ îáîáùåííûõ ôîðìóë äëÿ öåëåâîé ïåðåìåí-
íîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ.
Îäíèì èç îñíîâîïîëàãàþùèõ ñëåäñòâèé îáîáùåíèÿ ôîðìóëû âåñà êàòåãîðèè
ïåðåìåííîé ÿâëÿåòñÿ îáîáùåíèå ïîêàçàòåëÿ çíà÷åíèÿ èíôîðìàöèè IV . Âàæíûì
ñëåäñòâèåì îáîáùåíèÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ ÿâëÿåòñÿ âîçìîæíîñòü
èñïîëüçîâàíèÿ ðàçíîðîäíûõ íåïðåðûâíûõ âåñîâûõ ôóíêöèé, êîòîðûå ïðè ââåäåí-
íûõ îãðàíè÷åíèÿõ ïðèðàâíèâàþò ëîãàðèôì ôóíêöèè ïðàâäîïîäîáèÿ ê êëàññè÷åñêî-
ìó çíà÷åíèþ íà ìíîæåñòâå áèíàðíûõ çíà÷åíèé öåëåâîé ïåðåìåííîé.
Ââåäåííûå óñîâåðøåíñòâîâàíèÿ ïîçâîëÿþò ðåøàòü çàäà÷è âåðîÿòíîñòíîãî
ìîäåëèðîâàíèÿ ïðè íå÷åòêîé áèíàðíîé êëàññèôèêàöèè âõîäÿùèõ äàííûõ,
â ÷àñòíîñòè áîëåå ýôôåêòèâíî ðåøàòü çàäà÷è âêëþ÷åíèÿ è àíàëèçà îòêëîíåííûõ
çàÿâîê (reject inference) [5, 6], êàê ÷àñòè÷íî êëàññèôèöèðîâàííûõ âûâåäåííûõ
äàííûõ (inferred data) â êðåäèòíîì ñêîðèíãå, à òàêæå âûïîëíÿòü ìîäåëèðîâàíèå
ïîêàçàòåëåé, ïðèíèìàþùèõ çíà÷åíèÿ ñ èíòåðâàëà 0% ¸100% . Êëàññè÷åñêèì ïðè-
ìåðîì ÿâëÿåòñÿ çàäà÷à ìîäåëèðîâàíèÿ îòíîñèòåëüíûõ ïîòåðü, ïðè÷èíÿåìûõ ðåà-
ëèçàöèåé ñîáûòèÿ äåôîëòà (Loss Given by Default).
Îñíîâíûìè íàïðàâëåíèÿìè ïåðñïåêòèâíûõ èññëåäîâàíèé ÿâëÿþòñÿ áîëåå
ãëóáîêîå èçó÷åíèå ñòåïåíåé âëèÿíèÿ ðàçëè÷íûõ òèïîâ ïðåäëîæåííîé âåñîâîé
ôóíêöèè â ôîðìóëå ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ è îáîáùåíèå äðóãèõ
ìåòîäîâ êàòåãîðèàëüíîé ðåãðåññèè.
ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ
1. Ë î á à í î â à À . À . , × ó ã ó í î â à À . Â . Ýíöèêëîïåäèÿ ôèíàíñîâîãî ðèñê-ìåíåäæìåíòà. — Ì.:
Àëüïèíà Ïàáëèøåð, 2003. — 786 ñ.
2. S i d d i q i N a e e m . Credit risk scorecards: developing and implementing intelligent credit scoring. —
Hoboken: John Wiley & Sons, Inc., 2006. — 196 p.
3. T h o m a s C . L y n , E d e l m a n B . D a v i d , C r o o k N . J o n a t h a n . Credit scoring and its
applications. — Philadelphia: Society for Industrial and Applied Mathematics, 2002. — 248 p.
4. A l l i s o n D . P a u l . Logistic regression using the SAS® System: Theory and Application. — Cary: SAS
Institute Inc., 1999. — 287 p.
5. Ì ý é ç Ý . Ðóêîâîäñòâî ïî êðåäèòíîìó ñêîðèíãó. — Ìèíñê: Ãðåâöîâ Ïàáëèøåð, 2008. — 464 ñ.
6. Ñ î ë î ø å í ê î Î . Ì . Âäîñêîíàëåííÿ ìåòîäó ³òåðàòèâíî¿ êëàñèô³êàö³¿ ç âêëþ÷åííÿ â³äõèëåíèõ çàÿâîê
ó êðåäèòíîìó ñêîðèíãó // Íàóêîâ³ â³ñò³ ÍÒÓÓ «Êϲ». — 2014. — ¹ 5. — Ñ. 63–69.
7. Ñ î ë î ø å í ê î Î . Ì . Ñïîñ³á ðîçðàõóíêó ïîêàçíèêà Äæèí³, ñòàòèñòèêè Êîëìîãîðîâà–Ñìèðíîâà òà
â³äñòàí³ Ìàõàëàíîá³ñà ó êðåäèòíîìó ñêîðèíãó çàñîáàìè ìîâè SQL // Íàóêîâ³ â³ñò³ ÍÒÓÓ «Êϲ». —
2015. — ¹ 1. — Ñ. 29–35.
8. Ò å ð å í ò ü å â À . Í . , Á è ä þ ê Ï . È . Ìåòîä âåðîÿòíîñòíîãî âûâîäà â áàéåñîâñêèõ ñåòÿõ ïî îáó÷àþ-
ùèì äàííûì // Êèáåðíåòèêà è ñèñòåìíûé àíàëèç. — 2007. — ¹ 3. — Ñ. 93–99.
Ïîñòóïèëà 17.09.2014
ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 187
|