Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения

Рассмотрены оригинальные средства усовершенствования формул метода максимального правдоподобия для логистической регрессии, формулы веса категории переменной, формулы показателя значения информации и формулы индекса Джини для обеспечения возможности использования непрерывной целевой переменной, прин...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2015
1. Verfasser: Солошенко, А.Н.
Format: Artikel
Sprache:Russian
Veröffentlicht: Інститут кібернетики ім. В.М. Глушкова НАН України 2015
Schriftenreihe:Кибернетика и системный анализ
Schlagworte:
Online Zugang:http://dspace.nbuv.gov.ua/handle/123456789/124939
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения / А.Н. Солошенко // Кибернетика и системный анализ. — 2015. — Т. 51, № 6. — С. 174-187. — Бібліогр.: 8 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-124939
record_format dspace
spelling irk-123456789-1249392017-10-13T03:03:27Z Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения Солошенко, А.Н. Программно-технические комплексы Рассмотрены оригинальные средства усовершенствования формул метода максимального правдоподобия для логистической регрессии, формулы веса категории переменной, формулы показателя значения информации и формулы индекса Джини для обеспечения возможности использования непрерывной целевой переменной, принимающей вероятностные значения. Методикой реализации исследования является использование непрерывных весовых функций с определенными ограничениями для подсчета обобщенного логарифма функции правдоподобия, его обобщенного вектора градиента и обобщенной матрицы Гессе, а также использование возможностей теории вероятностей для обобщения веса категории переменной и индекса Джини. Розглянуто оригінальні засоби вдосконалення формул методу максимальної правдоподібності для логістичної регресії, формули ваги категорії змінної, формули показника значення інформації і формули індексу Джині для забезпечення можливості використання неперервної цільової змінної, що набуває ймовірнісних значень. Методикою реалізації дослідження є використання неперервних вагових функцій з певними обмеженнями для обчислення узагальненого логарифма функції правдоподібності, його узагальненого вектора градієнта та узагальненої матриці Гессе, а також використання можливостей теорії ймовірностей для узагальнення ваги категорії змінної та індексу Джині. The author proposes original tools that are the improvements of formulas in the maximum likelihood estimation method for logistic regression, weight of Eeidence formula, including information value indicator formula, and the Gini coefficient formula to make it possible to use continuous target variable taking on probabilistic values. The research implementation methodologies are the application of the continuous weight functions meeting certain conditions to evaluate the generalized logarithm of the likelihood function, including its generalized gradient vector and generalized Hessian matrix, and application of probability theory to generalize the weight of evidence and the Gini coefficient. 2015 Article Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения / А.Н. Солошенко // Кибернетика и системный анализ. — 2015. — Т. 51, № 6. — С. 174-187. — Бібліогр.: 8 назв. — рос. 0023-1274 http://dspace.nbuv.gov.ua/handle/123456789/124939 303.732.4:519.237.5 ru Кибернетика и системный анализ Інститут кібернетики ім. В.М. Глушкова НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Программно-технические комплексы
Программно-технические комплексы
spellingShingle Программно-технические комплексы
Программно-технические комплексы
Солошенко, А.Н.
Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения
Кибернетика и системный анализ
description Рассмотрены оригинальные средства усовершенствования формул метода максимального правдоподобия для логистической регрессии, формулы веса категории переменной, формулы показателя значения информации и формулы индекса Джини для обеспечения возможности использования непрерывной целевой переменной, принимающей вероятностные значения. Методикой реализации исследования является использование непрерывных весовых функций с определенными ограничениями для подсчета обобщенного логарифма функции правдоподобия, его обобщенного вектора градиента и обобщенной матрицы Гессе, а также использование возможностей теории вероятностей для обобщения веса категории переменной и индекса Джини.
format Article
author Солошенко, А.Н.
author_facet Солошенко, А.Н.
author_sort Солошенко, А.Н.
title Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения
title_short Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения
title_full Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения
title_fullStr Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения
title_full_unstemmed Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения
title_sort обобщение логистической регрессии, веса категории переменной и индекса джини для непрерывной целевой переменной, принимающей вероятностные значения
publisher Інститут кібернетики ім. В.М. Глушкова НАН України
publishDate 2015
topic_facet Программно-технические комплексы
url http://dspace.nbuv.gov.ua/handle/123456789/124939
citation_txt Обобщение логистической регрессии, веса категории переменной и индекса Джини для непрерывной целевой переменной, принимающей вероятностные значения / А.Н. Солошенко // Кибернетика и системный анализ. — 2015. — Т. 51, № 6. — С. 174-187. — Бібліогр.: 8 назв. — рос.
series Кибернетика и системный анализ
work_keys_str_mv AT sološenkoan obobŝenielogističeskojregressiivesakategoriiperemennojiindeksadžinidlânepreryvnojcelevojperemennojprinimaûŝejveroâtnostnyeznačeniâ
first_indexed 2025-07-09T02:17:38Z
last_indexed 2025-07-09T02:17:38Z
_version_ 1837133946747355136
fulltext ÓÄÊ 303.732.4:519.237.5 À.Í. ÑÎËÎØÅÍÊÎ ÎÁÎÁÙÅÍÈÅ ËÎÃÈÑÒÈ×ÅÑÊÎÉ ÐÅÃÐÅÑÑÈÈ, ÂÅÑÀ ÊÀÒÅÃÎÐÈÈ ÏÅÐÅÌÅÍÍÎÉ È ÈÍÄÅÊÑÀ ÄÆÈÍÈ ÄËß ÍÅÏÐÅÐÛÂÍÎÉ ÖÅËÅÂÎÉ ÏÅÐÅÌÅÍÍÎÉ, ÏÐÈÍÈÌÀÞÙÅÉ ÂÅÐÎßÒÍÎÑÒÍÛÅ ÇÍÀ×ÅÍÈß Àííîòàöèÿ. Ðàññìîòðåíû îðèãèíàëüíûå ñðåäñòâà óñîâåðøåíñòâîâàíèÿ ôîðìóë ìåòîäà ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ äëÿ ëîãèñòè÷åñêîé ðåãðåññèè, ôîðìóëû âåñà êàòåãîðèè ïåðåìåííîé, ôîðìóëû ïîêàçàòåëÿ çíà÷åíèÿ èíôîðìàöèè è ôîðìóëû èíäåêñà Äæèíè äëÿ îáåñïå÷åíèÿ âîçìîæíîñòè èñïîëüçîâàíèÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþ- ùåé âåðîÿòíîñòíûå çíà÷åíèÿ. Ìåòîäèêîé ðåàëèçàöèè èññëåäîâàíèÿ ÿâëÿåòñÿ èñïîëüçîâà- íèå íåïðåðûâíûõ âåñîâûõ ôóíêöèé ñ îïðåäåëåííûìè îãðàíè÷åíèÿìè äëÿ ïîäñ÷åòà îáîá- ùåííîãî ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ, åãî îáîáùåííîãî âåêòîðà ãðàäèåíòà è îáîá- ùåííîé ìàòðèöû Ãåññå, à òàêæå èñïîëüçîâàíèå âîçìîæíîñòåé òåîðèè âåðîÿòíîñòåé äëÿ îáîáùåíèÿ âåñà êàòåãîðèè ïåðåìåííîé è èíäåêñà Äæèíè. Êëþ÷åâûå ñëîâà: ëîãèñòè÷åñêàÿ ðåãðåññèÿ, âåñ êàòåãîðèè ïåðåìåííîé, èíäåêñ Äæèíè, ìåòîä ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ, êðåäèòíûé ñêîðèíã, àíàëèç îòêëîíåííûõ çàÿâîê. ÂÂÅÄÅÍÈÅ Îäíîé èç íàèáîëåå âàæíûõ çàäà÷ ìàòåìàòè÷åñêîãî è ñòàòèñòè÷åñêîãî ìîäåëè- ðîâàíèÿ è ïðîãíîçèðîâàíèÿ ÿâëÿåòñÿ çàäà÷à áèíàðíîé êëàññèôèêàöèè âõîäÿ- ùèõ äàííûõ èñõîäÿ èç èìåþùåéñÿ èíôîðìàöèè îá àíàëîãè÷íûõ äàííûõ ñ èç- âåñòíûìè öåëåâûìè èñõîäàìè, êîòîðûå îòâå÷àþò äâóì âçàèìíî èñêëþ÷àþùèì êëàññàì íà ïðèìåðå èíäèêàòîðà ðåàëèçàöèè êðåäèòíîãî ñîáûòèÿ: íàñòóïëåíèÿ èëè îòñóòñòâèÿ äåôîëòà â çàäà÷àõ êðåäèòíîãî ñêîðèíãà [1]. Íàèáîëåå âàæíîé ïðîáëåìîé ïðè ñêîðèíãîâîì ìîäåëèðîâàíèè ÿâëÿåòñÿ ó÷åò è àíàëèç îòêëîíåí- íûõ çàÿâîê (reject inference) — ðàíåå âõîäÿùèõ äàííûõ ñ íåèçâåñòíûì è íå- íàáëþäàåìûì áèíàðíûì èñõîäîì, â öåëÿõ îáåñïå÷åíèÿ ñòàáèëüíîñòè îáó÷àþ- ùåé âûáîðêè îòíîñèòåëüíî âõîäÿùåãî ïîòîêà èíôîðìàöèè â êðèòåðèÿõ ðàñ- ïðåäåëåíèé âõîäÿùèõ ïàðàìåòðîâ [2]. Äëÿ çàäà÷ áèíàðíîé êëàññèôèêàöèè â êðåäèòíîì ñêîðèíãå îáû÷íî èñïîëüçóåòñÿ áèíàðíàÿ ëîãèñòè÷åñêàÿ ðåãðåñ- ñèÿ [3] — ÷àñòíûé ñëó÷àé êàòåãîðèàëüíîé ëîãèñòè÷åñêîé ðåãðåññèè [4]. Íåäîñòàòêîì êëàññè÷åñêîé áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè ÿâëÿåòñÿ ïî- ñòóëèðîâàíèå è îãðàíè÷åíèå öåëåâîé ïåðåìåííîé â îáëàñòè îïðåäåëåíèÿ òîëüêî áèíàðíûõ çíà÷åíèé [3–5]. Îãðàíè÷åíèå ïðåäïîëàãàåò ÷èñëà 0 è 1 åäèíñòâåííûìè âîçìîæíûìè çíà÷åíèÿìè äëÿ ôàêòè÷åñêîé öåëåâîé ïåðåìåííîé ïðè îáó÷åíèè ìîäåëè. Íà âûõîäå ìîäåëè ïîëó÷àåì ïðîãíîçíûå çíà÷åíèÿ öåëåâîé ïåðåìåííîé êàê äåéñòâèòåëüíûå ÷èñëà — âåðîÿòíîñòè ïðèíàäëåæíîñòè ê êëàññó áóäóùåãî åäèíè÷íîãî èñõîäà. Îáëàñòü îïðåäåëåíèÿ öåëåâîé ïåðåìåííîé äåëàåò íåâîçìîæ- íûì âêëþ÷åíèå äàííûõ ñ íåèçâåñòíûì èñõîäîì â îáó÷àþùóþ âûáîðêó êàê ÷àñ- òè÷íî êëàññèôèöèðîâàííûõ äàííûõ ñ âåðîÿòíîñòíûìè ïðîãíîçíûìè ìåòêàìè. Áèíàðíûé ïîäõîä ïîçâîëÿåò âûïîëíÿòü òîëüêî âçâåøèâàíèå ýëåìåíòîâ âûáîðêè ïóòåì âêëþ÷åíèÿ îäíîãî è òîãî æå ýëåìåíòà â îáó÷àþùóþ âûáîðêó îïðåäåëåí- íîå ÷èñëî ðàç (îäèíàêîâîå äëÿ âñåõ ýëåìåíòîâ), âîçìîæíî ñ ðàçíûìè èñõîäàìè. Ïðèìåðîì ÿâëÿþòñÿ äàííûå ñ íåèçâåñòíûìè, íî âåðîÿòíîñòíî ïðîãíîçèðóåìûìè èñõîäàìè (ñîîòíîøåíèå âêëþ÷åííûõ èñõîäîâ äëÿ êàæäîãî ýëåìåíòà äîëæíî â êàêîé-òî ñòåïåíè ñîîòâåòñòâîâàòü ïðèñâîåííîé âåðîÿòíîñòè ïðîãíîçà). Ïðè èñ- ïîëüçîâàíèè äàííîãî ïîäõîäà âûáîðêó ñ èçâåñòíûìè èñõîäàìè íåîáõîäèìî âêëþ÷àòü çàäàííîå ÷èñëî ðàç ñ ôàêòè÷åñêèìè áèíàðíûìè èñõîäàìè. 174 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 © À.Í. Ñîëîøåíêî, 2015 Ïîýòîìó àêòóàëüíîé ÿâëÿåòñÿ çàäà÷à îáîáùåíèÿ ëîãèñòè÷åñêîé ðåãðåññèè äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ, ÷òî â ÷àñòíîì ñëó÷àå îòâå÷àåò ìíîæåñòâó áèíàðíûõ çíà÷åíèé (ñ âå- ðîÿòíîñòüþ 0% è 100%), îñîáåííî äëÿ çàäà÷ âêëþ÷åíèÿ è àíàëèçà îòêëîíåí- íûõ çàÿâîê (reject inference) [6]. Òàêæå äëÿ îáåñïå÷åíèÿ ïîëíîãî öèêëà ïî- ñòðîåíèÿ ñêîðèíãîâîé ìîäåëè [5] àêòóàëüíûìè ÿâëÿþòñÿ âîïðîñû îïðåäåëå- íèÿ ïîêàçàòåëÿ âåñà êàòåãîðèè ïåðåìåííîé è èíäåêñà Äæèíè [5, 7] â òåðìèíàõ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ. Àêòóàëüíîñòü ðàññìàòðèâàåìîé òåìàòèêè çàòðàãèâàåò ñîâðåìåííûå âîïðîñû èíòåëëåêòóàëüíîãî àíàëèçà äàííûõ è ñâèäåòåëüñòâóåò î íåîáõîäèìîñòè ðàñ- øèðåíèÿ âîçìîæíîñòåé âåðîÿòíîñòíîãî âûâîäà íåèçâåñòíûõ çíà÷åíèé öåëå- âîé ïåðåìåííîé [8]. ÏÎÑÒÀÍÎÂÊÀ ÇÀÄÀ×È Îáúåêòàìè èññëåäîâàíèÿ ÿâëÿþòñÿ ìåòîä ëîãèñòè÷åñêîé ðåãðåññèè (ìåòîä ìàê- ñèìàëüíîãî ïðàâäîïîäîáèÿ), ôîðìóëà âåñà êàòåãîðèè ïåðåìåííîé è ìåòîäû ïîäñ÷åòà ïîêàçàòåëÿ Äæèíè. Ïðåäìåòîì èññëåäîâàíèÿ ÿâëÿåòñÿ îáîáùåíèå ìåòîäà ìàêñèìàëüíîãî ïðàâ- äîïîäîáèÿ îòíîñèòåëüíî ìîäåëèðîâàíèÿ ñ ïîìîùüþ ëîãèñòè÷åñêîé ðåãðåññèè äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà- ÷åíèÿ, à òàêæå îáîáùåíèå ôîðìóëû âåñà êàòåãîðèè ïåðåìåííîé è ïîäñ÷åòà èíäåêñà Äæèíè. Öåëü èññëåäîâàíèÿ: 1) îïðåäåëåíèå îáîáùåííûõ ôîðìóë äëÿ îáîáùåííîãî ëî- ãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ, à òàêæå åãî ïåðâîé è âòîðîé ïðîèçâîäíûõ (âåêòî- ðà ãðàäèåíòà è ìàòðèöû Ãåññå) ñ èñïîëüçîâàíèåì ëîãèñòè÷åñêîé ôóíêöèè â öåëÿõ ðåàëèçàöèè ìåòîäà Íüþòîíà äëÿ ÷èñëåííîãî ïîäñ÷åòà ïàðàìåòðîâ ðåãðåññèè äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ; 2) îïðåäåëåíèå îáîáùåííîé ôîðìóëû ïîäñ÷åòà âåñà êàòåãîðèè ïåðåìåííîé (Weight of Evidence, WoE) äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âå- ðîÿòíîñòíûå çíà÷åíèÿ; 3) îïðåäåëåíèå ôîðìóëû ïîäñ÷åòà Äæèíè äëÿ ñëó÷àÿ íåïðå- ðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ. ÎÁÎÁÙÅÍÈÅ ËÎÃÈÑÒÈ×ÅÑÊÎÉ ÐÅÃÐÅÑÑÈÈ, ÏÎÄÑ×ÅÒÀ ÂÅÑÀ ÊÀÒÅÃÎÐÈÈ ÏÅÐÅÌÅÍÍÎÉ È ÈÍÄÅÊÑÀ ÄÆÈÍÈ Êëàññè÷åñêàÿ ñòàòèñòè÷åñêàÿ ìîäåëü ëîãèñòè÷åñêîé ðåãðåññèè ïðåäïîëàãàåò èñïîëüçîâàíèå ëîãèò-ïðåîáðàçîâàíèÿ [4] îò ïîëèíîìà ïåðâîãî ïîðÿäêà — ëè- íåéíîé êîìáèíàöèè âõîäÿùèõ ïåðåìåííûõ ñî ñâîáîäíûì ÷ëåíîì, êîòîðûé ìîæíî ïðåäñòàâèòü êàê ñêàëÿðíîå ïðîèçâåäåíèå (inner product) âåêòîðà êîýô- ôèöèåíòîâ ëîãèñòè÷åñêîé ðåãðåññèè è âåêòîðà âõîäÿùèõ ïàðàìåòðîâ, äîïîë- íåííîãî åäèíè÷íîé êîíñòàíòîé â êà÷åñòâå ïåðâîé êîîðäèíàòû (ïåðâîé âõîäÿ- ùåé ïåðåìåííîé). Ëîãèò-ïðåîáðàçîâàíèå ñêàëÿðíîãî ïðîèçâåäåíèÿ ÿâëÿåòñÿ ôóíêöèåé êóìóëÿòèâíîãî ðàñïðåäåëåíèÿ îò ñêàëÿðíîãî ïðîèçâåäåíèÿ äëÿ ëî- ãèñòè÷åñêîãî ðàñïðåäåëåíèÿ ñ íóëåâûì ìàòåìàòè÷åñêèì îæèäàíèåì è ñðåäíå- êâàäðàòè÷åñêèì îòêëîíåíèåì, ðàâíûì p / 3 [4]: P e ( , ) ( , ) c x c x = + - 1 1 . (1) Ôóíêöèÿ ïðàâäîïîäîáèÿ â îáùåì âèäå äëÿ çàäà÷è áèíàðíîé êëàññèôèêàöèè èìååò âèä [4] L L X P Pi i y i i yi i ( ) ( , , ) ( , ) ( ( , )) : : c c y c x c x= = - = = Õ Õ 1 0 1 . (2) ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 175 Ëîãàðèôì ýòîé ôóíêöèè èìååò âèä [4] ln ( ) ln ( , , ) ln ( , ) ln ( ( , )) : : L L X P Pi i y i ii c c y c x c x= = + - = å 1 1 yi = å 0 . (3) Âî ìíîãèõ ïóáëèêàöèÿõ äëÿ äàííîãî ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ òàêæå ïðåäëàãàåòñÿ ôîðìà çàïèñè â âèäå îäíîé ñóììû [4] ln ( ) ln ( , , ) ( ln ( , ) ( ) ln ( ( , ))L L X y P y Pi i i ic c y c x c x= = + - -1 1 ) i n = å 1 . (4) Äàííàÿ çàïèñü ïðåäïîëàãàåò èñïîëüçîâàíèå äâóõ èíäèêàòîðíûõ ôóíêöèé — äëÿ íóëÿ è åäèíèöû: ln ( ) ln ( , , ) ( ( ) ln ( , ) ( ) ln ({ } { }L L X y P yi i ic c y c x= = I + I -1 0 1 P i i n ( , )))c x = å 1 . (5) Îáîáùåíèå ëîãèñòè÷åñêîé ðåãðåññèè äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðå- ìåííîé yi , ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ, ñîñòîèò â èñïîëüçîâàíèè âå- ñîâîé ôóíêöèè, çàâèñèìîé îò íåïðåðûâíîé öåëåâîé ïåðåìåííîé: ln ( ) ( ( ) ln ( , ) ( ( )) ln ( ( , )))L w y P w y Pi i i i i n c c x c x= + - - = 1 1 1 å . (6) Ôîðìóëà (6) ïðåäñòàâëÿåò ñóììó âûïóêëûõ êîìáèíàöèé. Ïðåäëàãàåìûå îãðàíè÷åíèÿ íà âåñîâóþ ôóíêöèþ: w w y w y y yi j ( ) ; ( ) ; [ ; ]: ( ) [ ; ] ; [ ; ], [ 1 1 0 0 0 1 0 1 0 1 0 = = " Î Î " Î " Î ; ]: ( ) ( ).1 y y w y w yi j i j> Þ > ì í ïï î ï ï (7) Ïåðâûå äâà îãðàíè÷åíèÿ îáîáùàþò ñëó÷àé áèíàðíîé äèñêðåòíîñòè. Òðåòüå îãðàíè÷åíèå îïèñûâàåò îáëàñòü îïðåäåëåíèÿ è îáëàñòü çíà÷åíèé âåñîâîé ôóíêöèè. ×åòâåðòîå îãðàíè÷åíèå îáåñïå÷èâàåò ìîíîòîííîñòü íåïðåðûâíîé âå- ñîâîé ôóíêöèè. Ïðèìåðîì ïîðîæäàåìîãî âåñîâîé ôóíêöèåé ñåìåéñòâà ëîãàðèôìîâ ôóíêöèè ïðàâäîïîäîáèÿ ÿâëÿåòñÿ ñåìåéñòâî, ïîðîæäàåìîå ñòåïåííîé âåñîâîé ôóíêöèåé: w y y( ) = a . (8) Äîñòàòî÷íûì óñëîâèåì âûïîëíåíèÿ îãðàíè÷åíèé (7) ÿâëÿåòñÿ îáëàñòü çíà÷åíèé ïàðàìåòðà a > 0 . (9) Ïðè a =1 ïîëó÷àåì êëàññè÷åñêóþ ôîðìóëó ëîãàðèôìà ôóíêöèè ïðàâäîïîäî- áèÿ (4): w y y L L X w y P w y i i i i i ( ) ; ln ( ) ln ( , , ) ( ( ) ln ( , ) ( ( = = = + -c c y c x 1 )) ln ( ( , ))).1 1 - ì í ï îï = å P i i n c x (10) Âûâåäåì îáîáùåííûå àíàëèòè÷åñêèå ôîðìóëû ïåðâîé è âòîðîé ïðîèçâîä- íûõ (âåêòîðà ãðàäèåíòà è ìàòðèöû Ãåññå) îáîáùåííîãî ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ (6) ñ âåñîâîé ôóíêöèåé è äîêàæåì èõ ïðèìåíèìîñòü äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé. Òåîðåìà 1.  ëîãèñòè÷åñêîé ðåãðåññèè ïðè çàìåíå â êëàññè÷åñêîé ôîðìóëå äëÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ (4) âñåõ çíà÷åíèé öåëåâîé ïåðåìåííîé yi íà ñîîòâåòñòâóþùèå çíà÷åíèÿ ôóíêöèè îò öåëåâîé ïåðåìåííîé w yi( ) (â ñëó- ÷àå îáîáùåíèÿ (6) äëÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿò- íîñòíûå çíà÷åíèÿ) âûïîëíÿþòñÿ ñëåäóþùèå óñëîâèÿ: 176 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 1) ìàòðèöà Ãåññå äëÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ ñîâïàäàåò ñ êëàñ- ñè÷åñêîé ìàòðèöåé Ãåññå äëÿ ñëó÷àÿ áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè (ñîâïà- äàåò ñ êëàññè÷åñêîé ìàòðèöåé Ãåññå äëÿ ëîãàðèôìà êëàññè÷åñêîé ôóíêöèè ïðàâäîïîäîáèÿ); 2) â ôîðìóëå âåêòîðà ãðàäèåíòà äëÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ îòíî- ñèòåëüíî ñëó÷àÿ áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè (îòíîñèòåëüíî êëàññè÷åñêîé ôîðìóëû âåêòîðà ãðàäèåíòà äëÿ ëîãàðèôìà êëàññè÷åñêîé ôóíêöèè ïðàâäîïîäîáèÿ) âñå çíà÷åíèÿ öåëåâîé ïåðåìåííîé yi çàìåíÿþòñÿ ñîîòâåòñòâóþùèìè çíà÷åíèÿìè ïðîèçâîëüíîé ôóíêöèè îò öåëåâîé ïåðåìåííîé w yi( ) àíàëîãè÷íî èñõîäíîé çàìåíå. Äîêàçàòåëüñòâî. Ïðîèçâîäíàÿ ñîñòàâëÿþùåé ôóíêöèè ëîãèò-ïðåîáðàçîâà- íèÿ ïî âåêòîðó c èìååò âèä [4] ¶ ¶ = + = - - - P e e P P ( , ) ( ) ( , )( ( , )) ( , ) ( , ) c x c x c x c x x c x c x1 1 2 . (11) Ïåðâàÿ ïðîèçâîäíàÿ îáîáùåííîãî ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ (6) (âåê- òîð ãðàäèåíòà) èìååò âèä d L d w y d P d w y d P i i i iln ( ) ( ) ln ( , ) ( ( )) ln ( ( , )c c c x c c x = + - - 1 1 ) di n c æ è ç ö ø ÷ = å 1 , (12) d L d w y P dP d w y P i i i i i ln ( ) ( ) ( , ) ( , ) ( ( )) ( , c c c x c x c c x = + - - 1 1 ) ( ( , ))d P d i i n 1 1 -æ è çç ö ø ÷÷ = å c x c , (13) d L d w y P dP d w y P i i i i i ln ( ) ( ) ( , ) ( , ) ( ( ) ) ( , c c c x c x c c x = + - - 1 1 ) ( , )dP d i i n c x c æ è çç ö ø ÷÷ = å 1 , (14) d L d w y P w y Pi i i i i nln ( ) ( ( )( ( , )) ( ( ) ) ( , )) c c c x c x= - + - = å 1 1 1 x i , (15) g c c c c x x( ) ln ( ) ( ( ) ( , ))= = - = åd L d w y Pi i i n i 1 . (16) Âòîðàÿ ïðîèçâîäíàÿ îáîáùåííîãî ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ (6) (ìàòðèöà Ãåññå) èìååò âèä d L d d w y P d i i i n i2 2 1ln ( ) ( ( ) ( , )) c c c x x c = - = å , (17) H d L d P Pi i i n i i( ) ln ( ) ( , )( ( , ))c c c c x c x x x= = - - = å 2 2 1 1 T . (18) Âòîðàÿ ïðîèçâîäíàÿ (18) íå çàâèñèò îò öåëåâîé ïåðåìåííîé è èìååò âèä êëàññè÷åñêîé ìàòðèöû Ãåññå äëÿ êëàññè÷åñêîé áèíàðíîé ëîãèñòè÷åñêîé ðåãðåñ- ñèè [4]. Ìàòðèöà Ãåññå ÿâëÿåòñÿ ñèììåòðè÷íîé, êàê ëèíåéíàÿ êîìáèíàöèÿ ïðîèç- âåäåíèé Êðîíåêåðà âåêòîðîâ èçìåðåíèé âõîäÿùèõ ïàðàìåòðîâ, èçíà÷àëüíî äîïîëíåííûõ åäèíèöåé. Äîêàçàòåëüñòâî òåîðåìû 1 çàâåðøåíî. Ñëåäñòâèå èç òåîðåìû 1. Ïåðâàÿ ïðîèçâîäíàÿ (16) ïðè âåñîâîé ôóíêöèè, ðàâíîé íåïðåðûâíîé öåëåâîé ïåðåìåííîé (10) (íàïðèìåð, ïðè åäèíè÷íîì çíà÷å- íèè a ñåìåéñòâà ñòåïåííûõ ôóíêöèé), ñîîòâåòñòâóåò êëàññè÷åñêîìó âåêòîðó ãðà- äèåíòà äëÿ êëàññè÷åñêîé áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè [4]: g c c c c x x( | ( ) ) ln ( ) ( ( , ))w y y d L d y Pi i i n i= = = - = å 1 . (19) ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 177 Îäíèì èç îñíîâíûõ âûâîäîâ ÿâëÿåòñÿ òî, ÷òî çàïèñü êëàññè÷åñêîé áèíàðíîé ðåãðåññèè â âèäå (4) ïîëíîñòüþ ïðèìåíèìà äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðå- ìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ, è êëàññè÷åñêèå ôîðìóëû (19) è (18) äëÿ ïåðâîé è âòîðîé ïðîèçâîäíûõ (âåêòîðà ãðàäèåíòà è ìàòðèöû Ãåññå) âåðíû è íå òðåáóþò èçìåíåíèÿ ïðè èñïîëüçîâàíèè ìåòîäà Íüþòîíà. Ïðè äîêàçàòåëüñòâå ôîðìóë ïðîèçâîäíûõ íå èñïîëüçîâàëîñü îãðàíè÷åíèå áèíàðíîé äèñêðåòíîñòè. Âòîðûì âàæíûì çàêëþ÷åíèåì ÿâëÿåòñÿ âîçìîæíîñòü îáîáùåíèÿ è èçìåíå- íèÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ ñîãëàñíî ôîðìóëå (6) ñ ïîìîùüþ âåñî- âûõ ôóíêöèé, ÷òî îáåñïå÷èâàåò âûïóêëóþ êîìáèíàöèþ. Ýòè ôóíêöèè íå âëèÿþò íà ñëó÷àé áèíàðíîé öåëåâîé ïåðåìåííîé áëàãîäàðÿ îãðàíè÷åíèÿì (7). Îáîáùåí- íàÿ ìàòðèöà Ãåññå (18) ïðè èñïîëüçîâàíèè âåñîâîé ôóíêöèè íå èçìåíÿåòñÿ îòíî- ñèòåëüíî êëàññè÷åñêîé, à ôîðìóëà âåêòîðà ãðàäèåíòà (16) èçìåíÿåòñÿ íåçíà÷èòåëüíî îòíîñèòåëüíî êëàññè÷åñêîé ôîðìóëû (19). Ñîãëàñíî ìåòîäó Íüþòîíà [4] c c c g ck k k kH+ -= -1 1 ( ) ( ) . (20) Äëÿ çàâåðøåíèÿ ìåòîäà Íüþòîíà [4] òðåáóåòñÿ âûïîëíåíèå óñëîâèÿ | | | |c ck k+ - <1 e . (21) Òðåòèé âàæíûé âûâîä ñîñòîèò â âîçìîæíîñòè ïðèáëèæåíèÿ êîýôôèöèåíòîâ ïðåäëàãàåìîãî íåïðåðûâíîãî îáîáùåíèÿ ëîãèñòè÷åñêîé ðåãðåññèè äëÿ âåðîÿò- íîñòíîé öåëåâîé ïåðåìåííîé ñ ïîìîùüþ êîýôôèöèåíòîâ êëàññè÷åñêîé áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè ïðè ñîçäàíèè èñêóññòâåííîé âûáîðêè ñ áèíàðíîé öåëå- âîé ïåðåìåííîé â ñëó÷àå, åñëè âåñîâàÿ ôóíêöèÿ ðàâíà íåïðåðûâíîé öåëåâîé ïå- ðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ. Ïðè ýòîì èñïîëüçóþòñÿ ìíî- æåñòâåííûå âêëþ÷åíèÿ îäíèõ è òåõ æå íàáëþäåíèé ñ îðèãèíàëüíîé âûáîðêè â èñêóññòâåííóþ âûáîðêó, íî ñ ðàçíûìè áèíàðíûìè èñõîäàìè, ïðîïîðöèîíàëüíî íåïðåðûâíûì âåðîÿòíîñòÿì áèíàðíûõ èñõîäîâ â îðèãèíàëüíîé âûáîðêå. Ýòîò âûâîä ñôîðìóëèðóåì â âèäå ñëåäóþùåé òåîðåìû. Òåîðåìà 2. Êîýôôèöèåíòû áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè íà èñêóñ- ñòâåííîé âûáîðêå ðàçìåðà mn ñòðåìÿòñÿ ê êîýôôèöèåíòàì íåïðåðûâíîãî îáîá- ùåíèÿ ëîãèñòè÷åñêîé ðåãðåññèè íà îðèãèíàëüíîé âûáîðêå ðàçìåðà n ïðè m ® ¥ , åñëè èñêóññòâåííàÿ âûáîðêà ôîðìèðóåòñÿ íà îñíîâàíèè îðèãèíàëüíîé âûáîðêè ñëåäóþùèì îáðàçîì: 1) èñêóññòâåííàÿ âûáîðêà ñîäåðæèò m m yi i0 ( , ) âõîæäåíèé âåêòîðîâ íàáëþ- äåíèÿ x i ñ öåëåâîé ïåðåìåííîé, ðàâíîé íóëþ, è m m yi i1 ( , ) âõîæäåíèé ñ öåëåâîé ïåðåìåííîé, ðàâíîé åäèíèöå; ïðè ýòîì èìååì ðàâåíñòâî m m y m m y mi i i i0 1( , ) ( , )+ = " Îi n{ , ..., }1 ; (22) 2) âûïîëíÿåòñÿ ñëåäóþùåå ìíîæåñòâî óñëîâèé îòíîñèòåëüíî íåïðåðûâíîé öåëåâîé ïåðåìåííîé yi , ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ m m y m yi i m i 1 ( , ) ® ®¥ " Îi n{ , ..., }1 . (23) Äâà óñëîâèÿ âûïîëíÿþòñÿ (â îáðàòíîì ïîðÿäêå), íàïðèìåð, ïðè èñïîëüçîâà- íèè ôóíêöèè öåëîé ÷àñòè: m m y my m m y m m m y i i i i i i i 1 0 1 ( , ) [ ]; ( , ) ( , ). = = - ì í î (24) Äîêàçàòåëüñòâî. Äëÿ èñêóññòâåííîé âûáîðêè êëàññè÷åñêàÿ ôóíêöèÿ ïðàâ- äîïîäîáèÿ áèíàðíîé ëîãèñòè÷åñêîé ðåãðåññèè â òåðìèíàõ îðèãèíàëüíîé âûáîð- 178 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 êè, èñïîëüçóÿ ôîðìóëó (2), íî ñ ó÷åòîì ìíîæåñòâåííûõ âõîæäåíèõ êàæäîãî íàá- ëþäåíèÿ îðèãèíàëüíîé âûáîðêè â ïîäìíîæåñòâà äâóõ ðàçíûõ êëàññîâ èñêóñ- ñòâåííîé âûáîðêè, èìååò ñëåäóþùèé âèä: L P Pmn i m m y i n i mi i( ) ( ( , )) ( ( , )) ( , ) { , ..., } c c x c x= - Î Õ 1 0 1 1 i im y i n ( , ) { , ..., }Î Õ 1 , (25) L P Pmn i m m y i m m y i i i i i( ) ( ( , )) ( ( , )) ( , ) ( , ) { , c c x c x= - Î 1 01 1 ..., }n Õ . (26) Ôîðìóëà êîðíÿ ñòåïåíè m ôóíêöèè ïðàâäîïîäîáèÿ Lmn ( )c ñ ó÷åòîì ðàâåí- ñòâà (22) èìååò âèä L P Pmn m i m m y m i m m y m i i i i ( ) ( ( , )) ( ( , )) ( , ) ( , ) c c x c x= - -1 1 1 1 æ è ç ö ø ÷ Î Õ i n{ , ..., }1 . (27) Ïðåäåë êîðíÿ ñòåïåíè m ôóíêöèè ïðàâäîïîäîáèÿ Lmn ( )c ïðè m ® ¥ ñ ó÷å- òîì ðàâåíñòâà (23) èìååò âèä " Î = - ®¥ - Î c c c x c xR L P P C m mn m i y i y i i i: lim ( ) ( ( , )) ( ( , )) { 1 1 1, ..., }n Õ , (28) " Î = ®¥ c c cR L L C m mn m: lim ( ) ( ) , (29) ãäå L( )c — êëàññè÷åñêàÿ ôóíêöèÿ ïðàâäîïîäîáèÿ. Ýòî îáîáùåííî ïðèìåíÿåò- ñÿ äëÿ ñëó÷àÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ, ò.å. L L X P Pi y i y i n i i( ) ( , , ) ( ( , )) ( ( , ))c c y c x c x= = - - = å 1 1 1 , (30) ÷òî â òåðìèíàõ âûðàæåíèÿ (10) çàïèñûâàåòñÿ êàê w y y L L X P P i i i w y i i ( ) ; ( ) ( , , ) ( ( , )) ( ( , )) ( ) = = = - -c c y c x c x1 1 w y i n i( ) = å ì í ï îï 1 . (31) Âûðàæåíèå (29) ìîæíî ïåðåïèñàòü ñëåäóþùèì îáðàçîì: " Îc R C : ln lim ( ) ln ( ) m mn m L L ®¥ æ è ç ö ø ÷ =c c , (32) " Îc R C : lim ln ( ) ln ( ) m mnL m L ®¥ = c c , (33) ò.å. " Îc R C ïðè äîñòàòî÷íî áîëüøîì çíà÷åíèè m ln ( ) ln ( )L m Lmn c c» , (34) èëè, áîëåå òî÷íî, äëÿ âûðàæåíèÿ (33) òî÷å÷íàÿ ñõîäèìîñòü ôîðìóëèðóåòñÿ " Î " > $ Îc cR m N C , ( , )e e0 , " > -½ ½ ½ ½ ½ ½<m m L m Lmn( , ): ln ( ) ln ( )c c ce e , (35) " Î ì í î ü ý þ ® = ¥ c c cR L m L C mn m : ln ( ) ln ( ) 1 , (36) ãäå N — ìíîæåñòâî íàòóðàëüíûõ ÷èñåë. Î÷åâèäíî, ÷òî c c c c c c mn R mn R mn m R C C C L L * ( ) ( )= = = Î Î Î agrmax agrmax agrmax ln ( )Lmn m c , (37) c c c c c mn R mn R mn C C L L m * ln ( ) ln ( ) = = Î Î agrmax agrmax . (38) ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 179 Ôîðìóëû (37) è (38) îïèñûâàþò âåêòîð îïòèìàëüíûõ êîýôôèöèåíòîâ áèíàð- íîé ëîãèñòè÷åñêîé ðåãðåññèè. Äàëåå ââåäåì îáîçíà÷åíèå c c c c c n R R C C L L * ( ) ln ( )= = Î Î agrmax agrmax , (39) à òàêæå îáîçíà÷åíèå ïîäìíîæåñòâà â ïðîñòðàíñòâå R C : R rr C = £{ : || || }c c , (40) R Rr C CÌ . (41) Òîãäà âûðàæåíèÿ (38) è (39) ïðèìóò âèä c cmn r R mn r R mn r C r C L L* lim ln ( ) lim ln ( = = ®¥ ®¥ agrmax agrmax c) m , (42) c cn r Rr C L * lim ln ( )= ®¥ agrmax . (43) Ñ ó÷åòîì óòâåðæäåíèÿ (35) ââåäåì îáîçíà÷åíèå m mr Rr C ( , ) max ( , )c ce e= . (44) Àíàëîãè÷íî âûðàæåíèþ (35) çàïèñûâàåòñÿ ðàâíîìåðíàÿ ñõîäèìîñòü íà Rr C : " > $ Î " Î " > -½ e e e0 m N R m m L m Lr r C r mn( , ) , , ( , ): ln ( ) ln ( )c c c c c ½ ½ ½ ½ ½< e , (45) lim ln ( ) ln ( ) m R mn r C L m L ®¥ Î -½ ½ ½ ½ ½ ½=sup c c c 0 , (46) ln ( ) ln ( ) , L m Lmn R mr C c c ®¥ ¾ ®¾ ¾ ¾¾ . (47) Äàëåå, èñïîëüçóÿ (42) è ðàâíîìåðíóþ ñõîäèìîñòü íà Rr C ïðè m ® ¥ (47) lim lim lim ln ( ) lim* m mn m r R mn r r C L m®¥ ®¥ ®¥ ®¥ = =c c agrmax agrmax R R m mn r C r C L m lim ln ( ) , ®¥ c , (48) à òàêæå ïðàâóþ ÷àñòü âûðàæåíèÿ (47) è ðàâåíñòâî (43), ïîëó÷àåì lim lim ln ( )* * m mn r R n r C L ®¥ ®¥ = =c c cagrmax . (49) Äîêàçàòåëüñòâî òåîðåìû 2 çàâåðøåíî. Âåñîâàÿ ôóíêöèÿ, êîòîðàÿ îòëè÷íà îò êëàññè÷åñêîé, ò.å. íå ðàâíà öåëåâîé ïåðåìåííîé, âíîñèò ñìåùåíèå â ïðîãíîçíóþ âåðîÿòíîñòü ïðè âåðîÿòíîñòíûõ çíà÷åíèÿõ öåëåâîé ïåðåìåííîé, íî íå âíîñèò íèêàêèõ èçìåíåíèé äëÿ êëàññè÷åñ- êîãî áèíàðíîãî ñëó÷àÿ áëàãîäàðÿ ïðåäëîæåííûì îãðàíè÷åíèÿì (7). Ýòîò ôàêò ìîæíî ó÷èòûâàòü ïðè àíàëèçå îòêëîíåííûõ çàÿâîê (reject inference) [2, 6]. Êëàññè÷åñêàÿ ôîðìóëà âåñà êàòåãîðèè ïåðåìåííîé — êàòåãîðèàëüíîé (äèñ- êðåòíîé) õàðàêòåðèñòèêè èìååò âèä [2] WoE g bi i i= ln ( / ) . (50) Êàòåãîðèàëüíûé ïîêàçàòåëü g i — ýòî îòíîøåíèå êîëè÷åñòâà ýëåìåíòîâ ñ åäè- íè÷íûì öåëåâûì ðåçóëüòàòîì â ñåãìåíòå êàòåãîðèè ñ íîìåðîì i ê îáùåìó êî- ëè÷åñòâó ýëåìåíòîâ ñ åäèíè÷íûì öåëåâûì ðåçóëüòàòîì âñåõ êàòåãîðèé: g G G G G i i i i c i= = = å 1 . (51) 180 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 Òàêèì îáðàçîì, îïåðèðóåì ðàñïðåäåëåíèåì ýëåìåíòîâ ñ åäèíè÷íûì öåëåâûì ðåçóëüòàòîì ïî äèñêðåòíûì èëè äèñêðåòèçèðîâàííûì çíà÷åíèÿì ïåðåìåííîé (êàòåãîðèÿì ïåðåìåííîé), ïîýòîìó èìååò ìåñòî ðàâåíñòâî g i i c = = å 1 1 . (52) Àíàëîãè÷íî êàòåãîðèàëüíûé ïîêàçàòåëü bi — ýòî îòíîøåíèå êîëè÷åñòâà ýëåìåíòîâ ñ íóëåâûì öåëåâûì ðåçóëüòàòîì â ñåãìåíòå êàòåãîðèè ñ íîìåðîì i ê îáùåìó êîëè÷åñòâó ýëåìåíòîâ ñ íóëåâûì öåëåâûì ðåçóëüòàòîì âñåõ êàòåãîðèé: b B B B B i i i i c i= = = å 1 . (53) Òàêæå îïåðèðóåì ðàñïðåäåëåíèåì ýëåìåíòîâ ñ íóëåâûì öåëåâûì ðåçóëüòàòîì ïî äèñêðåòíûì èëè äèñêðåòèçèðîâàííûì çíà÷åíèÿì ïåðåìåííîé (êàòåãîðèÿì ïåðåìåííîé), îòñþäà èìååì bi i c = = å 1 1 . (54) Íà îñíîâàíèè âåñîâ êàòåãîðèè ïåðåìåííîé è äâóõ ðàñïðåäåëåíèé, g i è bi , ïîäñ÷èòûâàåòñÿ ïîêàçàòåëü çíà÷åíèÿ èíôîðìàöèè (Information Value, IV) — ïðî- èçâîäíûé îò ðàññòîÿíèÿ Êóëüáàêà–Ëåéáëåðà [2, 3]: IV g b g b g b WoEi i i ii c i i i i c = - æ è çç ö ø ÷÷ = - = = å å( ) ln ( ) 1 1 . (55) Óñîâåðøåíñòâîâàíèå âåñà êàòåãîðèè ïåðåìåííîé WoE îïðåäåëÿåòñÿ ôîðìóëîé WoE y y i ij j n ij j n i c i i = æ è ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ - - = == å åå ln ln ( 1 11 1 y y ij j n ij j n i c i i ) ( ) = == å åå - æ è ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ 1 11 1 . (56) Çäåñü ââåäåíà äâîéíàÿ íóìåðàöèÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé yij , ãäå èíäåêñ i îçíà÷àåò íîìåð êëàñòåðà (âñåãî èìååì c êëàñòåðîâ), à èíäåêñ j — âíóòðåííþþ íóìåðàöèþ â êëàñòåðå. Îñîáåííîñòü îáîáùåíèÿ ñîñòîèò â èñ- ïîëüçîâàíèè ñóìì âåðîÿòíîñòåé îïðåäåëåííîãî èñõîäà â êëàñòåðå, ñîîòíåñåí- íîé ê îáùåé ñóììå âåðîÿòíîñòåé îïðåäåëåííîãî èñõîäà. Îáîáùåííîå çíà÷å- íèå èíôîðìàöèè IV òàêæå ìîæíî çàïèñàòü ñ èñïîëüçîâàíèåì äàííîãî ïîäõîäà: IV y y y y ij j n ij j n i c ij j n ij j i i i = - - - = == = = å åå å 1 11 1 1 1 1 ( ) ( ) n i c ij j n ij j n i ci i i y yåå å åå = = == æ è ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ æ è ç 1 1 11 ln ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ - - - æ è ç ç ç = == å åå ln ( ) ( ) 1 1 1 11 y y ij j n ij j n i c i iç ç ö ø ÷ ÷ ÷ ÷ ÷ æ è ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ = å i c 1 , (57) IV y y y y ij j n ij j n i c ij j n ij j i i i = - - - = == = = å åå å 1 11 1 1 1 1 ( ) ( ) n i c i i c i WoE åå å = = æ è ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ 1 1 . (58) ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 181 Òåîðåìà 3. Íà èñêóññòâåííîé âûáîðêå ðàçìåðà mn ñ áèíàðíûì èñõîäîì, ïî- ñòðîåííîé íà îðèãèíàëüíîé âûáîðêå ðàçìåðà n ñ ñîáëþäåíèåì äâóõ óñëîâèé òåî- ðåìû 2, ïðè m ® ¥ êëàññè÷åñêèå âåñà êàòåãîðèé ïåðåìåííûõ è çíà÷åíèÿ èíôîð- ìàöèè ñòðåìÿòñÿ ê ïðåäëîæåííûì îáîáùåíèÿì (56) è (58) äëÿ ñëó÷àÿ íåïðåðûâ- íîé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ. Äîêàçàòåëüñòâî. Ôîðìà çàïèñè âòîðîãî óñëîâèÿ òåîðåìû 2 ïðè ââåäåíèè äâîéíîé èíäåêñàöèè (íîìåð ñåãìåíòà è íîìåð âíóòðè ñåãìåíòà) èìååò ñëåäóþ- ùèé âèä: " Î " Î ® ®¥ i c j n m m y m yi ij ij m ij{ , ..., }, { , ..., }: ( , ) 1 1 1 , (59) à ôîðìà çàïèñè ïåðâîãî óñëîâèÿ òåîðåìû 2 îòíîñèòåëüíî m m yij ij0 ( , ) èìååò âèä m m y m m m yij ij ij ij0 1( , ) ( , )= - . (60) Êëàññè÷åñêèå ôîðìóëû (51) è (53) äëÿ àíàëèçà âûáîðêè ñ áèíàðíûì èñõî- äîì â ñëó÷àå èñêóññòâåííîé âûáîðêè èìåþò âèä g m G m G m m m y m m y i i i i c ij ij j n ij ij i ( ) ( ) ( ) ( , ) ( , ) = = = = å å 1 1 1 1 j n i c i == åå 11 , (61) b m B m B m m m y m m y i i i i c ij ij j n ij ij i ( ) ( ) ( ) ( , ) ( , ) = = = = å å 1 0 1 0 j n i c i == åå 11 . (62) Ðàçäåëèâ ÷èñëèòåëü è çíàìåíàòåëü âûðàæåíèé (61) è (62) íà m ñ ó÷åòîì (59) è (60), âû÷èñëèì ïðåäåëû âûðàæåíèé (61) è (62): lim ( ) lim ( , ) lim ( ,m i m ij ij j n m ij g m m m y m m m y i ®¥ ®¥= ®¥ = å 1 1 1 ij j n i c ij j n ij j n i c m y y i i i) == = == åå å åå = 11 1 11 , (63) lim ( ) lim ( , ) li m i m ij ij j n b m m m y m i ®¥ ®¥== - æ è ç ç ö ø ÷ ÷ - å 1 1 1 1 m ( , ) ( ) ( m ij ij j n i c ij j n m m y m y i i ®¥== = æ è ç ç ö ø ÷ ÷ = - åå å 1 11 1 1 1 11 - == åå yij j n i c i ) . (64) Ââåäåì îáîçíà÷åíèÿ ñîãëàñíî êëàññè÷åñêèì ôîðìóëàì (50) è (55) äëÿ èñêóñ- ñòâåííîé âûáîðêè ñ áèíàðíûì èñõîäîì WoE m g m b m i i i ( ) ln ( ) ( ) = æ è çç ö ø ÷÷ , (65) IV m g m b m g m b m g mi i i ii c i( ) ( ( ) ( )) ln ( ) ( ) ( (= - æ è çç ö ø ÷÷ = = å 1 ) ( )) ( )- = å b m WoE mi i i c 1 . (66) 182 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 Ïðåäåë âåñà êàòåãîðèè ïåðåìåííîé ñ èñïîëüçîâàíèåì ïðåäåëîâ (63) è (64): lim ( ) ln m i ij j n ij j n i c WoE m y y i i®¥ = == = æ è ç ç ç ç ç ö ø ÷ ÷ å åå 1 11 ÷ ÷ ÷ - - - æ è ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ = == å åå ln ( ) ( ) 1 1 1 11 y y ij j n ij j n i c i i ÷ . (67) Ïðåäåë çíà÷åíèÿ èíôîðìàöèè ñ èñïîëüçîâàíèåì ïðåäåëîâ (63), (64) è (67): lim ( ) m IV m ®¥ = = - - - = == = = å åå åy y y y ij j n ij j n i c ij j n ij j n i i i i 1 11 1 1 1 1 ( ) ( )åå å åå = = == æ è ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ æ è ç ç ç i c ij j n ij j n i c y y i i 1 1 11 ln ç ç ö ø ÷ ÷ ÷ ÷ ÷ - - - æ è ç ç ç ç ç = == å åå ln ( ) ( ) 1 1 1 11 y y ij j n ij j n i c i i ö ø ÷ ÷ ÷ ÷ ÷ æ è ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ = å i c 1 , (68) lim ( ) ( ) ( m ij j n ij j n i c ij j n IV m y y y i i i ®¥ = == == - -å åå å 1 11 1 1 1 11 1 - æ è ç ç ç ç ç ö ø ÷ ÷ ÷ ÷ ÷ == ®¥= åå å y WoE m ij j n i c m i i c i ) lim ( ) . (69) Òàêèì îáðàçîì, ñîãëàñíî îáîçíà÷åíèÿì (56) è (57) âûïîëíÿþòñÿ ðàâåíñòâà lim ( ) m i iWoE m WoE ®¥ = , (70) lim ( ) m IV m IV ®¥ = , (71) ò.å. êëàññè÷åñêèå ïîêàçàòåëè äëÿ èñêóññòâåííîé âûáîðêè ñ áèíàðíûì èñõîäîì ñõî- äÿòñÿ ê ïðåäëàãàåìûì îáîáùåííûì ïîêàçàòåëÿì âåñîâ êàòåãîðèé ïåðåìåííûõ è çíà÷åíèÿì èíôîðìàöèè íà îðèãèíàëüíîé âûáîðêå ñ âåðîÿòíîñòíûì èñõîäîì. Äîêà- çàíî òàêæå âûïîëíèìîñòü ðàâåíñòâà (58) ñîãëàñíî ïîëó÷åííîìó ðàâåíñòâó (69). Äîêàçàòåëüñòâî òåîðåìû 3 çàâåðøåíî. Îñíîâíûìè ñïîñîáàìè ïîäñ÷åòà ïîêàçàòåëÿ Äæèíè, èñïîëüçóåìûìè äëÿ òå- ñòèðîâàíèÿ è îöåíêè êà÷åñòâà ìîäåëè, ÿâëÿþòñÿ êðèâàÿ Ëîðåíöà, à òàêæå êðèâàÿ îïåðàöèîííîé õàðàêòåðèñòèêè ïðèåìíèêà (Receiver Operating Characteristic curve) [2, 3, 7], êîòîðóþ ìîæíî ïðåîáðàçîâàòü â ãðàôèê çàâèñèìîñòè çíà÷åíèé êóìóëÿ- òèâíîé ôóíêöèè ðàñïðåäåëåíèÿ íóëåâûõ («ïëîõèõ») ýëåìåíòîâ îò çíà÷åíèé êó- ìóëÿòèâíîé ôóíêöèè ðàñïðåäåëåíèÿ åäèíè÷íûõ («õîðîøèõ») ýëåìåíòîâ. Îáå êó- ìóëÿòèâíûå ôóíêöèè ïðåäñòàâëåíû â âèäå ïàðàìåòðè÷åñêîãî ãðàôèêà ñ ïàðàìåò- ðîì óðîâíÿ ïîðîãà îòñå÷åíèÿ äëÿ ïðîãíîçèðóåìîé âåðîÿòíîñòè ìîäåëè. Âõîäÿùèì íàáîðîì ÿâëÿåòñÿ íàáîð äâóõìåðíûõ âåêòîðîâ ôàêòè÷åñêèõ è ïðîãíîçèðóåìûõ çíà÷åíèé ( , )y si i . Òîãäà ôîðìóëà, êîòîðàÿ îáîáùàåòñÿ äëÿ ïîäñ÷åòà èíäåêñà Äæèíè, èìååò âèä [7] GINI F s dF sB s S G= - æ è ç ç ö ø ÷ ÷ æ è ç ö ø ÷ Î ò ( ) ( ) 1 2 1 2 . (72) Äàëåå èíòåãðàë ìîæíî îöåíèòü ÷èñëåííî [7]: F s dF s F s F s F s F sB s S G B i B i G i G i( ) ( ) ( ( ) ( )) ( ( ) ( ) Î - -ò = + -1 1 2 ) s SiÎ å . (73) ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 183 Îáîáùåíèå êóìóëÿòèâíûõ ðàñïðåäåëåíèé: F t y y G i i s t i i n i( ) : = £ = å å 1 , (74) F t y y B i i s t i i n i( ) ( ) ( ) : = - - £ = å å 1 1 1 . (75) Òåîðåìà 4. Íà èñêóññòâåííîé âûáîðêå ðàçìåðà mn ñ áèíàðíûì èñõîäîì, ïî- ñòðîåííîé íà îðèãèíàëüíîé âûáîðêå ðàçìåðà n ñ ñîáëþäåíèåì äâóõ óñëîâèé òåî- ðåìû 2, ïðè m ® ¥ êëàññè÷åñêèé èíäåêñ Äæèíè äèñêðåòíîé ìîäåëè áèíàðíîãî âûáîðà ñòðåìèòñÿ ê ïðåäëîæåííîìó îáîáùåíèþ (72)–(75) äëÿ ìîäåëè ñ íåïðå- ðûâíîé âõîäÿùåé öåëåâîé ïåðåìåííîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ. Äîêàçàòåëüñòâî.  òåîðåìàõ 2 è 3 äîêàçàíà ñõîäèìîñòü âåñîâ êàòåãîðèé ïå- ðåìåííûõ è âåêòîðà êîýôôèöèåíòîâ ëîãèñòè÷åñêîé ðåãðåññèè, ÷òî îáóñëîâëèâà- åò ñõîäèìîñòü ïðîãíîçèðóåìûõ çíà÷åíèé s m si m i( ) ® ®¥ . Ïîýòîìó ïðåäåëû êëàñ- ñè÷åñêèõ ýìïèðè÷åñêèõ ôóíêöèé ðàñïðåäåëåíèÿ äëÿ èñêóññòâåííîé âûáîðêè ñ ó÷åòîì äâóõ óñëîâèé òåîðåìû 2 èìåþò ñëåäóþùèé âèä (óñëîâèå lim ( ) m is m t ®¥ £ çàìåíÿåòñÿ ìíîæèòåëåì — èíäèêàòîðíîé ôóíêöèåé íåðàâåíñòâà, ÷òî ïîäòâåðæ- äàåò êîððåêòíîñòü ðàññóæäåíèé, èçëîæåííûõ íèæå): lim ( , ) m GF t m ®¥ = = = ®¥ £ = ®¥å å lim ( , ) ( , ) lim : ( ) m i i i s m t i i i n m i m m y m m y m i 1 1 1 1 ( , ) lim ( , ) : lim ( ) : m y m m m y m y i i s m t m i i i n i i sm i ®¥ £ ®¥= å å = 1 1 i t i i n y £ = å å 1 , lim ( , ) m BF t m ®¥ = = = - ®¥ £ = ®¥å å lim ( , ) ( , ) lim : ( ) m i i i s m t i i i n m m m y m m y m i 0 0 1 1 1 11 i i i s m t m i i m y m m m y m m i ( , ) lim ( , ) : lim ( ) æ è ç ö ø ÷ - æ ®¥ £ ®¥ å è ç ö ø ÷ = - - = £ = å å å i n i i s t i i n y y i 1 1 1 1 ( ) ( ) : .  òåðìèíàõ îáîçíà÷åíèé (74) è (75) ïîëó÷åííûé ðåçóëüòàò ïðèíèìàåò âèä lim ( , ) ( ) m G GF t m F t ®¥ = , lim ( , ) ( ) m B BF t m F t ®¥ = . Êàê ñëåäñòâèå, ñ ó÷åòîì âñåõ óïîìÿíóòûõ ôàêòîâ ñõîäèòñÿ ïîêàçàòåëü ïëî- ùàäè ïîä êðèâîé (Area Under Curve, AUC) àíàëîãè÷íî èíòåãðàëó Ëåáåãà: AUC m AUC F s m m dF s m mm B s m S m G( ) ( ( ), ) ( ( ), ) ( ) ( ) = = Î ò , 184 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 AUCm = = + -- - ( ( ( ), ) ( ( ), )) ( ( ( ), ) ( ( F s m m F s m m F s m m F sB i B i G i G i 1 1 2 m m s m S mi ), )), ( ) ( )Î å lim ( ( ) ( )) ( ( ) ( )) m m B i B i G i G i s S AUC F s F s F s F s i ®¥ - - Î = + -1 1 2 å . Òîãäà ñîãëàñíî (72) ñõîäèòñÿ ïîñëåäîâàòåëüíîñòü lim ( ) lim ( ) m m GINI m AUC m GINI ®¥ ®¥ = - =2 1 . Äîêàçàòåëüñòâî òåîðåìû 4 çàâåðøåíî. Êàê óêàçàíî â äîêàçàòåëüñòâå òåîðåìû 4, â òåîðåìå 2 äîêàçûâàåòñÿ ñõîäèìîñòü îòíîñèòåëüíî öåëåâîé ïåðåìåííîé â óñëîâèÿõ íåçàâèñèìîñòè îò ïàðàìåòðà m äëÿ îðèãèíàëüíîé ìàòðèöû íàáëþäåíèé, íî â óñëîâèÿõ èñïîëüçîâàíèÿ âåñîâ êàòåãî- ðèé ïåðåìåííûõ â êà÷åñòâå çíà÷åíèé âõîäÿùèõ ïåðåìåííûõ äëÿ ìàòðèöû íàáëþ- äåíèé âàæåí ôàêò ñõîäèìîñòè äëÿ WoE, ÷òî äîêàçàíî â òåîðåìå 3. Òàêèì îáðà- çîì, ãàðàíòèðóåòñÿ ñõîäèìîñòü êîìïëåêñíîãî êëàññè÷åñêîãî ïîäõîäà íà äâóõ óðîâíÿõ, êîãäà â êà÷åñòâå âõîäÿùèõ ïåðåìåííûõ â ëîãèñòè÷åñêîé ðåãðåññèè èñ- ïîëüçóåòñÿ WoE. Äàííûé ïîäõîä âêëþ÷àåò: • ðàñ÷åò ìàòðèöû íàáëþäåíèé ñ ïîìîùüþ WoE-ïðåîáðàçîâàíèé äëÿ âõîäÿ- ùèõ êàòåãîðèàëüíûõ (ëèáî äèñêðåòèçèðîâàííûõ íà èíòåðâàëû) ïåðåìåííûõ ñ èñ- ïîëüçîâàíèåì ïðåäëîæåííîé ôîðìóëû äëÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé; • âûïîëíåíèå ìîäåëèðîâàíèÿ ñ ïîìîùüþ ëîãèñòè÷åñêîé ðåãðåññèè ñ èñ- ïîëüçîâàíèåì ôîðìóëû äëÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé è íåêîòîðîé âå- ñîâîé ôóíêöèè (íàïðèìåð, ðàâíîé öåëåâîé ïåðåìåííîé). ÏÐÈÌÅÐ ÏÎÑÒÐÎÅÍÈß ÑÊÎÐÈÍÃÎÂÎÉ ÌÎÄÅËÈ Ñ ÈÑÏÎËÜÇÎÂÀÍÈÅÌ ÂÅÑÎÂÎÉ ÔÓÍÊÖÈÈ, ÐÀÂÍÎÉ ÍÅÏÐÅÐÛÂÍÎÉ ÂÅÐÎßÒÍÎÑÒÍÎÉ ÖÅËÅÂÎÉ ÏÅÐÅÌÅÍÍÎÉ Â ðàññìîòðåííîì íèæå ïðèìåðå îáó÷àåìàÿ ìîäåëü ïðåäíàçíà÷åíà äëÿ ïðîãíîçè- ðîâàíèÿ èíäèêàòîðà îòñóòñòâèÿ âûõîäà çà áîëåå ÷åì 60 äíåé ïðîñðî÷êè çà ïåðè- îä äåâÿòè ìåñÿöåâ íàáëþäåíèÿ ïîñëå äàòû âûäà÷è äëÿ ïîòðåáèòåëüñêîãî êðåäè- òîâàíèÿ.  ìîäåëü âêëþ÷åíû ñëåäóþùèå êàòåãîðèàëüíî-èíòåðâàëüíûå ïåðåìåí- íûå ñ ñîîòâåòñòâóþùèìè êîýôôèöèåíòàìè îáîáùåííîé ëîãèñòè÷åñêîé ðåãðåññèè: 1) îòðàñëü è òèï ñîáñòâåííîñòè îðãàíèçàöèè òðóäîóñòðîéñòâà (c1 = 0,508406067253879) ; 2) ïîë è âîçðàñò êëèåíòà (c2 = 0,597316083071572); 3) îáðàçîâàíèå è òåêóùèé ñòàæ ðàáîòû â îðãàíèçàöèè (c3 = 0,464335289146336); 4) îáðàçîâàíèå, ñåìåéíîå ïîëîæåíèå è êîëè÷åñòâî äåòåé (c4 = 0,493999578172318); 5) îòðàñëü, äîëæíîñòü è îáùèé ñòàæ ðàáîòû (c5 = 0,209020022855618). Êîýôôèöèåíò ñìåùåíèÿ ìîäåëè ëîãèñòè÷åñêîé ðåãðåññèè: c0 = 2,65817577386769. Ðåçóëüòàòû ïîäñ÷åòà îáîáùåííûõ âåñîâ êàòåãîðèé WoE äàíû â òàáëèöå (Information Value = 0.261555978700409). Èñïîëüçîâàíèå âåðîÿò- íîñòíîé öåëåâîé ïåðåìåííîé îòâå÷àåò àíàëèçó îòêëîíåííûõ çàÿâîê [2, 6], âûïîë- íåííîãî ñ ïîìîùüþ óñîâåðøåíñòâîâàííîãî ìåòîäà èòåðàòèâíîé êëàññèôèêàöèè äëÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé [6]. Ïðè ýòîì òîëüêî äëÿ îòêëîíåííûõ çàÿâîê âåðîÿòíîñòè âñåãäà áëèçêè ñ òî÷íîñòüþ äî 10 6- ê ñîîòâåòñòâóþùèì îá- ðàòíûì ïðîãíîçàì íà îáó÷àþùåé âûáîðêå. Èíäåêñ Äæèíè íà áèíàðíîé òåñòîâîé âûáîðêå ðàâåí 40,11%, à îáîáùåííûé èíäåêñ Äæèíè íà îáó÷àþùåé âûáîðêå (îá- ðàòíûå ïðîãíîçû) ðàâåí 40,18%. ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 185 ÇÀÊËÞ×ÅÍÈÅ Ïðåäëîæåíî îáîáùåíèå ìåòîäà ìîäåëèðîâàíèÿ ñ ïîìîùüþ ëîãèñòè÷åñêîé ðå- ãðåññèè ïóòåì îáîáùåíèÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ íà íåïðåðûâ- íûé îòðåçîê [0; 1] äåéñòâèòåëüíîé îñè äëÿ öåëåâîé ïåðåìåííîé, ÷òî ïîçâîëÿåò èñïîëüçîâàòü âåðîÿòíîñòíóþ öåëåâóþ ïåðåìåííóþ â ìåòîäå ìàêñèìàëüíîãî ïðàâäîïîäîáèÿ (Maximum Likelihood Estimation method). Òàêæå îïðåäåëåíî îáîáùåíèå ôîðìóëû äëÿ ïîäñ÷åòà âåñà êàòåãîðèè ïåðåìåííîé è èíäåêñà Äæè- íè äëÿ ñëó÷àÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé. Äîêàçàíî ÷åòûðå òåîðåìû: 1) î ôîðìóëàõ âåêòîðà ãðàäèåíòà è ìàòðèöû Ãåññå äëÿ âåñîâîé ôóíêöèè ñ èñ- ïîëüçîâàíèåì âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé; 2) î âîçìîæíîñòè ïðèáëè- æåíèÿ êîýôôèöèåíòîâ ëîãèñòè÷åñêîé ìîäåëè ñ âåðîÿòíîñòíîé öåëåâîé ïåðå- ìåííîé ñ ïîìîùüþ ìîäåëè íà ñïåöèàëüíî ïîñòðîåííîé èñêóññòâåííîé âûáîð- êå ñ áèíàðíûì èñõîäîì, åñëè âåñîâàÿ ôóíêöèÿ ðàâíà âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé; 3) î ñõîäèìîñòè WoE-ïðåîáðàçîâàíèé äëÿ âõîäÿùèõ êàòåãîðèàëü- íûõ (ëèáî äèñêðåòèçèðîâàííûõ íà èíòåðâàëû) ïåðåìåííûõ íà èñêóññòâåííî ïîñòðîåííûõ ïðèáëèæàþùèõ âûáîðêàõ ñ áèíàðíûì èñõîäîì; 4) î ñõîäèìîñòè èíäåêñà Äæèíè íà èñêóññòâåííî ïîñòðîåííûõ ïðèáëèæàþùèõ âûáîðêàõ ñ áè- íàðíûì èñõîäîì. Ñëåäñòâèå ïåðâîé òåîðåìû îêîí÷àòåëüíî ïîäòâåðæäàåò ïðè- ìåíèìîñòü êëàññè÷åñêîãî ìåòîäà Íüþòîíà (âêëþ÷àÿ êëàññè÷åñêèå ôîðìóëû âåêòîðà ãðàäèåíòà è ìàòðèöû Ãåññå) áåç èçìåíåíèé ïðè îáîáùåíèè êëàññè÷åñ- êîé ìîäåëè ëîãèñòè÷åñêîé ðåãðåññèè íà âåðîÿòíîñòíóþ öåëåâóþ ïåðåìåííóþ, èñïîëüçóÿ âåñîâóþ ôóíêöèþ, ðàâíóþ öåëåâîé ïåðåìåííîé. 186 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 Ò à á ë è ö à Ïåðåìåííûå (ïîë, âîçðàñò) Äîëÿ âûáîðêè, % Ñóììà âåðîÿòíîñòè Äîëÿ (%) ñóììû âåðîÿòíîñòè Çíà÷åíèå WoEíàñòóï- ëåíèÿ äåôîëòà íåíàñòóï- ëåíèÿ äåôîëòà íàñòóï- ëåíèÿ äåôîëòà íåíàñòóï- ëåíèÿ äåôîëòà Ì, £ 25 9,00 2 610,33171 16 511,66829 18,75 8,31 – 0,81336 Ì, 26 2̧9 ëåò 8,76 1 691,91162 16 938,08838 12,15 8,53 – 0,35424 Ì, 30 3̧4 ëåò 8,79 1 479,30018 17 212,69982 10,62 8,66 – 0,20387 Ì, 35 4̧1 ëåò 9,24 1 284,60993 18 348,39007 9,23 9,24 0,00114 Ì, 42 4̧9 ëåò 6,68 737,17629 13 470,82371 5,29 6,78 0,24751 Ì, >49 ëåò 6,39 526,14319 13 049,85681 3,78 6,57 0,55301 Æ, £ 27 ëåò 10,11 2 046,35376 19 444,64624 14,70 9,79 – 0,40643 Æ, 28 3̧3 ëåò 9,02 1 153,93200 18 011,06800 8,29 9,07 0,08987 Æ, 34 4̧0 ëåò 9,88 980,09372 20 029,90628 7,04 10,08 0,35939 Æ, 41 4̧7 ëåò 7,89 600,96158 16 172,03842 4,32 8,14 0,63456 Æ, 48 5̧4 ëåò 7,01 440,11943 14 462,88057 3,16 7,28 0,83435 Æ, >54 ëåò 7,23 372,86867 14 998,13133 2,68 7,55 1,03651 Îáùèé èòîã: 100% 13 923,80205 198 650,19795 100% 100% 0 212 574 Ïðåäëîæåííûå îáîáùåíèÿ èìåþò ñóùåñòâåííûå ïðåèìóùåñòâà ïåðåä êëàññè- ÷åñêèìè ôîðìóëàìè ïîäñ÷åòà. Ãëàâíûì ïðåèìóùåñòâîì è îòëè÷èåì îò êëàññè÷åñêîãî ñëó÷àÿ ÿâëÿåòñÿ âîçìîæíîñòü èñïîëüçîâàíèÿ âåðîÿòíîñòíîé öåëåâîé ïåðåìåííîé ëèáî íåïðåðûâíîé öåëåâîé ïåðåìåííîé äðóãîé ïðèðîäû [5], ïðèíèìàþùåé çíà÷åíèÿ ñ èí- òåðâàëà 0% ¸100%, íàïðèìåð äëÿ ìîäåëèðîâàíèÿ ïîêàçàòåëÿ îòíîñèòåëüíûõ ïîòåðü, ïðè÷èíÿåìûõ äåôîëòîì (Loss Given by Default). Ïðåèìóùåñòâîì òàêæå ÿâëÿåòñÿ îáîáùåíèå âñåãî ïðîöåññà ìîäåëèðîâàíèÿ äëÿ íåïðåðûâíîé öåëåâîé ïåðåìåííîé — ïîäãîòîâêè âõîäÿùèõ çíà÷åíèé ïåðåìåííûõ â âèäå îáîáùåííîãî ïðåîáðàçîâàíèÿ â âåñ êàòåãîðèè ïåðåìåííîé, ïîäñ÷åòà êîýôôèöèåíòîâ îáîáùåííîé ëîãèñòè÷åñêîé ðåãðåññèè, îöåíêè êà÷åñòâà ðàçðàáîòàííîé ìîäåëè ñ ïîìîùüþ îáîáùåííîãî èíäåêñà Äæèíè. Êðîìå òîãî, èìåþòñÿ äîêàçàòåëüñòâà êëàññè÷åñêèõ ôîðìóë äëÿ ìåòîäà ìàêñè- ìàëüíîãî ïðàâäîïîäîáèÿ, âåñà êàòåãîðèè ïåðåìåííîé è èíäåêñà Äæèíè äëÿ áèíàðíîé öåëåâîé ïåðåìåííîé, êàê ÷àñòíîãî ñëó÷àÿ îáîáùåííûõ ôîðìóë äëÿ öåëåâîé ïåðåìåí- íîé, ïðèíèìàþùåé âåðîÿòíîñòíûå çíà÷åíèÿ. Îäíèì èç îñíîâîïîëàãàþùèõ ñëåäñòâèé îáîáùåíèÿ ôîðìóëû âåñà êàòåãîðèè ïåðåìåííîé ÿâëÿåòñÿ îáîáùåíèå ïîêàçàòåëÿ çíà÷åíèÿ èíôîðìàöèè IV . Âàæíûì ñëåäñòâèåì îáîáùåíèÿ ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ ÿâëÿåòñÿ âîçìîæíîñòü èñïîëüçîâàíèÿ ðàçíîðîäíûõ íåïðåðûâíûõ âåñîâûõ ôóíêöèé, êîòîðûå ïðè ââåäåí- íûõ îãðàíè÷åíèÿõ ïðèðàâíèâàþò ëîãàðèôì ôóíêöèè ïðàâäîïîäîáèÿ ê êëàññè÷åñêî- ìó çíà÷åíèþ íà ìíîæåñòâå áèíàðíûõ çíà÷åíèé öåëåâîé ïåðåìåííîé. Ââåäåííûå óñîâåðøåíñòâîâàíèÿ ïîçâîëÿþò ðåøàòü çàäà÷è âåðîÿòíîñòíîãî ìîäåëèðîâàíèÿ ïðè íå÷åòêîé áèíàðíîé êëàññèôèêàöèè âõîäÿùèõ äàííûõ, â ÷àñòíîñòè áîëåå ýôôåêòèâíî ðåøàòü çàäà÷è âêëþ÷åíèÿ è àíàëèçà îòêëîíåííûõ çàÿâîê (reject inference) [5, 6], êàê ÷àñòè÷íî êëàññèôèöèðîâàííûõ âûâåäåííûõ äàííûõ (inferred data) â êðåäèòíîì ñêîðèíãå, à òàêæå âûïîëíÿòü ìîäåëèðîâàíèå ïîêàçàòåëåé, ïðèíèìàþùèõ çíà÷åíèÿ ñ èíòåðâàëà 0% ¸100% . Êëàññè÷åñêèì ïðè- ìåðîì ÿâëÿåòñÿ çàäà÷à ìîäåëèðîâàíèÿ îòíîñèòåëüíûõ ïîòåðü, ïðè÷èíÿåìûõ ðåà- ëèçàöèåé ñîáûòèÿ äåôîëòà (Loss Given by Default). Îñíîâíûìè íàïðàâëåíèÿìè ïåðñïåêòèâíûõ èññëåäîâàíèé ÿâëÿþòñÿ áîëåå ãëóáîêîå èçó÷åíèå ñòåïåíåé âëèÿíèÿ ðàçëè÷íûõ òèïîâ ïðåäëîæåííîé âåñîâîé ôóíêöèè â ôîðìóëå ëîãàðèôìà ôóíêöèè ïðàâäîïîäîáèÿ è îáîáùåíèå äðóãèõ ìåòîäîâ êàòåãîðèàëüíîé ðåãðåññèè. ÑÏÈÑÎÊ ËÈÒÅÐÀÒÓÐÛ 1. Ë î á à í î â à À . À . , × ó ã ó í î â à À .  . Ýíöèêëîïåäèÿ ôèíàíñîâîãî ðèñê-ìåíåäæìåíòà. — Ì.: Àëüïèíà Ïàáëèøåð, 2003. — 786 ñ. 2. S i d d i q i N a e e m . Credit risk scorecards: developing and implementing intelligent credit scoring. — Hoboken: John Wiley & Sons, Inc., 2006. — 196 p. 3. T h o m a s C . L y n , E d e l m a n B . D a v i d , C r o o k N . J o n a t h a n . Credit scoring and its applications. — Philadelphia: Society for Industrial and Applied Mathematics, 2002. — 248 p. 4. A l l i s o n D . P a u l . Logistic regression using the SAS® System: Theory and Application. — Cary: SAS Institute Inc., 1999. — 287 p. 5. Ì ý é ç Ý . Ðóêîâîäñòâî ïî êðåäèòíîìó ñêîðèíãó. — Ìèíñê: Ãðåâöîâ Ïàáëèøåð, 2008. — 464 ñ. 6. Ñ î ë î ø å í ê î Î . Ì . Âäîñêîíàëåííÿ ìåòîäó ³òåðàòèâíî¿ êëàñèô³êàö³¿ ç âêëþ÷åííÿ â³äõèëåíèõ çàÿâîê ó êðåäèòíîìó ñêîðèíãó // Íàóêîâ³ â³ñò³ ÍÒÓÓ «Êϲ». — 2014. — ¹ 5. — Ñ. 63–69. 7. Ñ î ë î ø å í ê î Î . Ì . Ñïîñ³á ðîçðàõóíêó ïîêàçíèêà Äæèí³, ñòàòèñòèêè Êîëìîãîðîâà–Ñìèðíîâà òà â³äñòàí³ Ìàõàëàíîá³ñà ó êðåäèòíîìó ñêîðèíãó çàñîáàìè ìîâè SQL // Íàóêîâ³ â³ñò³ ÍÒÓÓ «Êϲ». — 2015. — ¹ 1. — Ñ. 29–35. 8. Ò å ð å í ò ü å â À . Í . , Á è ä þ ê Ï . È . Ìåòîä âåðîÿòíîñòíîãî âûâîäà â áàéåñîâñêèõ ñåòÿõ ïî îáó÷àþ- ùèì äàííûì // Êèáåðíåòèêà è ñèñòåìíûé àíàëèç. — 2007. — ¹ 3. — Ñ. 93–99. Ïîñòóïèëà 17.09.2014 ISSN 0023-1274. Êèáåðíåòèêà è ñèñòåìíûé àíàëèç, 2015, òîì 51, ¹ 6 187