Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу
Розроблено вдосконалені методи обчислення показників статистики Колмогорова-Смирнова, ваги категорії змінної та значення інформації без явного розбиття оригінальної вибірки на дві підмножини, з виведенням відповідних формул для аналізу предикативної (прогностичної) сили категоріальних змінних у зада...
Збережено в:
Дата: | 2015 |
---|---|
Автор: | |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
2015
|
Назва видання: | Системні дослідження та інформаційні технології |
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/123569 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу / О.М. Солошенко // Системні дослідження та інформаційні технології. — 2015. — № 4. — С. 104-113. — Бібліогр.: 8 назв. — укр. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-123569 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-1235692017-09-07T03:03:58Z Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу Солошенко, О.М. Математичні методи, моделі, проблеми і технології дослідження складних систем Розроблено вдосконалені методи обчислення показників статистики Колмогорова-Смирнова, ваги категорії змінної та значення інформації без явного розбиття оригінальної вибірки на дві підмножини, з виведенням відповідних формул для аналізу предикативної (прогностичної) сили категоріальних змінних у задачах кредитного рейтингу та інших областях практичного застосування методів бінарної класифікації. Здійснено узагальнення класичних формул статистики Колмогорова-Смирнова, ваги категорії змінної та показника значення інформації шляхом перетворення агрегатних виразів для дискретних розподілів та кумулятивних функцій розподілу з застосуванням скалярного добутку векторів та операторів проектування, а також оператора умовної перестановки. Запропоновано вдосконалені формули обчислення статистики Колмогорова-Смирнова, ваги категорії змінної та індексу значення інформації, що узагальнено описуються в термінах дискретного безумовного розподілу вхідної змінної та умовного розподілу бінарної цільової змінної. Разработаны усовершенствованные методы вычисления показателей статистики Колмогорова-Смирнова, веса категории переменной и значения информации без явного разбиения оригинальной выборки на два подмножества, с приведением соответствующих формул для анализа предикативной (прогностической) силы категориальных переменных в задачах кредитного рейтинга и других областях практического применения методов бинарной классификации. Произведено обобщение классических формул статистики Колмогорова-Смирнова, веса категории переменной и показателя значения информации путем преобразования агрегатных выражений для дискретных распределений и кумулятивных функций распределения с применением скалярного произведения векторов и операторов проектирования, а также оператора условной перестановки. Предложены усовершенствованные формулы вычисления статистики Колмогорова–Смирнова, веса категории переменной и индекса значения информации, которые обобщенно описаны в терминах дискретного безусловного распределения входящей переменной и условного распределения бинарной целевой переменной. The improved evaluation methods of the Kolmogorov-Smirnov statistic, Weight of Evidence and Information Value indicators are developed without explicit splitting of the original sample into two subsets with developing corresponding formulas for the predictive (forecasting) power analysis of categorical variables in the credit scoring tasks and other fields of practical application of binary classification methods. The generalization of the classical formulas for the Kolmogorov-Smirnov statistic, Weight of Evidence and Information Value indicators have been performed by means of the aggregate expressions transformation for discrete distributions and cumulative distribution functions applying the inner product of two vectors, projection operators, and also a conditional substitution operator. The improved estimation formulas for the Kolmogorov-Smirnov statistic, Weight of Evidence and Information Value indices are proposed and generally described in terms of the discrete unconditional distribution of the input variable and the conditional distribution of the binary target variable. 2015 Article Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу / О.М. Солошенко // Системні дослідження та інформаційні технології. — 2015. — № 4. — С. 104-113. — Бібліогр.: 8 назв. — укр. 1681–6048 http://dspace.nbuv.gov.ua/handle/123456789/123569 303.732.4:519.254 uk Системні дослідження та інформаційні технології Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Ukrainian |
topic |
Математичні методи, моделі, проблеми і технології дослідження складних систем Математичні методи, моделі, проблеми і технології дослідження складних систем |
spellingShingle |
Математичні методи, моделі, проблеми і технології дослідження складних систем Математичні методи, моделі, проблеми і технології дослідження складних систем Солошенко, О.М. Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу Системні дослідження та інформаційні технології |
description |
Розроблено вдосконалені методи обчислення показників статистики Колмогорова-Смирнова, ваги категорії змінної та значення інформації без явного розбиття оригінальної вибірки на дві підмножини, з виведенням відповідних формул для аналізу предикативної (прогностичної) сили категоріальних змінних у задачах кредитного рейтингу та інших областях практичного застосування методів бінарної класифікації. Здійснено узагальнення класичних формул статистики Колмогорова-Смирнова, ваги категорії змінної та показника значення інформації шляхом перетворення агрегатних виразів для дискретних розподілів та кумулятивних функцій розподілу з застосуванням скалярного добутку векторів та операторів проектування, а також оператора умовної перестановки. Запропоновано вдосконалені формули обчислення статистики Колмогорова-Смирнова, ваги категорії змінної та індексу значення інформації, що узагальнено описуються в термінах дискретного безумовного розподілу вхідної змінної та умовного розподілу бінарної цільової змінної. |
format |
Article |
author |
Солошенко, О.М. |
author_facet |
Солошенко, О.М. |
author_sort |
Солошенко, О.М. |
title |
Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу |
title_short |
Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу |
title_full |
Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу |
title_fullStr |
Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу |
title_full_unstemmed |
Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу |
title_sort |
вдосконалені методи розрахунку статистики колмогорова–смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу |
publisher |
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України |
publishDate |
2015 |
topic_facet |
Математичні методи, моделі, проблеми і технології дослідження складних систем |
url |
http://dspace.nbuv.gov.ua/handle/123456789/123569 |
citation_txt |
Вдосконалені методи розрахунку статистики Колмогорова–Смирнова, ваги категорії змінної та значення інформації у кредитному рейтингу / О.М. Солошенко // Системні дослідження та інформаційні технології. — 2015. — № 4. — С. 104-113. — Бібліогр.: 8 назв. — укр. |
series |
Системні дослідження та інформаційні технології |
work_keys_str_mv |
AT sološenkoom vdoskonalenímetodirozrahunkustatistikikolmogorovasmirnovavagikategoríízmínnoítaznačennâínformacííukreditnomurejtingu |
first_indexed |
2025-07-08T23:53:39Z |
last_indexed |
2025-07-08T23:53:39Z |
_version_ |
1837124888434835456 |
fulltext |
О.М. Солошенко, 2015
104 ISSN 1681–6048 System Research & Information Technologies, 2015, № 4
УДК 303.732.4:519.254
ВДОСКОНАЛЕНІ МЕТОДИ РОЗРАХУНКУ СТАТИСТИКИ
КОЛМОГОРОВА-СМИРНОВА, ВАГИ КАТЕГОРІЇ ЗМІННОЇ
ТА ЗНАЧЕННЯ ІНФОРМАЦІЇ У КРЕДИТНОМУ РЕЙТИНГУ
О.М. СОЛОШЕНКО
Розроблено вдосконалені методи обчислення показників статистики Колмого-
рова-Смирнова, ваги категорії змінної та значення інформації без явного роз-
биття оригінальної вибірки на дві підмножини, з виведенням відповідних фор-
мул для аналізу предикативної (прогностичної) сили категоріальних змінних
у задачах кредитного рейтингу та інших областях практичного застосування
методів бінарної класифікації. Здійснено узагальнення класичних формул ста-
тистики Колмогорова-Смирнова, ваги категорії змінної та показника значення
інформації шляхом перетворення агрегатних виразів для дискретних
розподілів та кумулятивних функцій розподілу з застосуванням скалярного
добутку векторів та операторів проектування, а також оператора умовної пе-
рестановки. Запропоновано вдосконалені формули обчислення статистики
Колмогорова-Смирнова, ваги категорії змінної та індексу значення інформації,
що узагальнено описуються в термінах дискретного безумовного розподілу
вхідної змінної та умовного розподілу бінарної цільової змінної.
ВСТУП
Практично у всіх системах та підходах побудови кредитних рейтингових
моделей — скорингових моделей (скорингових карт) у задачах ризик-
менеджменту щодо моделювання кредитних ризиків, для внутрішньої задачі
аналізу прогностичної (предикативної) сили вхідних характеристик з метою
оцінювання доцільності їх включення у модель логістичної регресії, викори-
стовуються значення WoE (Weight of Evidence — вага категорії змінної) для
категорій категоріальної або дискретизованої змінної та показник IV (Infor-
mation Value — значення інформації) на основі відстані Кульбака-Лейблера
[1]. Одним з індикаторів оцінки якості ймовірнісних (або рейтингових) про-
гнозів на тестовій (валідаційній) вибірці з бінарною цільовою змінною є ста-
тистика KS (Kolmogorov-Smirnov statistic — статистика Колмогорова-
Смирнова) [2], яка дозволяє оцінювати нерівність функцій розподілу для
двох взаємовиключних класів. Статистику KS також застосовно на етапі
аналізу характеристик на навчальній вибірці як альтернативу показнику IV.
У такому разі, ця статистика буде в точності відповідати показнику якості
прогнозів однофакторної моделі у термінах класичних показників якості
прогнозів бінарного класифікатора. Вона відображає роздільну здатність
класифікатора відносно двох підмножин, що відповідають двом значенням
цільової змінної, тобто якість ранжування елементів всієї множини відносно
цільової змінної [2]. Цей факт пояснюється тим, що у випадку використання
класичних моделей зважування факторів типу логістичної регресії, що збе-
рігають монотонність виходу моделі відносно єдиного входу, або у випадку
використання дерев рішень, що збігаються з вхідною категоріальною змін-
ною при використанні єдиного вхідного категоріального параметру, зберіга-
Вдосконалені методи розрахунку статистики Колмогорова-Смирнова, …
Системні дослідження та інформаційні технології, 2015, № 4 105
ється ранжування елементів вибірки [2]. Статистику KS застосовують як для
дискретних (категоріальних), так і для неперервних розподілів.
Класичні формули обчислення WoE та IV оперують розбиттям на два
окремі умовні розподіли категорій певної змінної на власне виділених окре-
мо класах одиничних та нульових значень бінарної цільової змінної [1],
а обчислення статистики Колмогорова-Смирнова передбачає побудову ем-
піричних функцій розподілу безпосередньо розглядаючи всю відому неагре-
говану множину елементів [2].
Актуальність дослідження полягає у практичній цінності наведення
відповідних формул у термінах та поняттях безумовного дискретного роз-
поділу (total distribution) змінної, що аналізується, та у термінах умовних
ймовірностей нульових значень цільової змінної (bad rate) за кожною з кате-
горій змінної, що аналізується, оскільки два наведені розподіли найбільш
ілюстративні для відображення таблиць та графіків аналізу характеристик
(зокрема, групи ризику фінального рейтингового балу) [2]. Також актуаль-
ність розроблення формул розрахунку ключових показників предикативнос-
ті категоріальних змінних у кредитному скорингу (рейтингу) саме за допо-
могою різноманітних агрегатних показників обумовлена новітніми
технологіями розробки баз даних. Вони не відповідають реляційній моделі
та призначені для роботи з надзвичайно великими масивами даних [3]. Ще
одним аспектом актуальності пропонованих методів є забезпечення можли-
вості точної кількісної оцінки ключових індикаторів, використовуючи лише
класичні таблицю та графік аналізу характеристик [2]. Також з використан-
ням альтернативних формул можлива організація додаткової перевірки ко-
ректності розрахунку даних статистичних показників, відновлення ін-
дикаторів властивостей оригінальної вибірки. Альтернативні формули
відображають важливу інтерпретацію числових значень ваги категорії змін-
ної.
ПОСТАНОВКА ЗАДАЧІ
Об’єктами дослідження є класичні формули KS, WoE та IV.
Предметом дослідження є методи перетворення агрегатних виразів для
дискретних розподілів та кумулятивних функцій з застосуванням скалярно-
го добутку та операторів проектування, а також оператора умовної переста-
новки.
Мета роботи — наведення вдосконалених методів обчислення показ-
ників статистики Колмогорова-Смирнова, ваги категорії змінної та значення
інформації без явного розбиття оригінальної вибірки на дві підмножини,
з виведенням відповідних формул для аналізу предикативної (прогностичної)
сили категоріальних змінних у задачах кредитного скорингу та інших облас-
тях практичного застосування методів бінарної класифікації. Тобто необхід-
но розробити вдосконалені методи розрахунку ключових показників
предикативної сили довільної категоріальної змінної у кредитному скорингу
за відомих вхідних ймовірностях безумовного дискретного розподілу кате-
горіальної змінної та умовних ймовірностях частоти нульових значень
цільової змінної, тобто за узгодження вхідних векторів ймовірностей
розподілу вхідної змінної та умовних ймовірностей цільової змінної.
О.М. Солошенко
ISSN 1681–6048 System Research & Information Technologies, 2015, № 4 106
КЛАСИЧНІ МЕТОДИ ОЦІНЮВАННЯ KS, WOE ТА IV
Класичні формули для обчислення показників IV та WoE за відомих катего-
рій та відомих значеннях цільової змінної кожного елемента множини
вибірки для певної дискретної або дискретизованої вхідної змінної (катего-
ріальної), щоб оцінити предикативну (прогностичну) силу вхідної характе-
ристики, мають такий вигляд [1, 4]:
i
i
i b
g
WoE ln ,
c
i
iii
c
i i
i
ii bg
b
g
bgIV
11
WoE)(ln)( .
Категоріальний показник ig — це відносна кількість елементів з оди-
ничним («good») бінарним цільовим результатом у сегменті категорії до за-
гальної кількості елементів з одиничним цільовим результатом всіх катего-
рій:
G
G
G
G
g i
c
i
i
i
i
1
.
Тобто оперуємо розподілом елементів з одиничним цільовим результатом за
дискретними або дискретизованими значеннями змінної (категоріями), тому
має місце рівність:
c
i
ig
1
1 .
Аналогічно, категоріальний показник ib — це відносна кількість еле-
ментів з нульовим («bad») цільовим результатом у сегменті категорії до за-
гальної кількості елементів з нульовим цільовим результатом всіх категорій:
B
B
B
B
b i
c
i
i
i
i
1
.
Тобто також оперуємо розподілом елементів з нульовим цільовим результа-
тами за дискретними або дискретизованими значеннями змінної (категорія-
ми), тому має місце рівність:
c
i
ib
1
1.
Взаємозв’язок значення інформації з відстанню Кульбака-Лейблера
у теорії інформації [5] описується рівністю значення інформації сумі двох
несиметричних відстаней Кульбака-Лейблера відносно кожного з розподілів
[1, 5]:
),(),(lnln
11
gbDbgD
g
b
b
b
g
gIV KL
c
i
KL
i
i
i
c
i i
i
i
.
Вдосконалені методи розрахунку статистики Колмогорова-Смирнова, …
Системні дослідження та інформаційні технології, 2015, № 4 107
Класична формула обчислення статистики Колмогорова-Смирнова має
такий вигляд [2]:
|)()(|max xFxFKS GB
Xx
.
Основною модифікацією статистики Колмогорова-Смирнова, що вико-
ристовується на практиці, є показник рівня статистичної значимості
(p-value) для розподілу Колмогорова, що пов’язаний з поняттям броунівсь-
кого мосту [6]. Значення рівня статистичної значимості (p-value) записується
з використанням функції розподілу таким чином:
j
KSjj eKSFPV
222)1(1)(1
1
2 22
)1(211
j
KSjj e ,
1
2 22
)1(2
j
KSjj ePV .
Перевагами використання статистики Колмогорова-Смирнова та відпо-
відного значення статистичної значимості є двостороння обмеженість (на
відміну від значення інформації), наочність (оскільки статистика Колмого-
рова–Смирнова — це максимальна абсолютна різниця функцій розподілу на
спільній області визначення), зв’язок з поняттям броунівського мосту [6].
Основним недоліком статистики Колмогорова-Смирнова є відображення
різниці між розподілами за допомогою максимуму, а не інтегрального показни-
ка, прикладом якого може слугувати індекс Джині [4].
ВДОСКОНАЛЕНІ МЕТОДИ ОЦІНЮВАННЯ KS, WOE ТА IV
У наведеній задачі мають місце вхідні вже агреговані дані без наведення
оригінальної множини вибірки — матриця ptM
розмірності 2c ,
перший стовпець якої відповідає безумовному розподілу категорій вхідної
змінної (total distribution), а другий — умовним ймовірностям частот
елементів з нульовими значеннями бінарної цільової змінної (bad rate).
Має місце така рівність:
.1
1
c
i
it
Відповідну ймовірнісну вхідну матрицю зручно представити у вигляді
графіку аналізу вхідної характеристики відносно бінарної цільової змінної,
де гістограмі відповідає безумовний розподіл категорій вхідної характерис-
тики, а ламаній лінії — відсоток елементів з нульовим цільовим результатом
(умовна ймовірність). Наведемо приклад розподілу клієнтів банку за інтер-
валами віку клієнта та відсоток випадків некредитоспроможності для кожної
вікової категорії (рисунок).
О.М. Солошенко
ISSN 1681–6048 System Research & Information Technologies, 2015, № 4 108
Щодо аналізу характеристик насамперед перепишемо формулу WoE,
використовуючи «bad rate» на рівні категорії та середньозважений «bad
rate»:
i
i
i
i
i
i
i G
B
G
B
B
B
G
G
b
g
WoE lnlnlnln ,
ii
i
ii
i
i
GB
B
GB
B
GB
B
GB
B
WoE
1
ln
1
ln ,
i
i
w
w
i p
p
p
p
WoE
1
ln
1
ln
avg.
avg. ,
i
i
c
k
k
c
j
jj
c
k
k
c
j
jj
i p
p
t
tp
t
tp
WoE
1
ln
1
ln
1
1
1
1
,
Рисунок. Графік аналізу характеристики «вік клієнта» з наведенням розподілу ви-
бірки за категоріями та графік відсотку некредитоспроможних випадків для кате-
горій
Змінна «Вік клієнта»
Вдосконалені методи розрахунку статистики Колмогорова-Смирнова, …
Системні дослідження та інформаційні технології, 2015, № 4 109
i
i
i p
p
tp
tp
WoE
1
ln
),(1
),(
ln
. (1)
Враховано рівність:
c
i
it
1
1 .
Середньозважений за допомогою скалярного добутку «bad rate» відпо-
відає загальному «bad rate» на всій множині вибірки
GB
B
.
Наведемо вдосконалену формулу IV:
c
i
ic
r
rr
ii
c
l
ll
ii
c
i
iii WoE
tp
tp
tp
tp
WoEbgIV
1
11
1 )1(
)1(
)( .
Ще раз врахуємо рівність:
c
i
it
1
1.
Остаточна формула IV:
c
i i
iiiii
p
p
tp
tp
tp
tp
tp
tp
IV
1 1
ln
),(1
),(
ln
),(),(1
)1(
. (2).
Для прикладу з рисунку округлене значення IV буде дорівнювати 1,97.
Остаточно суть методів обчислення Weight of Evidence (1) та
Information Value (2) полягає у використанні скалярного добутку вектору
розподілу категорій змінної та відповідного вектору умовних ймовірностей,
що відображає ймовірності набуття нульового значення для цільової змін-
ної, а також у використанні інших перетворень від відповідних векторів аг-
регатних даних. Скалярний добуток відповідає середньому значенню ймовір-
ності набуття нульового значення цільової бінарної змінної на всій вибірці.
Позначимо псевдопроектор з простору nR на підпростір меншої розмір-
ності ,mR що відповідає m першим координатам, як mnP , . Суть псевдо-
проектора відображається такою формулою:
m
n
m
mn
x
x
x
x
x
x
x
P
...
...
...
: 2
12
1
, .
Цей псевдооператор проектування можна зобразити у вигляді матрич-
ного оператора (прямокутної матриці):
О.М. Солошенко
ISSN 1681–6048 System Research & Information Technologies, 2015, № 4 110
)(Mat
0...01...00
.....................
0...00...10
0...00...01
:, nmP mn
.
Властивість елементів матриці:
.else,0
);()(,1
,
miji
p ji
Введемо позначення оператора проектування перших m координат на
підпростір розмірності m з довільного простору не меншої розмірності, ніж
його образ, тобто довільної (без фіксації) розмірності області визначення n ,
де ,mn як mP .
Основна властивість будь-якого проектора, що збігається з його озна-
ченням описується такою формулою (запишемо для mP ) [7]:
mm PP 2 .
Детальніше основну властивість проектора запропонованого типу мож-
на описати таким чином:
m
mmnmnmmmm
n RxPxPxPPxPPRxmn )()())(())((: ,,,
.
Суть означення оператора проектування полягає у властивості ідемпо-
тентності — точній рівності «проекції від проекції» власне значенню проек-
ції [7, 8].
Також лінійний оператор проектування P можна означити як такий,
що задається квадратною матрицею nn , тобто, коли розмірність образу
збігається з розмірністю області визначення, а порядок (набір) координат,
що проектуються, може бути довільним, при цьому проектування може від-
буватись за допомогою лінійних комбінацій координат [7, 8]. Тоді основна
властивість ,)( 2 PP що збігається з означенням оператора проектування,
можлива, наприклад, завдяки таким умовам на елементи матриці такого
оператора [7, 8]:
.0:
},0;1{:
,
,
ji
ji
pji
pji
Також для означення лінійного оператора проектування за допомогою
квадратної матриці можливе використання довільної ідемпотентної матриці
[8].
Надалі будемо використовувати лише mP — вищеозначений оператор
проектування перших m координат на підпростір розмірності m з простору
довільної нефіксованої розмірності .mn Також формули нижче будуть
справедливими у випадку використання замість оператора mP також зви-
чайних квадратних діагональних матриць m
cP розмірністю cc , що мають
діагональ з першими m елементами рівними одиниці, а іншими діагональ-
Вдосконалені методи розрахунку статистики Колмогорова-Смирнова, …
Системні дослідження та інформаційні технології, 2015, № 4 111
ними елементами рівними нулю, при цьому виконується властивість (озна-
чення) проектора: m
c
m
c PP 2)( .
Введемо оператор ранжування (перестановки) одного вектора як пере-
становку його координат, що відповідає сортуванню другого вектора по спа-
данню координат nnn RRRyxR :),(
.
Суть оператора сортування першого вектора відносно другого вектора
по спаданню координат можна представити через функцію рангу ),( xir
, яку
визначено на натуральних числах (але не більше розмірності власне векто-
ра), що повертає початковий номер позиції координати ще не відсортовано-
го вектора для заданої як аргумент координати вже відсортованого по спа-
данню вектора:
),(
),2(
),1(
2
1
2
1
.........
:),(
ynr
yr
yr
nn x
x
x
y
y
y
x
x
x
yxR
.
Суть запропонованого методу обчислення статистики Колмогорова-
Смирнова полягає у використанні скалярного добутку, спеціального опера-
тора сортування та операторів проектування й описується таким чином:
),(
))),(()),,(((
),(
))),(()),,(((
max
,..1 pet
ppeRPptRP
pt
ppRPptRP
KS iiii
ci
. (3).
Тут e
є одиничним вектором розмірності .c
Введемо позначення для композиції операторів перестановки та проек-
тування:
)),(()(, pRPP iip
. (4).
Враховуючи позначення (4), формулу (3) можна переписати таким чи-
ном:
),(
))(),((
),(
))(),((
max ,,,,
,..1 pet
pePtP
pt
pPtP
KS ipipipip
ci
. (5).
Для прикладу з рисунку округлене значення KS для дискретизованої
змінної «вік клієнта» буде дорівнювати 56,60%.
ВИСНОВКИ
Запропоновано альтернативні методи обчислення та формули розрахунку
статистики KS, WoE та IV виходячи з відомого розподілу категорій та відо-
мих умовних ймовірностей нульових значень цільової змінної, що дозволя-
ють аналізувати характеристики та предикативну силу на навчальній та до-
вільній вибірках, маючи лише відповідний графік агрегованих відносних
значень. Предикативна сила змінної згідно з класичними методами скорингу
[1, 2, 4] дорівнює якості прогнозів однофакторної моделі для категоріальної
змінної, оскільки використання монотонних функцій типу логістичного пе-
О.М. Солошенко
ISSN 1681–6048 System Research & Information Technologies, 2015, № 4 112
ретворення або оптимального на навчальній вибірці дерева рішень, що точ-
но відповідатиме власне категоріальній змінній, не змінює порядок катего-
рій відносно умовного розподілу цільової змінної. При цьому присвоєний
скоринговий бал відносно довільної шкали у випадку використання логістич-
ної регресії буде монотонною функцією від умовного розподілу цільової
змінної — долі нульових значень у категорії.
Основною відмінністю та практичною цінністю запропонованих фор-
мул відносно класичних є оперування лише агрегатними величинами без
використання розбиття на дві окремі підмножини.
Ключовими особливостями запропонованих методів є використання
скалярного добутку векторів з метою зважування величин, умовних пере-
становок та операторів проектування.
Перевагами запропонованих методів розрахунку статистичних показ-
ників прогностичної сили категоріальних змінних є:
відсутність необхідності розбиття початкової вибірки на дві підмно-
жини, що відповідають двом значенням бінарної змінної;
використання безумовного дискретного розподілу категоріальної
змінної та умовного розподілу бінарної цільової змінної, що відповідає кла-
сичним таблиці та графіку аналізу характеристик у кредитному скорингу
[2];
можливість швидкого розрахунку статистичних показників лише на
основі наявних агрегованих даних класичного аналізу категоріальної змін-
ної та можливість організації додаткової перевірки розрахунків згідно з кла-
сичними формулами;
математична наочність запропонованих формул в поняттях скаляр-
ного добутку, операторів проектування та умовних перестановок;
можливість точного відновлення значень, що описують детальні
властивості оригінальної вибірки (наприклад, WoE), за агрегатними ймовір-
нісними показниками аналізу характеристик, які явно не використовуються
в класичних формулах розрахунку значень KS, WoE та IV, але мають міс-
це в запропонованих альтернативних формулах;
зручність використання запропонованих методів у термінах агрегатів
нереляційних систем керування базами даних [3], що дозволяє проводити
аналіз характеристик та підрахунок показників, які розглядаються, одночас-
но, а не послідовно, із забезпеченням високої швидкодії на надзвичайно ве-
ликих масивах даних (Big Data) [3].
Ще одним важливим висновком для ризик-менеджменту [1, 2, 4] є більш
наочна інтерпретація показника WoE за допомогою запропонованої форму-
ли (1) як ступеню відхилення долі нульових значень цільової змінної по
окремій категорії вхідної змінної відносно загальної (середньозваженої) долі
нульових значень цільової змінної на всій вибірці. Згідно з інтерпретацією,
негативне значення WoE означає перевищення відносно середнього значен-
ня на всій вибірці, а позитивне значення WoE означає, що значення долі ну-
льових значень цільової змінної по даній категорії (bad rate) нижче, ніж на
всій вибірці, нульове — точна рівність долі по категорії долі на всій вибірці.
Вдосконалені методи розрахунку статистики Колмогорова-Смирнова, …
Системні дослідження та інформаційні технології, 2015, № 4 113
Перспективи подальших досліджень містять вдосконалення методів
обчислення інших показників предикативності (прогностичної сили) змін-
них, використовуючи лише агреговані показники значень ймовірностей
(умовних та безумовних), а також застосування математичної методології
кредитного скорингу поза межами управління ризиками.
ЛІТЕРАТУРА
1. Siddiqi Naeem. Credit risk scorecards: developing and implementing intelligent cred-
it scoring. — Hoboken: John Wiley & Sons, Inc., 2006. — 196 p.
2. Мэйз Элизабет. Руководство по кредитному скорингу. — Минск: Гревцов
Паблишер, 2008. — 464 с.
3. Фаулер Мартин, Садаладж Дж. Прамодкумар. NoSQL: новая методология
разработки нереляционных баз данных. — Минск: ООО «И.Д. Вильямс»,
2013. — 192 с.
4. Thomas C. Lyn, Edelman B. David, Crook N. Jonathan. Credit Scoring and its Ap-
plications. — Philadelphia: Society for Industrial and Applied Mathematics,
2002. — 248 p.
5. Kullback Solomon. Information Theory and Statistics. — Hoboken, NJ: John Wiley
& Sons, 1959. — 395 p.
6. Булинский А.В., Ширяев А.Н. Теория случайных процессов. — М.: Физматлит,
2005. — 408 с.
7. Треногин В.А. Функциональный анализ. — М.: Наука, 1980. — 495 с.
8. Мальцев А.И. Основы линейной алгебры. — М.: Наука, 1975. — 400 с.
Надійшла 22.09.2014
|