Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру
Розглянуто вплив рівня нечіткості на результати нечіткого кластерного аналізу. Запропоновано підхід до розв’язання задачі кластеризації на основі інтервальних нечітких множин типу 2 із застосуванням індексу вірогідності Квона. Роботу методу продемонстровано на прикладі кластеризації країн світу за р...
Gespeichert in:
Datum: | 2012 |
---|---|
Hauptverfasser: | , |
Format: | Artikel |
Sprache: | Ukrainian |
Veröffentlicht: |
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
2012
|
Schriftenreihe: | Системні дослідження та інформаційні технології |
Schlagworte: | |
Online Zugang: | http://dspace.nbuv.gov.ua/handle/123456789/50175 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Zitieren: | Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру / Н.Р. Кондратенко, О.О. Cнігур // Систем. дослідж. та інформ. технології. — 2012. — № 3. — С. 20-29. — Бібліогр.: 20 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-50175 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-501752013-10-11T11:49:27Z Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру Кондратенко, Н.Р. Снігур, О.О. Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах Розглянуто вплив рівня нечіткості на результати нечіткого кластерного аналізу. Запропоновано підхід до розв’язання задачі кластеризації на основі інтервальних нечітких множин типу 2 із застосуванням індексу вірогідності Квона. Роботу методу продемонстровано на прикладі кластеризації країн світу за рівнем розвитку. Рассмотрено влияние уровня нечеткости на результаты нечеткого кластерного анализа. Предложен подход к решению задачи кластеризации на основе интервальных нечетких множеств типа 2 с применением индекса достоверности Квона. Робота метода продемонстрирована на примере кластеризации стран мира по уровню развития. An approach to the solution of clustering problem on the basis of interval fuzzy sets of 2 type using know validity index, is proposed. The methods working is show on the example of the world countries clustering according to their development level. Influence of degree of fuzziness on fuzzy clustering results is investigated. 2012 Article Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру / Н.Р. Кондратенко, О.О. Cнігур // Систем. дослідж. та інформ. технології. — 2012. — № 3. — С. 20-29. — Бібліогр.: 20 назв. — укр. 1681–6048 http://dspace.nbuv.gov.ua/handle/123456789/50175 004.8 uk Системні дослідження та інформаційні технології Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Ukrainian |
topic |
Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах |
spellingShingle |
Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах Кондратенко, Н.Р. Снігур, О.О. Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру Системні дослідження та інформаційні технології |
description |
Розглянуто вплив рівня нечіткості на результати нечіткого кластерного аналізу. Запропоновано підхід до розв’язання задачі кластеризації на основі інтервальних нечітких множин типу 2 із застосуванням індексу вірогідності Квона. Роботу методу продемонстровано на прикладі кластеризації країн світу за рівнем розвитку. |
format |
Article |
author |
Кондратенко, Н.Р. Снігур, О.О. |
author_facet |
Кондратенко, Н.Р. Снігур, О.О. |
author_sort |
Кондратенко, Н.Р. |
title |
Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру |
title_short |
Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру |
title_full |
Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру |
title_fullStr |
Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру |
title_full_unstemmed |
Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру |
title_sort |
використання інтервальних функцій належності в задачах кластеризації даних соціального характеру |
publisher |
Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України |
publishDate |
2012 |
topic_facet |
Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах |
url |
http://dspace.nbuv.gov.ua/handle/123456789/50175 |
citation_txt |
Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру / Н.Р. Кондратенко, О.О. Cнігур // Систем. дослідж. та інформ. технології. — 2012. — № 3. — С. 20-29. — Бібліогр.: 20 назв. — укр. |
series |
Системні дослідження та інформаційні технології |
work_keys_str_mv |
AT kondratenkonr vikoristannâíntervalʹnihfunkcíjnaležnostívzadačahklasterizacíídanihsocíalʹnogoharakteru AT sníguroo vikoristannâíntervalʹnihfunkcíjnaležnostívzadačahklasterizacíídanihsocíalʹnogoharakteru |
first_indexed |
2025-07-04T11:44:18Z |
last_indexed |
2025-07-04T11:44:18Z |
_version_ |
1836716613717458944 |
fulltext |
© Н.Р. Кондратенко, О.О. Снігур 2012
20 ISSN 1681–6048 System Research & Information Technologies, 2012, № 3
TIДC
ПРОБЛЕМИ ПРИЙНЯТТЯ РІШЕНЬ І
УПРАВЛІННЯ В ЕКОНОМІЧНИХ, ТЕХНІЧНИХ,
ЕКОЛОГІЧНИХ І СОЦІАЛЬНИХ СИСТЕМАХ
УДК 004.8
ВИКОРИСТАННЯ ІНТЕРВАЛЬНИХ ФУНКЦІЙ НАЛЕЖНОСТІ
В ЗАДАЧАХ КЛАСТЕРИЗАЦІЇ ДАНИХ СОЦІАЛЬНОГО
ХАРАКТЕРУ
Н.Р. КОНДРАТЕНКО, О.О. СНІГУР
Розглянуто вплив рівня нечіткості на результати нечіткого кластерного аналі-
зу. Запропоновано підхід до розв’язання задачі кластеризації на основі інтер-
вальних нечітких множин типу 2 із застосуванням індексу вірогідності Квона.
Роботу методу продемонстровано на прикладі кластеризації країн світу за рів-
нем розвитку.
ВСТУП
Зараз у сучасній Україні та в усьому світі посилюється значення наукового
аналізу проблем соціального характеру, зокрема співвідношення рівня жит-
тя різних верств населення, питання гендерної нерівності, диференціації
країн та регіонів на основі технічного, соціально-економічного, інтелектуаль-
ного, природного факторів тощо.
Багатомірність явищ, які розглядаються, ставить особливі вимоги до
математичних методів розв’язання цих задач. Передумовою побудови досто-
вірних математико-статистичних моделей у таких умовах є виявлення
в даних компактних однорідних сукупностей, існування яких можна припи-
сати об’єктивно існуючим суспільним закономірностям. Одним із методів,
що дозволяють виявляти такі сукупності, використовуючи широке коло по-
казників, є кластерний аналіз. Він є найпотужнішим інструментом для
проведення багатомірних досліджень. Його застосування в таких задачах
є цілком виправданим, оскільки вперше кластерний аналіз застосували саме
в соціології [1]. Для здійснення процедури кластеризації не потрібно апріор-
них знань про розподіл генеральної сукупності. Велика її перевага полягає
в тому, що вона дозволяє робити розбиття об’єктів не за одним параметром,
а за цілим набором ознак. Крім того, кластерный аналіз, на відміну від біль-
шості математико-статистичних методів, не накладає жодних обмежень на
вид об’єктів, що розглядаються, і дозволяє оперувати множиною вихідних
даних практично довільної природи [2]. Це дає змогу говорити про можли-
вість створення методів кластеризації, придатних для розв’язання практично
будь-яких соціально-економічних задач, а не лише задач певного класу.
Про актуальність розв’язання задач кластеризації, орієнтованих на со-
ціальні дані, свідчить велика кількість праць із цієї тематики. Зокрема, у ро-
Використання інтервальних функцій належності в задачах кластеризації даних…
Системні дослідження та інформаційні технології, 2012, № 3 21
ботах [1, 3] здійснено спроби розв’язання задач регіонального районування
та соціально-економічного прогнозування. Проте математичні методи, що
лежать в основі цих досліджень, суттєво обмежені припущенням, що вхідні
дані є абсолютно точними, правдивими та незашумленими. Метод, який за-
пропоновано в роботі [4], попри високі оптимізаційні властивості, ставить
аналогічну вимогу. Відомо, що на практиці такі умови трапляються вкрай
рідко, особливо в галузі соціології, усі показники якої ґрунтуються на ре-
зультатах соціологічних опитувань та офіційних даних, що надані різного
роду урядовими організаціями. Стовідсоткової достовірності таких даних
гарантувати ніхто не може, тому ця задача вимагає методів кластерного ана-
лізу, стійких до викидів та шуму. Один із таких методів — метод PCM
(Possibilistic C-Means — можливісних С-середніх) — запропоновано в робо-
ті [5]. Він надзвичайно стійкий до шумів у вхідних показниках, але ґрунту-
ється на нечітких множинах типу 1. Це не дає змогу дати повністю адекват-
ну оцінку досліджуваній множині даних, оскільки крім точок, що вносять
шум, у характеристиках кожної точки закладено певну невизначеність, яка
не може не перенестись на результат кластеризації. При цьому характеризу-
вати ступінь належності точки до кластеру одним числом недостатньо. Уна-
слідок дії невизначеностей саме це число також трансформується в нечітку
множину, що веде до необхідності оперування нечіткими множинами типу
2. Ідея нечіткої множини типу 2 як поглиблення та узагальнення множини
першого типу належить Л. Заде [6]. Узагальнена нечітка множина вимагає
задання великої кількості параметрів, що не завжди має практичний сенс.
Тому часто обмежуються використанням інтервальних функцій належності
[7, 8, 9]. На сьогодні такий підхід застосовується у великій кількості різних
задач: класифікації образів [10], моделювання та класифікації мультимедій-
ного трафіку [11], керування мобільними роботами [12], прийнятті рішень
[13], прогнозуванні часових послідовностей [14, 15, 7], апроксимації функ-
цій [16] тощо.
Беручи до уваги позитивні результати цих та інших досліджень, вида-
ється можливим застосувати математичний апарат нечітких множин типу 2
і в задачі кластеризації, зокрема такої, що орієнтована на множини даних
соціального характеру.
Мета роботи — розробка методу кластерного аналізу даних соціально-
го спрямування на основі інтервальних нечітких множин типу 2.
ВИХІДНІ ПЕРЕДУМОВИ ТА ПОСТАНОВКА ЗАДАЧІ
Існує велика кількість методів кластеризації, які можна класифікувати на
чіткі та нечіткі. Чіткі методи кластеризації розбивають вихідну множину
об’єктів Х на декілька підмножин, що не перетинаються. При цьому будь-
який об’єкт із Х належить лише одному кластеру. Нечіткі методи кластери-
зації дозволяють одному й тому самому об’єкту належати одночасно до де-
кількох (або навіть до всіх) кластерів, але з різним ступенем. Єдиною від-
мінністю є те, що у випадку нечіткого розбиття ступінь належності об’єкта
до кластера приймає значення з інтервалу ]1,0[ , а при чіткому — з двохеле-
ментної множини }1,0{ . Нечітка кластеризація в багатьох ситуаціях адекват-
Н.Р. Кондратенко, О.О. Снігур
ISSN 1681–6048 System Research & Information Technologies, 2012, № 3 22
ніше описує характер вихідної множини, наприклад, для об’єктів, розташо-
ваних на межі кластерів [2].
Основою переважної більшості сучасних методів нечіткого кластерного
аналізу є алгоритм FCM (Fuzzy C-Means) Дж. Беждека [17].
Проте якість знайдених центрів суттєво залежить від попереднього ви-
бору як значень ijµ , так і центрів iс . Крім того, FCM використовує обме-
ження, подібне до того, що накладає на шуканий розв’язок теорія ймовір-
ностей: сума ступенів належності i -ї точки до всіх кластерів Nj ,1=
становить 1: ∑
=
=
c
i
ij
1
1µ для всіх j [18]. Таке обмеження має на меті уникну-
ти тривіального розв’язку, коли всі ступені належності виявляються рівними
нулю, і дає змістовні результати в тих прикладних застосуваннях, де при-
пущення про «імовірнісну» природу ступенів належності має практичний
сенс.
Але, оскільки ступені належності, отримані за такого обмеження, від-
носні, вони непридатні в тих задачах, в яких ступінь належності точки до
кластера має відображати її типовість, характерність саме для цього класте-
ра. Це повністю узгоджується з теорією нечітких множин Заде, адже ступінь
належності точки до класичної нечіткої множини є абсолютною величиною,
незалежною від ступенів належності цієї ж точки до інших нечітких мно-
жин, визначених на тій самій універсальній множині. Таке формулювання
доцільніше для більшості задач кластеризації, оскільки ступінь належності
точки до кластера є мірою того, наскільки ця точка є носієм спільних харак-
теристик кластера, її типовості; і ступінь належності не повинен залежати
від того, як вона розташована відносно інших кластерів.
Виходячи з цього, у роботі [5] було переглянуто цільову функцію мето-
ду FCM таким чином, щоб за досягнення її мінімуму ступені належності для
репрезентативних точок кластерів були високими, а для не репрезентатив-
них — низькими, незалежно від взаємного положення точок та кластерів.
Результуючий функціонал має вигляд:
,)1(
1 11 1
2 ∑ ∑∑∑
= == =
−+=
c
i
N
j
m
iji
c
i
N
j
ij
m
ij dE µηµ (1)
де iη — додатне число.
Значення iη визначає відстань від центра кластера, на якій значення
ступеня належності точки до кластера стає рівним 0,5.
За такої цільової функції відповідним чином змінюються також і фор-
мули для перерахунку змінних величин методу:
1
1
2
1
1
−
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
+
=
m
j
ij
ij
d
η
µ ;
∑
∑
=
== N
j
m
ij
N
j
ij
m
ij
ij
d
1
1
2
µ
µ
η .
Використання інтервальних функцій належності в задачах кластеризації даних…
Системні дослідження та інформаційні технології, 2012, № 3 23
Співвідношення, що використовується для перерахунку координат
центрів кластерів, порівняно з FCM залишається без змін:
.
1
1
∑
∑
=
== p
j
m
ij
p
j
j
m
ij
i
x
с
µ
µ
Розв’язки, які отримано при такому підході, більше відповідають дійс-
ності. Таке розуміння ступенів належності має ще один позитивний момент:
воно дає змогу легко відфільтрувати точки, що вносять шум, оскільки вони
за такого формулювання матимуть низькі ступені належності до всіх без
винятку кластерів.
Не зважаючи на таке вдосконалення, одна проблема залишається спіль-
ною для FCM та PCM: обидва методи в усіх обчисленнях спираються на па-
раметр m, що задає рівень нечіткості кластерів.
Випадок 1=m відповідає чіткій кластеризації. Зі зростанням m ступені
належності всіх без винятку точок до всіх кластерів наближаються до 0,5, як
показано на рис. 1 (для випадку двох кластерів). Кожна крива зображає змі-
ну ступеня належності точки до одного з кластерів.
На рис. 1 видно, що в усіх випадках m змінюється монотонно, обрати
на такій кривій одну оптимальну точку неможливо. Тому закономірно, що
строго обґрунтованих механізмів визначення m не існує.
Параметр ,m як правило, задається емпірично дослідником, при цьому
доводиться повністю покладатися на це заздалегідь задане значення без жод-
них гарантій його правильності. З цим пов’язана невизначеність, яку немож-
ливо врахувати, коли отримане значення міри належності точки до кластера
є єдиним числом. Тому для того, щоб убезпечити себе від помилкового ре-
зультату, що пов’язаний із неправильним вибором значення m, доцільно ви-
користовувати інтервальні функції належності типу 2. Такий підхід найчас-
тіше застосовується тоді, коли точний характер розподілу ступенів
належності другого типу в області між границями інтервалу невідомий. Са-
ме такий випадок являє собою задача кластеризації: невідомо, чи піддається
Рис. 1. Зміна ступенів належності точки до кластерів при зміні рівня нечіткості:
а — точка нерепрезентативна; б — точка репрезентативна
a a
µ
m
Н.Р. Кондратенко, О.О. Снігур
ISSN 1681–6048 System Research & Information Technologies, 2012, № 3 24
виділенню та математичному опису закономірність, за якою розподілені
ступені належності другого типу, та чи має дослідження цієї закономірності
практичний сенс. З іншого боку, інформація про верхню та нижню функції
належності, що описують кожен кластер залежно від значення параметра
,m має виняткову цінність, оскільки інтервал (його ширина та розташуван-
ня відносно нуля та одиниці) несе значно більше інформації про міру нале-
жності точки до кластера, ніж єдине число. Наприклад, ширина інтервалу
може свідчити про ступінь точності отриманого розв’язку. Тому пропо-
нується модифікувати алгоритм кластеризації, який наведено в [5], для ро-
боти з інтервальними ступенями належності. Цим буде досягнуто повне
врахування невизначеності, пов’язаної з різними можливими значеннями
рівня нечіткості, для подальшого аналізу результатів кластеризації.
Нехай є N об’єктів }.,,,{ 21 Nxxxx …= Необхідно розбити їх на с клас-
терів та визначити місця розташування центрів кластерів ic , ci ,1= , а також
ступені належності ijµ кожної з точок xі до кластера ic . Виходячи з визна-
чення ступеня належності як міри типовості заданої точки для відповідного
кластера, знайти такі значення шуканих параметрів, які ведуть до мінімуму
функціонала (1). Враховуючи властивості рівня нечіткості m та його вплив
на результати кластерного аналізу, представити ступені належності у вигля-
ді інтервалів, ліва та права границі яких лежать у межах ]1,0[ .
МЕТОДИКА ДОСЛІДЖЕННЯ
Для розв’язання поставленої задачі пропонуємо модифікацію алгоритму
кластерного аналізу PCM [5]. Окрім нетрадиційного трактування ступенів
належності та стійкості до шуму він володіє ще однією властивістю. Йдеть-
ся про те, що, оскільки міри належності однієї й тієї самої точки до різних
кластерів незалежні одна від одної, ступінь належності точки до одного
з них можна змінити без обов’язкової процедури перерахунку ступенів її
належності до всіх інших кластерів. Ця властивість є надзвичайно корис-
ною, оскільки вона дає змогу «розтягти» ступінь належності точки до класте-
ра з чіткого значення в інтервал, і це не ставить під загрозу виконання обме-
ження на суму значень ступенів належності точки до всіх наявних кластерів.
Не зважаючи на всі переваги, у класичному алгоритмі PCM не вдалося
уникнути спільного для переважної більшості методів кластеризації недолі-
ку: він передбачає апріорне задання числа кластерів до початку виконання
обчислень. Найпростіший шлях уникнути цієї проблеми — виконувати роз-
биття при різній можливій кількості кластерів та порівнювати результати
за певним критерієм оптимальності. У роботі [19] наведено декілька функ-
ціоналів, які називаються індексами достовірності та цілком відповідають
вимогам, що висуває ця задача до критеріїв такого роду. Скористаємося ін-
дексом Квона, зокрема, для визначення оптимального числа кластерів для
заданого рівня нечіткості m:
Використання інтервальних функцій належності в задачах кластеризації даних…
Системні дослідження та інформаційні технології, 2012, № 3 25
2
1 1 1
22
min
1)(
)(
ji
ji
c
i
N
j
c
i
iij
m
ij
k
vv
vv
c
vx
cV
−
−+−
=
≠
= = =
∑∑ ∑µ
,
де ijµ — ступінь належності точки j до кластера i ; iv — центр j -го клас-
тера; v — середнє значення центрів кластерів; m — рівень нечіткості; c —
кількість кластерів; N — кількість точок.
Що менше значення має kV , то кращим вважається розбиття.
Проте визначення кількості кластерів — не єдине застосування цього
показника. У межах цього підходу пропонується використовувати його та-
кож для визначення меж інтервалу розтягу ступеня належності. Межі інтер-
валу визначимо, керуючись поведінкою індекса Квона на заданому інтервалі
зміни параметра m (рис. 2, а). Практичний інтерес викликає лише перший
його локальний мінімум, який спостерігається за оптимального значення m
[5] (рис. 2, б). Тому за межі інтервалу приймемо праву та ліву точки переги-
ну кривої, найближчі до розглядуваного локального мінімуму.
При такому підході отриманий нечіткий кластер матиме вигляд, як по-
казано на рис. 3. Для його повного опису достатньо визначити лише верхню
та нижню функції належності.
Рис. 2. Зміна індексу Квона залежно від зміни рівня нечіткості: а — в межах від 1
до 10; б — збільшений фрагмент: від 1 до 4
a б
Vk
m
Рис. 3. Інтервальні функції належності точок до кластеру
µ
Точки
Н.Р. Кондратенко, О.О. Снігур
ISSN 1681–6048 System Research & Information Technologies, 2012, № 3 26
Для початкової ініціалізації центрів кластерів використаємо звичайний
метод FCM. Він збігається за лічені ітерації, тому якнайкраще підходить для
цього завдання, адже воно вимагає грубого наближеного розв’язку.
Отже, сформулюємо покроковий алгоритм розв’язання задачі кластер-
ного аналізу в заданій постановці.
1. Глобальний індекс Квона ініціалізувати максимально можливим
значенням.
2. Задати початкову кількість кластерів .2=c
3. Визначити приблизні місця розташування центрів кластерів за до-
помогою алгоритму FCM.
4. Оцінити значення η для результату роботи FCM.
5. Сформувати матрицю D як матрицю Евклідових відстаней від кож-
ної точки з вихідної множини до центра кожного з кластерів.
6. Задати початкове значення рівня нечіткості .1=m
7. Розрахувати початкове значення локального індексу Квона.
8. Розрахувати функцію належності для кожної з пар (точка, кластер),
користуючись відповідним співвідношенням із методу РСМ.
9. Перерахувати положення центрів кластерів за формулою, спільною
для обох методів.
10. Перерахувати матрицю відстаней .D
11. Розрахувати цільову функцію РСМ при заданих значеннях ступенів
належності, координат центрів кластерів, елементів матриці D та векто-
ра .η
12. Якщо розраховане значення цільової функції менше за отримане на
попередній ітерації, повернутись до кроку 8.
13. Розрахувати значення локального індексу Квона при заданому m.
Якщо воно менше за попереднє значення, то збільшити m та повернутись до
кроку 8.
14. Перерахувати значення глобального індексу Квона. Зберегти про-
міжні результати обчислень для поточного .kmm =
15. Якщо кількість кластерів менша за кількість точок у вихідній мно-
жині, збільшити с та перейти до кроку 3.
16. Серед усіх проміжних результатів обрати варіант розбиття з мініма-
льним значенням глобального індексу Квона. Подати ступені належності
у вигляді інтервалів, обмежених їхніми значеннями при 1=m та отриманим
на кроці 14 .1>= kmm
КОМП’ЮТЕРНИЙ ЕКСПЕРИМЕНТ ЗА ПОКАЗНИКАМИ ЛЮДСЬКОГО
РОЗВИТКУ В КРАЇНАХ СВІТУ
Для аналізу було взято дані зі щорічного звіту ООН з людського розвитку за
2010 р. [20] для всіх незалежних держав світу за такими показниками:
• середня очікувана тривалість життя при народженні;
• середня тривалість освітньої підготовки громадян;
• ВНП на душу населення;
Використання інтервальних функцій належності в задачах кластеризації даних…
Системні дослідження та інформаційні технології, 2012, № 3 27
• індекс гендерної нерівності в країні.
У результаті у вхідних даних було виділено 3 компактних кластери
(табл. 1 та 2).
Таблиця 1. Координати центрів кластерів
Показники Кластер 1 Кластер 2 Кластер 3
Індекс гендерної нерівності 0,615842 0,290623 0,73791
ВВП на душу населення 0,096877 0,3814 0,018852
Тривалість життя 0,732709 0,920551 0,415003
Кількість років освітньої підготовки 0,532329 0,837381 0,253012
Таблиця 2. Інтервальні ступені належності країн до кластерів
Країни Кластер 1 Кластер 2 Кластер 3
Algeria 0,976295 1 0,00087 0,097652 0,000931 0,090729
Australia 1,98E-05 0,018657 0,514417 0,962005 8,02E-07 0,005172
Austria 0,000102 0,03422 0,791044 0,995485 2,54E-06 0,008165
Bangladesh 0,015304 0,112614 2,66E-05 0,0229 0,663903 0,765039
Belgium 5,08E-05 0,026589 0,801127 0,999869 1,61E-06 0,006799
Benin 0,000528 0,039172 8,02E-06 0,013866 0,884219 0,99949
Brazil 0,945761 0,999997 0,000745 0,090964 0,001058 0,09548
… … … … … … …
Togo 0,006406 0,093062 2,20E-05 0,021245 0,946151 0,968477
Tunisia 0,62551 0,935993 0,000945 0,098948 0,000628 0,075782
Turkey 0,696438 0,9928 0,000536 0,078341 0,002025 0,121107
United Kingdom 0,000259 0,049088 0,832883 0,978633 4,25E-06 0,010059
Venezuela 0,588932 0,950364 0,000741 0,088684 0,000924 0,088121
Zimbabwe 2,17E-05 0,015335 4,13E-06 0,010372 0,596237 0,974833
Отримані кластери мають вигляд нечітких множин типу 2 (рис. 4).
Значна ширина інтервалу деяких конкретних значень ступенів належності
дає змогу судити про наявність шумів у вхідних даних.
Рис. 4. Графічне подання результатів кластеризації
µ
m
Н.Р. Кондратенко, О.О. Снігур
ISSN 1681–6048 System Research & Information Technologies, 2012, № 3 28
Інтервальні значення ступенів належності було обчислено, виходячи зі
значень рівня нечіткості ]65,1;1[=m . На рис. 5 показано характер зміни ін-
дексу Квона залежно від значення .m
На рис. 5, б можна побачити локальний мінімум цієї залежності в точці
65,1=m . Цю точку і прийнято за праву межу інтервалу зміни параметра m.
При цьому варто скористатися такими рекомендаціями:
• Метод дає змогу отримати інтервал, в якому знаходиться оптималь-
не значення рівня нечіткості. Інтервал (його ширина та розташування
відносно нуля та одиниці) несе значно більше інформації про міру належ-
ності точки до кластера, ніж єдине число.
• У разі значної ширини інтервалу слід залучити експерта для прийнят-
тя остаточного рішення. Експерт, у свою чергу, може прийняти рішення про
повторення експерименту у зв’язку зі значною невизначеністю у вхідних
даних.
ВИСНОВКИ
Запропоновано метод кластеризації на основі інтервальних функцій належ-
ності типу 2 з використанням індексу вірогідності Квона для визначення
оптимального числа кластерів та меж інтервальних значень ступенів належ-
ності.
Значна ширина інтервалу деяких конкретних значень ступенів належ-
ності дає змогу зробити висновок про наявність шумів у вхідних даних. Зва-
жаючи на це та на високу складність поставленої прикладної задачі, для
прийняття будь-якого остаточного рішення доцільно залучати експертів з
цієї галузі.
Метод випробувано в прикладній задачі соціального характеру та
отримано змістовні результати, що свідчить про перспективність викорис-
тання запропонованого підходу в задачах такого роду.
ЛІТЕРАТУРA
1. Котова Е.С. Кластерный анализ в задачах социально-экономического прогно-
зирования. — http://vuzlib.net/beta3/ html/1/4055/4081/.
Рис. 5. Характер зміни індексу Квона залежно від значення рівня нечіткості (а —
для ]5;1[=m ; б — для ]7,3;1[=m )
a б
Vk
m
Використання інтервальних функцій належності в задачах кластеризації даних…
Системні дослідження та інформаційні технології, 2012, № 3 29
2. Мандель И.Д. Кластерный анализ. — М.: Статистика, 1988. — 176 с.
3. Серебрякова Л.А. Методы оценки уровня социально-экономического развития
регионов // Вестн. СевКавГТУ. Сер. Экономика. — 2003. — № 3 (11). —
http://science.ncstu.ru/articles/econom/11/02.pdf.
4. Захарченко С.М., Кондратенко Н.Р., Манаєва О.О. Дослідження можливостей
генетичного алгоритму в задачі кластеризації користувачів мережі Internet //
Інформаційні технології та комп’ютерна інженерія. — 2010. — № 2 (18). —
C. 67–72.
5. Krishnapuram R., Keller J.M. A possibilistic approach to clustering // IEEE Transac-
tions on Fuzzy Systems. — 1993. — № 1(2). — Р. 98–110.
6. Zadeh L.A. Fuzzy sets as a basis for a theory of possibility // Fuzzy sets and systems
100 Supplement. — 1999. — Р. 9–34.
7. Liang Q., Mendel J.M. Interval type-2 fuzzy logic systems: theory and design //
IEEE Transactions on Fuzzy Systems. — 2000. — 8. — Р. 535–550.
8. Mendel J.M., John R.I., Liu F. Interval Type-2 Fuzzy logic systems made simple //
IEEE Transactions on Fuzzy Systems. — 2006. — 14. — № 6. — Р. 808–821.
9. Mendel J.M., John R.I. Interval Type-2 fuzzy sets made simple // IEEE Transactions
on Fuzzy Systems. — 2002. — 10. — № 2. — Р. 117–127.
10. Zeng J., Liu Z.Q. Type-2 Fuzzy sets for pattern classification: A review // Proceedings
of the IEEE Symposium on Foundations of computational intelligence. —
2007. — Р. 193–200.
11. Liang Q., Mendel J M. MPEG MBR Video traffic modeling and classification using
fuzzy technique // IEEE Transactions on Fuzzy Systems. — 2001. — 9. —
№ 1. — Р. 183–193.
12. Wu K.C. Fuzzy interval control of mobile robots // Computers and Electrical Engi-
neering. — 1996. — 22. — Р. 211–229.
13. Yager R.R. Fuzzy subsets of type II in decisions // Cyber Journals. — 1980. —
10. — Р. 137–159.
14. Karnik N.N., Mende J.M. Applications of type-2 fuzzy logic systems to forecasting
of time series // Information Sciences. — 1999. — 120. — Р. 89–111.
15. Mendel J.M. Uncertainty, fuzzy logic, and signal processing // Signal Processing
Journal. — 2000. — 80. — Р. 913–933.
16. Karnik N.N., Mendel J.M. An introduction to type-2 fuzzy logic systems. — Los
Angeles, CA. — http://sipi.usc. edu/~mendel/report.
17. Bezdek J.C. Pattern recognition with fuzzy objective function algorithms. — NY:
Plenum Press, 1981. — 256 p.
18. Зайченко Ю.П. Нечеткие модели и методы в интеллектуальных системах. —
К.: Издат. дом «Слово», 2008. — 344 с.
19. Oliveira J.V., Pedrycz W. Advances in fuzzy clustering and its applications. —
Chichester: John Wiley & Sons Ltd., 2007. — 435 р.
20. The Real Wealth of Nations: pathways to human development. Human development
report 2010: 20-th anniversary edition . — UNDP, 2010. — 227 p.
Надійшла 07.06.2011
|