Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру

Розглянуто вплив рівня нечіткості на результати нечіткого кластерного аналізу. Запропоновано підхід до розв’язання задачі кластеризації на основі інтервальних нечітких множин типу 2 із застосуванням індексу вірогідності Квона. Роботу методу продемонстровано на прикладі кластеризації країн світу за р...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2012
Hauptverfasser: Кондратенко, Н.Р., Снігур, О.О.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України 2012
Schriftenreihe:Системні дослідження та інформаційні технології
Schlagworte:
Online Zugang:http://dspace.nbuv.gov.ua/handle/123456789/50175
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру / Н.Р. Кондратенко, О.О. Cнігур // Систем. дослідж. та інформ. технології. — 2012. — № 3. — С. 20-29. — Бібліогр.: 20 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-50175
record_format dspace
spelling irk-123456789-501752013-10-11T11:49:27Z Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру Кондратенко, Н.Р. Снігур, О.О. Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах Розглянуто вплив рівня нечіткості на результати нечіткого кластерного аналізу. Запропоновано підхід до розв’язання задачі кластеризації на основі інтервальних нечітких множин типу 2 із застосуванням індексу вірогідності Квона. Роботу методу продемонстровано на прикладі кластеризації країн світу за рівнем розвитку. Рассмотрено влияние уровня нечеткости на результаты нечеткого кластерного анализа. Предложен подход к решению задачи кластеризации на основе интервальных нечетких множеств типа 2 с применением индекса достоверности Квона. Робота метода продемонстрирована на примере кластеризации стран мира по уровню развития. An approach to the solution of clustering problem on the basis of interval fuzzy sets of 2 type using know validity index, is proposed. The methods working is show on the example of the world countries clustering according to their development level. Influence of degree of fuzziness on fuzzy clustering results is investigated. 2012 Article Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру / Н.Р. Кондратенко, О.О. Cнігур // Систем. дослідж. та інформ. технології. — 2012. — № 3. — С. 20-29. — Бібліогр.: 20 назв. — укр. 1681–6048 http://dspace.nbuv.gov.ua/handle/123456789/50175 004.8 uk Системні дослідження та інформаційні технології Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
topic Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах
Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах
spellingShingle Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах
Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах
Кондратенко, Н.Р.
Снігур, О.О.
Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру
Системні дослідження та інформаційні технології
description Розглянуто вплив рівня нечіткості на результати нечіткого кластерного аналізу. Запропоновано підхід до розв’язання задачі кластеризації на основі інтервальних нечітких множин типу 2 із застосуванням індексу вірогідності Квона. Роботу методу продемонстровано на прикладі кластеризації країн світу за рівнем розвитку.
format Article
author Кондратенко, Н.Р.
Снігур, О.О.
author_facet Кондратенко, Н.Р.
Снігур, О.О.
author_sort Кондратенко, Н.Р.
title Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру
title_short Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру
title_full Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру
title_fullStr Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру
title_full_unstemmed Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру
title_sort використання інтервальних функцій належності в задачах кластеризації даних соціального характеру
publisher Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
publishDate 2012
topic_facet Проблеми прийняття рішень і управління в економічних, технічних, екологічних і соціальних системах
url http://dspace.nbuv.gov.ua/handle/123456789/50175
citation_txt Використання інтервальних функцій належності в задачах кластеризації даних соціального характеру / Н.Р. Кондратенко, О.О. Cнігур // Систем. дослідж. та інформ. технології. — 2012. — № 3. — С. 20-29. — Бібліогр.: 20 назв. — укр.
series Системні дослідження та інформаційні технології
work_keys_str_mv AT kondratenkonr vikoristannâíntervalʹnihfunkcíjnaležnostívzadačahklasterizacíídanihsocíalʹnogoharakteru
AT sníguroo vikoristannâíntervalʹnihfunkcíjnaležnostívzadačahklasterizacíídanihsocíalʹnogoharakteru
first_indexed 2025-07-04T11:44:18Z
last_indexed 2025-07-04T11:44:18Z
_version_ 1836716613717458944
fulltext © Н.Р. Кондратенко, О.О. Снігур 2012 20 ISSN 1681–6048 System Research & Information Technologies, 2012, № 3 TIДC ПРОБЛЕМИ ПРИЙНЯТТЯ РІШЕНЬ І УПРАВЛІННЯ В ЕКОНОМІЧНИХ, ТЕХНІЧНИХ, ЕКОЛОГІЧНИХ І СОЦІАЛЬНИХ СИСТЕМАХ УДК 004.8 ВИКОРИСТАННЯ ІНТЕРВАЛЬНИХ ФУНКЦІЙ НАЛЕЖНОСТІ В ЗАДАЧАХ КЛАСТЕРИЗАЦІЇ ДАНИХ СОЦІАЛЬНОГО ХАРАКТЕРУ Н.Р. КОНДРАТЕНКО, О.О. СНІГУР Розглянуто вплив рівня нечіткості на результати нечіткого кластерного аналі- зу. Запропоновано підхід до розв’язання задачі кластеризації на основі інтер- вальних нечітких множин типу 2 із застосуванням індексу вірогідності Квона. Роботу методу продемонстровано на прикладі кластеризації країн світу за рів- нем розвитку. ВСТУП Зараз у сучасній Україні та в усьому світі посилюється значення наукового аналізу проблем соціального характеру, зокрема співвідношення рівня жит- тя різних верств населення, питання гендерної нерівності, диференціації країн та регіонів на основі технічного, соціально-економічного, інтелектуаль- ного, природного факторів тощо. Багатомірність явищ, які розглядаються, ставить особливі вимоги до математичних методів розв’язання цих задач. Передумовою побудови досто- вірних математико-статистичних моделей у таких умовах є виявлення в даних компактних однорідних сукупностей, існування яких можна припи- сати об’єктивно існуючим суспільним закономірностям. Одним із методів, що дозволяють виявляти такі сукупності, використовуючи широке коло по- казників, є кластерний аналіз. Він є найпотужнішим інструментом для проведення багатомірних досліджень. Його застосування в таких задачах є цілком виправданим, оскільки вперше кластерний аналіз застосували саме в соціології [1]. Для здійснення процедури кластеризації не потрібно апріор- них знань про розподіл генеральної сукупності. Велика її перевага полягає в тому, що вона дозволяє робити розбиття об’єктів не за одним параметром, а за цілим набором ознак. Крім того, кластерный аналіз, на відміну від біль- шості математико-статистичних методів, не накладає жодних обмежень на вид об’єктів, що розглядаються, і дозволяє оперувати множиною вихідних даних практично довільної природи [2]. Це дає змогу говорити про можли- вість створення методів кластеризації, придатних для розв’язання практично будь-яких соціально-економічних задач, а не лише задач певного класу. Про актуальність розв’язання задач кластеризації, орієнтованих на со- ціальні дані, свідчить велика кількість праць із цієї тематики. Зокрема, у ро- Використання інтервальних функцій належності в задачах кластеризації даних… Системні дослідження та інформаційні технології, 2012, № 3 21 ботах [1, 3] здійснено спроби розв’язання задач регіонального районування та соціально-економічного прогнозування. Проте математичні методи, що лежать в основі цих досліджень, суттєво обмежені припущенням, що вхідні дані є абсолютно точними, правдивими та незашумленими. Метод, який за- пропоновано в роботі [4], попри високі оптимізаційні властивості, ставить аналогічну вимогу. Відомо, що на практиці такі умови трапляються вкрай рідко, особливо в галузі соціології, усі показники якої ґрунтуються на ре- зультатах соціологічних опитувань та офіційних даних, що надані різного роду урядовими організаціями. Стовідсоткової достовірності таких даних гарантувати ніхто не може, тому ця задача вимагає методів кластерного ана- лізу, стійких до викидів та шуму. Один із таких методів — метод PCM (Possibilistic C-Means — можливісних С-середніх) — запропоновано в робо- ті [5]. Він надзвичайно стійкий до шумів у вхідних показниках, але ґрунту- ється на нечітких множинах типу 1. Це не дає змогу дати повністю адекват- ну оцінку досліджуваній множині даних, оскільки крім точок, що вносять шум, у характеристиках кожної точки закладено певну невизначеність, яка не може не перенестись на результат кластеризації. При цьому характеризу- вати ступінь належності точки до кластеру одним числом недостатньо. Уна- слідок дії невизначеностей саме це число також трансформується в нечітку множину, що веде до необхідності оперування нечіткими множинами типу 2. Ідея нечіткої множини типу 2 як поглиблення та узагальнення множини першого типу належить Л. Заде [6]. Узагальнена нечітка множина вимагає задання великої кількості параметрів, що не завжди має практичний сенс. Тому часто обмежуються використанням інтервальних функцій належності [7, 8, 9]. На сьогодні такий підхід застосовується у великій кількості різних задач: класифікації образів [10], моделювання та класифікації мультимедій- ного трафіку [11], керування мобільними роботами [12], прийнятті рішень [13], прогнозуванні часових послідовностей [14, 15, 7], апроксимації функ- цій [16] тощо. Беручи до уваги позитивні результати цих та інших досліджень, вида- ється можливим застосувати математичний апарат нечітких множин типу 2 і в задачі кластеризації, зокрема такої, що орієнтована на множини даних соціального характеру. Мета роботи — розробка методу кластерного аналізу даних соціально- го спрямування на основі інтервальних нечітких множин типу 2. ВИХІДНІ ПЕРЕДУМОВИ ТА ПОСТАНОВКА ЗАДАЧІ Існує велика кількість методів кластеризації, які можна класифікувати на чіткі та нечіткі. Чіткі методи кластеризації розбивають вихідну множину об’єктів Х на декілька підмножин, що не перетинаються. При цьому будь- який об’єкт із Х належить лише одному кластеру. Нечіткі методи кластери- зації дозволяють одному й тому самому об’єкту належати одночасно до де- кількох (або навіть до всіх) кластерів, але з різним ступенем. Єдиною від- мінністю є те, що у випадку нечіткого розбиття ступінь належності об’єкта до кластера приймає значення з інтервалу ]1,0[ , а при чіткому — з двохеле- ментної множини }1,0{ . Нечітка кластеризація в багатьох ситуаціях адекват- Н.Р. Кондратенко, О.О. Снігур ISSN 1681–6048 System Research & Information Technologies, 2012, № 3 22 ніше описує характер вихідної множини, наприклад, для об’єктів, розташо- ваних на межі кластерів [2]. Основою переважної більшості сучасних методів нечіткого кластерного аналізу є алгоритм FCM (Fuzzy C-Means) Дж. Беждека [17]. Проте якість знайдених центрів суттєво залежить від попереднього ви- бору як значень ijµ , так і центрів iс . Крім того, FCM використовує обме- ження, подібне до того, що накладає на шуканий розв’язок теорія ймовір- ностей: сума ступенів належності i -ї точки до всіх кластерів Nj ,1= становить 1: ∑ = = c i ij 1 1µ для всіх j [18]. Таке обмеження має на меті уникну- ти тривіального розв’язку, коли всі ступені належності виявляються рівними нулю, і дає змістовні результати в тих прикладних застосуваннях, де при- пущення про «імовірнісну» природу ступенів належності має практичний сенс. Але, оскільки ступені належності, отримані за такого обмеження, від- носні, вони непридатні в тих задачах, в яких ступінь належності точки до кластера має відображати її типовість, характерність саме для цього класте- ра. Це повністю узгоджується з теорією нечітких множин Заде, адже ступінь належності точки до класичної нечіткої множини є абсолютною величиною, незалежною від ступенів належності цієї ж точки до інших нечітких мно- жин, визначених на тій самій універсальній множині. Таке формулювання доцільніше для більшості задач кластеризації, оскільки ступінь належності точки до кластера є мірою того, наскільки ця точка є носієм спільних харак- теристик кластера, її типовості; і ступінь належності не повинен залежати від того, як вона розташована відносно інших кластерів. Виходячи з цього, у роботі [5] було переглянуто цільову функцію мето- ду FCM таким чином, щоб за досягнення її мінімуму ступені належності для репрезентативних точок кластерів були високими, а для не репрезентатив- них — низькими, незалежно від взаємного положення точок та кластерів. Результуючий функціонал має вигляд: ,)1( 1 11 1 2 ∑ ∑∑∑ = == = −+= c i N j m iji c i N j ij m ij dE µηµ (1) де iη — додатне число. Значення iη визначає відстань від центра кластера, на якій значення ступеня належності точки до кластера стає рівним 0,5. За такої цільової функції відповідним чином змінюються також і фор- мули для перерахунку змінних величин методу: 1 1 2 1 1 − ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ + = m j ij ij d η µ ; ∑ ∑ = == N j m ij N j ij m ij ij d 1 1 2 µ µ η . Використання інтервальних функцій належності в задачах кластеризації даних… Системні дослідження та інформаційні технології, 2012, № 3 23 Співвідношення, що використовується для перерахунку координат центрів кластерів, порівняно з FCM залишається без змін: . 1 1 ∑ ∑ = == p j m ij p j j m ij i x с µ µ Розв’язки, які отримано при такому підході, більше відповідають дійс- ності. Таке розуміння ступенів належності має ще один позитивний момент: воно дає змогу легко відфільтрувати точки, що вносять шум, оскільки вони за такого формулювання матимуть низькі ступені належності до всіх без винятку кластерів. Не зважаючи на таке вдосконалення, одна проблема залишається спіль- ною для FCM та PCM: обидва методи в усіх обчисленнях спираються на па- раметр m, що задає рівень нечіткості кластерів. Випадок 1=m відповідає чіткій кластеризації. Зі зростанням m ступені належності всіх без винятку точок до всіх кластерів наближаються до 0,5, як показано на рис. 1 (для випадку двох кластерів). Кожна крива зображає змі- ну ступеня належності точки до одного з кластерів. На рис. 1 видно, що в усіх випадках m змінюється монотонно, обрати на такій кривій одну оптимальну точку неможливо. Тому закономірно, що строго обґрунтованих механізмів визначення m не існує. Параметр ,m як правило, задається емпірично дослідником, при цьому доводиться повністю покладатися на це заздалегідь задане значення без жод- них гарантій його правильності. З цим пов’язана невизначеність, яку немож- ливо врахувати, коли отримане значення міри належності точки до кластера є єдиним числом. Тому для того, щоб убезпечити себе від помилкового ре- зультату, що пов’язаний із неправильним вибором значення m, доцільно ви- користовувати інтервальні функції належності типу 2. Такий підхід найчас- тіше застосовується тоді, коли точний характер розподілу ступенів належності другого типу в області між границями інтервалу невідомий. Са- ме такий випадок являє собою задача кластеризації: невідомо, чи піддається Рис. 1. Зміна ступенів належності точки до кластерів при зміні рівня нечіткості: а — точка нерепрезентативна; б — точка репрезентативна a a µ m Н.Р. Кондратенко, О.О. Снігур ISSN 1681–6048 System Research & Information Technologies, 2012, № 3 24 виділенню та математичному опису закономірність, за якою розподілені ступені належності другого типу, та чи має дослідження цієї закономірності практичний сенс. З іншого боку, інформація про верхню та нижню функції належності, що описують кожен кластер залежно від значення параметра ,m має виняткову цінність, оскільки інтервал (його ширина та розташуван- ня відносно нуля та одиниці) несе значно більше інформації про міру нале- жності точки до кластера, ніж єдине число. Наприклад, ширина інтервалу може свідчити про ступінь точності отриманого розв’язку. Тому пропо- нується модифікувати алгоритм кластеризації, який наведено в [5], для ро- боти з інтервальними ступенями належності. Цим буде досягнуто повне врахування невизначеності, пов’язаної з різними можливими значеннями рівня нечіткості, для подальшого аналізу результатів кластеризації. Нехай є N об’єктів }.,,,{ 21 Nxxxx …= Необхідно розбити їх на с клас- терів та визначити місця розташування центрів кластерів ic , ci ,1= , а також ступені належності ijµ кожної з точок xі до кластера ic . Виходячи з визна- чення ступеня належності як міри типовості заданої точки для відповідного кластера, знайти такі значення шуканих параметрів, які ведуть до мінімуму функціонала (1). Враховуючи властивості рівня нечіткості m та його вплив на результати кластерного аналізу, представити ступені належності у вигля- ді інтервалів, ліва та права границі яких лежать у межах ]1,0[ . МЕТОДИКА ДОСЛІДЖЕННЯ Для розв’язання поставленої задачі пропонуємо модифікацію алгоритму кластерного аналізу PCM [5]. Окрім нетрадиційного трактування ступенів належності та стійкості до шуму він володіє ще однією властивістю. Йдеть- ся про те, що, оскільки міри належності однієї й тієї самої точки до різних кластерів незалежні одна від одної, ступінь належності точки до одного з них можна змінити без обов’язкової процедури перерахунку ступенів її належності до всіх інших кластерів. Ця властивість є надзвичайно корис- ною, оскільки вона дає змогу «розтягти» ступінь належності точки до класте- ра з чіткого значення в інтервал, і це не ставить під загрозу виконання обме- ження на суму значень ступенів належності точки до всіх наявних кластерів. Не зважаючи на всі переваги, у класичному алгоритмі PCM не вдалося уникнути спільного для переважної більшості методів кластеризації недолі- ку: він передбачає апріорне задання числа кластерів до початку виконання обчислень. Найпростіший шлях уникнути цієї проблеми — виконувати роз- биття при різній можливій кількості кластерів та порівнювати результати за певним критерієм оптимальності. У роботі [19] наведено декілька функ- ціоналів, які називаються індексами достовірності та цілком відповідають вимогам, що висуває ця задача до критеріїв такого роду. Скористаємося ін- дексом Квона, зокрема, для визначення оптимального числа кластерів для заданого рівня нечіткості m: Використання інтервальних функцій належності в задачах кластеризації даних… Системні дослідження та інформаційні технології, 2012, № 3 25 2 1 1 1 22 min 1)( )( ji ji c i N j c i iij m ij k vv vv c vx cV − −+− = ≠ = = = ∑∑ ∑µ , де ijµ — ступінь належності точки j до кластера i ; iv — центр j -го клас- тера; v — середнє значення центрів кластерів; m — рівень нечіткості; c — кількість кластерів; N — кількість точок. Що менше значення має kV , то кращим вважається розбиття. Проте визначення кількості кластерів — не єдине застосування цього показника. У межах цього підходу пропонується використовувати його та- кож для визначення меж інтервалу розтягу ступеня належності. Межі інтер- валу визначимо, керуючись поведінкою індекса Квона на заданому інтервалі зміни параметра m (рис. 2, а). Практичний інтерес викликає лише перший його локальний мінімум, який спостерігається за оптимального значення m [5] (рис. 2, б). Тому за межі інтервалу приймемо праву та ліву точки переги- ну кривої, найближчі до розглядуваного локального мінімуму. При такому підході отриманий нечіткий кластер матиме вигляд, як по- казано на рис. 3. Для його повного опису достатньо визначити лише верхню та нижню функції належності. Рис. 2. Зміна індексу Квона залежно від зміни рівня нечіткості: а — в межах від 1 до 10; б — збільшений фрагмент: від 1 до 4 a б Vk m Рис. 3. Інтервальні функції належності точок до кластеру µ Точки Н.Р. Кондратенко, О.О. Снігур ISSN 1681–6048 System Research & Information Technologies, 2012, № 3 26 Для початкової ініціалізації центрів кластерів використаємо звичайний метод FCM. Він збігається за лічені ітерації, тому якнайкраще підходить для цього завдання, адже воно вимагає грубого наближеного розв’язку. Отже, сформулюємо покроковий алгоритм розв’язання задачі кластер- ного аналізу в заданій постановці. 1. Глобальний індекс Квона ініціалізувати максимально можливим значенням. 2. Задати початкову кількість кластерів .2=c 3. Визначити приблизні місця розташування центрів кластерів за до- помогою алгоритму FCM. 4. Оцінити значення η для результату роботи FCM. 5. Сформувати матрицю D як матрицю Евклідових відстаней від кож- ної точки з вихідної множини до центра кожного з кластерів. 6. Задати початкове значення рівня нечіткості .1=m 7. Розрахувати початкове значення локального індексу Квона. 8. Розрахувати функцію належності для кожної з пар (точка, кластер), користуючись відповідним співвідношенням із методу РСМ. 9. Перерахувати положення центрів кластерів за формулою, спільною для обох методів. 10. Перерахувати матрицю відстаней .D 11. Розрахувати цільову функцію РСМ при заданих значеннях ступенів належності, координат центрів кластерів, елементів матриці D та векто- ра .η 12. Якщо розраховане значення цільової функції менше за отримане на попередній ітерації, повернутись до кроку 8. 13. Розрахувати значення локального індексу Квона при заданому m. Якщо воно менше за попереднє значення, то збільшити m та повернутись до кроку 8. 14. Перерахувати значення глобального індексу Квона. Зберегти про- міжні результати обчислень для поточного .kmm = 15. Якщо кількість кластерів менша за кількість точок у вихідній мно- жині, збільшити с та перейти до кроку 3. 16. Серед усіх проміжних результатів обрати варіант розбиття з мініма- льним значенням глобального індексу Квона. Подати ступені належності у вигляді інтервалів, обмежених їхніми значеннями при 1=m та отриманим на кроці 14 .1>= kmm КОМП’ЮТЕРНИЙ ЕКСПЕРИМЕНТ ЗА ПОКАЗНИКАМИ ЛЮДСЬКОГО РОЗВИТКУ В КРАЇНАХ СВІТУ Для аналізу було взято дані зі щорічного звіту ООН з людського розвитку за 2010 р. [20] для всіх незалежних держав світу за такими показниками: • середня очікувана тривалість життя при народженні; • середня тривалість освітньої підготовки громадян; • ВНП на душу населення; Використання інтервальних функцій належності в задачах кластеризації даних… Системні дослідження та інформаційні технології, 2012, № 3 27 • індекс гендерної нерівності в країні. У результаті у вхідних даних було виділено 3 компактних кластери (табл. 1 та 2). Таблиця 1. Координати центрів кластерів Показники Кластер 1 Кластер 2 Кластер 3 Індекс гендерної нерівності 0,615842 0,290623 0,73791 ВВП на душу населення 0,096877 0,3814 0,018852 Тривалість життя 0,732709 0,920551 0,415003 Кількість років освітньої підготовки 0,532329 0,837381 0,253012 Таблиця 2. Інтервальні ступені належності країн до кластерів Країни Кластер 1 Кластер 2 Кластер 3 Algeria 0,976295 1 0,00087 0,097652 0,000931 0,090729 Australia 1,98E-05 0,018657 0,514417 0,962005 8,02E-07 0,005172 Austria 0,000102 0,03422 0,791044 0,995485 2,54E-06 0,008165 Bangladesh 0,015304 0,112614 2,66E-05 0,0229 0,663903 0,765039 Belgium 5,08E-05 0,026589 0,801127 0,999869 1,61E-06 0,006799 Benin 0,000528 0,039172 8,02E-06 0,013866 0,884219 0,99949 Brazil 0,945761 0,999997 0,000745 0,090964 0,001058 0,09548 … … … … … … … Togo 0,006406 0,093062 2,20E-05 0,021245 0,946151 0,968477 Tunisia 0,62551 0,935993 0,000945 0,098948 0,000628 0,075782 Turkey 0,696438 0,9928 0,000536 0,078341 0,002025 0,121107 United Kingdom 0,000259 0,049088 0,832883 0,978633 4,25E-06 0,010059 Venezuela 0,588932 0,950364 0,000741 0,088684 0,000924 0,088121 Zimbabwe 2,17E-05 0,015335 4,13E-06 0,010372 0,596237 0,974833 Отримані кластери мають вигляд нечітких множин типу 2 (рис. 4). Значна ширина інтервалу деяких конкретних значень ступенів належності дає змогу судити про наявність шумів у вхідних даних. Рис. 4. Графічне подання результатів кластеризації µ m Н.Р. Кондратенко, О.О. Снігур ISSN 1681–6048 System Research & Information Technologies, 2012, № 3 28 Інтервальні значення ступенів належності було обчислено, виходячи зі значень рівня нечіткості ]65,1;1[=m . На рис. 5 показано характер зміни ін- дексу Квона залежно від значення .m На рис. 5, б можна побачити локальний мінімум цієї залежності в точці 65,1=m . Цю точку і прийнято за праву межу інтервалу зміни параметра m. При цьому варто скористатися такими рекомендаціями: • Метод дає змогу отримати інтервал, в якому знаходиться оптималь- не значення рівня нечіткості. Інтервал (його ширина та розташування відносно нуля та одиниці) несе значно більше інформації про міру належ- ності точки до кластера, ніж єдине число. • У разі значної ширини інтервалу слід залучити експерта для прийнят- тя остаточного рішення. Експерт, у свою чергу, може прийняти рішення про повторення експерименту у зв’язку зі значною невизначеністю у вхідних даних. ВИСНОВКИ Запропоновано метод кластеризації на основі інтервальних функцій належ- ності типу 2 з використанням індексу вірогідності Квона для визначення оптимального числа кластерів та меж інтервальних значень ступенів належ- ності. Значна ширина інтервалу деяких конкретних значень ступенів належ- ності дає змогу зробити висновок про наявність шумів у вхідних даних. Зва- жаючи на це та на високу складність поставленої прикладної задачі, для прийняття будь-якого остаточного рішення доцільно залучати експертів з цієї галузі. Метод випробувано в прикладній задачі соціального характеру та отримано змістовні результати, що свідчить про перспективність викорис- тання запропонованого підходу в задачах такого роду. ЛІТЕРАТУРA 1. Котова Е.С. Кластерный анализ в задачах социально-экономического прогно- зирования. — http://vuzlib.net/beta3/ html/1/4055/4081/. Рис. 5. Характер зміни індексу Квона залежно від значення рівня нечіткості (а — для ]5;1[=m ; б — для ]7,3;1[=m ) a б Vk m Використання інтервальних функцій належності в задачах кластеризації даних… Системні дослідження та інформаційні технології, 2012, № 3 29 2. Мандель И.Д. Кластерный анализ. — М.: Статистика, 1988. — 176 с. 3. Серебрякова Л.А. Методы оценки уровня социально-экономического развития регионов // Вестн. СевКавГТУ. Сер. Экономика. — 2003. — № 3 (11). — http://science.ncstu.ru/articles/econom/11/02.pdf. 4. Захарченко С.М., Кондратенко Н.Р., Манаєва О.О. Дослідження можливостей генетичного алгоритму в задачі кластеризації користувачів мережі Internet // Інформаційні технології та комп’ютерна інженерія. — 2010. — № 2 (18). — C. 67–72. 5. Krishnapuram R., Keller J.M. A possibilistic approach to clustering // IEEE Transac- tions on Fuzzy Systems. — 1993. — № 1(2). — Р. 98–110. 6. Zadeh L.A. Fuzzy sets as a basis for a theory of possibility // Fuzzy sets and systems 100 Supplement. — 1999. — Р. 9–34. 7. Liang Q., Mendel J.M. Interval type-2 fuzzy logic systems: theory and design // IEEE Transactions on Fuzzy Systems. — 2000. — 8. — Р. 535–550. 8. Mendel J.M., John R.I., Liu F. Interval Type-2 Fuzzy logic systems made simple // IEEE Transactions on Fuzzy Systems. — 2006. — 14. — № 6. — Р. 808–821. 9. Mendel J.M., John R.I. Interval Type-2 fuzzy sets made simple // IEEE Transactions on Fuzzy Systems. — 2002. — 10. — № 2. — Р. 117–127. 10. Zeng J., Liu Z.Q. Type-2 Fuzzy sets for pattern classification: A review // Proceedings of the IEEE Symposium on Foundations of computational intelligence. — 2007. — Р. 193–200. 11. Liang Q., Mendel J M. MPEG MBR Video traffic modeling and classification using fuzzy technique // IEEE Transactions on Fuzzy Systems. — 2001. — 9. — № 1. — Р. 183–193. 12. Wu K.C. Fuzzy interval control of mobile robots // Computers and Electrical Engi- neering. — 1996. — 22. — Р. 211–229. 13. Yager R.R. Fuzzy subsets of type II in decisions // Cyber Journals. — 1980. — 10. — Р. 137–159. 14. Karnik N.N., Mende J.M. Applications of type-2 fuzzy logic systems to forecasting of time series // Information Sciences. — 1999. — 120. — Р. 89–111. 15. Mendel J.M. Uncertainty, fuzzy logic, and signal processing // Signal Processing Journal. — 2000. — 80. — Р. 913–933. 16. Karnik N.N., Mendel J.M. An introduction to type-2 fuzzy logic systems. — Los Angeles, CA. — http://sipi.usc. edu/~mendel/report. 17. Bezdek J.C. Pattern recognition with fuzzy objective function algorithms. — NY: Plenum Press, 1981. — 256 p. 18. Зайченко Ю.П. Нечеткие модели и методы в интеллектуальных системах. — К.: Издат. дом «Слово», 2008. — 344 с. 19. Oliveira J.V., Pedrycz W. Advances in fuzzy clustering and its applications. — Chichester: John Wiley & Sons Ltd., 2007. — 435 р. 20. The Real Wealth of Nations: pathways to human development. Human development report 2010: 20-th anniversary edition . — UNDP, 2010. — 227 p. Надійшла 07.06.2011