Кластеризація об’єктів із нечітко заданими значеннями характеристик
Запропоновано метод кластеризації об’єктів із нечітко заданими значеннями характеристик. Виконана формалізована постановка задачі кластеризації об’єктів, значення характеристик яких задані нечітко. Сформульовано нечіткий критерій якості кластеризації. Для розв’язання поставленої задачі модифікован...
Gespeichert in:
Datum: | 2008 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | Ukrainian |
Veröffentlicht: |
Інститут проблем штучного інтелекту МОН України та НАН України
2008
|
Schlagworte: | |
Online Zugang: | http://dspace.nbuv.gov.ua/handle/123456789/7577 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Zitieren: | Кластеризація об’єктів із нечітко заданими значеннями характеристик / С.О. Говорухін // Штучний інтелект. — 2008. — № 4. — С. 567-576. — Бібліогр.: 4 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-7577 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-75772015-08-05T21:38:30Z Кластеризація об’єктів із нечітко заданими значеннями характеристик Говорухін, С.О. Нейросетевые и нечеткие системы Запропоновано метод кластеризації об’єктів із нечітко заданими значеннями характеристик. Виконана формалізована постановка задачі кластеризації об’єктів, значення характеристик яких задані нечітко. Сформульовано нечіткий критерій якості кластеризації. Для розв’язання поставленої задачі модифіковано метод К-середніх. На прикладі реальних даних, які містять значення характеристик автомобілів, проведено його експериментальну верифікацію. Запропоновано процедуру автоматичної ідентифікації кластерів та визначення якості результатів кластеризації на базі відомого розподілу об’єктів по кластерах. Предложен метод кластеризации объектов с нечетко заданными значениями характеристик. Выполнена формализованная постановка задачи кластеризации объектов, значения характеристик которых заданы нечетко. Сформулирован нечеткий критерий качества кластеризации. Для решения поставленной задачи модифицировано метод К-средних. На примере реальных данных, которые содержат значения характеристик автомобилей, выполнена его экспериментальная верификация. Предложена процедура автоматической идентификации кластеров и определение качества результатов кластеризации на базе известного распределения объектов по кластерам. The method of clustering objects with fuzzy characteristic values is offered. An formalized problem of clustering objects with fuzzy characteristic is defined. Fuzzy criterion of clusterization quality is formulated. To arrive at a task solution the K-means method is modified. An experiment verification of it using real data that contains cars characteristic values is carried out. A procedure of automatic clusters identification and determination of clustering results quality on base of known distribution of objects between clusters is offered. 2008 Article Кластеризація об’єктів із нечітко заданими значеннями характеристик / С.О. Говорухін // Штучний інтелект. — 2008. — № 4. — С. 567-576. — Бібліогр.: 4 назв. — укр. 1561-5359 http://dspace.nbuv.gov.ua/handle/123456789/7577 004.89 uk Інститут проблем штучного інтелекту МОН України та НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Ukrainian |
topic |
Нейросетевые и нечеткие системы Нейросетевые и нечеткие системы |
spellingShingle |
Нейросетевые и нечеткие системы Нейросетевые и нечеткие системы Говорухін, С.О. Кластеризація об’єктів із нечітко заданими значеннями характеристик |
description |
Запропоновано метод кластеризації об’єктів із нечітко заданими значеннями характеристик. Виконана
формалізована постановка задачі кластеризації об’єктів, значення характеристик яких задані нечітко.
Сформульовано нечіткий критерій якості кластеризації. Для розв’язання поставленої задачі модифіковано
метод К-середніх. На прикладі реальних даних, які містять значення характеристик автомобілів, проведено
його експериментальну верифікацію. Запропоновано процедуру автоматичної ідентифікації кластерів та
визначення якості результатів кластеризації на базі відомого розподілу об’єктів по кластерах. |
format |
Article |
author |
Говорухін, С.О. |
author_facet |
Говорухін, С.О. |
author_sort |
Говорухін, С.О. |
title |
Кластеризація об’єктів із нечітко заданими значеннями характеристик |
title_short |
Кластеризація об’єктів із нечітко заданими значеннями характеристик |
title_full |
Кластеризація об’єктів із нечітко заданими значеннями характеристик |
title_fullStr |
Кластеризація об’єктів із нечітко заданими значеннями характеристик |
title_full_unstemmed |
Кластеризація об’єктів із нечітко заданими значеннями характеристик |
title_sort |
кластеризація об’єктів із нечітко заданими значеннями характеристик |
publisher |
Інститут проблем штучного інтелекту МОН України та НАН України |
publishDate |
2008 |
topic_facet |
Нейросетевые и нечеткие системы |
url |
http://dspace.nbuv.gov.ua/handle/123456789/7577 |
citation_txt |
Кластеризація об’єктів із нечітко заданими значеннями характеристик / С.О. Говорухін // Штучний інтелект. — 2008. — № 4. — С. 567-576. — Бібліогр.: 4 назв. — укр. |
work_keys_str_mv |
AT govoruhínso klasterizacíâobêktívíznečítkozadanimiznačennâmiharakteristik |
first_indexed |
2025-07-02T10:24:11Z |
last_indexed |
2025-07-02T10:24:11Z |
_version_ |
1836530376527314944 |
fulltext |
«Штучний інтелект» 4’2008 567
7Г
УДК 004.89
С.О. Говорухін
Черкаський державний технологічний університет, м. Черкаси, Україна
gnsa@ukr.net
Кластеризація об’єктів із нечітко заданими
значеннями характеристик
Запропоновано метод кластеризації об’єктів із нечітко заданими значеннями характеристик. Виконана
формалізована постановка задачі кластеризації об’єктів, значення характеристик яких задані нечітко.
Сформульовано нечіткий критерій якості кластеризації. Для розв’язання поставленої задачі модифіковано
метод К-середніх. На прикладі реальних даних, які містять значення характеристик автомобілів, проведено
його експериментальну верифікацію. Запропоновано процедуру автоматичної ідентифікації кластерів та
визначення якості результатів кластеризації на базі відомого розподілу об’єктів по кластерах.
Світ сучасних комп’ютерів – це логічний, чіткий світ, жорстко обмежений двома
станами: «0» і «1». Реальний світ має безліч станів і є незрівнянно ширшим, складнішим і
нечітким. Відповідно складнішими є процеси і об’єкти реального світу та задачі, що
виникають в ньому. Функціонування систем у реальному світі характеризується великою
кількістю станів кожного параметра системи. В таких системах неможливо визначити
точні значення параметрів функціонування. В таких випадках використовують, наприк-
лад, інтервальні оцінки або нечіткі числа. В результаті формуються статистичні дані у
вигляді таблиці виду «об’єкт-властивість», де значення властивостей об’єктів записують у
вигляді нечітких чисел певного виду. Постає актуальна задача дослідження складних
реальних систем за допомогою аналізу результатів їх функціонування у вигляді таблиць
статистичних даних, заданих нечітко. Першим етапом дослідження таких систем є
виявлення в них певної структури, тобто задача кластеризації. Таким чином, актуальною є
задача розробки ефективних методів кластеризації даних експериментів в умовах
нечіткості їх представлення. Для її розв’язання пропонується застосувати методи
кластерного аналізу та нечіткої логіки.
Загальна постановка задачі кластеризації
Початкові дані задані у вигляді таблиці типу «об’єкт-властивість» (табл. 1).
Таблиця містить інформацію про m однотипних об’єктів реального світу (рядків),
кожний з яких має n ознак (стовпчиків), тобто рядок таблиці містить вектор значень
характеристик окремого об’єкта.
Таблиця 1 – Вхідні дані
1X 2X ... nX
1 11 12 ... n1
2 21 22 ... n2
... ... ... ... ...
m 1m 2m ... mn
Говорухін С.О.
«Искусственный интеллект» 4’2008 568
7Г
Нехай },...,{ 1 mOOO – сукупність об’єктів, ),...,( 1 iniiO , mi ,1 , ),( ji OOd –
відстань між об’єктами i та j , mji ,1, . Нехай k – апріорно задана кількість кластерів.
),...,( 1 kSSS – розбиття сукупності об’єктів O на k кластерів: },...,{ 1
i
m
i
i i
OOS , ki ,1 ,
k
i
imm
1
, причому p
j
l
i OO , lni ,1 , pnj ,1 , kl ,1 , kp ,1 . Тоді ),( ji SS –
відстань між кластерами i та j , ki ,1 , kj ,1 .
Далі, нехай )(Sq – критерій якості розбиття S [1]. Необхідно визначити най-
краще розбиття *S таке, що:
optSq )( * .
Позначимо ),...,( 1 keee – множина центрів кластерів kSS ,...,1 , відповідно. Центр
кластера – точка у n -вимірному просторі, що може співпадати або не співпадати з
одним із об’єктів цього кластера. Центр кластера визначається як функція від усіх
об’єктів, що йому належать: )( ii Se .
Тоді критерій якості розбиття можна записати:
min
),(1),(
1
*
k
i
m
ij i
i
i
j
i
m
eOd
k
eSq . (1)
Постановка задачі кластеризації об’єктів із нечітко
заданими параметрами
Нехай кожен елемент таблиці початкових даних ij є нечітким числом, що
характеризується функцією належності (ФН) )( ji x . Нехай задана трикутна ФН, яка
описується трьома елементами: ),,( iii hca (рис. 1).
Припустимо, що 1: ijij h (всі нечіткі числа є нормальними). Тоді кожен елемент
таблиці початкових даних запишеться у вигляді: ),( ijijij ca , mi ,1 , nj ,1 – j -та
характеристика об’єкта iO , нечітке число, де ija – центр інтервалу, ijc – ширина
інтервалу. ФН )( ji x нечіткого числа ij , задана на відрізку (
2
ij
ij
c
a ,
2
ij
ij
c
a ) – межі
належності об’єкта iO по j -ій характеристиці. Для кожного об’єкта можна побудувати
n графіків ФН. Кожна характеристика iX має межі варіювання [ iA , iB ], в яких
знаходяться всі об’єкти, і для неї можна побудувати m графіків ФН (рис. 2).
a
h
X
c
)( ix
Рисунок 1 – Трикутна ФН
Кластеризація об’єктів із нечітко заданими значеннями характеристик
«Штучний інтелект» 4’2008 569
7Г
Рисунок 2 – Перетин об’єктів за однією характеристикою
Представимо кожний об’єкт ),...,,( 21 iniiiO у вигляді n -вимірної гіперфігури –
паралелепіпеда, кожна координата (параметр) якого задається у вигляді ФН. Це неодно-
рідна гіперфігура, що складається з множини точок, міра належності яких цій гіпер-
фігурі збільшується від краю до центру і близько центру має максимум (у випадку
трикутних ФН). Двовимірний випадок зображений на рис. 3.
Рисунок 3 – Двовимірне представлення об’єкта з нечітко заданими характеристиками
Представимо такий об’єкт на площині. По обох координатах межі об’єкта визнача-
ються функцією належності. Візьмемо на об’єкті iO точку A з координатами 1x і 2x .
Тоді по координаті 1x відповідно до ФН точка A має міру належності 1 , а по 2x – 2 .
Далі розглянемо два n -вимірні об’єкти iO і jO , ni ,1 , nj ,1 , ji . Для
таких об’єктів виконуються твердження.
1. Два об’єкти iO і jO перетинаються тоді і тільки тоді, коли:
2
jkik
jkik
cc
aa
, nk ,1 . (2)
2. Перетином двох об’єктів iO і jO є нечіткий об’єкт.
3. Якщо два об’єкти iO і jO перетинаються, то перетинаються і відповідні ФН
по всіх координатах.
Ілюстрацією вищенаведених тверджень для двовимірного випадку є рис. 4.
X
is
ijL
js
1
)(2 x)(1 x )( xm
..............
2a1aA ma B
1x
2
2
2
i
i
ca
iO
2x 0
2
2
2
i
i
ca 2ia
2
1
1
i
i
ca
1ia
2
1
1
i
i
ca
A
Говорухін С.О.
«Искусственный интеллект» 4’2008 570
7Г
Рисунок 4 – Перетин об’єктів по двох нечітких характеристиках
Відстань між відповідними характеристиками об’єктів iO і jO знаходимо як
відстань між двома нечіткими підмножинами i і j . Введемо два види відстаней
між нечіткими підмножинами [2], [3].
1. Лінійна відстань (узагальнена відносна відстань Хемінга):
n
l
llji xx
n ji
1
)()(1),( ,
причому
)](),(min[)](),(max[)()( llllll xxxxxx
jijiji , (3)
для нескінченої множини:
b
ax
ji dxxx
ab ji
)()(1),( , (4)
де a і b – загальні межі варіювання характеристики x для всіх об’єктів.
2. Квадратична відстань (відносна відстань Евкліда):
n
l
llji xx
n ji
1
2))()((1),( ,
для нескінченої множини:
b
ax
ji dxxx
ab ji
2))()((1),( . (5)
Міру близькості об’єктів ),(~
ji OOd будемо визначати як суму відстаней між
відповідними характеристиками двох об’єктів:
n
l
jlilji n
OOd
1
),(1),(
~
(6)
або
n
l
jlilji n
OOd
1
),(1),(
~
. (7)
Розглянемо два випадки.
1. Дві нечіткі підмножини i і j перетинаються (рис. 5). Тоді згідно з (4) і (5)
відстань між ними є різниця їх сукупної площі і площі їх перетину або i js s . Тобто
більша площа перетину відповідає меншій відстані між множинами.
2
2
2
k
k
aa
2
2
2
k
k
aa 2ka
2
1
1
k
k
aa
2
1
1
k
k
aa
1ka
1x
2x
kO
jO
iO
Кластеризація об’єктів із нечітко заданими значеннями характеристик
«Штучний інтелект» 4’2008 571
7Г
1
x
1s
1
2s
3s
2 3
12l 23l
Рисунок 5 – Площа перетину об’єктів по одній характеристиці
Для визначення відстані між множинами потрібно знайти площу їх перерізу ijs .
)
22
(
2
1 i
i
j
jijij
cc
hs .
а) ijkh знаходимо з рівняння перетину двох прямих iy і jy .
б) Рівняння прямих знаходимо за формулою прямої:
12
1
12
1
yy
yy
xx
xx
.
Маємо:
j
j
i
i c
ycyx
2
)1(
2
)1( ,
звідки знаходимо:
ji
ji
ij cc
h
21 , ji ,
тоді
ji
ji
ij
ij cc
cc
s
2)
2
(
.
Звідки знаходимо відстань між множинами:
))((4
)()(4
1)
2
1
2
1(
22
1),(
22
ijjiji
jiij
ijji
j
j
i
i
ji cccc
cc
scccc
.
Зауваження: множини можуть перетинатися й іншим чином, у такому випадку
формула відстані між множинами теж буде іншою.
2. Дві нечіткі підмножини i і j попарно не перетинаються (рис. 6).
Рисунок 6 – Відстань між носіями нечітких підмножин (характеристик об’єктів)
ijkh
ijkA
2
jk
jk
c
kx
2
ik
ik
c
)( ki x
)( kj x
isjs
ij
ijs
jy
iy
Говорухін С.О.
«Искусственный интеллект» 4’2008 572
7Г
Тоді 2121 ),( ss . Додамо ще одну нечітку підмножину 3 з площею 3s . Нехай
2312 ll , 21 ss і 13 ss . Тоді 2121 ),( ss , 3232 ),( ss і, відповідно,
),(),( 3221 ! В цьому випадку можна запропонувати знаходити відстань із вра-
хуванням відстаней ijl між носіями нечітких підмножин. Тоді (6) перепишеться як:
n
l
jlilijji lOOd
1
),(),(~
, (8)
де 1ijl , якщо множини перетинаються.
Нехай відстань між кластером і об’єктом визначається як відстань між об’єктом
і центром кластера, тоді необхідно визначити поняття центру кластера. Нехай
центром кластера є нечіткий об’єкт ),(~
ijiji cae , ki ,1 , nj ,1 .
Нехай об’єкти 1O і 2O належать одному кластеру. Необхідно визначити центр клас-
тера 3O . Тоді
2
21
3
, або )
2
,
2
(),( 2121
33
ccaac
. Так само визначаємо ФН:
2
)()()( 21
3
xxx .
В загальному випадку:
)1,1(),(
11
ll m
i
ij
l
m
i
ij
l
ljlj c
m
a
m
ca ,
lm
i
ji
l
jl x
m
x
1
)(1)( .
Таким чином, критерій якості кластеризації об’єктів, параметри яких задані нечітко,
можна записати:
min)~,(~)~,(~
1
*
k
i
m
ij
i
i
j
i
eOdeSq . (9)
Запропонований метод
Далі, коли міра відстані відома, застосуємо один з класичних еталонних методів
кластер-аналізу, а саме метод К-середніх [4], який призначений для розподілу N спос-
тережень між k кластерами у відповідності до міри близькості q . Введемо поняття:
центроїд кластера – точка всередині кластера, координати якої обчислюються як середнє
значення координат всіх об’єктів цього кластера:
in
j
j
i
i X
n
C
1
1 . (10)
Позначимо: N – кількість спостережень, k – кількість кластерів (задається дослідни-
ком, Nk ); ),(~ CXq – міра близькості нечітких підмножин, X – об’єкт, C – цент-
роїд кластера.
Алгоритм методу:
1. Для кількісних змінних виконати нормування, використовуючи їх мінімаксні
значення, за формулою:
minmax
min
xx
xxx
або 12
minmax
min
xx
xxx .
2. Визначити початкові координати центроїдів. Вибрати k спостережень з N
можливих таким чином, щоб максимізувати сукупну відстань між ними, і призна-
чити їх координати як початкові координати центроїдів.
Зауваження: початкові об’єкти вибирають випадково чи задають конкретно.
Кластеризація об’єктів із нечітко заданими значеннями характеристик
«Штучний інтелект» 4’2008 573
7Г
3. У відповідності до вибраної міри близькості d~ та використовуючи розраховані
координати центроїдів, розподілити решту N спостережень між кластерами. При цьому
об’єкт X належить кластеру i , якщо
1
( , ) ( , )mini j
j k
d X C d X C
.
Зауваження: для категорійних змінних значення центроїду є перша модель всіх
його членів; різниця категорійних змінних дорівнює 0, якщо їх значення співпадають
і 1 – в іншому випадку.
4. Визначити нові координати центроїдів для кожного кластера за формулою (10).
5. Повторювати кроки 3 і 4, поки не припиниться зміщення центроїдів в
порівнянні з попередньою ітерацією. Критерієм зупинки є кількість ітерацій або
точність – різниця між координатами центроїдів на попередній та поточній ітераціях,
а також сукупна відстань по кластерах, яка обчислюється за (9).
Експериментальна верифікація
Програмно-методичний комплекс (ПМК) розроблено за допомогою середовища
розробки Delphi 7.0 на базі інформаційно-аналітичної системи (ІАС) «Analitica». Реалізо-
вано модуль FuzzySets, що містить структури опису нечітких підмножин, функції для
розрахунку відстаней між ними та інше. Реалізовано модуль KMeans, що описує класичний
алгоритм К-середніх та його модифікацію для обробки нечітких даних (FuzzyKMeans).
Для тестування методу обрано таблицю реальних даних по автомобілях з відомою
структурою класів. В даний час загальноприйнятою у Європі є так звана європейська кла-
сифікація легкових автомобілів. Розрізняють такі види класів: A (особливо малий), B
(малий), C (малий середній), D (середній), E (бізнес-клас), F (представницький). Таблиця
даних містить 88 об’єктів – автомобілів і 7 факторів – параметрів автомобіля. Фактори
описані в табл. 2:
Таблиця 2 – Нечіткі характеристики вхідних даних
№ Назва фактора Одиниця виміру
1 Максимальна швидкість км/год
2 Час розгону з місця до 100 км/год с.
3 Потужність к.с.
4 Максимальний крутний момент Нм
5 Споживання бензину в міському циклі л.
6 Споживання бензину в загородному циклі л.
7 Споживання бензину в змішаному циклі л.
Рисунок 7 – Результати кластеризації
Говорухін С.О.
«Искусственный интеллект» 4’2008 574
7Г
Нехай задані такі початкові умови: кількість кластерів – 6, види нормування –
лінійне (в межах [0;1]), вид відстані між нечіткими підмножинами – Хемінга, спосіб
вибору початкових центрів – випадково, критерії зупинки роботи алгоритму – кіль-
кість ітерацій алгоритму К-середніх та цільова похибка, що розраховується за (9).
В результаті кластеризації автоматично розраховуються нечіткі центри кластерів, а
також будується таблиця розподілу об’єктів між кластерами (рис. 7). Отримано 6 кластерів.
У зв’язку з випадковим характером вибору початкових центрів кластерів
отримане розбиття може не бути оптимальним, тому для зменшення вірогідності
попадання розв’язку в локальний мінімум процедуру кластеризації необхідно пов-
торити. На рис. 8 зображено результат 100 прогонів методу. Оптимальний результат
отримано на ітерації № 50, де значення критерію (9) склало 0,117, що на 12,7 %
менше значення отриманого на першій ітерації.
Рисунок 8 – Графік варіювання значення критерію якості кластеризації
Метод перевірки обґрунтованості результатів кластеризації. Для перевірки якості
кластеризації використано відомий реальний розподіл об’єктів по кластерах. В порівняль-
ній табл. 3 показано розподіл об’єктів між реальними і розрахованими кластерами. Такий
вид результатів дозволяє визначити (в ПМК виконується автоматично) відповідність між
реальними і розрахованими кластерами. Алгоритм визначення відповідності є таким:
Поки таблиця не порожня, виконати:
Крок 1. Визначити максимальне значення в таблиці.
Крок 2. Поставити у відповідність реальний кластер з рядка розрахованому
кластеру із стовпчика.
Крок 3. Викреслити знайдені рядок і стовпчик.
Таблиця 3 – Розподіл об’єктів між реальними і розрахованими кластерами
Назва\№ 1 2 3 4 5 6 Всього
A 0 4 0 0 0 0 4
B 0 14 0 5 0 1 20
C 4 5 1 11 0 4 25
D 12 2 5 0 0 4 23
E 3 0 7 1 1 0 12
F 0 0 0 0 4 0 4
Всього 19 25 13 17 5 9 88
Основним показником якості результатів кластеризації будемо вважати відсоток
розпізнаних кластерів і відсоток розпізнаних прикладів у кожному із реальних клас-
терів. В даному випадку маємо таку відповідність (табл. 4), де перший стовпчик – номер
розрахованого кластера, другий – поставлений у відповідність реальний кластер, третій –
відсоток об’єктів розрахованого кластера (по суті – це критерій, за яким визначається
Кластеризація об’єктів із нечітко заданими значеннями характеристик
«Штучний інтелект» 4’2008 575
7Г
відповідність реальному кластеру), четвертий – відсоток розпізнаних об’єктів реального
кластера (показник якості кластерного рішення). Наприклад, розрахований кластер № 1
на 63 % відповідає кластеру D і разом з тим 52 % кластера D розпізнано.
Таблиця 4 – Відповідність реальних і розрахованих кластерів
№ розр. Реал. % реал. % розр.
1 D 63 52
2 B 56 70
3 E 54 58
4 C 65 44
5 F 80 100
6 C 44 16
Відсоток розпізнаних кластерів в даному випадку склав близько 83 % (5 із 6).
Для візуального аналізу зручним є графічне представлення таблиці відповідності у
вигляді гістограми розподілу об’єктів розрахованих кластерів між реальними по
кількості об’єктів (рис. 9) та у відсотках (рис. 10).
Рисунок 9 – Гістограма розподілу об’єктів розрахованих кластерів між реальними
Рисунок 10 – Гістограма розподілу об’єктів розрахованих кластерів
між реальними у відсотках
Аналіз результатів
В результаті проведення експериментальної верифікації ідентифіковано 5 із 6
кластерів. Не розпізнано клас А (особливо малий), який містить 4 об’єкти. Всі об’єкти
класу А віднесені до класу В (рис. 10 – 11), що можна пояснити незначною різницею
між класами А і В. Також до класу В віднесені 5 об’єктів класу С і 2 об’єкти класу D, що
може бути пояснене недостатньою кількістю факторів, якими описуються об’єкти, і
Говорухін С.О.
«Искусственный интеллект» 4’2008 576
7Г
також розмитою межею між класами. Клас С визначений двома кластерами, що зумов-
лено як його розмитістю, так і тим, що в методі жорстко задано кількість кластерів (6) і
в результаті розбиттю підлягає клас з найбільш слабко вираженою структурою. Клас F
розпізнаний на 100 %, що зумовлено його відокремленістю від інших класів представ-
ницьким статусом (до цього класу віднесено також один об’єкт класу E – Jaguar S-Type).
Висновки і перспективи
В результаті проведеного дослідження запропоновано метод кластеризації даних,
заданих нечітко. На прикладі реальних даних по автомобілях проведено його
експериментальну верифікацію. Отримані такі результати:
розпізнано кластерів: ~83 % (5 із 6);
середній відсоток розпізнавання: 63,6;
мінімальне значення критерію: 0,118.
Проведено аналіз отриманих результатів. Основними факторами, що впливають
на ефективність методу, визначено такі:
ступінь перекриття реальних кластерів;
характер кластерної структури;
вибір міри близькості, способу початкового розподілу центрів кастерів та налаш-
тування інших параметрів методу.
Визначено напрямки подальших досліджень та шляхи вдосконалення методу. В по-
дальших дослідженнях планується застосувати технології біокібернетичної оптимізації
(генетичних алгоритмів) для підвищення якості кластеризації (пошуку глобального міні-
муму); провести дослідження алгоритмів кластеризації нечітких даних, що використо-
вують інші види функцій належності; розробити і проаналізувати інші види відстаней між
нечіткими об’єктами; розробити і дослідити інші алгоритми кластеризації даних з нечітко
заданими параметрами.
Література
1. Вятченин Д.А. Нечеткие методы автоматической классификации: Монография. – Мн.: УП
Технопринт, 2004. – 219 с.
2. Кофман А. Введение в теорию нечетких множеств. – М.: Радио и связь, 1982. – 432 с.
3. Рыжов А.П. Элементы теории нечетких множеств и измерения нечеткости. – М.: Диалог-МГУ,
1998. – 81 с.
4. Мандель И.Д. Кластерный анализ. – М.: Финансы и статистика, 1988. – 176 с.
С.А. Говорухин
Кластеризация объектов с нечетко заданными значениями характеристик
Предложен метод кластеризации объектов с нечетко заданными значениями характеристик. Выполнена
формализованная постановка задачи кластеризации объектов, значения характеристик которых заданы
нечетко. Сформулирован нечеткий критерий качества кластеризации. Для решения поставленной задачи
модифицировано метод К-средних. На примере реальных данных, которые содержат значения характеристик
автомобилей, выполнена его экспериментальная верификация. Предложена процедура автоматической
идентификации кластеров и определение качества результатов кластеризации на базе известного
распределения объектов по кластерам.
S.O. Govorukhin
Clustering Objects with Fuzzy Characteristic Values
The method of clustering objects with fuzzy characteristic values is offered. An formalized problem of clustering
objects with fuzzy characteristic is defined. Fuzzy criterion of clusterization quality is formulated. To arrive at a task
solution the K-means method is modified. An experiment verification of it using real data that contains cars
characteristic values is carried out. A procedure of automatic clusters identification and determination of clustering
results quality on base of known distribution of objects between clusters is offered.
Стаття надійшла до редакції 18.07.2008.
|