Аналіз кластерних структур за різними мірами подібності
Наведено аналіз кластерних утворень, що використовують в практичних задачах. У різних дослідженнях сегментацію даних зазвичай виконують лише одною формою кластерів. Запропоновано здійснювати кластеризацію за різними мірами подібності одних і тих самих досліджуваних даних та виявляти різні види взаєм...
Збережено в:
Дата: | 2021 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | Russian |
Опубліковано: |
Інститут кібернетики ім. В.М. Глушкова НАН України
2021
|
Назва видання: | Кібернетика та системний аналіз |
Теми: | |
Онлайн доступ: | http://dspace.nbuv.gov.ua/handle/123456789/190705 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Цитувати: | Аналіз кластерних структур за різними мірами подібності / Н.Е. Кондрук, М.М. Маляр // Кібернетика та системний аналіз. — 2021. — Т. 57, № 3. — С. 114–120. — Бібліогр.: 15 назв. — рос. |
Репозитарії
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-190705 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-1907052023-06-20T14:47:24Z Аналіз кластерних структур за різними мірами подібності Кондрук, Н.Е. Маляр, М.М. Системний аналіз Наведено аналіз кластерних утворень, що використовують в практичних задачах. У різних дослідженнях сегментацію даних зазвичай виконують лише одною формою кластерів. Запропоновано здійснювати кластеризацію за різними мірами подібності одних і тих самих досліджуваних даних та виявляти різні види взаємозв'язків між ними. Це дає змогу проводити більш повний, різнобічний та системний аналіз утворених сегментів у прикладних задачах. Верифікацію цього підходу реалізовано на практичній задач і аналізу демографічних процесів у низці європейських країн. Приведен анализ кластерных образований, используемых в практических задачах. В различных исследованиях сегментацию данных обычно выполняют только одной формой кластеров. Предложено осуществлять кластеризацию разными мерами сходства одних и тех же исследуемых данных и выявлять различные виды взаимосвязей между ними. Это позволяет проводить более полный, разносторонний и системный анализ образованных сегментов в прикладных задачах. Верификация такого подхода реализована на практической задаче анализа демографических процессов в некоторых европейских странах. The cluster analysis formations used in practical tasks is presented. In various studies, data segmentation is usually performed with only one type of clusters. It is proposed to carry out clustering by various similarity measures to the same investigated data and to identify different types of relationships between them. This allows for a more complete, versatile, and systematic analysis of the formed segments in applied problems. This approach is verified using a practical problem of analyzing demographic processes in some European countries. 2021 Article Аналіз кластерних структур за різними мірами подібності / Н.Е. Кондрук, М.М. Маляр // Кібернетика та системний аналіз. — 2021. — Т. 57, № 3. — С. 114–120. — Бібліогр.: 15 назв. — рос. 1019-5262 http://dspace.nbuv.gov.ua/handle/123456789/190705 519.237.8 ru Кібернетика та системний аналіз Інститут кібернетики ім. В.М. Глушкова НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Russian |
topic |
Системний аналіз Системний аналіз |
spellingShingle |
Системний аналіз Системний аналіз Кондрук, Н.Е. Маляр, М.М. Аналіз кластерних структур за різними мірами подібності Кібернетика та системний аналіз |
description |
Наведено аналіз кластерних утворень, що використовують в практичних задачах. У різних дослідженнях сегментацію даних зазвичай виконують лише одною формою кластерів. Запропоновано здійснювати кластеризацію за різними мірами подібності одних і тих самих досліджуваних даних та виявляти різні види взаємозв'язків між ними. Це дає змогу проводити більш повний, різнобічний та системний аналіз утворених сегментів у прикладних задачах. Верифікацію цього підходу реалізовано на практичній задач і аналізу демографічних процесів у низці європейських країн. |
format |
Article |
author |
Кондрук, Н.Е. Маляр, М.М. |
author_facet |
Кондрук, Н.Е. Маляр, М.М. |
author_sort |
Кондрук, Н.Е. |
title |
Аналіз кластерних структур за різними мірами подібності |
title_short |
Аналіз кластерних структур за різними мірами подібності |
title_full |
Аналіз кластерних структур за різними мірами подібності |
title_fullStr |
Аналіз кластерних структур за різними мірами подібності |
title_full_unstemmed |
Аналіз кластерних структур за різними мірами подібності |
title_sort |
аналіз кластерних структур за різними мірами подібності |
publisher |
Інститут кібернетики ім. В.М. Глушкова НАН України |
publishDate |
2021 |
topic_facet |
Системний аналіз |
url |
http://dspace.nbuv.gov.ua/handle/123456789/190705 |
citation_txt |
Аналіз кластерних структур за різними мірами подібності / Н.Е. Кондрук, М.М. Маляр // Кібернетика та системний аналіз. — 2021. — Т. 57, № 3. — С. 114–120. — Бібліогр.: 15 назв. — рос. |
series |
Кібернетика та системний аналіз |
work_keys_str_mv |
AT kondrukne analízklasternihstrukturzaríznimimíramipodíbností AT malârmm analízklasternihstrukturzaríznimimíramipodíbností |
first_indexed |
2025-07-16T13:45:37Z |
last_indexed |
2025-07-16T13:45:37Z |
_version_ |
1837811407993700352 |
fulltext |
ÓÄÊ 519.237.8
Í.Å. ÊÎÍÄÐÓÊ, Ì.Ì. ÌÀËßÐ
ÀÍÀË²Ç ÊËÀÑÒÅÐÍÈÕ ÑÒÐÓÊÒÓÐ
ÇÀ вÇÍÈÌÈ Ì²ÐÀÌÈ ÏÎIJÁÍÎÑÒ²
Àíîòàö³ÿ. Íàâåäåíî àíàë³ç êëàñòåðíèõ óòâîðåíü, ùî âèêîðèñòîâóþòü â ïðàê-
òè÷íèõ çàäà÷àõ. Ó ð³çíèõ äîñë³äæåííÿõ ñåãìåíòàö³þ äàíèõ çàçâè÷àé âèêîíó-
þòü ëèøå îäíîþ ôîðìîþ êëàñòåð³â. Çàïðîïîíîâàíî çä³éñíþâàòè êëàñòåðè-
çàö³þ çà ð³çíèìè ì³ðàìè ïîä³áíîñò³ îäíèõ ³ òèõ ñàìèõ äîñë³äæóâàíèõ äàíèõ
òà âèÿâëÿòè ð³çí³ âèäè âçàºìîçâ’ÿçê³â ì³æ íèìè. Öå äຠçìîãó ïðîâîäèòè
á³ëüø ïîâíèé, ð³çíîá³÷íèé òà ñèñòåìíèé àíàë³ç óòâîðåíèõ ñåãìåíò³â ó ïðè-
êëàäíèõ çàäà÷àõ. Âåðèô³êàö³þ öüîãî ï³äõîäó ðåàë³çîâàíî íà ïðàêòè÷í³é çà-
äà÷³ àíàë³çó äåìîãðàô³÷íèõ ïðîöåñ³â ó íèçö³ ºâðîïåéñüêèõ êðà¿í.
Êëþ÷îâ³ ñëîâà: êëàñòåðèçàö³ÿ, àíàë³ç êëàñòåð³â, ³íòåðïðåòàö³ÿ êëàñòåð³â,
äåìîãðàô³÷í³ ïðîöåñè.
ÂÑÒÓÏ
Îñòàíí³ì ÷àñîì òåõíîëîã³þ êëàñòåðèçàö³¿ âèêîðèñòîâóþòü äëÿ àíàë³çó äàíèõ
ð³çíî¿ ïðèðîäè, çîêðåìà çà â³äñóòíîñò³ ïîïåðåäíüî¿ ³íôîðìàö³¿ ïðî ê³ëüê³ñòü êëàñ-
òåð³â òà íàâ÷àëüíó âèá³ðêó. Ñïåêòð çàñòîñóâàííÿ êëàñòåðíîãî àíàë³çó äóæå øèðî-
êèé òà ïðåäñòàâëåíèé â áàãàòüîõ ðîáîòàõ [1–12]. Öå äîñë³äæåííÿ ïðèñâÿ÷åíå
ï³äõîäàì äî êëàñòåðèçàö³¿, çà äîïîìîãîþ ÿêèõ ïîòð³áíî âèçíà÷èòè íå ëèøå êëàñ-
òåðíó ñòðóêòóðó îá’ºêò³â (ÿê ó çàäà÷àõ ðîçï³çíàâàííÿ îáðàç³â [1]), à é çì³ñòîâíî
³íòåðïðåòóâàòè îòðèìàí³ ñåãìåíòè (íàïðèêëàä, ðèíêó, ö³ëüîâî¿ àóäèòîð³¿, ó ìàðêå-
òèíãîâèõ äîñë³äæåííÿõ òîùî) [2–4]. Ïðè öüîìó îá´ðóíòîâàí³ñòü âèñíîâê³â ³íêîëè
íå º äîñòàòíüî ïåðåêîíëèâîþ, îñê³ëüêè ìîæëèâî ñôîðìóâàòè ð³çí³ âèäè êëàñòåð³â
íà îñíîâ³ òèõ ñàìèõ äàíèõ çàëåæíî â³ä ìåòîäó àáî ñïîñîáó ïðîâåäåííÿ àíàë³çó.
Âàæëèâå çíà÷åííÿ äëÿ îòðèìàííÿ êîðåêòíèõ ðåçóëüòàò³â ìຠâèá³ð ì³ðè
ïîä³áíîñò³, ÿêà íå ñïîòâîðþº âçàºìîçâ’ÿçê³â ì³æ îá’ºêòàìè ó ðàç³, ÿêùî ö³
âçàºìîçâ’ÿçêè ïîòðåáóþòü çì³ñòîâíî¿ ³íòåðïðåòàö³¿ [1]. Öå º ïåðøèì êðîêîì äî
âèçíà÷åííÿ âàë³äíîñò³ êëàñòåð³â, ÿêèé â³äáóâàºòüñÿ ùå äî åòàïó àíàë³çó.  îäíî-
ìó ìåòîä³ êëàñòåðèçàö³¿ ðåàë³çóþòü ò³ëüêè îäíó ì³ðó ïîä³áíîñò³. Ó áàãàòüîõ ïðî-
ãðàìíèõ ïàêåòàõ ³ àëãîðèòìàõ çàçâè÷àé âèêîðèñòîâóþòü åâêë³äîâó â³äñòàíü, ùî
çóìîâëþº óòâîðåííÿ åë³ïñî¿äíèõ êëàñòåð³â. Òîìó ïðîïîíóºòüñÿ ïðîâîäèòè àíàë³ç
äàíèõ çà ð³çíèìè ì³ðàìè ïîä³áíîñò³. Ïðèäàòíèì ³íñòðóìåíòàð³ºì äëÿ öüîãî º ìå-
òîä êëàñòåðèçàö³¿, ùî áàçóºòüñÿ íà íå÷³òêèõ á³íàðíèõ â³äíîøåííÿõ [5] òà
çä³éñíþº êëàñòåðèçàö³þ åë³ïñî¿äíó, êîíóñíó òà êîíöåíòðè÷íèìè ñôåðàìè.
ÎÃËßÄ ÑÓ×ÀÑÍÈÕ ÄÎÑË²ÄÆÅÍÜ Ç ÏÐÈÊËÀÄÍί ÊËÀÑÒÅÐÈÇÀÖ²¯
²íòåðïðåòàö³ÿ êëàñòåðíî¿ ñòðóêòóðè íàáîð³â äàíèõ º îäíèì ³ç âàæëèâèõ åòàï³â
ïðèêëàäíî¿ êëàñòåðèçàö³¿. Ìåòîþ ïðîâåäåííÿ êëàñòåðíîãî àíàë³çó â òàêèõ çà-
äà÷àõ º àíàë³ç óòâîðåíî¿ ñåãìåíòàö³¿. Öå äຠìîæëèâ³ñòü îòðèìóâàòè íîâó íå-
îáõ³äíó ³íôîðìàö³þ äëÿ ïðèéíÿòòÿ ð³øåíü ó áàãàòüîõ ñôåðàõ ä³ÿëüíîñò³.
Çîêðåìà, â [6, 7] çä³éñíåíî êëàñòåðíèé àíàë³ç ïîâåä³íêè êîðèñòóâà÷³â åëåêòðî-
åíåð㳿 ï³ä ÷àñ âèêîðèñòàííÿ ðîçóìíèõ ë³÷èëüíèê³â äëÿ ïëàíóâàííÿ ðîáîòè ðîç-
ïîä³ëüíèõ ìåðåæ. Áóëî ñôîðìîâàíî äåñÿòü ð³çíèõ ãðóï ïîâåä³íêè ê볺íò³â.
Ó ïðàö³ [8] âèçíà÷åíî ãðóïè ðèçèêó íàáóòòÿ íàäì³ðíî¿ âàãè òà âèíèêíåííÿ îæèð³ííÿ
ñåðåä ä³òåé ³ ï³äë³òê³â íà îñíîâ³ ïîêàçíèê³â ô³çè÷íî¿ àêòèâíîñò³ òà õàð÷îâèõ çâè÷îê.
Ïîâåä³íêó êîðèñòóâà÷³â çà äàíèìè ïîòîê³â êë³ê³â ó ðåàëüíèõ ñîö³àëüíèõ ìåðåæàõ
114 ISSN 1019-5262. ʳáåðíåòèêà òà ñèñòåìíèé àíàë³ç, 2021, òîì 57, ¹ 3
© Í.Å. Êîíäðóê, Ì.Ì. Ìàëÿð, 2021
ïðîàíàë³çîâàíî â [9]. Âèêîíàíî ãðóïóâàííÿ øêîëÿð³â [10] òà îô³ñíèõ ðîá³òíèê³â [11]
íà îñíîâ³ ¿õíüîãî ñïðèéíÿòòÿ êîìôîðòó ³ âàæëèâîñò³ ôàêòîð³â íàâêîëèøíüîãî ñåðå-
äîâèùà ç ïîäàëüøîþ ³íòåðïðåòàö³ºþ óòâîðåíèõ ãðóï. Âèêîðèñòàííþ êëàñòåðíîãî
àíàë³çó â ìàðêåòèíãîâèõ äîñë³äæåííÿõ òóðèñòè÷íî¿ ãàëóç³, ïðîñóâàííþ ìîá³ëüíèõ
çàñòîñóíê³â òà ðèíêó åëåêòðîìîá³ë³â ïðèñâÿ÷åíî ðîáîòè [2–4]. Ó öèõ äîñë³äæåííÿõ
íà áàç³ çì³ñòîâíî¿ ³íòåðïðåòàö³¿ óòâîðåíèõ ñåãìåíò³â ö³ëüîâèõ êîðèñòóâà÷³â ïîáóäî-
âàíî ¿õí³é ïðîô³ëü. Òàêîæ ó [12] ïðîâåäåíî àíàë³ç ñåãìåíò³â, óòâîðåíèõ íà îñíîâ³
³íòåíñèâíîñò³ ì³ãðàö³éíîãî ðóõó íàñåëåííÿ â ðåã³îíàõ Óêðà¿íè. Îäíàê â óñ³õ çãàäà-
íèõ çàñòîñóâàííÿõ êëàñòåðíîãî àíàë³çó ðåàë³çîâàíî ëèøå îäíó ì³ðó ïîä³áíîñò³ äà-
íèõ. Äëÿ çàáåçïå÷åííÿ ñèñòåìíîãî ï³äõîäó äî àíàë³çó ñåãìåíòàö³é ïðîïîíóºòüñÿ âè-
êîðèñòîâóâàòè òðè ì³ðè ïîä³áíîñò³ íà áàç³ ìåòîäó êëàñòåðèçàö³¿, ÿêèé ´ðóíòóºòüñÿ íà
íå÷³òêèõ á³íàðíèõ â³äíîøåííÿõ [5], ùî äຠçìîãó çä³éñíþâàòè á³ëüø ïîâíèé,
ð³çíîá³÷íèé àíàë³ç óòâîðåíèõ êëàñòåð³â.
ÏÎÑÒÀÍÎÂÊÀ ÇÀÄÀײ. ÌÅÒÎÄÈ ÏÐÈÊËÀÄÍί ÊËÀÑÒÅÐÈÇÀÖ²¯
Íåõàé îá’ºêòè (äàí³) O Om1, ,� õàðàêòåðèçóþòüñÿ n ê³ëüê³ñíèìè îçíàêàìè (àòðèáó-
òàìè). Êîæíîìó îá’ºêòó Oi , i m�1, , ñòàâèòüñÿ ó â³äïîâ³äí³ñòü âåêòîð îçíàê
c c c ci
i i
n
i( , , , )1 2 � , i m�1, . Çãðóïóâàâøè âåêòîðè îçíàê, ñåãìåíòóºìî òàêîæ îá’ºêòè.
Ñòàâèòüñÿ çàäà÷à âèêîíàòè êëàñòåðèçàö³þ öèõ îá’ºêò³â çà ð³çíèìè ì³ðàìè
ïîä³áíîñò³ òà çì³ñòîâíî ³íòåðïðåòóâàòè îòðèìàí³ ñåãìåíòè.
Äëÿ ðåàë³çàö³¿ ïðîöåñó êëàñòåðèçàö³¿ âèáðàíî ìåòîä, ùî áàçóºòüñÿ íà
íå÷³òêèõ á³íàðíèõ â³äíîøåííÿõ [5, ï. 6]. ³í äຠìîæëèâ³ñòü ãðóïóâàòè îá’ºêòè
êëàñòåðàìè ð³çíèõ ãåîìåòðè÷íèõ ôîðì, çì³íþþ÷è ëèøå ì³ðè ïîä³áíîñò³ îá’ºêò³â.
Äëÿ âèçíà÷åííÿ ê³ëüêîñò³ êëàñòåð³â çàäàþòü ïåâí³ âåëè÷èíè — ïîðîãè êëàñòåðè-
çàö³¿ �R
� , ùî õàðàêòåðèçóþòü ñòóï³íü ïîä³áíîñò³ îá’ºêò³â ó ñåðåäèí³ êëàñòåðà.
Çì³íþþ÷è ïîðîãè êëàñòåðèçàö³¿, ìîæíà ïðîàíàë³çóâàòè äèíàì³êó ôîðìóâàííÿ
êëàñòåð³â, äîñë³äèòè ¿õíþ ñòðóêòóðó òà âçàºìîçâ’ÿçêè ì³æ îá’ºêòàìè.
Ïîä³áí³ñòü îá’ºêò³â çà äåÿêèì êðèòåð³ºì õàðàêòåðèçóºòüñÿ íå÷³òêèì á³íàðíèì
â³äíîøåííÿì R íà ìíîæèí³ âåêòîðíèõ îçíàê C c i mi� �{ }| ,1 ³ç ôóíêö³ºþ íàëåæ-
íîñò³ �R i jc c( , ) , äå �R C: [ , ]2 0 1� . Âèäè ôóíêö³¿ �R ìîæóòü áóòè ð³çíèìè, àëå
÷èì ¿¿ çíà÷åííÿ áëèæ÷å äî 1, òèì á³ëüøîþ ì³ðîþ îá’ºêòè Oi òà O j ìàþòü áóòè
ïîä³áíèìè çà ïåâíèì êðèòåð³ºì. Äëÿ äîñë³äæåííÿ âèêîðèñòàíî òðè òèïè
ïîä³áíîñò³ îá’ºêò³â.
̳ðó ïîä³áíîñò³ «â³äñòàíü» îïèñóþòü íå÷³òêèì á³íàðíèì â³äíîøåííÿì R dis
òà ôóíêö³ºþ íàëåæíîñò³ âèãëÿäó
�
R i j
i j
p l m
p l
c c
c c
c c
dis ( , ) exp
| |
max | |
, ,
� �
�
�
�
�
�
�
�
�
��1
�
. (1)
Òîáòî, ÷èì áëèæ÷èìè áóäóòü òî÷êè Ci òà C j , òèì áëèæ÷å çíà÷åííÿ �
R dis
áóäå äî 1. Âèêîðèñòàííÿ îäíîð³âíåâîãî ìåòîäó êëàñòåðèçàö³¿, îñíîâàíîãî íà
íå÷³òêèõ á³íàðíèõ â³äíîøåííÿõ çà ì³ðîþ ïîä³áíîñò³ R dis, çàáåçïå÷óº óòâîðåí-
íÿ åë³ïñîïîä³áíèõ êëàñòåð³â.
̳ðó ïîä³áíîñò³ «äîâæèíà» îïèñóþòü á³íàðíèì â³äíîøåííÿì R len ³ç
ôóíêö³ºþ íàëåæíîñò³ òàêîãî âèãëÿäó:
�
R i j
i j
p m
p
p m
c c
c c
c
len ( , ) exp
| | | | | |
max | | min |
, ,
� �
�
�
� �1 1
cp |
�
�
�
�
�
�
�
�
. (2)
ISSN 1019-5262. ʳáåðíåòèêà òà ñèñòåìíèé àíàë³ç, 2021, òîì 57, ¹ 3 115
Öÿ ì³ðà âèçíà÷ຠïîä³áí³ñòü âåêòîð³â-îçíàê çà äîâæèíîþ òà çóìîâëþº óòâî-
ðåííÿ êëàñòåð³â ó ôîðì³ êîíöåíòðè÷íèõ ñôåð.
«Êóòîâå» íå÷³òêå á³íàðíå â³äíîøåííÿ R ang õàðàêòåðèçóº êóò ì³æ âåêòîðàìè
îçíàê ci òà c j . Éîãî âèêîðèñòàííÿ äຠçìîãó çä³éñíþâàòè êëàñòåðèçàö³þ êîí³÷íè-
ìè êëàñòåðàìè. Ôóíêö³þ íàëåæíîñò³ öüîãî â³äíîøåííÿ âèçíà÷àþòü ôîðìóëîþ
�
R i j
i j
i j
c c
c c
c c
ang ( , ) exp
| | | |
�
�
�
�
�
�
�
�
�
�
�
1
2
. (3)
Ó êîæíîìó ³ç âèïàäê³â (1)–(3) àðãóìåíòîì åêñïîíåíòè º íîðìîâàí³ âåëè÷è-
íè, ùî çì³íþþòüñÿ â³ä 0 äî 1. Òîìó ¿¿ çíà÷åííÿìè áóäóòü â³äïîâ³äíî âåëè÷èíè
â³ä 1 äî 1/ e. Êð³ì òîãî, ïðîâåäåííÿ ïðàêòè÷íèõ åêñïåðèìåíò³â ïîêàçàëî, ùî «õî-
ðîøà» ÷óòëèâ³ñòü åêñïîíåíòè â îêîë³ ñâîãî ãðàíè÷íîãî çíà÷åííÿ 1 äຠçìîãó âè-
êîíóâàòè êëàñòåðèçàö³þ îá’ºêò³â äëÿ âñ³õ ìîæëèâèõ ïîðîãîâèõ âåëè÷èí �
R*
ïðîì³æêó [0; 1] ³ç ïåâíîþ òî÷í³ñòþ (íàïðèêëàä, ³ç òî÷í³ñòþ 0.01).
ÊËÀÑÒÅÐÈÇÀÖ²ß ÍÈÇÊÈ ªÂÐÎÏÅÉÑÜÊÈÕ ÊÐÀ¯Í ÇÀ ÏÐÈÐÎÄÍÈÌ
² ̲ÃÐÀÖ²ÉÍÈÌ ÏÐÈÐÎÑÒÎÌ ÍÀÑÅËÅÍÍß
Äëÿ ñåãìåíòóâàííÿ äàíèõ ó ïðàêòè÷íèõ çàäà÷àõ ð³çíèìè ãåîìåòðè÷íèìè ôîðìà-
ìè êëàñòåð³â ðîçðîáëåíî ïðîãðàìíó ñèñòåìó, ùî ðåàë³çóº êëàñòåðèçàö³þ, îñíî-
âàíó íà íå÷³òêèõ á³íàðíèõ â³äíîøåííÿõ çà ì³ðàìè ïîä³áíîñò³ (1)–(3), òà âèáðàíî
äâîâèì³ðí³ äàí³, îñê³ëüêè öå íàäຠäîäàòêîâó ìîæëèâ³ñòü âåðèô³êóâàòè îòðè-
ìàí³ ðåçóëüòàòè äîñë³äæåííÿ. Ó íàø ÷àñ ó áàãàòüîõ êðà¿íàõ ñâ³òó â³äáóâàþòüñÿ
øâèäê³ çì³íè â äåìîãðàô³÷íèõ ïðîöåñàõ, ùî ìຠâåëè÷åçíèé âïëèâ íà åêî-
íîì³êó. Òîìó äëÿ ïðîâåäåííÿ àíàë³çó âèêîðèñòàíî ðåàëüí³ äàí³ ³ç îô³ö³éíîãî
ñàéòó ªâðîñòàòó [13] ïðî ïðèðîäíèé òà ì³ãðàö³éíèé ïðèð³ñò (ñêîðî÷åííÿ) íàñå-
ëåííÿ â 29 ºâðîïåéñüêèõ êðà¿íàõ çà 2019 ð. Íàâåäåìî ïåðåë³ê öèõ êðà¿í
(îá’ºêò³â): 1 — Áåëüã³ÿ, 2 — Áîëãàð³ÿ, 3 — ×åõ³ÿ, 4 — Äàí³ÿ, 5 — ͳìå÷÷èíà,
6 — Åñòîí³ÿ, 7 — ²ðëàíä³ÿ, 8 — Ãðåö³ÿ, 9 — ²ñïàí³ÿ, 10 — Ôðàíö³ÿ, 11 —
Õîðâàò³ÿ, 12 — ²òàë³ÿ, 13 — Ëàòâ³ÿ, 14 — Ëèòâà, 15 — Óãîðùèíà, 16 — Ìàëü-
òà, 17 — ͳäåðëàíäè, 18 — Àâñòð³ÿ, 19 — Ïîëüùà, 20 — Ïîðòóãàë³ÿ, 21 —
Ðóìóí³ÿ, 22 — Ñëîâà÷÷èíà, 23 — Ô³íëÿíä³ÿ, 24 — Øâåö³ÿ, 25 — Âåëèêîáðè-
òàí³ÿ, 26 — ²ñëàíä³ÿ, 27 — ˳õòåíøòåéí, 28 — Íîðâåã³ÿ, 29 — Øâåéöàð³ÿ.
Äëÿ ïîð³âíÿííÿ îòðèìàíèõ ðåçóëüòàò³â êëàñòåðèçàö³¿ çà ð³çíèìè òèïàìè ïîä³á-
íîñò³ âèáðàíî ïîðîãîâ³ çíà÷åííÿ �R
� , ùî â³äïîâ³äàþòü ñòðóêòóð³ ³ç òðüîõ êëàñòåð³â.
Ó ðàç³ âèêîðèñòàííÿ ïîðîãîâèõ äàíèõ �
R dis
� � 0.75 çà ì³ðîþ ïîä³áíîñò³
«â³äñòàíü» (1) îòðèìàíî òàê³ ãðóïè îá’ºêò³â:
êëàñòåð 1 — îá’ºêòè çà íîìåðàìè 1, 2, 3, 4, 6, 7, 8, 11, 13, 14, 15, 16, 17, 18,
19, 20, 21, 22, 23, 24, 26, 27, 28, 29;
êëàñòåð 2 — îá’ºêòè çà íîìåðàìè 5, 9, 12;
êëàñòåð 3 — îá’ºêòè çà íîìåðàìè 10, 25.
Íà ðèñ. 1 íàâåäåíî ãðàô³÷íó ³íòåðïðåòàö³þ êëàñòåðèçàö³¿ íà îñíîâ³ ì³ðè
ïîä³áíîñò³ R dis, äå x1 — ïðèðîäíèé ïðèð³ñò íàñåëåííÿ, x2 — ì³ãðàö³éíèé.
Ðåçóëüòàòè ãðóïóâàííÿ çà ì³ðîþ ïîä³áíîñò³ R len (2) íà òðè êëàñòåðè
â³äïîâ³äàþòü ïîðîãîâîìó çíà÷åííþ �
R len
� � 0.84:
êëàñòåð 1 — îá’ºêòè çà íîìåðàìè 1, 2, 3, 4, 6, 7, 8, 11, 13, 14, 15, 16, 17, 18,
19, 20, 21, 22, 23, 24, 26, 27, 28, 29;
êëàñòåð 2 — îá’ºêòè çà íîìåðàìè 10, 12;
êëàñòåð 3 — îá’ºêòè çà íîìåðàìè 5, 9, 25.
116 ISSN 1019-5262. ʳáåðíåòèêà òà ñèñòåìíèé àíàë³ç, 2021, òîì 57, ¹ 3
Íà ðèñ. 2 â³çóàë³çîâàíî êëàñòåðè, óòâîðåí³ çà ì³ðîþ ïîä³áíîñò³ R len .
Çà ì³ðîþ ïîä³áíîñò³ R ang òà çíà÷åííÿì ïîðîãîâîãî êîåô³ö³ºíòà �
R
ang
* = 0.84
ñôîðìîâàíî òðè êëàñòåðè:
êëàñòåð 1 — îá’ºêòè çà íîìåðàìè 2, 11, 13, 14, 21;
êëàñòåð 2 — îá’ºêòè çà íîìåðàìè 8, 12, 15, 19, 20, 5;
êëàñòåð 3 — îá’ºêòè çà íîìåðàìè 1, 3, 4, 6, 7, 9, 10, 16, 17, 18, 22,
23, 24, 25, 26, 27, 28, 29.
Äëÿ óíàî÷íåííÿ âñ³ âåêòîðè îçíàê ïåðåâåäåíî â îðòè, îñê³ëüêè ôóíêö³ÿ íà-
ëåæíîñò³ êîíóñíî¿ ì³ðè ïîä³áíîñò³ �
R
ang âðàõîâóº ëèøå êóò ì³æ âåêòîðàìè ³ íå
çàëåæèòü â³ä ¿õíüî¿ äîâæèíè (ðèñ. 3).
ISSN 1019-5262. ʳáåðíåòèêà òà ñèñòåìíèé àíàë³ç, 2021, òîì 57, ¹ 3 117
Ðèñ. 1
Ðèñ. 2
x2
x1
x1
x2
²ç îäåðæàíèõ ðåçóëüòàò³â âèïëèâàº, ùî êëàñòåðèçàö³ÿ, ïðîâåäåíà çà ì³ðàìè
ïîä³áíîñò³ (1)–(3) äëÿ îäíèõ ³ òèõ ñàìèõ íàáîð³â äàíèõ º ð³çíîþ. Äàë³ íàâåäåìî
îäíó ³ç ìîæëèâèõ çì³ñòîâíèõ ³íòåðïðåòàö³é îòðèìàíèõ ãðóï.
Âèêîðèñòàííÿ ì³ðè ïîä³áíîñò³ «â³äñòàíü» çóìîâëþº óòâîðåííÿ åë³ïòè÷íèõ
êëàñòåð³â. Ñôîðìîâàíó ó òàêèé ñïîñ³á ñòðóêòóðó ìîæíà ³íòåðïðåòóâàòè ÿê òàêó,
ùî ãðóïóº êðà¿íè çà ÷èñëîâîþ âåëè÷èíîþ ì³ãðàö³éíîãî òà ïðèðîäíîãî ðóõó íàñå-
ëåííÿ. Êëàñòåð 1 ì³ñòèòü êðà¿íè ³ç íèçüêèìè ïîêàçíèêàìè ì³ãðàö³éíîãî òà ïðè-
ðîäíîãî ïðèðîñòó ÷è ñêîðî÷åííÿ íàñåëåííÿ; êëàñòåð 2 (ͳìå÷÷èíà, ²ñïàí³ÿ,
²òàë³ÿ) — ³ç âèñîêèì ì³ãðàö³éíèì ïðèðîñòîì, àëå ïðèðîäíèì ñêîðî÷åííÿì íàñå-
ëåííÿ; êëàñòåð 3 (Ôðàíö³ÿ, Âåëèêîáðèòàí³ÿ) — ³ç âèñîêèì ïðèðîäíèì òà
ì³ãðàö³éíèì ïðèðîñòîì. Ö³êàâèì º òîé ôàêò, ùî äëÿ ôîðìóâàííÿ êëàñòåðà 1 êëþ-
÷îâèìè áóëè àáñîëþòí³ âåëè÷èíè îáîõ îçíàê, äëÿ êëàñòåðà 2 ãðóïóâàííÿ
çä³éñíþâàëîñÿ çà âåëè÷èíîþ ì³ãðàö³éíîãî ïðèðîñòó (çà îçíàêîþ ïðèðîäíîãî ñêî-
ðî÷åííÿ âðàõîâóâàâñÿ ëèøå éîãî â³ä’ºìíèé çíàê).
Ó ðàç³ ãðóïóâàííÿ îá’ºêò³â êëàñòåðàìè ó ôîðì³ êîíöåíòðè÷íèõ ñôåð çíàêè
÷èñëîâèõ âåëè÷èí îçíàê äî óâàãè íå áåðóòü. Êëàñòåðíà ñòðóêòóðà ïðè öüîìó ìîæå
áóòè ³íòåðïðåòîâàíà ÿê òàêà, ùî âèçíà÷ຠ³íòåíñèâí³ñòü ïðîÿâó îçíàê. Êëàñòåð 1
³ äëÿ ö³º¿ ñòðóêòóðè íå çì³íèâñÿ òà ì³ñòèòü 24 êðà¿íè ³ç ñëàáî âèðàæåíîþ ³íòåí-
ñèâí³ñòþ ïðèðîñòó íàñåëåííÿ, êëàñòåð 2 (²òàë³ÿ, Ôðàíö³ÿ) — êðà¿íè ³ç ñåðåäíüîþ
³íòåíñèâí³ñòþ ì³ãðàö³éíîãî òà ïðèðîäíîãî ïðèðîñòó íàñåëåííÿ, à êëàñòåð 3
(ͳìå÷÷èíà, ²ñïàí³ÿ, Âåëèêîáðèòàí³ÿ) — ³ç çíà÷íîþ ³íòåíñèâí³ñòþ öèõ îçíàê.
Êóòîâà ì³ðà ïîä³áíîñò³ (3) ôîðìóº êëàñòåðè êîí³÷íî¿ ôîðìè. Öÿ ñòðóêòóðà
âèçíà÷ຠêðà¿íè ³ç ñõîæèì õàðàêòåðîì îçíàê. Äî êëàñòåðà 1 (Áîëãàð³ÿ, Õîðâàò³ÿ,
Ëàòâ³ÿ, Ëèòâà, Ðóìóí³ÿ) íàëåæàòü êðà¿íè ³ç ñêîðî÷åííÿì íàñåëåííÿ çà îáîìà àò-
ðèáóòàìè (çîêðåìà, Ðóìóí³ÿ ìຠáëèçüêèé äî 0 ïðèðîäíèé ïðèð³ñò). Êëàñòåð 2
(Ãðåö³ÿ, ²òàë³ÿ, Óãîðùèíà, Ïîëüùà, Ïîðòóãàë³ÿ, ͳìå÷÷èíà) ìîæíà ³íòåðïðåòóâà-
òè ÿê òàêèé, ùî ì³ñòèòü êðà¿íè ³ç ì³ãðàö³éíèì ïðèðîñòîì òà ïðèðîäíèì ñêîðî-
÷åííÿì íàñåëåííÿ, êëàñòåð 3 — ³ç ïðèðîñòîì íàñåëåííÿ çà öèìè ñàìèìè îçíàêà-
ìè. Öå òâåðäæåííÿ º íå çîâñ³ì êîðåêòíèì ùîäî îá’ºêòà çà íîìåðîì 9 (²ñïàí³ÿ)
êëàñòåðà 3, äå ñïîñòåð³ãàºòüñÿ «â³ä’ºìíèé» ïðèðîäíèé ïðèð³ñò, àëå â³í áëèçüêèé
äî 0. Ñë³ä çàóâàæèòè, ùî äëÿ âñ³õ ãðàíè÷íèõ îá’ºêò³â êëàñòåð³â çàãàëüíèé õàðàê-
118 ISSN 1019-5262. ʳáåðíåòèêà òà ñèñòåìíèé àíàë³ç, 2021, òîì 57, ¹ 3
Ðèñ. 3
x1
x2
òåð ïîâåä³íêè îçíàê ó êîæíîìó ñåãìåíò³ ìîæå äåùî â³äð³çíÿòèñü, àëå ìåòîä, ùî
´ðóíòóºòüñÿ íà íå÷³òêèõ á³íàðíèõ â³äíîøåííÿõ [5, ï. 6], òàêîæ ìຠ³íñòðóìåíòè
âèçíà÷åííÿ ãðàíè÷íèõ îá’ºêò³â äëÿ êîæíîãî êëàñòåðà.
Öå äîñë³äæåííÿ º ïðîäîâæåííÿì ðîá³ò [5, 12, 14, 15] ñòîñîâíî âèêîðèñòàííÿ
³íñòðóìåíò³â êëàñòåðíîãî àíàë³çó äëÿ àíàë³òèêè ïðèêëàäíèõ äàíèõ. Ó ïåðñïåê-
òèâ³ ïåðåäáà÷àºòüñÿ ðîçðîáèòè óçàãàëüíåíèé ³íäåêñ äëÿ âèçíà÷åííÿ îö³íêè ÿêîñò³
êëàñòåðíî¿ ñòðóêòóðè, óòâîðåíî¿ íà îñíîâ³ ì³ð ïîä³áíîñò³ (2), (3); ïîáóäóâàòè àâ-
òîìàòèçîâàíó ³íòåëåêòóàëüíó ñèñòåìó, ÿêà á íàäàâàëà çìîãó ðåàë³çîâóâàòè êëàñ-
òåðíèé àíàë³ç äàíèõ ð³çíî¿ ïðèðîäè çà ð³çíèìè êðèòåð³ÿìè ïîä³áíîñò³.
ÂÈÑÍÎÂÊÈ
Ðîçãëÿíóòî ïðîáëåìó âèêîðèñòàííÿ ñèñòåìíîãî ï³äõîäó â êëàñòåðíîìó àíàë³ç³
äî äîñë³äæåííÿ íàáîð³â äàíèõ íà ³ñíóâàííÿ ð³çíèõ âèä³â çâ’ÿçê³â. Âïåðøå äî
îäíîãî ³ òîãî ñàìîãî íàáîðó äàíèõ çàñòîñîâàíî êëàñòåðèçàö³þ íà îñíîâ³
íå÷³òêèõ á³íàðíèõ â³äíîøåíü [5] çà ð³çíèìè ì³ðàìè ïîä³áíîñò³ (1)–(3). Ïîêàçà-
íî, ùî âèêîðèñòàííÿ ì³ð ïîä³áíîñò³ çà â³äñòàííþ, äîâæèíîþ òà êóòîì äàº
ìîæëèâ³ñòü âèÿâèòè ð³çí³ êëàñòåðí³ ñòðóêòóðè, ùî õàðàêòåðèçóþòü ð³çí³
çì³ñòîâí³ ³íòåðïðåòàö³¿ çâ’ÿçê³â îá’ºêò³â ó êîæíîìó îêðåìîìó ñåãìåíò³. Òàêèé
ï³äõ³ä ñïðèÿº á³ëüø ïîâíîìó ðîçóì³ííþ äàíèõ ó ðàç³ ðîçâ’ÿçàííÿ çàäà÷³ âèçíà-
÷åííÿ ³íäèêàö³¿ çì³ñòó îòðèìàíîãî êëàñòåðà. Òàêîæ ðîçðîáëåíî ïðîãðàìíó ñèñ-
òåìó, ÿêà ðåàë³çóº ìåòîä êëàñòåðèçàö³¿, ùî ´ðóíòóºòüñÿ íà íå÷³òêèõ á³íàðíèõ
â³äíîøåííÿõ R dis, R len , R ang [5], òà äຠçìîãó óòâîðþâàòè êëàñòåðè ð³çíèõ ãåî-
ìåòðè÷íèõ ôîðì (åë³ïñî¿äí³, êîíóñîïîä³áí³, êîíöåíòðè÷íèõ ñôåð). Âèêîíàíî àï-
ðîáàö³þ ñèñòåìè íà àêòóàëüí³é ïðèêëàäí³é çàäà÷³ êëàñòåðèçàö³¿ êðà¿í ªâðîïè çà
ì³ãðàö³éíèì òà ïðèðîäíèì ïðèðîñòîì (ñêîðî÷åííÿì) çà 2019 ð³ê.
ÑÏÈÑÎÊ Ë²ÒÅÐÀÒÓÐÈ
1. Hulianytskyi L.F., Riasna I.I. Automatic classification method based on a fuzzy similarity relation.
Cybernetics and Systems Analysis. 2016. Vol. 52, N 1. P. 30–37. https://doi.org/10.1007/
s10559-016-9796-3.
2. Lascu D.-N., Manrai L.A., Manrai A.K., Gan A. A cluster analysis of tourist attractions in Spain: Natural
and cultural traits and implications for global tourism. European Journal of Management and Business
Economics. 2018. Vol. 27, N 3. P. 218–230. https://doi.org/10.1108/EJMBE-08-2017-0008.
3. Sanders I., Short C.E., Bogomolova S., Stanford T., Plotnikoff R., Vandelanotte C., Olds T.,
Edney S., Ryan J., Curtis R.G., Maher C. Characteristics of adopters of an online social networking
physical activity mobile phone app: Cluster analysis. JMIR Mhealth Uhealth. 2019. Vol. 7, N 6.
P. 1–11. https://doi.org/10.2196/12484.
4. Morton C., Anable J., Nelson J.D. Consumer structure in the emerging market for electric vehicles:
Identifying market segments using cluster analysis. International Journal of Sustainable
Transportation. 2017. Vol. 11, N 6. P. 443–459. https://doi.org/10.1080/15568318.2016.1266533.
5. Kondruk N. Clustering method based on fuzzy binary relation. Eastern-European Journal of
Enterprise Technologies. 2017. Vol. 2, N 4. P. 10–16. https://doi.org/10.15587/1729-4061.2017.94961.
6. Haben S., Singleton C., Grindrod P. Analysis and clustering of residential customers energy
behavioral demand using smart meter data. IEEE Trans. on Smart Grid. 2015. Vol. 7, N 1.
P. 136–144. https://doi.org/10.1109/TSG.2015.2409786.
7. Geng D., Xia X., Fu X. A knowledge discovery method for characteristics extraction of power
consumption based on cluster analysis. Chinese Automation Congress (22–24 Nov 2019, Hangzhou,
China). Hangzhou, China, 2019. P. 1288–1292. https://doi.org/10.1109/CAC48633.2019.8996438.
ISSN 1019-5262. ʳáåðíåòèêà òà ñèñòåìíèé àíàë³ç, 2021, òîì 57, ¹ 3 119
8. Leech R.M., McNaughton S.A., Timperio A. The clustering of diet, physical activity and sedentary
behavior in children and adolescents: a review. International Journal of Behavioral Nutrition and
Physical Activity. 2014. Vol. 11, N 4. P. 1–9. https://doi.org/10.1186/1479-5868-11-4.
9. Wang G., Zhang X., Tang S., Zheng H., Zhao B. Unsupervised clickstream clustering for user
behavior analysis. CHI Conf. on Human Factors in Computing Systems (6–12 May 2016, New
York). New York, 2016. P. 225–236. https://doi.org/10.1145/2858036.2858107.
10. Zhang D., Ortiz M.A., Bluyssen P.M. Clustering of Dutch school children based on their preferences
and needs of the IEQ in classrooms. Building and Environment. 2019. Vol. 147. P. 258–266.
https://doi.org/10.1016/j.buildenv.2018.10.014.
11. Kim D.H., Bluyssen P.M. Clustering of office workers from the OFFICAIR study in
The Netherlands based on self-reported health and comfort. Building and Environment. 2020.
Vol. 176. P. 1–19. https://doi.org/10.1016/j.buildenv.2020.106860.
12. Êondruk N.E. Use of length-based similarity measure in clustering problems. Radio Electronics.
Computer Science. Control. 2018. N 3. P. 98–105. https://doi.org/10.15588/1607-3274-2018-3-11.
13. Eurostat. European Statistical System. URL: https://ec.europa.eu/.
14. Êondruk N.E. A comparative study of cluster validity indices. Radio Electronics. Computer Science.
Control. 2019. N 4. P. 59–67. https://doi.org/10.15588/1607-3274-2019-4-6.
15. Ìàëÿð Ì.Ì., Êîíäðóê Í.Å. Ñòðóêòóðóâàííÿ êðèòåð³àëüíîãî ïðîñòîðó çà êóòîâîþ ì³ðîþ ïîä³áíîñò³.
Íàóê. â³ñí. Óæãîðîä. óí-òó. Cåð³ÿ «Ìàòåìàòèêà ³ ³íôîðìàòèêà». 2020. Âèï. ¹ 1 (36). C. 85–91.
https://doi.org/10.24144/2616-7700.2020.1(36).85-91.
Íàä³éøëà äî ðåäàêö³¿ 16.09.2020
Í.Ý. Êîíäðóê, Í.Í. Ìàëÿð
ÀÍÀËÈÇ ÊËÀÑÒÅÐÍÛÕ ÑÒÐÓÊÒÓÐ ÏÎ ÐÀÇÍÛÌ ÌÅÐÀÌ ÑÕÎÄÑÒÂÀ
Àííîòàöèÿ. Ïðèâåäåí àíàëèç êëàñòåðíûõ îáðàçîâàíèé, èñïîëüçóåìûõ â ïðàê-
òè÷åñêèõ çàäà÷àõ.  ðàçëè÷íûõ èññëåäîâàíèÿõ ñåãìåíòàöèþ äàííûõ îáû÷íî
âûïîëíÿþò òîëüêî îäíîé ôîðìîé êëàñòåðîâ. Ïðåäëîæåíî îñóùåñòâëÿòü êëàñ-
òåðèçàöèþ ðàçíûìè ìåðàìè ñõîäñòâà îäíèõ è òåõ æå èññëåäóåìûõ äàííûõ è
âûÿâëÿòü ðàçëè÷íûå âèäû âçàèìîñâÿçåé ìåæäó íèìè. Ýòî ïîçâîëÿåò ïðîâî-
äèòü áîëåå ïîëíûé, ðàçíîñòîðîííèé è ñèñòåìíûé àíàëèç îáðàçîâàííûõ ñåã-
ìåíòîâ â ïðèêëàäíûõ çàäà÷àõ. Âåðèôèêàöèÿ òàêîãî ïîäõîäà ðåàëèçîâàíà íà
ïðàêòè÷åñêîé çàäà÷å àíàëèçà äåìîãðàôè÷åñêèõ ïðîöåññîâ â íåêîòîðûõ åâðî-
ïåéñêèõ ñòðàíàõ.
Êëþ÷åâûå ñëîâà: êëàñòåðèçàöèÿ, àíàëèç êëàñòåðîâ, èíòåðïðåòàöèÿ êëàñòå-
ðîâ, äåìîãðàôè÷åñêèå ïðîöåññû.
N.E. Kondruk, M.M. Malyar
ANALYSIS OF CLUSTER STRUCTURES BY DIFFERENT SIMILARITY MEASURES
Abstract. The cluster analysis formations used in practical tasks is presented.
In various studies, data segmentation is usually performed with only one type of
clusters. It is proposed to carry out clustering by various similarity measures to
the same investigated data and to identify different types of relationships
between them. This allows for a more complete, versatile, and systematic
analysis of the formed segments in applied problems. This approach is verified
using a practical problem of analyzing demographic processes in some European
countries.
Keywords: clustering, cluster analysis, cluster interpretation, demographic
processes.
Êîíäðóê Íàòàë³ÿ Åìåðèõ³âíà,
êàíäèäàòêà òåõí. íàóê, äîöåíòêà êàôåäðè Äåðæàâíîãî âèùîãî íàâ÷àëüíîãî çàêëàäó «Óæãîðîäñüêèé
íàö³îíàëüíèé óí³âåðñèòåò», e-mail: natalia.kondruk@uzhnu.edu.ua.
Ìàëÿð Ìèêîëà Ìèêîëàéîâè÷,
äîêòîð òåõí. íàóê, ïðîôåñîð êàôåäðè Äåðæàâíîãî âèùîãî íàâ÷àëüíîãî çàêëàäó «Óæãîðîäñüêèé
íàö³îíàëüíèé óí³âåðñèòåò», e-mail: mykola.malyar@uzhnu.edu.ua.
120 ISSN 1019-5262. ʳáåðíåòèêà òà ñèñòåìíèé àíàë³ç, 2021, òîì 57, ¹ 3
|