Інформаційна технологія кластеризації даних у часовому періоді спостережень

Кластерний аналіз є актуальним напрямом інтелектуального аналізу даних (Data Mining). Застосування методів кластеризації дозволяє зрозуміти структуру багатовимірних даних; спростити подальшу обробку, використовуючи різні методи аналізу для кожного кластера; скоротити вихідну вибірку даних, залишивши...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2013
Hauptverfasser: Байбуз, О.Г., Сидорова, М.Г.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України 2013
Schriftenreihe:Системні дослідження та інформаційні технології
Schlagworte:
Online Zugang:http://dspace.nbuv.gov.ua/handle/123456789/85135
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Інформаційна технологія кластеризації даних у часовому періоді спостережень / О.Г. Байбуз, М.Г. Сидорова // Системні дослідження та інформаційні технології. — 2013. — № 4. — С. 59-66. — Бібліогр.: 11 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-85135
record_format dspace
spelling irk-123456789-851352015-07-20T03:02:35Z Інформаційна технологія кластеризації даних у часовому періоді спостережень Байбуз, О.Г. Сидорова, М.Г. Методи оптимізації, оптимальне управління і теорія ігор Кластерний аналіз є актуальним напрямом інтелектуального аналізу даних (Data Mining). Застосування методів кластеризації дозволяє зрозуміти структуру багатовимірних даних; спростити подальшу обробку, використовуючи різні методи аналізу для кожного кластера; скоротити вихідну вибірку даних, залишивши по одному найбільш типовому представнику кожної групи; виявити новизну, нетипові об’єкти, які не вдається приєднати до жодного з класів; сформулювати або перевірити гіпотези на підставі отриманих результатів. Запропоновано новий підхід до виділення груп об’єктів, схожих між собою за набором ознак, які змінюються у часі. Розроблено інформаційну технологію оцінки якості й підвищення стійкості кластеризації. Представлено результати практичної реалізації запропонованої технології на даних гідрохімічного моніторингу водних об’єктів у районі з підвищеним техногенним навантаженням. Кластерный анализ является актуальным направлением интеллектуального анализа данных (Data Mining). Применение методов кластеризации позволяет понять структуру многомерных данных; упростить дальнейшую обработку, используя различные методы анализа для каждого кластера; сократить исходную выборку данных, оставив по одному наиболее типичному представителю каждой группы; выявить новизну, нетипичные объекты, которые не удаётся присоединить ни к одному из классов; сформулировать или проверить гипотезы на основании полученных результатов. Предложен новый подход к выделению групп объектов, сходных между собой по набору признаков, которые изменяются во времени. Разработана информационная технология оценки качества и повышения устойчивости кластеризации. Представлены результаты практической реализации предложенной технологии на данных гидрохимического мониторинга водных объектов в районе с повышенной техногенной нагрузкой. Cluster analysis is an important task of data mining. The use of clustering techniques allows to understand the structure of multidimensional data; to simplify further processing using different methods of analysis for each cluster; reduce the original sample data, leaving the most typical representatives of each group; detect novelty, atypical objects that can not be attached to any of the classes; formulate or test hypotheses based on the results. In this article а new approach to the selection of groups of objects that are similar to each other on a set of features that changing over time has been proposed. Information technology of quality assessment and improvement of the stability of clustering has been developed. The results of practical implementation of the proposed technology to data of hydrochemical monitoring of water objects in the area with high technological load have been presented. 2013 Article Інформаційна технологія кластеризації даних у часовому періоді спостережень / О.Г. Байбуз, М.Г. Сидорова // Системні дослідження та інформаційні технології. — 2013. — № 4. — С. 59-66. — Бібліогр.: 11 назв. — укр. 1681–6048 http://dspace.nbuv.gov.ua/handle/123456789/85135 519.254 uk Системні дослідження та інформаційні технології Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
topic Методи оптимізації, оптимальне управління і теорія ігор
Методи оптимізації, оптимальне управління і теорія ігор
spellingShingle Методи оптимізації, оптимальне управління і теорія ігор
Методи оптимізації, оптимальне управління і теорія ігор
Байбуз, О.Г.
Сидорова, М.Г.
Інформаційна технологія кластеризації даних у часовому періоді спостережень
Системні дослідження та інформаційні технології
description Кластерний аналіз є актуальним напрямом інтелектуального аналізу даних (Data Mining). Застосування методів кластеризації дозволяє зрозуміти структуру багатовимірних даних; спростити подальшу обробку, використовуючи різні методи аналізу для кожного кластера; скоротити вихідну вибірку даних, залишивши по одному найбільш типовому представнику кожної групи; виявити новизну, нетипові об’єкти, які не вдається приєднати до жодного з класів; сформулювати або перевірити гіпотези на підставі отриманих результатів. Запропоновано новий підхід до виділення груп об’єктів, схожих між собою за набором ознак, які змінюються у часі. Розроблено інформаційну технологію оцінки якості й підвищення стійкості кластеризації. Представлено результати практичної реалізації запропонованої технології на даних гідрохімічного моніторингу водних об’єктів у районі з підвищеним техногенним навантаженням.
format Article
author Байбуз, О.Г.
Сидорова, М.Г.
author_facet Байбуз, О.Г.
Сидорова, М.Г.
author_sort Байбуз, О.Г.
title Інформаційна технологія кластеризації даних у часовому періоді спостережень
title_short Інформаційна технологія кластеризації даних у часовому періоді спостережень
title_full Інформаційна технологія кластеризації даних у часовому періоді спостережень
title_fullStr Інформаційна технологія кластеризації даних у часовому періоді спостережень
title_full_unstemmed Інформаційна технологія кластеризації даних у часовому періоді спостережень
title_sort інформаційна технологія кластеризації даних у часовому періоді спостережень
publisher Навчально-науковий комплекс "Інститут прикладного системного аналізу" НТУУ "КПІ" МОН та НАН України
publishDate 2013
topic_facet Методи оптимізації, оптимальне управління і теорія ігор
url http://dspace.nbuv.gov.ua/handle/123456789/85135
citation_txt Інформаційна технологія кластеризації даних у часовому періоді спостережень / О.Г. Байбуз, М.Г. Сидорова // Системні дослідження та інформаційні технології. — 2013. — № 4. — С. 59-66. — Бібліогр.: 11 назв. — укр.
series Системні дослідження та інформаційні технології
work_keys_str_mv AT bajbuzog ínformacíjnatehnologíâklasterizacíídanihučasovomuperíodíspostereženʹ
AT sidorovamg ínformacíjnatehnologíâklasterizacíídanihučasovomuperíodíspostereženʹ
first_indexed 2025-07-06T12:17:41Z
last_indexed 2025-07-06T12:17:41Z
_version_ 1836899905653702656
fulltext © О.Г. Байбуз, М.Г. Сидорова, 2013 Системні дослідження та інформаційні технології, 2013, № 4 59 УДК 519.254 ІНФОРМАЦІЙНА ТЕХНОЛОГІЯ КЛАСТЕРИЗАЦІЇ ДАНИХ У ЧАСОВОМУ ПЕРІОДІ СПОСТЕРЕЖЕНЬ О.Г. БАЙБУЗ, М.Г. СИДОРОВА Кластерний аналіз є актуальним напрямом інтелектуального аналізу даних (Data Mining). Застосування методів кластеризації дозволяє зрозуміти структу- ру багатовимірних даних; спростити подальшу обробку, використовуючи різні методи аналізу для кожного кластера; скоротити вихідну вибірку даних, зали- шивши по одному найбільш типовому представнику кожної групи; виявити но- визну, нетипові об’єкти, які не вдається приєднати до жодного з класів; сформу- лювати або перевірити гіпотези на підставі отриманих результатів. Запропоновано новий підхід до виділення груп об’єктів, схожих між собою за набором ознак, які змінюються у часі. Розроблено інформаційну технологію оцінки якості й підвищення стійкості кластеризації. Представлено результати практичної реалізації запропонованої технології на даних гідрохімічного моніторингу водних об’єктів у районі з підвищеним техногенним навантаженням. ВСТУП На cьогодні все більшої популярності набуває такий напрям обробки інфор- мації як інтелектуальний аналіз даних (Data Mining), до задач якого відно- ситься також кластерний аналіз, що застосовується для виявлення груп схо- жих між собою об’єктів, ієрархічних структур і закономірностей у наборі даних. Результатом кластерного аналізу є розбиття (угрупування) об’єктів вихідної вибірки на групи (кластери) таким чином, що об’єкти однієї групи є більш схожими за набором досліджуваних ознак, ніж об’єкти з різних груп. Методи кластеризації широко використовуються в інформаційних технологіях під час роботи з базами даних, аналізі інтернет-документів, сегментації зображень, дослідженнях у медицині, економіці, екології, соціо- логії, психології тощо. Існує багато різних підходів та методів кластерного аналізу [1–5]. Про- те незважаючи на значну кількість досліджень, у цій галузі є ряд актуальних проблем та питань, які не знайшли свого повного розв’язку. Одним із найактуальніших питань кластерного аналізу є оцінювання результатів та пошук розбиття, що найкраще відповідає структурі даних [5–7]. Як відомо, результат кластеризації досить сильно залежить від вибору систе- ми ознак, мір близькості, способів формалізації уявлень про схожість об’єктів та кластерів. Кластеризаційні схеми, отримані різними методами або за різних значень параметрів можуть значно відрізнятися або не відповідати об’єктивно існуючим угрупуванням. На сьогодні в літературі існує велика кількість функ- ціоналів та індексів якості, що дозволяють у кількісному вигляді оцінювати відповідність отриманого розбиття природній структурі даних, а також порів- нювати результати, отримані різними методами або за різних значеннях па- раметрів. Визначення функціоналів якості головним чином ґрунтується на таких критеріях, як компактність та відокремленість кластерів, але все ж таки до кожного з них закладено різні поняття кластера та однорідності, тому вони О.Г. Байбуз, М.Г. Сидорова ISSN 1681–6048 System Research & Information Technologies, 2013, № 4 60 досить часто демонструють зовсім різні результати, «обираючи» різні розбит- тя як найякісніші. У цій роботі пропонується технологія оцінки якості, яка на основі методів прийняття рішень дозволяє враховувати значення різних функціоналів якості одночасно, що забезпечує більш точну оцінку результатів. Досить часто виникає задача виділення груп схожих об’єктів за набо- ром ознак, які змінюються у часі, тобто значенню кожної ознаки для кожно- го об’єкта відповідає не окреме число, а часовий ряд. Тому актуальним на- прямом є розробка нових підходів та алгоритмів для розв’язання такої задачі. У цій роботі рекомендується технологія, яка ґрунтується на колектив- них методах кластеризації та дозволяє виділяти групи схожих об’єктів за набором показників у часовому періоді спостережень. ПОСТАНОВКА ЗАДАЧІ Нехай маємо N об’єктів спостереження, які характеризуються p ознаками, значення яких змінюються протягом T моментів часу. Тобто вихідні дані представлено у вигляді ,}{ ijtxX = ,,1 Ni = ,,1 pj = ,,1 Tt = де ijtx — зна- чення j-го показника i-го об’єкта у момент часу .t Необхідно розподілити об’єкти вихідної вибірки на групи (кластери) за схожістю досліджуваних ознак із урахуванням їх часових змін. Тобто отримати угрупування },,,{ 21 KgggG K= , де K — кількість кластерів, ig , :,1 Ki = ,}{ li xg = ,,1 iNl = — i-й кластер, що містить iN об’єктів вихідної вибірки, ,}{ ljtl xx = ,,1 pj = ,,1 Tt = , 1 ∑ = = K i i NN U K i i Xg 1 , = = ,∅=ji gg I ,,1, Kji = .ji ≠ Мето- ди кластерного аналізу в якості вихідної інформації використовують матри- цю «об’єкти-ознаки» ,}{ ijxX = ,,1 Ni = ,,1 pj = тому не можуть бути за- стосовані, коли значенню кожної ознаки для кожного об’єкта відповідає не окреме число, а часовий ряд. Мета роботи — розробка нового методу та інформаційної технології, що дозволить виділяти групи об’єктів, схожих між собою за усіма дослі- джуваними ознаками, які змінюються у часі та враховувати часові зміни досліджуваних показників. Крім того, технологія має забезпечувати контроль та підвищення якості кластеризації, забезпечувати підтримку прийняття рішень, візуалізацію та інтерпретацію отриманих результатів. ОСНОВНІ РЕЗУЛЬТАТИ Як відомо, різні методи кластерного аналізу, застосовані до одного і того ж на- бору даних, можуть демонструвати досить відмінні результати. Випадковий необґрунтований вибір методу може призвести до того, що отримане ним розбиття буде зовсім відмінним від природної, притаманної досліджуваним даним кластерної структури. Існують різноманітні функціонали та індекси якості, які дозволяють порівнювати отримані різними методами розбиття та обирати найякісніше з них за певним обраним критерієм. Найчастіше вико- ристовують функціонали такі, як сума внутрішньокластерних дисперсій Інформаційна технологія кластеризації даних у часовому періоді спостережень Системні дослідження та інформаційні технології, 2013, № 4 61 за всіма ознаками, відношення середньої внутрішньокластерної та середньої міжкластерної відстаней, сума квадратів відстаней до центрів кластерів, а також індекси Данна, Беджека, Девіса-Болдуіна тощо. У цій роботі пропонується технологія багатокритеріальної оцінки якос- ті результатів кластеризації, яка складається з таких етапів: • Проводимо кластеризацію об’єктів вихідної вибірки різними мето- дами. Таким чином отримуємо набір угрупувань, серед яких необхідно об- рати найякісніше. • Обираємо критерії (функціонали та індекси) якості, за якими будемо оцінювати та порівнювати отримані розбиття. • Обчислюємо оцінки кожного критерію для кожного варіанту класте- ризації. Отримані результати представляємо у вигляді матриці ,},1,,1;{ mjniqQ ij === де n — кількість порівнюваних угрупувань, m — кількість критеріїв оцінки якості, ijq — оцінка якості i-го варіанта розбиття за j-м критерієм. • Задачу визначення найякіснішого за декількома критеріями варіанту розбиття вихідної вибірки об’єктів на кластери можна сформулювати у тер- мінах теорії прийняття рішень. В якості альтернатив будемо розглядати ре- зультати кластеризації отримані різними методами, а в якості експертних оцінок — значення функціоналів якості, обчислені для кожної альтернативи, тобто матриця }.,1,,1;{ mjniqQ ij === Методи колективного вибору дозволяють перейти від індивідуальних (за одним критерієм) до узагальню- ючих (за всіма критеріями) оцінок порівнюваних альтернатив. Таким чином, ми можемо ранжувати альтернативи, що дає змогу обирати найякісніші розв’язки. Пропонується застосовувати наступні колективні методи прийняття рішень [8]: – Процедура Борда. Для кожного критерію виконуємо впорядкування альтернатив у порядку спадання їх якості. Обчислюємо колективну оцінку якості альтернативи як суму рангових місць за кожним критерієм. Найкра- щим результатом вважається той, що буде мати найменшу оцінку. – Плюралітарна процедура. Ранжуємо альтернативи окремо за кож- ним критерієм. Для кожної альтернативи обчислюємо колективну оцінку, що дорівнює кількості критеріїв, за якими вона є найякіснішою. Найкращою вважається альтернатива з максимальною оцінкою. – Множинний аналіз. Перетворюємо виставлені оцінки за наступною формулою: ∑ = = n i ij ij ij q q q 1 . Оцінка якості альтернатив проводиться за рекурент- ною процедурою. На кожному кроці i обчислюємо оцінки альтернатив ,1 1 − = ∑= i j m j ij i l kqr ,,1 nl = де m k j 10 = , ,1 1 ∑ = = n l i liji i j rqk λ ,,1 mj = ∑ = = n l i lk 1 ,1 ∑∑ = = n l i l m j ijrq 1 1 доки процес не зійдеться з деякою заданою точністю .ε Доведе- О.Г. Байбуз, М.Г. Сидорова ISSN 1681–6048 System Research & Information Technologies, 2013, № 4 62 но, що процес є збіжним [9]. Найкращим вважається результат із мінімаль- ною оцінкою. Цей метод дозволяє також оцінити узгодженість критеріїв на основі дисперсійного коефіцієнта конкордації. • Іноді декілька результатів кластеризації можуть представляти різні угрупування, але бути рівнозначними за якістю. У такому випадку можна замість вибору одного з цих розв’язків побудувати на їх основі ансамбль алгоритмів та отримати результуючий розв’язок. Ансамблям алгоритмів присвячено багато робіт, зокрема [4, 5, 10, 11]. Для виділення груп об’єктів, схожих між собою за набором ознак, які змінюються у часі, пропонується технологія часової кластеризації, що скла- дається з трьох основних етапів: визначення груп об’єктів для кожного мо- менту часу ,,1 Tt = формування узагальненої матриці подібності, отримання підсумкового розв’язку задачі. На першому етапі знаходимо розбиття об’єктів вихідної вибірки на кластери за даними, що визначають кожен з моментів часу .,1 Tt = Взагалі, отримати розбиття для певного моменту часу можна будь-яким методом кластерного аналізу. Однак, оскільки результати досить сильно залежать від вибору методу, авторами пропонується застосовувати вищеописану техно- логію багатокритеріальної оцінки якості кластеризації для вибору найякіс- нішого розбиття, тобто розбиття, що найкраще відповідає природній струк- турі досліджуваних даних. Таким чином отримуємо T угрупувань, кожне з яких є результатом кластеризації, що характеризує певний момент часу. На другому етапі переходимо від визначення схожості об’єктів у деякий окре- мий момент часу до визначення їх подібності у часовому діапазоні. Для цьо- го на основі отриманих угрупувань формуємо узагальнену матрицю подіб- ності. Використовуючи цю матрицю, на завершальному етапі отримуємо результуюче підсумкове розбиття об’єктів на групи, яке враховує часові зміни досліджуваних ознак. Визначення угрупувань для кожного моменту часу. Представимо вихід- ні дані у вигляді групи матриць ,}{ )()( t ij t xX = ,,1 Ni = ,,1 pj = .,1 Tt = За- стосовуючи відомі методи кластерного аналізу [1–5] та технологію багато- критеріальної оцінки якості, визначимо розбиття об’єктів на кластери окремо для кожного моменту часу. Тобто отримаємо T угрупувань ,},,,{ )()( 2 )( 1 t K tt t gggG K= ,,1 Tt = де K — кількість кластерів, ,)(t ig Ki ,1= — i-й кластер у t-му угрупуванні, },{ )()( t l t i xg = ,,1 )(t iNl = )(t iN — кількість об’єктів у i-му кластері t-го угрупування, },{ )()( t l t i xx = .,1 pj = Формування узагальненої матриці подібності. У кластерному аналізі важливим і найменш формалізованим є вибір способу визначення схожості між об’єктами. У загальному випадку ступінь схожості будь-якої пари об’єктів вихідної множини задається або обчисленням відстані між ними на основі деякої метрики, або введенням правила визначення міри близькості. Таким чином, для часової кластеризації слід визначити міру близькості, що буде характеризувати схожість двох об’єктів у часовому діапазоні. Про- понується в якості міри близькості двох об’єктів вважати нормовану частоту Інформаційна технологія кластеризації даних у часовому періоді спостережень Системні дослідження та інформаційні технології, 2013, № 4 63 їх віднесення до одного кластеру протягом T моментів спостереження, тоб- то T y ji T t t∑ == 1),(μ , де ,1=ty якщо об’єкти i та j відносяться до одного клас- теру у t-му угрупуванні, 0=ty у іншому випадку. Оскільки віднесення об’єктів до одного кластеру у певний момент часу свідчить про їх близь- кість за досліджуваними ознаками, а частота їх об’єднання вказує на схо- жість у часі, то таким чином введена міра близькості дійсно відображає сту- пінь схожості двох об’єктів за набором ознак із урахуванням часових змін. На основі отриманої множини розв’язків ,tG Tt ,1= та введеного по- няття міри близькості формуємо узагальнену матрицю подібності об’єктів ,}{ ijsS = ,,1, Nji = де N — кількість об’єктів, ijs — міра близькості i-го та j-го об’єктів. Алгоритм формування матриці подібності: • Створюємо матрицю ,}{ ijsS = ,,1, Nji = та ініціалізуємо її нулями: ,0=ijs .,1, Nji = • Розглядаємо по черзі отримані результати кластеризації :tG Tt ,1= для кожного моменту часу. Якщо i-й та j-й об’єкти у t-му угрупуванні від- носяться до одного кластеру, то ijs збільшуємо на одиницю: ,1+= ijij ss інакше — значення ijs залишаємо без змін. • Зводимо елементи матриці подібності до одиничної шкали: , T s s ij ij = .,1, Nji = Після такого перетворення ijs набувають значень на відрізку від 0 до 1. Чим ближче значення ijs до одиниці, тим більш схожими є об’єкти i та j на всьому часовому проміжку спостереження. Отримання підсумкового розв’язку. На завершальному етапі необхідно отримати підсумковий розв’язок поставленої задачі, а саме: розбиття об’єктів вихідної множини на кластери. Об’єднаними у відповідні кластери мають бути ті об’єкти, що є схожими між собою за всіма досліджуваними ознаками з урахуванням їх часових змін. Оскільки на попередньому кроці було визначено міру близькості та сформовану матрицю подібності об’єктів у часовому діапазоні, то отримати підсумкове розбиття можна застосовуючи алгоритми кластерного аналізу, які в якості вихідної інформації використо- вують матрицю відстаней між об’єктами (наприклад, ієрархічні або графові методи). Пропонується застосовувати графовий алгоритм найкоротшого не- замкненого шляху, оскільки він є досить простим у реалізації та демонструє хороші результати. Перехід від матриці близькості ,}{ ijsS = ,,1, Nji = до матриці відстаней ,}{ ijsS ′=′ Nji ,1, = можна здійснити таким чином: ,1 ijij ss −=′ .,1, Nji = Тобто чим більше подібні об’єкти i та j за матрицею ,S тим менша відстань між ними у матриці .S ′ О.Г. Байбуз, М.Г. Сидорова ISSN 1681–6048 System Research & Information Technologies, 2013, № 4 64 ПРАКТИЧНА РЕАЛІЗАЦІЯ Запропоновану технологію було застосовано до даних гідрохімічного моні- торингу, що проводиться Криворізькою геологогідрогеологічною партією по р. Інгулець (Кривбас). Метою роботи було визначення груп пунктів спо- стереження, що характеризуються схожим хімічним складом води у р.Інгу- лець за досліджуваними компонентами для правильного планування приро- доохоронних заходів та керування якістю вод річки. Об’єктом дослідження є хімічний склад води у р. Інгулець поблизу ВАТ «Центрального гірничо-збагачувального комбінату». Проби води від- биралися у 5 пунктах спостереження: село Тернівка, створи балок — Мала Лозоватка, Велика Лозоватка, Завертана, північна частина Карачунівського водосховища. Аналіз проводився за вмістом головних іонів у воді річки Ін- гулець: - 3HCO , ,C1- 2 4SO , ,Ca 2+ ,Mg2+ Na+ та мінералізацією протягом на- ступних років: 1993–1995, 1997, 2001, 2003, 2005–2007. Таким чином маємо п’ять об’єктів (пункти спостереження), кожен з яких характеризується сімома ознаками (вміст іонів у воді річки), значення яких вимірюються дев’ять разів. Тобто вихідні дані можна представити у вигляді ,}{ ijtxX = ,5,1=i ,7,1=j ,9,1=t де ijtx — значення j-го показника i-го об’єкта у момент часу .t Для зведення даних до єдиного масштабу попе- редньо проведена стандартизація. Сформуємо та розглянемо по черзі дев’ять матриць «пункти спостере- ження — значення досліджуваних ознак», кожна з яких відповідає певній даті відбору проб води з річки. За допомогою методів кластерного аналізу (ієрархічних: одиничного, повного, середнього зв’язку, Уорда; К-середніх: Болла-Холла, Мак-Кіна; графового, Forel) та запропонованої технології ба- гатокритеріальної оцінки якості результатів отримуємо угрупування схожих між собою об’єктів для кожного окремого моменту часу. Розглянемо, наприклад, розбиття, що відповідають даним 2001 та 2007 років (рис. 1, 2). На діаграмі розсіювання різними позначками представлено об’єкти, що відносяться до різних кластерів. По осям відкладено значення двох із семи досліджуваних ознак. За станом води у відібраних пробах пунк- ти спостереження розподілилися на 2 групи таким чином: у 2001 році до першого класу увійшли села Тернівка, Мала Лозоватка, до другого — Вели- ка Лозоватка та Завертана, а також північна частина Карачунівського водо- сховища; у 2007 році в перший кластер виділено село Тернівка, другий міс- тить усі інші об’єкти дослідження. Такий підхід визначає угрупування пунктів спостереження на певну да- ту, що дозволяє аналізувати зміни схожості об’єктів у часі. Проте виникає задача визначення об’єктів схожих між собою на всьому часовому проміжку спостереження за всіма досліджуваними показниками одночасно для відо- браження загальної картини перебігу певних гідрохімічних процесів у воді річки. Для розв’язання такої задачі застосовуємо запропоновану технологію часової кластеризації. За результатами часової кластеризації було виділено дві групи об’єктів: перша складається з пункту спостереження у с. Тернівка, друга містить усі інші об’єкти дослідження. Таке розбиття на кластери відповідає дійсній гід- рологічній та гідрохімічній ситуації на цій ділянці р. Інгулець. До Карачу- нівського водосховища подається вода каналом «Дніпро–Інгулець». Найбіль- ший вплив цього каналу відзначається на верхній ділянці, що вивчається, Інформаційна технологія кластеризації даних у часовому періоді спостережень Системні дослідження та інформаційні технології, 2013, № 4 65 а саме в районі села Тернівка. Нижче за течією вплив дніпровської води на формування хімічного складу води у річці Інгулець менший, більший вплив надає гірничо-збагачувальний комбінат (фільтраційні втрати з гідротехнічних споруд комбінату, пиління хвостосховища та інші). Розглянемо тепер задачу визначення груп об’єктів, які є схожими між собою на досліджуваному часовому проміжку за одним із показників. Тобто вихідні дані ,}{ ijtxX = ,5,1=i ,7,1=j 9,1=t переформуємо у вигляді ,}{ itxX = ,5,1=i ,9,1=t де itx — значення досліджуваного показника i-го об’єкта у момент часу t. Таку задачу можна розв’язати відомими методами кластерного аналізу. На рис. 3–4 представлено діаграми розсіювання об’єктів за значеннями вмісту іонів гідрокарбонату )(HCO- 3 та кальцію (Ca2+) у часовому діапазоні. Отримані результати у більшості випадків спів- падають із результатами продемонстрованими запропонованою технологією часової кластеризації, що свідчить про адекватність її результатів. Перева- гою запропонованої технології є те, що вона дозволяє виділяти групи схо- жих об’єктів у часі не за одним обраним показником, а за усіма досліджува- ними ознаками. Рис. 1. Діаграма розсіювання. Результати кластеризації за даними 2001 р. Рис. 2. Діаграма розсіювання. Результа- ти кластеризації за даними 2007 р. Рис. 3. Результати кластеризації за зна- ченнями вмісту іонів гідрокарбонату )(HCO- 3 у часі Рис. 4. Результати кластеризації за зна- ченнями вмісту іонів кальцію (Ca2+) у часі О.Г. Байбуз, М.Г. Сидорова ISSN 1681–6048 System Research & Information Technologies, 2013, № 4 66 Технологія часової кластеризації увійшла до складу розробленого авто- рами програмного продукту, що також дозволяє проводити кластерний аналіз даних за певною датою, виділяти групи об’єктів із однорідними значеннями обраного фіксованого показника у багаторічному періоді спосте- реження, виявляти тенденції та закономірності зміни рівня вмісту головних іонів у воді досліджуваного природного об’єкта за набором ознак у часі. Такий аналіз дозволяє відобразити загальну картину перебігу певних гідрохімічних процесів у воді річки та визначити часові проміжки зі схожим хімічним складом води для подальшого прийняття рішень щодо планування природоохоронних заходів. ВИСНОВКИ У цій роботі запропоновано метод виділення груп об’єктів, схожих між со- бою за набором ознак, які змінюються у часі, а також технологію багатокри- теріальної оцінки якості. Розроблено обчислювальні схеми та створено сис- тему інтелектуального аналізу даних, що реалізує задачі кластеризації, класифікації, візуалізації, обробки та аналізу інформації, забезпечує під- тримку прийняття рішень. Наведено та проаналізовано результати практич- ного застосування розробленої інформаційної технології до даних гідро- хімічного моніторингу. Метою аналізу було визначення груп пунктів спостереження, що характеризуються схожим хімічним складом води у р. Інгулець за досліджуваними компонентами, а також виявити тенденції та закономірності зміни вмісту головних іонів у воді досліджуваного природно- го об’єкта за набором ознак у часі для правильного планування природоохо- ронних заходів та керування якістю вод річки. ЛІТЕРАТУРА 1. Мандель И.Д. Кластерный аналіз. — М.: Статистика, 1988. — 176 с. 2. Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных. — М.: Статистика, 1974. — 240 с. 3. Jain A.K. Data clustering: 50 years beyond K-means // Pattern Recognition Letters. — 2010. — 31(8). — P. 651–666. 4. Миркин Б.Г. Методы кластер-анализа для поддержки принятия решений: обзор. — М.: Изд. дом НИУ «Высшая школа экономики», 2011. — 88 с. 5. Бериков В.С., Лбов Г.С. Современные тенденции в кластерном анализе // Все- российский конкурсный отбор обзорно-аналитических статей по при- оритетному направлению «Информационно-телекоммуникационные системы», 2008. — 26 с. 6. Halkidi M., Batistakis Y., Vazirgiannis M. On Clustering Validation Techniques // Journal of Intelligent Information Systems. — 2011. — 17, Issue 2–3. — Р. 107–145. 7. Milligan G., Cooper M. An examination of procedures for determining the number of clusters in a data set // Psychometrika. — 1985. — 50, № 2. — Р. 159–179. 8. Емельяненко Т.Г., Зберовский А.В., Приставка А.Ф., Собко Б.Е. Принятие ре- шений в системах мониторинга. — Д.: РИК НГУ, 2005. — 224 с. 9. Бабак В.П., Білецький А.Я., Приставка О.П., Приставка П.О. Статистична об- робка даних. — К.: МІВВЦ, 2001. — 388 с. 10. Sarumathi S., Shanthi N., Santhiya G. A Survey of Cluster Ensemble // International Journal of Computer Applications. — 2013. — 65, №.9. — P. 8–11. 11. Бирюков А.С., Рєзанов В.В., Шмаров А.С. Решение задач кластерного анализа коллективами алгоритмов // Журнал вычислительной математики и матема- тической физики. — 2008. — 48, № 1. — C. 176–192. Надійшла 25.05.2012