Використання онтологій для персоніфікованого пошуку знань у природномовних текстів

Запропонований у роботі підхід до персоніфікації пошуку інформаційних ресурсів та інформаційних об’єктів, що базується на побудові та використанні тезаурусу задачі користувача, дозволяє використовувати знання щодо предметної області пошуку та структури інформаційних об’єктів, представлені за допомог...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2016
Автор:	Рогушина, Ю.В.
Формат:	Стаття
Мова:	Ukrainian
Опубліковано:	Інститут програмних систем НАН України 2016
Назва видання:	Проблеми програмування
Теми:	Моделі та засоби систем баз даних і знань
Онлайн доступ:	http://dspace.nbuv.gov.ua/handle/123456789/126380
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:	Використання онтологій для персоніфікованого пошуку знань у природномовних текстів / Ю.В. Рогушина // Проблеми програмування. — 2016. — № 1. — С. 73-88. — Бібліогр.: 37 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine

id	irk-123456789-126380
record_format	dspace
spelling	irk-123456789-1263802017-11-22T03:02:37Z Використання онтологій для персоніфікованого пошуку знань у природномовних текстів Рогушина, Ю.В. Моделі та засоби систем баз даних і знань Запропонований у роботі підхід до персоніфікації пошуку інформаційних ресурсів та інформаційних об’єктів, що базується на побудові та використанні тезаурусу задачі користувача, дозволяє використовувати знання щодо предметної області пошуку та структури інформаційних об’єктів, представлені за допомогою відповідних онтологій. Наведені визначення семантичного пошуку, його суб’єктів та компоненті дозволяють більш чітко формулювати проблеми, пов’язані з пошуком інформації у відкритому середовищі Web. Програмна реалізація запропонованого підходу підтверджує ефективність його практичного використання. Предложенный в работе подход к персонификации поиска информационных ресурсов и информационных объектов, который базируется на построении и использовании тезауруса задачи пользователя, позволяет использовать знания относительно предметной области поиска и структуры информационных объектов, представленные с помощью соответствующих онтологий. Приведенные определения семантического поиска, его субъектов и компонентов позволяют более четко формулировать проблемы, связанные с поиском информации в открытой среде Web. Программная реализация предложенного подхода подтверждает эффективность его практического использования. The paper analyzes the problems of search personalization of information resources and information objects which is based on the construction and use of user task thesaurus. This thesaurus allows the use of knowledge about search domain and structure of information objects represented by some appropriate ontologies. The definitions of semantic search, its subjects and components allow more articulate issues related to the information retrieval in the Web open environment. Software implementation of the proposed approach confirms the effectiveness of its practical use. 2016 Article Використання онтологій для персоніфікованого пошуку знань у природномовних текстів / Ю.В. Рогушина // Проблеми програмування. — 2016. — № 1. — С. 73-88. — Бібліогр.: 37 назв. — укр. 1727-4907 http://dspace.nbuv.gov.ua/handle/123456789/126380 681.3 uk Проблеми програмування Інститут програмних систем НАН України
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection	DSpace DC
language	Ukrainian
topic	Моделі та засоби систем баз даних і знань Моделі та засоби систем баз даних і знань
spellingShingle	Моделі та засоби систем баз даних і знань Моделі та засоби систем баз даних і знань Рогушина, Ю.В. Використання онтологій для персоніфікованого пошуку знань у природномовних текстів Проблеми програмування
description	Запропонований у роботі підхід до персоніфікації пошуку інформаційних ресурсів та інформаційних об’єктів, що базується на побудові та використанні тезаурусу задачі користувача, дозволяє використовувати знання щодо предметної області пошуку та структури інформаційних об’єктів, представлені за допомогою відповідних онтологій. Наведені визначення семантичного пошуку, його суб’єктів та компоненті дозволяють більш чітко формулювати проблеми, пов’язані з пошуком інформації у відкритому середовищі Web. Програмна реалізація запропонованого підходу підтверджує ефективність його практичного використання.
format	Article
author	Рогушина, Ю.В.
author_facet	Рогушина, Ю.В.
author_sort	Рогушина, Ю.В.
title	Використання онтологій для персоніфікованого пошуку знань у природномовних текстів
title_short	Використання онтологій для персоніфікованого пошуку знань у природномовних текстів
title_full	Використання онтологій для персоніфікованого пошуку знань у природномовних текстів
title_fullStr	Використання онтологій для персоніфікованого пошуку знань у природномовних текстів
title_full_unstemmed	Використання онтологій для персоніфікованого пошуку знань у природномовних текстів
title_sort	використання онтологій для персоніфікованого пошуку знань у природномовних текстів
publisher	Інститут програмних систем НАН України
publishDate	2016
topic_facet	Моделі та засоби систем баз даних і знань
url	http://dspace.nbuv.gov.ua/handle/123456789/126380
citation_txt	Використання онтологій для персоніфікованого пошуку знань у природномовних текстів / Ю.В. Рогушина // Проблеми програмування. — 2016. — № 1. — С. 73-88. — Бібліогр.: 37 назв. — укр.
series	Проблеми програмування
work_keys_str_mv	AT rogušinaûv vikoristannâontologíjdlâpersonífíkovanogopošukuznanʹuprirodnomovnihtekstív
first_indexed	2025-07-09T04:52:28Z
last_indexed	2025-07-09T04:52:28Z
_version_	1837143689012445184
fulltext	Моделі та засоби систем баз даних і знань © Ю.В. Рогушина, 2016 ISSN 1727-4907. Проблеми програмування. 2016. № 1 73 УДК 681.3 Ю.В. Рогушина ВИКОРИСТАННЯ ОНТОЛОГІЙ ДЛЯ ПЕРСОНІФІКОВАНОГО ПОШУКУ ЗНАНЬ У ПРИРОДНОМОВНИХ ТЕКСТІВ Запропонований у роботі підхід до персоніфікації пошуку інформаційних ресурсів та інформаційних об’єктів, що базується на побудові та використанні тезаурусу задачі користувача, дозволяє використо- вувати знання щодо предметної області пошуку та структури інформаційних об’єктів, представлені за допомогою відповідних онтологій. Наведені визначення семантичного пошуку, його суб’єктів та ком- поненті дозволяють більш чітко формулювати проблеми, пов’язані з пошуком інформації у відкритому середовищі Web. Програмна реалізація запропонованого підходу підтверджує ефективність його прак- тичного використання. Ключові слова: семантичний пошук, інформаційний об’єкт, онтологія, тезаурус задачі. Вступ В процесі розвитку суспільства з великою швидкістю збільшуються обсяги інформації, що обробляється, ускладню- ється її структура та методи обробки. Для сучасного етапу розвитку інфо- рмаційних технологій (ІТ) характерні на- ступні тенденції: 1) все більше інформа- ційних систем (ІС) стають інтелектуаль- ними та використовують знання; 2) пере- важна частина ІС працює у відкритому се- редовищі (Web, локальні та корпоративні мережі, хмари тощо) і орієнтовані на отримання відомостей із зовнішніх інфор- маційних ресурсів (ІР), не залежних від їх розробників; 3) все більше поширення отримують різноманітні мобільні пристрої для обробки інформації, що відповідають специфіці користувачів. З цього випливає важливість про- блеми пошуку знань та використання знань у пошуку даних, а також персоніфі- кація такого пошуку. Актуальність проблеми пошуку Значна частина знань, накопичених у результаті розвитку людського суспіль- ства і різних предметних областей, міс- титься в документах у вигляді природно- мовного тексту. У Web представлення та- кож велика кількість мультимедійних документів, і з ростом поширення різних підключених до Інтернет пристроїв їхній обсяг зростає значно швидше, але в них міститься набагато менше корисної інфо- рмації (наприклад, різні фотографії і ві- деофайли, як правило, цікаві лише тим, хто їх знімав). У структурованому вигляді (онтоло- гії, метаописи, семантична розмітка і т. п.) представлено набагато менше відомостей. Якщо ж порівнювати зусилля, необхідні для витягу знань (змісту), то природномо- вні ресурси обробляти значно легше, ніж мультимедійні, а сама форма представлен- ня забезпечує первинний пошук релевант- них проблемі ресурсів (наприклад, пошук за ключовими словами у тексті) з подаль- шою семантизацією [1, 2]. Крім того, при розпізнаванні мультимедійних ІР спочатку значна частина інформації перетворюється на природномовний текст. Це обумовлює важливість розвитку методів аналізу природномовних докумен- тів, що включають пошук релевантних предметній області документів, розпізна- вання їхнього змісту і поповнення відпові- дних онтологій [3–5]. Це потребує ство- рення засобів отримання, збереження, по- шуку та використання знань з урахуванням таких властивостей середовища Web, як динамічність та гетерогенність. Крім того, необхідно обрати засоби інтероперабель- ного представлення знань, які мають дос- татні функціональні можливості та нада- ють можливість для їх повторного викори- стання та обробки як комп’ютерними про- грамами, так і людьми. Моделі та засоби систем баз даних і знань 74 Для цього виникає потреба у розроб- ці моделі інформаційного середовища су- часного Web; моделі користувача, що ві- дображає його інформаційні потреби, пре- дметну область, яка його цікавить, та про- блеми, які він прагне вирішити; і моделі інформаційних ресурсів, що має відобра- жати не тільки їх формальні властивості, але й семантику. Процеси глобальної інформатизації орієнтовані на побудову та інтероперабе- льне використання міждисциплінарних знань. Але ефективне використання знань потребує розвитку відповідних засобів їх знаходження та подання. Це вимагає роз- витку інженерії знань і засобів менеджме- нту знань. Відносно новим напрямком у цій сфері є онтологічний інжиніринг, що за- безпечує повторне й інтероперабельне за- стосування накопичених у суспільстві знань [6–8]. Онтології використовуються в системах обробки знань для їхнього структурування й інтеграції [9]. Тому ак- туальні питання автоматизованого ство- рення і поповнення онтологій на основі гетерогенних і динамічних ресурсів Web, їхньої інтеграції і співставлення, а також створення методів логічного виведення на них [10]. Системи семантичного пошуку Семантичний пошук – це метод ін- формаційного пошуку, у якому релевант- ність документа запиту визначається сема- нтично (за близькістю змісту), а не синтак- сично (приміром, за частотою використан- ня ключових слів у документі). Можна розглядати семантичний пошук як розвиток традиційного інформа- ційного пошуку, в якому з метою підви- щення пертинентності пошуку (тобто для більш ефективного задоволення інформа- ційних потреб користувача) використову- ється обробка знань, що стосуються як са- мого користувача та його інформаційних потреб (персоніфікація пошуку), так і про інформаційні ресурси, серед яких здійсню- ється пошукова процедура. Системи сема- нтичного пошуку – це певна інтелектуаль- на надбудова над традиційними інформа- ційно-пошуковими системами (ІПС) – як загального призначення, так і спеціалізо- ваними. Система семантичного пошуку (ССП) – це інформаційна система, що за- безпечує пошук та розпізнавання інформа- ційних об’єктів (ІО) різних типів з викори- станням знань для співставлення запиту з наявними інформаційними ресурсами на семантичному рівні. Відкрита ССП – це ССП, в якій ви- користовуються не тільки внутрішні, але й зовнішні бази знань, структура та контент яких не залежать від розробника ССП. Інформаційний об’єкт – модель об’єкта предметної області (ПрО) в інфор- маційному просторі, яка визначає структу- ру, атрибути, обмеження цілісності і, мож- ливо, поводження цього об’єкта. Результатом семантичного пошуку може бути як здобуття інформації щодо ІО, неявно присутньої у певному ІР (як те- кстовому, так і мультимедійному), так і надання користувачеві відомостей про на- явні ІР у певному порядку та певній формі, що відповідають персональним потребам саме цього користувача. Те, які саме знання використову- ються, як вони представлені і як вони об- робляються, залежить як від специфіки розроблювальної ІПС, так і від концепції, обраної її розроблювачами, але в загаль- ному випадку результати семантичного пошуку – множина з n елементів є функ- цією від запиту користувача, індексу ІПС та знань, що містяться в базі знань (БЗ) ІПС:  іпсіпсjs KBDBzfnjiI ,,},1,{  . Якщо мова йде про семантичний пошук у Web, то слід враховувати, що при цьому в Web можуть знаходитися не тіль- ки інформаційні об’єкти, серед яких здійс- нюється пошук, але і зовнішні бази знань, що використовуються для пошуку. Тому при створенні таких систем варто врахову- вати, що такі зовнішні БЗ можуть змінюва- ти контент, структуру і приступність неза- лежно від розроблювачів ІПС. Тому ре- зультати пошуку в Web є функцією ще й від вмісту зовнішніх БЗ: Моделі та засоби систем баз даних і знань 75     . 1.mk,KB ,KB,DBz, fn1,j,iI web_k іпсіпс jweb_s           При рішенні задачі семантичного пошуку, пов’язаного з розпізнаванням набору складних ІО, виникає ряд різних видів проблем, для опису яких необхідно визначити використовувані при цьому терміни, зокрема, визначити, які відомо- сті є результатом такого пошуку, які – його умовами. Тому потрібна класифіка- ція ІО та пов’язаних з ними пошукових ситуацій. У найбільш простому варіанті інформаційного пошуку на вході пошу- кова система отримує набір ключових слів, а на виході дає набір посилань на документи. Значно складніше вирішити по- шукову задачу, для якої вхідними даними служить опис складної проблеми, у якій описана взаємодія множини складно стру- ктурованих ІО, а на виході необхідно отримати посилання на екземпляри ІО, що задовольняють поставленим умовам. Для сучасних семантичних Web- застосувань характерні ІО зі складною структурою, які пов’язані з певними об’єктами реального або віртуального сві- ту (програмні агенти, Web-сервіси, семан- тично розмічені ресурси, елементи Web of Things, онтологічні описи тощо). Оцінка складності структури атомарних елементів залежить від їхньої кількості і кількості зв’язків між ними. Приміром, ІПС, що впорядковує знайдені за запитом користувача докумен- ти, враховуючи його персональні власти- вості, і використовує для цього інформа- цію з історії взаємодії з користувачем, менш інтелектуальна, ніж ІПС, що впоряд- ковує знайдені за запитом користувача до- кументи, використовуючи для формаліза- ції сфери інтересів користувача онтологію відповідної ПрО, та виконує семантичну розмітку знайдених документів термінами з онтології ПрО [11]. Як показує аналіз публікацій, один з перспективних підходів до завдання кон- тексту пошуку ґрунтується на онтологіях, що містять перелік основних термінів, зв’язки між ними і правила виведення (так, у проекті Semantic Web, спрямованому на аналіз семантики ІР, саме онтологічний підхід є основою для подання знань про різні ПрО). Онтологія ІО IOO – онтологічна структура, що містить клас ІО IOIO Tt  і його підкласи, які описують різні підмно- жини ІО, а також класи opPrT , необхідні для опису властивостей різних ІО. ARTTO IOIO ,,opPr . Для того, щоб користувач міг оха- рактеризувати ІО, який його цікавить, йо- му потрібно послатися на клас довільної формально описаної онтології. Таким чином, ІО можна розглядати як клас певної онтології, який має набір характеристик, які описують його струк- туру і можливі зв’язки з іншими класами й екземплярами класів. Для більш точного визначення проблеми доцільно ввести кі- лька визначень Екземпляр ІО – екземпляр якого- небудь підкласу ІО відповідної онтології, який можна однозначно ідентифікувати і який має власне ім’я. Ситуація – непорожня множина ІО та екземплярів ІО одного чи різних класів, така, що для будь-якого ІО з цієї множини існує зв’язок хоча б з одним іншим ІО з цієї множини. Якщо в ситуації використовують- ся ІО, описані за допомогою різних онто- логій, то необхідно ( явно чи за допомогою засобів автоматизованого зіставлення он- тологій) встановити зв’язки між цими он- тологіями (чи хоча б між тими ІО і класа- ми, що описують властивості тих ІО, що фігурують у ситуації). Схема ситуації – ситуація, у якій не використовуються екземпляри ІО. Неприпустима схема ситуації – схема ситуації, всі умови якої не можуть бути виконані при жодному наборі екзем- плярів ІО. Схема є неприпустимою, якщо в ній містяться суперечні умови: Моделі та засоби систем баз даних і знань 76       IOiin1m n11n10 Tta,a,...,af ,...,a,...,af,a,...,af  , і з деякої їхньої підмножини можна вивес- ти заперечення однієї з цих умов, тобто з    ,a,...,af,...,a,...,af n1mn11 IOii Tta  логічно виводиться  n10 a,...,af . Унікальна ситуація – ситуація, всі умови якої можуть бути виконані лише при єдиному наборі екземплярів ІО. Прик- лад такої ситуації – пошук книги, поси- лання на яку міститься у відеофільмі. Конкретизована ситуація – ситуа- ція, в описі якої, крім класів ІО, описано хоча б один конкретний екземпляр ІО. Приклад такої ситуації – знайти всі органі- зації, в яких працювали особи, які прожи- вали в одному будинку з особою Х, що має ідентифікаційний номер Y. Персональна ситуація – ситуація, в якій використовується екземпляр класу “користувач” онтології семантичного по- шуку, який характеризує ту особу, що за- дає цю ситуацію. Персональні ситуації можуть мати стандартизований опис, в якому відомості щодо користувача є пара- метрами. Цей варіант задачі досить пошире- ний, коли користувач намагається знайти якісь відомості саме для себе – приміром, посилання на власні публікації, можли- вість свого працевлаштування в певній ор- ганізації, рейтинг своєї спеціальності то- що. Кожна персональна ситуація є конкре- тизованою через використання конкретно- го екземпляра класу “користувач”. Вико- ристання персональних ситуацій дозволяє розробляти типові запити, в яких певна частина інформації не вводиться користу- вачем вручну, а імпортується з його про- філю. Приміром, можна задавати замість запиту “знайти в публікаціях автора А всі посилання на публікації автору В” значно простіший для користувача запит “знайти в публікаціях автора А всі посилання на мої публікації”, для якого перелік “мої пу- блікації” має будуватися автоматично та оновлюватися за рахунок пошуку у Web- ресурсах. Ситуація задовольняє схемі, якщо для всіх ІО й їх екземплярів виконуються умови, що входять до складу схеми. Пошук нездійсненний, якщо його умовою є неприпустима схема ситуації. Пошук виконуваний, якщо його умови можуть бути виконані (навіть якщо не виявлена така комбінація ІО, що задо- вольняє цим умовам). Пошук тривіальний, якщо його ре- зультатом є унікальна ситуація. В інших термінах можна вважати схему ситуації пошуковим запитом, а множину ситуацій – його результатом. Постановка задачі Щоб підвищити ефективність сема- нтичного пошуку, необхідно забезпечити його персоніфікацію, тобто використання знань про інформаційні потреби, сферу інтересів та здатність до сприйняття інфо- рмації окремих користувачів. Тому вини- кає потреба у розробці формалізованої мо- делі інформаційних потреб користувача, у засобах її поповнення інформацією та у методах її співставлення з наявними інфо- рмаційними ресурсами. Використання онтологій для персоніфікованого аналізу природномовних текстів Щоб використовувати онтологічні знання в процесі семантичного пошуку, потрібно забезпечити як механізми авто- матизованого створення онтологічних моделей предметних областей та інфор- маційних потреб, так і методи їх співстав- лення. Пропонується в якості такого ме- ханізму використовувати тезаурус задачі, який відображає поточні інформаційні потреби користувача на основі онтології ПрО, обраної користувачем. У загальному випадку тезаурус – це словник основних понять мови, що по- значаються окремими словами чи словос- полученнями, з визначеними семантич- ними зв’язками між ними [12]. Тезаурус можна розглядати як окремий випадок онтології [13]. Лексика тезауруса включає Моделі та засоби систем баз даних і знань 77 множину слів і/чи множину фраз [14–16]. Види підтримуваних семантичних зв’яз- ків між ними можуть бути залежними чи незалежними від конкретної ПрО. Зви- чайно такі зв’язки визначають синоніми, омоніми, антоніми понять мови, підтри- мують між ними відношення виду «ціле – частина», «рід – вид», «використовується для», «працює в» тощо. Надалі в ССП бу- демо розуміти під тезаурусом задачі на- ступне: Тезаурус задачі – це множина тер- мінів ПрО, необхідних для опису та ви- рішення задачі, для якої користувач нама- гається за допомогою ССП знайти певну інформацію. Для кожного з них може бу- ти визначена їх вага, що дозволяє охарак- теризувати важливість та пертинентність терміну для поточної задачі, та онтологія, з якої імпортовано відповідний термін. Для кожного тезаурусу задачі існує хоча б одна онтологія ПрО, на якій він базується. В такому тезаурусі онтологічні зв’язки між термінами не відображаються явно, проте вони використовуються в процесі побудови тезауруса задачі за он- тологією ПрО. Приміром, можна побуду- вати тезаурус, який містить визначену пі- дмножину термінів XT0  та терміни, пов’язані з ними відношенням Rr . Тезаурус задачі є персоніфікованим, тобто для рішення однієї й тої ж задачі різні користувачі можуть використовувати тезауруси, які значно різняться один від одного. Це залежить не тільки від тих при- родних мов, на які розраховує користувач, і не тільки від використаних онтологій, але й від індивідуальних переконань та пере- ваг користувача в обраній ПрО. Слід відмітити, що побудова тезау- руса задачі є відносно складною та тру- домісткою, тому доцільно виконувати цю операцію тільки в тих випадках, коли за- дача, що вирішується, відноситься до сфери постійних та складних інформацій- них потреб користувача, а пошук відомо- стей для задоволення відповідної інфор- маційної потреби має враховувати багато умов та обмежень. Приміром, до таких задач може віднести пошук нової науко- вої літератури або інструментальних за- собів з певного питання, що має відокре- мити визначені в тезаурусі напрямки дос- ліджень. Недоцільно будувати тезаурус за- дачі для одноразових запитів у сфері, де користувач не є експертом і тому не може сам враховувати достатню кількість зов- нішніх знань. В такому випадку зусилля з побудови тезауруса будуть більшими від отриманого ефекту [17]. Інформацію, що міститься у тезау- русі задачі, можна поділити на дві частини – операційну та службову. Операційна ін- формація безпосередньо використовується у семантичному пошуку за допомогою та- кого тезауруса, а службова інформація описує шляхи побудови тезауруса, його інформаційні джерела, та може використо- вуватися для подальших операцій з цим тезаурусом (приміром, якщо відомо, з якої онтології експортовано певний термін, то можна експортувати й його підкласи або екземпляри). Простий тезаурус задачі – це те- заурус, який базується на термінах однієї онтології ПрО. Складений тезаурус задачі – це те- заурус, який базується на термінах двох або більш онтологій ПрО. Складений тезаурус може бути по- будований як поєднання двох або більше простих тезаурусів. Слід відмітити, що складений тезаурус задачі може містити терміни з однаковими іменами, отримані з різних онтологій, які не будуть еквівален- тними. Формальна модель простого теза- уруса задачі ORTTh ,, Th , де Т – мно- жина термінів, XT  а RR Th – множи- на відношень між цими термінами, що ви- користовувалися для побудови тезауруса. Множини Т й R скінчені. Формальна модель складеного те- зауруса задачі   ,m1,j,n1,i,O,XxTTh iiii j  ,O,...,O,RR n1iTh n 1i Th    де T – множина пар термінів онтологій та посилань на відповідну онтологію, ThR – Моделі та засоби систем баз даних і знань 78 об’єднання множин відношень між термі- нами онтологій, що використовувалися для побудови тезауруса, та перелік всіх онто- логій, що застосовуються для його побу- дови. Перехід від онтологій до тезаурусів дозволяє значно спростити структуру знань, що обробляються, забезпечуючи прийнятну для практичної реалізації шви- дкість оброблення. Але використання оригінальних онтологій ПрО як основи для побудови тезауруса забезпечує дос- тупність всіх наявних знань щодо ПрО, з яких користувач (вручну або автоматизо- вано) може обрати саме ту частку, що безпосередньо пов’язана з конкретною задачею. Крім того, тезаурус задачі можна розглядати як спрощену та персоналізова- ну онтологію, що характеризує терміноло- гічну основу поточної задачі користувача. Природномовний опис задачі може містити: – набір слів та словосполучень, які користувач вважає важливими для задачі (якщо користувач здатний самостійно по- будувати весь такий набір, то можна вва- жати проблему побудови тезауруса вирі- шеною, але у більшості випадків цей набір треба поповнювати та фільтрувати); – опис ІО, що входять до складу си- туації, що має стати результатом пошуку; – природномовний текст, що харак- теризує цю ситуацію (постановку задачі, опис проекту; технічне завдання тощо); – набір природномовних текстів, який користувач вважає пертинентними задачі (з цієї інформації потрібно здобути інформацію щодо того, які саме поняття ПрО є значущими для поточної задачі). Таким чином, для побудови тезау- руса задачі потрібно вирішити наступну задачу – побудувати метод, який забезпе- чує співставлення термінів онтології з природномовним текстом. Повністю автоматизувати цю зада- чу неможливо, тому що в процесі її вирі- шення потрібно використовувати нефор- малізовані знання та переконання користу- вача щодо того, що саме його цікавить і може бути корисним для його проблеми. Але можливо спростити цю роботу, част- ково автоматизувавши пошук потенційно цікавих фрагментів. Алгоритм побудови тезауруса задачі Вхідними даними для побудови те- зауруса задачі є природномовний опис за- дачі, онтологія ПрО, до якої користувач відносить свою задачу. Якщо результатом пошуку має стати не документ, а ситуація, то доцільно також використовувати онто- логію ІО, в якій містяться відомості щодо властивостей, структури, елементів та ек- земплярів такого ІО. У випадку обробки конкретизованої ситуації наявність онто- логії ІО дозволяє чітко структурувати умо- ви користувача [18]. Якщо обробляється персональна ситуація, то для надання знань щодо ко- ристувача може використовуватися внут- рішня онтологія ССП та її клас “користу- вач”. Це позбавляє користувача від вве- дення відомостей, вже відомих ССП щодо його індивідуальних властивостей. При цьому можуть оброблятися як формальні характеристики, такі як вік, місце прожи- вання, так і семантичні, такі як сфера ін- тересів або компетентність в певній ПрО. У деяких складних випадках для опису ІО можуть використовувати ся не одна, а кілька онтологій. Якщо якась одна онтологія не фор- малізує ПрО задовільно до задачі корис- тувача, то можна використовувати сукуп- ність онтологій, вважаючи їх незалежни- ми, а їх множини термінів – такими, що не перетинаються (якщо дві онтології містять терміни з однаковими назвами, то ці терміни вважаються різними). Крім того, в онтології (чи множині онтологій) не всі елементи є корисними для конкрет- ної задачі. Етап 1. Відбір множини пертинен- тних онтологій. Цей відбір виконується користува- чем на основі його знань та переконань. Як правило, вибирати потрібно серед тих онтологій, які запропоновані в ССП. Це забезпечує не тільки якість онтологій для відображення знань ПрО, але й їх придат- ність для обробки засобами системи. У Моделі та засоби систем баз даних і знань 79 більш загальному випадку можна шукати онтології у різноманітних репозиторіях, де властивості онтологій та їх домени охарактеризовані на семантичному рівні [19, 20]. При цьому можуть використовува- тися як онтології ПрО пошуку, так і онто- логії ІО. Приміром, якщо користувач праг- не знайти відомості щодо Web-сервісу для індуктивного здобуття знань з даних та їх візуалізації, то він може відібрати онтоло- гію ПрО “Data Mining” та онтологію ІО “Web-сервіси”. Для цього необхідно виконати ана- ліз пошукової ситуації, визначити, які ІО в ній використовуються та до яких ПрО на- лежать умови пошуку. Етап 2. Відбір у множині онтологій термінів, пертинентних задачі. Такий відбір може виконуватися користувачем безпосередньо або будува- тися за певними правилами (приміром, пі- дкласи обраного класу чи його екземпля- ри, поняття на визначеній семантичній ві- дстані від обраного поняття). За різними онтологіями можна побудувати кілька простих тезаурусів задачі а потім поєднати їх у складений тезаурус. На цьому етапі створюється почат- ковий варіант тезауруса задачі, який надалі потрібно вдосконалювати та поповнювати лінгвістичною інформацією, потрібною для співставлення з природномовними те- кстами. Етап 3. Розробка лінгвістичної БЗ (ЛБЗ) тезауруса задачі, яка має містити фрагменти природномовного тексту, що відповідають його термінам. Спочатку для кожного терміну те- зауруса задачі до ЛБЗ додаються всі сло- воформи цього терміну, що відповідають різним відмінкам та множині слова або словосполучення, що використовується як його ім’я в обраній природній мові. Для цього можуть використовуватися словоз- міни (флексії), тобто системні засоби утворення різних форм того самого слова відповідно до його синтаксичних пов’язань з іншими словами в реченні або словосполученні без зміни його лексично- го значення. Для цього в українській мові, приміром, можуть використовуватися за- кінчення змінних морфем-афіксів і пост- фіксів, зміни основи слова для слів з вну- трішньою флексією (“стіл”–“столи”), зміни суфікса (“швикий”–“швидший”) або зміни префікса (“більший”–“найбіль- ший”) та сполучення флексійної форми слова з прийменником (“атрибут”–“з ат- рибутом”) [20]. Словозміна застосовується при ві- дмінюванні іменника, прикметника, за- йменника й числівника за відмінами, а в них відмінками, числами й родами та діє- слова за відмінами, способами, часами, особами, числами, родами (в минулому часі й умовному способі), видами й ста- нами тощо. Побудувати такі конструкції на ос- нові відповідних знань щодо правил сло- возміни досить просто для окремих слів, а для словосполучень потребує додаткового лінгвістичного аналізу, метою якого є ви- значення головного слова, що змінюється, та поділу пов’язаних з ним слів на ті, що змінюються, та ті, що залишаються не- змінними за правилами природної мови. Наприклад, у словосполученні “онтологіч- на модель предметної області” основним є друге слово, змінюваним – перше, а не- змінюваними – третє та четверте. Інший метод здобуття словоформ для термінів тезауруса задачі базується на використанні Wiki-ресурсів [21, 22]. Такі ресурси можуть не тільки допомогти у формуванні онтології ПрО, що відповідає потребам користувача [23], але й стати джерелом лінгвістичної інформації. Якщо вдається знайти сторінку Вікіпедії, що ві- дповідає певному терміну тезауруса, то з коду сторінок, що на неї посилаються можна імпортувати конструкції-посилан- ня, пов’язані з цим терміном: [[ім’я сторі- нки\| словоформа терміну, доречна в текс- ті]]. Приміром, [[технічна інформатика\| технічній інформатиці]], [[Глушков_В_М \|Віктора Михайловича Глушкова]]. Додат- кову інформацію можна здобувати і з кате- горизації сторінок. Крім того, для семан- тичних Wiki-ресурсів можна аналізувати семантичні властивості термінів. На наступному кроці до основного слова чи словосполучення, що визначає термін тезауруса, додаються його синоні- Моделі та засоби систем баз даних і знань 80 мічні варіанти, актуальні для визначеної ПрО. Приміром, для словосполучення “онтологічна модель предметної області” – це словосполучення “онтологічний опис ПрО” та “онтологія домену”. Слід відмі- тити, що для побудови синонімічних ви- разів використовуються не тільки відомо- сті щодо природної мови, але й знання ПрО (приміром, експортовані з онтології ПрО відношення “є еквівалентним кла- сом”). Ще один крок – переклад словос- получень, що відповідають термінам те- зауруса, на інші мови, які знає користу- вач. Наприклад, для словосполучення “онтологічна модель предметної області” – це словосполучення “domain ontology” англійською мовою та “онтологическая модель предметной области” – російсь- кою. До отриманих перекладів застосо- вуються аналогічні операції побудови словоформ, що відповідають правилам обраних мов. Наступний крок – варіанти порядку слів у словосполученні та його елементи, які припустимі в рамках кожної з обраних природних мов. Приміром, екземпляр пев- ного класу “Іванов Олександр” може опи- суватися також як “Олександр Іванов” або “Іванов О.”. Остання операція цього етапу – ко- ристувач може вручну додати або видали- ти певні словосполучення, які він вважає відповідними термінам тезауруса. Після цього тезаурус задачі зберігається та може використовуватися для семантичного ана- лізу довільних природномовних текстів. Етап 4. Анотування тезауруса за- дачі. На цьому етапі доцільно створити опис тезауруса задачі, який описує як його формальні властивості (кількість термінів, оброблювані природні мови), так і семан- тичні характеристики – ПрО (через поси- лання на відповідні онтології), призначен- ня, проблеми, для рішення яких він може застосовуватися. Це забезпечує повторне використання знань, що відображені в та- кому тезаурусі. Етап 5. Вдосконалення тезауруса задачі. У багатьох випадках користувач може застосовувати для власних цілей ра- ніше створені тезауруси задач – як розроб- лені ним самим, так і розроблені іншими користувачами (якщо ті надають свої теза- уруси у відкритий доступ). Це доцільно у тих випадках, коли нова задача користувача є дещо зміненим варіантом задачі, що вирішувалася раніше (в такому випадку можна вручну відреда- гувати тезаурус, додавши чи видаливши кілька термінів). Якщо ж задача є уза- гальненням або уточненням попередніх задач, то доцільно застосовувати теорети- ко-множинні операції над тезаурусами, такі як перетин, об’єднання та доповнен- ня. Приміром, до тезауруса ПрО “Онтоло- гічний аналіз” в одному випадку можна додати тезаурус “Логічне виведення”, а в іншому – “Візуалізація знань”. Такий під- хід значно зменшує час на модифікацію тезаурусів задач, але потребує створення досить докладних анотацій створюваних тезаурусів. Етап 6. Визначення ваги термінів тезауруса задачі. Після того, як формування множи- ни термінів, що входять до складу тезауру- са задачі, закінчується, користувачеві не- обхідно вказати, яку вагу для поточної за- дачі має кожен термін [24]. У найпростішому випадку (за замо- вчанням) можна вважати, що всі терміни мають однакову вагу, що дорівнює одини- ці. Але на практиці зазвичай користуваче- ві зрозуміло, що деякі терміни значно важ- ливіші за інші. Крім того, існують ситуації, коли наявність певного терміну в ІР свід- чить про його низьку релевантність для задачі (хоча сам термін може бути важли- вим для ПрО в цілому). Приміром, корис- тувачеві потрібно знайти мови подання онтологій, які не базуються на XML. Тоді термін “XML” буде присутній в онтології задачі, але з негативною вагою. Такий тезаурус задачі надалі можна використовувати для того, щоб знаходити ІР, що найбільш пертинентні задачі корис- тувача (ці ІР можуть бути знайдені довіль- ною зовнішньою інформаційно- пошуковою системою (ІПС) за набором ключових слів, які вводить користувач для Моделі та засоби систем баз даних і знань 81 попереднього опису своєї інформаційної потреби, або ж набір ІР може запропону- вати сам користувач – як з зовнішніх дже- рел, таких як тематична бібліотека або сайт, так і з внутрішніх архівів). Надалі саме з цих ІР слід здобувати знання, що будуть корисні для побудови пошукової ситуації, але методи здобуття таких знань знаходяться поза розглядом даної роботи. Використовувати тезаурус задачі можна двома способами: 1) для кожного з аналізованих ІР будувати тезаурус, а потім порівнювати його з тезаурусом задачі, або 2) безпосередньо порівнювати тезаурус задачі з контентом кожного ІР, використо- вуючи для цього співставлення знання, на- копичені у ЛБЗ. Перший підхід доцільно використо- вувати, якщо ІР з відносно невеликої фік- сованої множини багаторазово аналізу- ються на пертинентність потребі користу- вача в фіксованій ПрО та для однієї або подібних задач. Приміром, це можна вико- ристовувати для індексації та швидкого пошуку у власних архівах або у власній електронній бібліотеці. Тоді можна побу- дувати тезауруси всіх ІР для певної ПрО і використовувати їх багаторазово. Надалі будемо розуміти під зваже- ним тезаурусом задачі спрощений варіант складеного тезауруса, в якому інформація щодо походження кожного терміну не прив’язується до певної онтології.  }O{W,X,Th zw , таке, що X,xi  n1,i  – термін тезауру- са задачі, iw – вага цього терміну в тезау- русі задачі, а }O{ z – множина онтологій, які використовувалися при побудові цього тезауруса. X є скінченою непорожньою множиною. Кожному такому тезаурусу задачі відповідає ЛБЗ L така, що для кожного Xxi  існує }m1,j,{lL iii j  – непоро- жня скінчена множина фрагментів приро- дномовних текстів, що відповідає терміну тезауруса задачі Xxi  . Ці множини не перетинаються:  ki LLk i . Якщо ж інформація за ключовими словами імпортується зовнішньою ІРС з інформаційного простору Web, то через динамічність цього середовища в будь- якому разі потрібно кожного разу заново аналізувати контент кожного ІР, і тому більш придатним є другий підхід, який де- тальніше розглянутий далі. Використання тезауруса задачі для фільтрації ІР Алгоритм персоніфікованої семан- тичної фільтрації ІР за допомогою тезауру- са задачі складається з наступних кроків: Користувач вводить запит, іденти- фікуючи свою інформаційну потребу за допомогою набору ключових слів. Потріб- но відмітити, що на цей момент система семантичного пошуку (ССП) має вже певні відомості про цього користувача, отримані в процесі взаємодії з ним та відображені в його моделі [25, 26]. Приміром, для цього може використовуватися онтологічна мо- дель, що персоніфікує взаємодію користу- вача з різними інтелектуальними застосу- ваннями [27, 28]. Запит передається до зовнішнього пошукового механізму, який відбирає з набору ІР ті, що містять введені ключові слова (у виродженому випадку набір ключових слів – порожня множина, і по- дальшому аналізу підлягає весь набір приступних ІР). Результати виконання запиту – n посилань на ІР і їхні короткі описи   p1,r,D,fReI rr  , де rfRe – ідентифікатор (приміром, http- адреса для ІР, знайдених в Web) відповід- ного ІР, а rd – інформація про цей ІР, що зовнішня ІПС надає користувачу у відпо- відь на запит. Якщо множина I не порожня, тоб- то вдалося знайти хоча б один ІР ( 1p  ), то потрібно встановити порядок, в якому пропонувати користувачу відомості про знайдений ІР. Тоді для всіх ІР з цієї мно- жини rfRe , p1,r  потрібно виконати Моделі та засоби систем баз даних і знань 82 наступну процедуру – спробувати знайти в них фрагменти тексту з множини L , що відповідають кожному з термінів теза- уруса задачі. Можна проводити швидкий аналіз – пошук лише в rd або повний аналіз – пошук в повному контенті ІР. Перший варіант значно швидший, але другий дає значно більш релевантні ре- зультати. В результаті цього аналізу для кож- ного r-го ІР формується вектор співстав- лення  n1 rrr a...,aa такий, що ,a ir ni ,1 – кількість співста- влень у тексті r-го ІР з і-м терміном тезау- руса задачі. Співставлення виконується з вико- ристанням ЛБЗ: якщо jil , що співвідно- ситься з терміном тезаурусу задачі Xxi  , входить до складу r-го ІР, тоді ir a збільшується на 1 (у спрощеному ва- ріанті порівняння елементів ЛДЗ викону- ється з контентом короткого опису відпо- відного ІР). Значущість кожного ІР для задачі оцінюється як функція від цього вектора та вектора ваги кожного терміну. Для більшості задач може викорис- товуватися наступна формула:    n 1i irr waf i . (1) Якщо потрібно порівнювати оцінки ІР для різних тезаурусів задачі (приміром, для оцінки досліджування ПрО та як її відображення у різних наборах ІР – елек- тронних бібліотеках, сайтах тощо), то ви- никає необхідність у використанні замість (1) нормованої оцінки. Але таку нормова- ну оцінку можна використовувати тільки в тому випадку, якщо не застосовуються негативні ваги термінів тезауруса задачі.     n 1i n 1i r n 1i r ir r ii i wa w*a fn . (2) Значення оцінки (2) завжди буде знаходитися в діапазоні між 0 та 1, в той час як значення оцінки (1) може приймати довільне значення, як позитивне, так і не- гативне. Отримані оцінки використовуються для перевпорядкування знайдених ІР: ко- ристувач отримує у першу чергу ІР з більш високими коефіцієнтами відповідності по- точній задачі користувача. Програмна реалізація Вищезапропонований метод побу- дови тезауруса задачі застосовується в системі семантичного пошуку “МАІПС” [29]. Ця система має забезпечити вико- нання складних багаторазових запитів у спеціалізованих ПрО, пов’язаних з про- фесійними або науковими інтересами ко- ристувачів. Запити таких користувачів можуть повторюватися від сеансу до сеа- нсу або змінюватися, але залишатися у рамках певної ПрО пошуку, в якій корис- тувачі є експертами. Система надає кори- стувачу ті результати пошуку, що відно- сяться до предметних областей, які його цікавлять і відповідають його інформа- ційним потребам. “МАІПС” дозволяє зберігати і по- вторно виконувати запити, зберігати фор- мальний опис області інтересів користува- ча у вигляді тезаурусів задачі та онтологій ПрО. Отримані результати перевпорядко- вуються з урахуванням цих знань, а також персоніфікованого індексу легкості читан- ня природномовних ІР [30, 31]. “МАІПС” не замінює собою ІПС. Вона є посередником між користувачем та існуючими засобами пошуку. Її приз- начення – зробити звертання користувача до ІР більш ефективним, зручним та шви- дким. Крім того, у “МАІПС” при профі- люванні користувачів використовується специфічний для природномовних ІР критерій оцінювання – складність тексту для розуміння. Особливістю системи є використання оригінального знання- орієнтованого алгоритму, що дозволяє ви- значити складність розуміння тексту для конкретного користувача (для того, щоб Моделі та засоби систем баз даних і знань 83 формалізувати рівень обізнаності користу- вача в певних ПрО, використовуються те- зауруси тих предметних областей, що ці- кавлять користувачів). Наукова новизна “МАІПС” полягає в інтегрованому використанні онтологіч- ного подання знань, агентної парадигми та технологій Semantic Web для пошуку ін- формації на семантичному рівні. Основні технології та методи, інте- гровані в “МАІПС”:  застосування технологій Seman- tic Web [32]: використання OWL [33] для інтероперабельного представлення онто- логій та тезаурусів, що описують ПрО;  реалізація теоретико-множин- них операцій над тезаурусам;  методи генерації тезаурусів за природномовними текстами;  використання технологій Web 2.0 [34] (хмар тегів – для візуалізації пошукових тезаурусів; соціальних сервісів – для взаємодії між користувачами);  оригінальні алгоритми впоряд- кування інформаційних ресурсів, знайде- них системою, з урахуванням ваги онто- логічних термінів;  використання критеріїв оцінки читабельності тексту для пошуку інфор- мації, що відповідає персональним потре- бам користувача;  використання методів індукти- вного виведення для узагальнення досвіду роботи “МАІПС”;  застосування мультиагентного підходу до створення моделі інтелектуаль- ної інформаційно-пошукової системи та представлення компонентів системи як ін- телектуальних BDI-агентів для формаліза- ції поведінки системи в цілому [35];  використання парадигми інте- лектуальних Web-сервісів для опису фун- кцій агентів системи, що дозволяє їх інте- роперабельне багаторазове використання [36]. Основою “МАІПС” є технології Semantic Web, зокрема, мова представлен- ня онтологій OWL і засоби його обробки. Для представлення знань щодо того, що цікавить користувача, використовуються онтології ПрО та базовані на них тезауру- си задач. При цьому тезаурус будується користувачем за відповідною онтологією самостійно, а онтологія обирається з набо- ру онтологій, запропонованих на сайті ро- зробниками системи. В процесі розвитку “МАІПС” ви- никла потреба в підключенні репозиторію онтологій, щоб користувачі могли повто- рно використовувати знання ПрО, досту- пні в Web. При цьому пошук може здійс- нюватися не тільки за ключовими слова- ми, а і за іншими важливими властивос- тями онтологій – обсяг, розробники, кіль- кість та типи відношень, базові DL, діале- кти мов подання тощо. Тому надалі пред- ставляється доцільним реалізувати в “МАІПС” засоби взаємодії з репозиторія- ми онтологій, що підтримують пошук по- трібної користувачу онтології, виявлення схожих на обрану користувачем онтоло- гій, а також зіставлення побудованого ко- ристувачем тезауруса з іншими онтологі- ями і тезаурусами. “МАІПС” базується на онтологічній моделі, що описує семантику взаємодії ко- ристувачів і ресурсів “МАІПС” в інформа- ційному просторі Web. Ця модель також може застосовуватися у побудові тезауру- са задачі, якщо пошукова ситуація є пер- сональною (тобто стосується саме даного користувача) [37]. Отримавши у відповідь від зовніш- ньої ІПС набір інформаційних ресурсів, “МАІПС” намагається здобути з них пот- рібні користувачеві відомості. У найпрос- тішому випадку, якщо потрібний користу- вачеві ІО є документом (можливо, певного типу), система перевпорядковує отримані посилання на ІР з урахуванням персональ- них особливостей користувача та збереже- них у БД системи відомостей про ці ІР. У більш складних випадках з ІР здобувають- ся відомості про властивості атрибутів шуканого ІО. Приміром, якщо користува- чеві був потрібен Web-сервіс з певними властивостями, то він отримає опис вхід- них і вихідних даних наявних Web- сервісів, що відповідають його умовам та опис їх роботи. “МАІПС” реалізована як серверне Інтернет-застосування мовою РНР версії Моделі та засоби систем баз даних і знань 84 5.0. Для збереження внутрішніх даних ви- користовується XML (надалі планується використання СУБД MySQL). Онтології зберігаються у форматах RTF і OWL, теза- уруси – у форматі XML. При редагуванні вже створеного тезауруса можна вводити вагу різних тер- мінів, що позначають їх важливість для пошуку (як позитивну, так і негативну), цілі числа від – 9 до + 9. Ця інформація дозволяє відображати тезаурус у вигляді хмари тегів (червоним кольором відмічені терміни з негативною вагою, синім – з по- зитивною, розмір шрифта відображає чи- слові значення ваги) (рис. 1). Терміни тезауруса задачі Вага термінів тезауруса задачі Базова онтологія Фолксономія термінів тезауруса задачі Рис. 1. Створення тезауруса задачі в “МАІПС” Результати пошуку, отримані від зовнішньої ІПС (наприклад, від Google) перевпорядковуються за допомогою кри- терію (1). Крім цього, “МАІПС” пропонує користувачеві адресу та анотацію кожного текстового ІР та оцінки легкості його чи- тання (рис. 2), обчислені з урахуванням термінів тезауруса задачі – слова та сло- восполучення, пов’язані з термінами цього тезауруса, не вважаються складними для користувача. Слід зазначити, що для представ- лення знань у “МАІПС” використовують- ся онтології, які можна поділити на дві окремі групи – внутрішні і зовнішні. Вну- трішні онтології створюються безпосере- дньо розроблювачами “МАІПС” і можуть поповнюватися в процесі взаємодії “МАІПС” із користувачами. Основною особливістю такі онтології є те, що розро- блювачам цілком відома їхня структура і вміст, тому можна прогнозувати кінцівку обчислень. Критерії легкості читання тексту Тезаурусний рейтинг ІР Назва ІР Анотація ІР Фолксономія термінів тезауруса задачі Рис. 2. Впорядкування результатів пошуку в системі “МАІПС” Зовнішні онтології дозволяють ін- тегрувати в “МАІПС” динамічні і розпо- ділені знання, доступ до яких забезпечує Web. Пошук таких онтологій може здійс- нюватися в різноманітних репозиторіях, чи ж вони можуть бути сформовані в про- цесі роботи користувача з іншими інтеле- ктуальними додатками. У загальному ви- падку інформація про складність структу- ри таких онтологій, про те, на яких де- скриптивних логіках вони базуються, на- скільки повними є такі знання, відсутня, і це не дозволяє прогнозувати час роботи алгоритмів для глибокого аналізу й обро- бки таких онтологій. Тому в “МАІПС” для обробки зовнішніх онтологій застосо- вуються спрощені алгоритми, що викори- стовують тільки найбільш прості власти- вості онтологій (наприклад, обробляються тільки відношення “клас-підклас”). Для більшості задач інформаційного пошуку цього досить, але для пошуку сукупнос- тей складних ІО – наприклад, для дослі- дження і композиції семантичних Web- сервісів чи формування мультиагентних систем – потрібно використовувати більш складні структурні зв’язки. Саме для та- ких ситуацій до складу “МАІПС” входять онтології складних ІО. Моделі та засоби систем баз даних і знань 85 Висновки Використання онтологічного аналі- зу для інтелектуалізації пошукових проце- дур забезпечує створення семантичної на- дбудови над традиційними інформаційно- пошуковими системами та дозволяє вико- ристовувати знання щодо індивідуальних інформаційних потреб користувачів. Запропонований у роботі підхід орі- єнтований на користувачів з постійними та складними інформаційними інтересами, такими як науково-дослідницька діяль- ність у певній сфері. Це припускає здат- ність таких користувачів до аналізу відпо- відної предметної області, обізнаності в її основних поняттях та зв’язках між ними та їх потребу в створенні складних багатора- зових запитів. Для персоніфікації пошуку інфор- маційних об’єктів та інформаційних ресу- рсів, які містять відомості, потрібні корис- тувачам для розв’язання поточних задач, запропоновано будувати та застосовувати тезауруси таких задач. Це дозволяє вико- ристовувати знання щодо предметної об- ласті пошуку та структури інформаційних об’єктів, які мають самі користувачі або які отримуються з відповідних онтологій. Визначення термінів, пов’язаних з семан- тичним пошуком, дозволяє більш чітко формулювати проблеми, пов’язані з пошу- ком інформації у відкритому середовищі Web. Програмна реалізація запропонова- ного підходу підтверджує ефективність його практичного використання. 1. Amerland D. Google Semantic Search: Search Engine Optimization (SEO) Techniques That Gets Your Company More Traffic, Increases Brand Impact and Amplifies Your Online Presence. – Que Publishing. – 2013. – 230 p. 2. Lawrence S. Context in the Web Search. – http://citeser.nj.nec.com/ lawrence00context.html. 3. Berry M.W. Survey of text mining // Computing Reviews 45.9, 2004. – 244 p. 4. Andon P., Deretsky V. Approach to Automatic Creation of Ontology from Documents for Improving Existent Information Retrieval // Proc.of 2-nd Balkan Conference in Informatics (BCI’2005) November 17–19, 2005. – P. 236–241. 5. Cimiano P. Ontology Learning and Population from Text: Algorithms, Evaluation and Applications. Ontology Learning and Population from Text: Algorithms, Evaluation and Applications. – Springer-Verlag New York, Inc. Secaucus, NJ, USA, 2006. – 347 p. 6. Fensel D., Harmelen F., Horrocks I., McGuinness D., Patel-Schneider P. OIL: An Ontology Infrastructure for the Sema- ntic Web. – http://www.cs.man.ac.uk/ %7Ehorrocks/Publications/download/2001/ IEEE-IS01.pdf. 7. Gruber T.R. What is an Ontology? – http://www-ksl.stanford.edu/kst/what-is-an- ontology.html. 8. Uschold M., Grüninger M. Ontologies: Principles, Methods and Applications // Knowledge Engineering Review 11(2), 1996. – Р. 93–155. 9. Guarino N. Formal Ontology in Information Systems // Formal Ontology in Information Systems. Proceedings of FOIS'98, Trento, Italy, 1998. – P. 3–15. 10. Боргест H.M., Коровин М.Д. Онтологии: современное состояние, стандарты, средс- тва поддержки. Уч. пособие. СРАУ. – Са- мара, 2013. – 84 с. 11. Клещев А.С., Артемьева И.Л. Математиче- ские модели онтологий предметных облас- тей. Часть 1. Существующие подходы к определению понятия «онтология» // Нау- чно-техническая информация, серия 2. – 2001. – С. 20–27. 12. ISO 25964-1:2011, Thesauri and interoperability with other vocabularies. Part 1: Thesauri for information retrieval. – Geneva: International Organization for Standards, 2011. 13. Нариньяни А.С. Кентавр по имени ТЕ- ОН: Тезаурус + Онтология. – http://www.artint.ru/articles/narin/teon.htm. 14. Браславский П.И., Гольдштейн С.Л., Тка- ченко Т.Я. Тезаурус как средство описания систем знаний // Информационные процес- сы та системы. – 1997. – № 11, Серия 2. – С. 16–22. 15. Величко В., Волошин П., Свитла С. Авто- матизированное создание тезауруса тер- минов предметной области для локальных поисковых систем. – www.foibg.com/ibs_ isc /ibs-15/ibs-15.pdf. 16. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы: мо- дели, инструменты, приложения. – Элект- http://www.artint.ru/articles/narin/teon.htm Моделі та засоби систем баз даних і знань 86 ронная книга, 2006. – 220 с. – http://catscpp.googlecode.com/svn- history/r146/trunk/diploma/materials/ontologi es_tesauruses.pdf. 17. Gladun A., Rogushina J. Use of Semantic Web Technologies and Multilinguistic Thesauri for Knowledge-Based Access to Biomedical Resources // International Journal of Intelligent Systems and Applications. – 2012, N 1. – P. 11–20. – http://www.mecs- press.org/ijisa/ijisa-v4-n1/IJISA-V4-N1-2.pdf 18. Gladun A., Rogushina J. Use of Semantic Web technologies in design of informational retrieval systems // in Book “Building and Environment”, Nova Scientific Publishing, New-York, USA. – 2009. – P.89–103. 19. Hartmann J., Palma R., Gomez-Perez A. Ontology Repositories // in Book “Handbook on Ontologies”, Edt. by S. Staab, R. Studer, Springer, 2009. – P. 551–572. 20. Baclawski K., Schneider T. The Open Ontology Repository Initiative: Requirements and Research Challenges // Proceedings of the 8th International Semantic Web Conference ISWC-2009, October 25, 2009, USA. 21. Лесько О.Н., Рогушина Ю.В. Использова- ние онтологий для анализа семантики ес- тественно-языковых текстов // Проблеми програмування. – 2009. – № 3. – С. 59–65. 22. Leuf B., Cunningham W. The Wiki way: collaboration and sharing on the Internet. – 2001. – http://www.citeulike.org/group/13847/article/ 7659081. 23. Wagner C. Wiki: A technology for conversa- tional knowledge management and group col- laboration // The Communications of the As- sociation for Information Systems. – 2004. – V. 13(1). – P. 264–289. 24. Рогушина Ю.В., Гладун А.Я. Семантичес- кая Википедия как источник онтологий для интеллектуальных поисковых систем // В кн.: Advanced Research in Artificial Intelligence. International Book Series "Information Science and Computing". ITHEA, Sofia, 2008. – Р. 172–178. 25. Гладун А.Я., Рогушина Ю.В. Основи мето- дології формування тезаурусів з викорис- танням онтологічного та мереологічного аналізу // Искусственный интеллект. – 2008. – № 5. – С.112–124. 26. Jansen B.J., Spink A., Saracevic T. Real life, real users, and real needs: a study and analysis of user queries on the Web. – http://citeseer.nj.nec.com/jansen00real.html. 27. Kobsa A. User modeling: recent work, prospects and hazards. – http://zeus.gmd.de/~kobsa/papers/1993-aui- kobsa.pdf. 28. Рогушина Ю.В. Разработка средств персо- нификации интеллектуальных Web- приложений // Материалы V Международ- ной научно-технической конференции «Открытые семантические технологии проектирвоания интеллектуальных сис- тем» OSTIS-2015. – Минск: БГУИР, 2015. – С. 265–270.– http://www.conf.ostis.net/images/8/8b/OSTIS -2015.compressed.pdf. 29. Rogushina J., Gladun A. Ontology-based competency analyses in new research domains // Journal of Computing and Information Technology. – 2012. – V. 20, N. 4. – P. 277–293. 30. Рогушина Ю.В., Гришанова І.Ю. Літерату- рний твір наукового характеру "Модель мультиагентної інформаційно-пошукової системи "МАІПС"("Модель МАІПС"). – Свідоцтво про реєстрацію авторського права на твір № 32068. 31. Flesch Reading Ease Readability Formula. – http://oleandersolutions.com/fleschreadingeas e.html. 32. McLaughlin H. SMOG grading a new readability formula // Journal of Reading. – 1969. – N 22. – P. 639–646. 33. Davies J., Fensel D., van Harmelen F. Towards the Semantic Web: Ontology-driven knowledge management // John Wiley & Sons Ltd,, England. – 2002. – 288 p. 34. OWL 2 Web Ontology Language Document Overview. W3C. 2009. – http://www.w3.org/ TR/owl2-overview/. 35. McCann R., Shen W., Doan A. Matching schemas in online communities: A web 2.0 approach // Proc. of ICDE, 2008. 36. Rao A.S., Georgeff M.P. Modeling rational agents within a BDI-architecture // In R. Pikes and E. Sandewall, eds.. Proc. of Knowledge Representation and Reasoning (KR&R-91), Morgan Kaufmann Publishers: San Mateo, CA, April 1991. – P. 473–484. 37. Cowles P. Web Services and the Semantic Web. – http://ezolin.pisem.net/logic/ ws_and_sw_rus.html. References 1. Amerland D. Google Semantic Search: Search Engine Optimization (SEO) Techniques That Gets Your Company More Traffic, Increases Brand Impact and http://iswc2009.semanticweb.org/ http://zeus.gmd.de/~kobsa/papers/1993-aui-kobsa.pdf http://zeus.gmd.de/~kobsa/papers/1993-aui-kobsa.pdf http://www.conf.ostis.net/images/8/8b/OSTIS-2015.compressed.pdf http://www.conf.ostis.net/images/8/8b/OSTIS-2015.compressed.pdf http://ezolin.pisem.net/logic/ws_and_sw_rus.html http://ezolin.pisem.net/logic/ws_and_sw_rus.html Моделі та засоби систем баз даних і знань 87 Amplifies Your Online Presence. – Que Publishing, 2013. – 230 p. 2. Lawrence S. Context in the Web Search. – http://citeser.nj.nec.com/ lawrence00context.html. 3. Berry M.W. Survey of text mining // Computing Reviews 45.9, 2004. – 244 p. 4. Andon P., Deretsky V. Approach to Automatic Creation of Ontology from Documents for Improving Existent Information Retrieval // Proc.of 2-nd Balkan Conference in Informatics (BCI’2005) November 17–19, 2005. – P. 236–241. 5. Cimiano P. Ontology Learning and Population from Text: Algorithms, Evaluation and Applications. Ontology Learning and Population from Text: Algorithms, Evaluation and Applications. – Springer-Verlag New York, Inc. Secaucus, NJ, USA, 2006. – 347 p. 6. Fensel D., Harmelen F., Horrocks I., McGuinness D., Patel-Schneider P. OIL: An Ontology Infrastructure for the Semantic Web. – http://www.cs.man.ac.uk/ %7Ehorrocks/Publications/download/2001/IE EE-IS01.pdf. 7. Gruber T.R. What is an Ontology? – http://www-ksl.stanford.edu/kst/what-is-an- ontology.html. 8. Uschold M., Grüninger M. Ontologies: Principles, Methods and Applications // Knowledge Engineering Review. – 11(2). – 1996. – Р. 93–155. 9. Guarino N. Formal Ontology in Information Systems // Formal Ontology in Information Systems. Proceedings of FOIS'98, Trento, Italy, 1998. – P. 3–15. 10. Borgest N.M., Korovin M.D. Ontologies: modern state, standards and support means, SRAU. – Samara, 2013. – 84 p. (in Russian) 11. Keschev A.S., Artemieva I.L. Mathematical models of domain ontologies. Part 1. Existing approaches for definition of «ontology» concept Science-technical information, series 2, 2001. – P. 20–27. (in Russian) 12. ISO 25964-1:2011, Thesauri and interoperability with other vocabularies. Part 1: Thesauri for information retrieval – Geneva: International Organization for Standards, 2011. 13. Nariniani A.C. Centaurus named TEON: thesaurus + ontology. – http://www.artint. ru/articles/narin/teon.htm. (in Russian) 14. Braslavsky P.I., Goldshtein S.L., Tkachenko T.Ya. Thesaurus as a mean of knowledge system deskribing // Information processes and systems, 1997. – N 11, series 2. – P. 16–22. (in Russian) 15. Velichko V., Voloshin P., Svitla S. Automated creation of thesaurus of domain terms for local retrieval systems. – www.foibg.com/ibs_isc/ibs-15/ibs-15.pdf. (in Russian) 16. Dobrov B.V., Ivanov V.V., Lukashevich N.V., Soloviev V.D. Ontologies and thesauri: models, instruments, applications. 2006. – 220 p. – http://window.edu.ru/resource/ 583/64583/files/Dobrov_978-5-9963-0007- 5%2F1-2-3_cC0007-5.pdf. (in Russian) 17. Gladun A., Rogushina J. Use of Semantic Web Technologies and Multilinguistic Thesauri for Knowledge-Based Access to Biomedical Resources // International Journal of Intelligent Systems and Applications. – 2012. – N 1. – P. 11–20. – http://www.mecs- press.org/ijisa/ijisa-v4-n1/IJISA-V4-N1-2.pdf 18. Gladun A., Rogushina J. Use of Semantic Web technologies in design of informational retrieval systems // in Book “Building and Environment”, 2009 Nova Scientific Publishing, New-York, USA. – P. 89–103. 19. Hartmann J., Palma R., Gomez-Perez A. Ontology Repositories // in Book “Handbook on Ontologies”, Edt. by S.Staab, R.Studer, Springer, 2009. – P. 551–572. 20. Baclawski K., Schneider T. The Open Ontology Repository Initiative: Requirements and Research Challenges//Proceedings of the 8th International Semantic Web Conference ISWC-2009, October 25, 2009, USA. 21. Lesko O.N., Rogushina Y.V. Use of ontologies for analysis of natural language texts semantics // Problems in programming. – 2009. N 3. – P. 59–65. (in Russian) 22. Leuf B., Cunningham W. The Wiki way: collaboration and sharing on the Internet. – 2001. – http://www.citeulike.org/group/ 13847/article/7659081. 23. Wagner C. Wiki: A technology for conversational knowledge management and group collaboration // The Communications of the Association for Information Systems. – 2004. – V. 13(1). – P. 264–289. 24. Rogushina Y.V., Gladun A.Ya. Semantic Wikipedia as a source of ontologies for intelligent retrieval systems // Advanced Research in Artificial Intelligence. International Book Series "Information Science and Computing". ITHEA, Sofia, 2008. – Р. 172–178. (in Russian) 25. Gladun A.Ya., Rogushina Y.V. Metodology bases of thesauri creation with use of ontological and mereological analysis // Artificial intelligence. – 2008. – N 5. – P. 112–124. (in Ukrainian) http://www.artint.ru/articles/narin/teon.htm http://www.artint.ru/articles/narin/teon.htm http://iswc2009.semanticweb.org/ Моделі та засоби систем баз даних і знань 88 26. Jansen B.J., Spink A., Saracevic T. Real life, real users, and real needs: a study and analysis of user queries on the Web. – http://citeseer.nj.nec.com/jansen00real.html. 27. Kobsa A. User modeling: recent work, prospects and hazards. – http://zeus.gmd.de/~kobsa/papers/1993-aui- kobsa.pdf. 28. Rogushina Y.V. Design of personification means of intelligent Web applications // Proc. of V scientific and technical conf. OSTIS- 2015. – Minsk, 2015. – P. 265–270. (in Russian) – http://www.conf.ostis.net/ images/8/8b/OSTIS-2015.compressed.pdf. 29. Rogushina J., Gladun A. Ontology-based competency analyses in new research domains // Journal of Computing and Information Technology. V.20, N. 4, 2012. – P. 277–293. 30. Rogushina Y.V., Grishanova I.Y. Literary work “Model of multiagent information retrieval system MAIPS (“MAIPS model”). – Copyright certificate of product registration N 32068. (in Ukrainian). 31. Flesch Reading Ease Readability Formula. – http://oleandersolutions.com/fleschreadingeas e.html. 32. McLaughlin H. SMOG grading a new readability formula // Journal of Reading. – 1969. – N 22. – P.639–646. 33. Davies J., Fensel D., van Harmelen F. Towards the Semantic Web: Ontology-driven knowledge management. – John Wiley & Sons Ltd,, England. – 2002. – 288 p. 34. OWL 2 Web Ontology Language Document Overview. W3C. 2009. – http://www.w3.org/TR/owl2-overview/. 35. McCann R., Shen W., Doan A. Matching schemas in online communities: A web 2.0 approach // Proc. of ICDE, 2008. 36. Rao A.S., Georgeff M.P. Modeling rational agents within a BDI-architecture // In R. Pikes and E. Sandewall, eds.. Proc. of Knowledge Representation and Reasoning (KR&R-91), Morgan Kaufmann Publishers: San Mateo, CA, April 1991. – P. 473–484. 37. Cowles P. Web Services and the Semantic Web. – http://ezolin.pisem.net/logic/ ws_and_sw_rus.html. Одержано 07.12.2015 Про автора: Рогушина Юлія Віталіївна, кандидат фізико-математичних наук, старший науковий співробітник. Кількість наукових публікації в українських виданнях – 100. Кількість наукових публікацій в іноземних виданнях – 25. Індекс Гірша – 10, http://orcid.org/0000-0001-7958-2557. Місце роботи автора: Інститут програмних систем НАН України, 03181, Київ-187, проспект Академіка Глушкова, 40, Тел.: 066 550 1999. E-mail: ladamandraka2010@gmail.com http://zeus.gmd.de/~kobsa/papers/1993-aui-kobsa.pdf http://zeus.gmd.de/~kobsa/papers/1993-aui-kobsa.pdf http://www.conf.ostis.net/images/8/8b/OSTIS-2015.compressed.pdf http://www.conf.ostis.net/images/8/8b/OSTIS-2015.compressed.pdf http://ezolin.pisem.net/logic/ws_and_sw_rus.html http://ezolin.pisem.net/logic/ws_and_sw_rus.html mailto:ladamandraka2010@gmail.com

Використання онтологій для персоніфікованого пошуку знань у природномовних текстів

Репозитарії

Схожі ресурси