Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model

The presented article introduces a novel solution that uses a specially developed structured prompt for a large language model (Chat GPT). A series of experiments were carried out on synthesizing natural language phrases based on their ontological representations. These ontological representations w...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Datum:	2024
Hauptverfasser:	Kaverynskyi, V.V., Litvin, A.A., Palagin, O.V.
Format:	Artikel
Sprache:	Ukrainian
Veröffentlicht:	Інститут програмних систем НАН України 2024
Schlagworte:	large language model ontology natural language text synthesis natural language text analysis cosine similarity text vectorization UDC 004.724 004.62
Online Zugang:	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/657
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:	Problems in programming

Institution

Problems in programming

id	pp_isofts_kiev_ua-article-657
record_format	ojs
resource_txt_mv	ppisoftskievua/f7/6d8f327279905e7b11a1ea8ab7e891f7.pdf
spelling	pp_isofts_kiev_ua-article-6572025-02-15T15:06:43Z Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model Зворотний синтез природно-мовних висловлювань на основі їх онтологічного представлення з використанням великої мовної моделі Kaverynskyi, V.V. Litvin, A.A. Palagin, O.V. large language model; ontology; natural language text synthesis; natural language text analysis; cosine similarity; text vectorization UDC 004.724, 004.62 велика мовна модель; онтологія; синтез природномовного тексту; аналіз природномовного тексту; косинусна близькість; векторизація тексту УДК 004.724, 004.62 The presented article introduces a novel solution that uses a specially developed structured prompt for a large language model (Chat GPT). A series of experiments were carried out on synthesizing natural language phrases based on their ontological representations. These ontological representations were automatically constructed from sentences of scientific and technical texts using previously developed software tools. Such representations contain entities found in the text and typed semantic relationships between them, which can be realised in the phrases of the analysed text. The system of relationships, specified by a set of concepts, is linked with the entity of the related part of the sentence, which in turn can be a simple sentence or part of a complex sentence. The structured prompt for the large language model includes explanations of the semantic relationships between concepts in the context of sentence synthesis from ontological representation, as well as a set of pairs of concepts connected by semantic relationships, which serve as materia l for sentence creation. The synthesised natural language sentences were compared with the originals using the cosine similarity measure across different vectorisation methods. The obtained similarity scores ranged from 0.8193 to 0.9722 according to the xx_ent_wiki_sm model, although stylistic distortions of the generated sentences were observed in some cases. The research presented in this work has practical significance for the development of dialogue information systems that combine the ontological approach with the use of large language models.Prombles in programming 2024; 2-3: 359-368 Стаття презентує нове рішення, що полягає у використанні спеціально розробленої структурованої інструкції-підказки для великої мовної моделі (Chat GPT). Було проведено серію експериментів із синтезу природномовних висловлювань на основі онтологічних представлень, автоматично побудованих на основі речень науково-технічного тексту за допомогою раніше розроблених програмних засобів. Ці представлення містять сутності, знайдені у тексті, та типізовані семантичні зв’язки між ними, які можуть реалізовуватися у фразах аналізованого тексту. Система зв’язків, конкретизованих набором понять, поєднується із сутністю зв’язаної частини речення, яка, своєю чергою, може бути простим реченням або частиною складного речення. Структурована інструкція-підказка для великої мовної моделі містить роз’яснення семантичних відношень між поняттями у контексті синтезу речень із онтологічного представлення, а також набір пар понять, поєднаних семантичними зв’язками, що слугують матеріалом для створення речення. Синтезовані у такий спосіб природномовні речення порівнювалися з оригіналами за показником косинусної близькості за умов різних методів векторизації, зокрема xx_ent_wiki_sm, uk_core_news_lg та tf-idf. Отримані показники близькості сягали 0,8193 – 0,9722 за моделлю xx_ent_wiki_sm, хоча у деяких випадках спостерігалося стилістичне викривлення отриманих речень. Дослідження має практичне значення для розробки діалогових інформаційних систем, що поєднують онтологічний підхід із використанням великих мовних моделей.Prombles in programming 2024; 2-3: 359-366 Інститут програмних систем НАН України 2024-12-17 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/657 10.15407/pp2024.02-03.359 PROBLEMS IN PROGRAMMING; No 2-3 (2024); 359-366 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2024); 359-366 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2024); 359-366 1727-4907 10.15407/pp2024.02-03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/657/709 Copyright (c) 2024 PROBLEMS IN PROGRAMMING
institution	Problems in programming
baseUrl_str	https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date	2025-02-15T15:06:43Z
collection	OJS
language	Ukrainian
topic	large language model ontology natural language text synthesis natural language text analysis cosine similarity text vectorization UDC 004.724 004.62
spellingShingle	large language model ontology natural language text synthesis natural language text analysis cosine similarity text vectorization UDC 004.724 004.62 Kaverynskyi, V.V. Litvin, A.A. Palagin, O.V. Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model
topic_facet	large language model ontology natural language text synthesis natural language text analysis cosine similarity text vectorization UDC 004.724 004.62 велика мовна модель онтологія синтез природномовного тексту аналіз природномовного тексту косинусна близькість векторизація тексту УДК 004.724 004.62
format	Article
author	Kaverynskyi, V.V. Litvin, A.A. Palagin, O.V.
author_facet	Kaverynskyi, V.V. Litvin, A.A. Palagin, O.V.
author_sort	Kaverynskyi, V.V.
title	Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model
title_short	Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model
title_full	Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model
title_fullStr	Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model
title_full_unstemmed	Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model
title_sort	reverse synthesis of natural language phrases grounding on their ontological representation using a large language model
title_alt	Зворотний синтез природно-мовних висловлювань на основі їх онтологічного представлення з використанням великої мовної моделі
description	The presented article introduces a novel solution that uses a specially developed structured prompt for a large language model (Chat GPT). A series of experiments were carried out on synthesizing natural language phrases based on their ontological representations. These ontological representations were automatically constructed from sentences of scientific and technical texts using previously developed software tools. Such representations contain entities found in the text and typed semantic relationships between them, which can be realised in the phrases of the analysed text. The system of relationships, specified by a set of concepts, is linked with the entity of the related part of the sentence, which in turn can be a simple sentence or part of a complex sentence. The structured prompt for the large language model includes explanations of the semantic relationships between concepts in the context of sentence synthesis from ontological representation, as well as a set of pairs of concepts connected by semantic relationships, which serve as materia l for sentence creation. The synthesised natural language sentences were compared with the originals using the cosine similarity measure across different vectorisation methods. The obtained similarity scores ranged from 0.8193 to 0.9722 according to the xx_ent_wiki_sm model, although stylistic distortions of the generated sentences were observed in some cases. The research presented in this work has practical significance for the development of dialogue information systems that combine the ontological approach with the use of large language models.Prombles in programming 2024; 2-3: 359-368
publisher	Інститут програмних систем НАН України
publishDate	2024
url	https://pp.isofts.kiev.ua/index.php/ojs1/article/view/657
work_keys_str_mv	AT kaverynskyivv reversesynthesisofnaturallanguagephrasesgroundingontheirontologicalrepresentationusingalargelanguagemodel AT litvinaa reversesynthesisofnaturallanguagephrasesgroundingontheirontologicalrepresentationusingalargelanguagemodel AT palaginov reversesynthesisofnaturallanguagephrasesgroundingontheirontologicalrepresentationusingalargelanguagemodel AT kaverynskyivv zvorotnijsintezprirodnomovnihvislovlûvanʹnaosnovííhontologíčnogopredstavlennâzvikoristannâmvelikoímovnoímodelí AT litvinaa zvorotnijsintezprirodnomovnihvislovlûvanʹnaosnovííhontologíčnogopredstavlennâzvikoristannâmvelikoímovnoímodelí AT palaginov zvorotnijsintezprirodnomovnihvislovlûvanʹnaosnovííhontologíčnogopredstavlennâzvikoristannâmvelikoímovnoímodelí
first_indexed	2025-07-17T09:47:33Z
last_indexed	2025-07-17T09:47:33Z
_version_	1838409466062569472
fulltext	359 Експертні та інтелектуальні інформаційні системи, штучний інтелект УДК 004.724, 004.62 http://doi.org/10.15407/pp2024.02-03.359 В. В. Каверинський, А. А. Літвін, О. В. Палагін ЗВОРОТНИЙ СИНТЕЗ ПРИРОДНОМОВНИХ ВИСЛОВЛЮВАНЬ НА ОСНОВІ ЇХ ОНТОЛОГІЧНОГО ПРЕДСТАВЛЕННЯ З ВИКОРИСТАННЯМ ВЕЛИКОЇ МОВНОЇ МОДЕЛІ Стаття презентує нове рішення, що полягає у використанні спеціально розробленої структурованої інструкції-підказки для великої мовної моделі (Chat GPT). Було проведено серію експериментів із синтезу природномовних висловлювань на основі онтологічних представлень, автоматично побу- дованих на основі речень науково-технічного тексту за допомогою раніше розроблених програм- них засобів. Ці представлення містять сутності, знайдені у тексті, та типізовані семантичні зв’язки між ними, які можуть реалізовуватися у фразах аналізованого тексту. Система зв’язків, конкрети- зованих набором понять, поєднується із сутністю зв’язаної частини речення, яка, своєю чергою, може бути простим реченням або частиною складного речення. Структурована інструкція-підказка для великої мовної моделі містить роз’яснення семантичних відношень між поняттями у контексті синтезу речень із онтологічного представлення, а також набір пар понять, поєднаних семантични- ми зв’язками, що слугують матеріалом для створення речення. Синтезовані у такий спосіб природ- номовні речення порівнювалися з оригіналами за показником косинусної близькості за умов різних методів векторизації, зокрема xx_ent_wiki_sm, uk_core_news_lg та tf -idf. Отримані показники бли- зькості сягали 0,8193 – 0,9722 за моделлю xx_ent_wiki_sm, хоча у деяких випадках спостерігалося стилістичне викривлення отриманих речень. Дослідження має практичне значення для розробки діалогових інформаційних систем, що поєднують онтологічний підхід із використанням великих мовних моделей. Ключові слова: велика мовна модель, онтологія, синтез природномовного тексту, аналіз природно- мовного тексту, косинусна близькість, векторизація тексту. V. V. Kaverynskyi, A. A. Litvin, O. V. Palagin REVERSE SYNTHESIS OF NATURAL LANGUAGE PHRASES GROUNDING ON THEIR ONTOLOGICAL REPRESENTATION USING A LARGE LANGUAGE MODEL The presented article introduces a novel solution that uses a specially developed structured prompt for a large language model (Chat GPT). A series of experiments were carried out on synthesizing natural lan- guage phrases based on their ontological representations. These ontological representations were automati- cally constructed from sentences of scientific and technical texts using previously developed software tools. Such representations contain entities found in the text and typed semantic relationships between them, which can be realised in the phrases of the analysed text. The system of relationships, specified by a set of concepts, is linked with the entity of the related part of the sentence, which in turn can be a simple sentence or part of a complex sentence. The structured prompt for the large language model includes explanations of the semantic relationships between concepts in the context of sentence synthesis from ontological represen- tation, as well as a set of pairs of concepts connected by semantic relationships, which serve as materia l for sentence creation. The synthesised natural language sentences were compared with the originals using the cosine similarity measure across different vectorisation methods. The obtained similarity scores ranged from 0.8193 to 0.9722 according to the xx_ent_wiki_sm model, although stylistic distortions of the generated sentences were observed in some cases. The research presented in this work has practical significance for the development of dialogue information systems that combine the ontological approach with the use of large language models. Key words: large language model, ontology, natural language text synthesis, natural language text analysis, cosine similarity, text vectorization. © В. В. Каверинський, А. А. Літвін, О. В. Палагін, 2024 ISSN 1727-4907. Проблеми програмування. 2024. №2-3 360 Експертні та інтелектуальні інформаційні системи, штучний інтелект Вступ Дослідження у сфері розвитку он- тологій та семантичної обробки наукових даних мають велике значення для сучас- ної наукової спільноти, особливо в кон- тексті швидкого зростання обсягу інфор- мації та потреб дослідників у її ефектив- ному використанні. Основним завданням є розроблення та впровадження техноло- гій, що дозволять швидко й точно знахо- дити й обробляти наукову інформацію, а також взаємодіяти з інформаційними сис- темами для забезпечення максимальної корисності цих даних [1, 2]. Для вирішен- ня цих завдань були розроблені різні сис- теми та методології обробки наукових да- них, наприклад [1–3]. Вони використову- ють такі технології, як Semantic Web і ко- гнітивна графіка, щоб полегшити пошук інформації та відкриття знань у цифрових бібліотеках. Дослідження у галузі цифро- вого здоров'я та телереабілітації також займають важливе місце у сучасній науці [3–7]. Дослідники активно працюють над розробкою та впровадженням інновацій- них технологій у цій сфері, зокрема, роз- витком хмарних платформ для телереабі- літації пацієнтів [5, 6]. Ці платформи ба- зуються на поєднанні штучного інтелекту та математичного моделювання, що до- зволяє створювати ефективні та іннова- ційні підходи до реабілітації та підтримки здоров'я [5, 8]. Стан розробки проблеми. Розви- ток онтологічної інженерії в поєднанні з нейронно-мережевими технологіями та штучним інтелектом відкриває нові перс- пективи у взаємодії з інформаційними сис- темами та у розвитку інноваційних серві- сів [8, 9]. Наприклад, у праці [9] описано інтегрований підхід, що поєднує нейронні мережі й онтолінгвістичні парадигми для підвищення ефективності інтелектуальних діалогових систем та забезпечення більш гнучкого їх адаптування до різних потреб користувачів і предметних областей [9]. Цей інтегрований підхід також підкреслює важливість метанавчання та структурова- них підказок для підвищення ефективності мовної моделі. У представленому в даній роботі дослідженні подальший розвиток отримав підхід до інтеграції великих мовних моде- лей та онтологічних структур знань і за- стосування структурованих інструкцій- підказок, зокрема в аспекті процесів відт- ворення природномовного тексту на основі семантичного представлення. Далі для за- значеного підходу вводиться термін зворот- ний синтез. Метою дослідження є розроблення структурованої інструкції-підказки для ве- ликої мовної моделі для синтезу природ- номовних висловлювань на основі їхніх онтологічних представлень, а також пода- льше оцінювання результатів шляхом фо- рмального порівняння згенерованих фраз із оригінальними текстами за допомогою різних моделей векторизації тексту. Спосіб побудови природномовної фрази на основі онтологічного представлення з використанням великої мовної моделі Автоматично створена онтологія, отримана з тексту природної мови, міс- тить сутності та семантичні зв’язки, які їх з’єднують. Ці зв’язки, задані сутностями, пов’язані з групами виразів, які, своєю чергою, пов’язані з реченнями у вхідному тексті. Отже, з таким семантичним пред- ставленням можна сформулювати речення природною мовою. Для цього завдання можна застосувати шаблонний підхід, як описано в [10]. Однак із розвитком підхо- дів, заснованих на використанні нейрон- них мереж глибокого навчання, втіленням яких є великі моделі мовних трансформа- торів, такі як ChatGPT, виникає необхід- ність дослідити їх як інструменти для си- нтезу речень природної мови на основі семантичних структур. Спроба в цьому напрямку була зроблена в рамках даної роботи. За тестову онтологію використано базу знань, створену на основі тексту «Склад обчислювальної системи». Оскіль- ки база знань управлялася графовою СУБД 361 Експертні та інтелектуальні інформаційні системи, штучний інтелект Neo4J, мовою запитів для неї була обрана Cypher. Нижче наведено текст запиту до вказаної онтології для отримання тексту конкретного речення (для порівняння ре- зультатів) за його ідентифікатором: MATCH (inp:Relationship)-[:SPO]- >(inp_type:Relationship), (inp:Relationship)<-[:SPO]- (linked_group:Relationship), (linked_group:Relationship)-[:SPO]- >(linked_group_type:Relationship), (linked_group:Relationship)<-[:SPO]- (certain_words_link:Relationship), (certain_words_link:Relationship)- [:SPO]->(sem_type:Relationship), (sem_type:Relationship)-[:SPO]- >(w_link_type:Relationship), (certain_words_link:Relationship)- [:DOMAIN]->(main_entity:Class), (certain_words_link:Relationship)- [:RANGE]->(dependent_entity:Class) WHERE inp_type.name = "SentenceGroups" and linked_group_type.name = "Groups" and w_link_type.name = "WordsLink" and ID(inp) = specify sentence ID RETURN DISTINCT ID(inp) as id, inp.label as text, main_entity.label as main_entity, dependent_entity.label as dependent_entity, sem_type.label as sem_type; Цей запит також повертає відповід- ний набір семантичних категорій і пов’язаних пар понять (головних і залеж- них) для цього речення. Результати такого запиту слугували вхідними даними для за- вдання зворотного синтезу речення приро- дної мови. Відповідно до наведеного запиту із онтології повертається речення з певним ідентифікатором (specify sentence ID). Результат має містити ідентифікатор, текст, а також набір триплетів виду «осно- вна сутність, залежна сутність і семантич- ний тип» щодо вказаного речення. Отри- мана з онтології семантична структура ви- являється достатньою для побудови зв’язного природномовного речення від- повідного змісту. Щоб ініціювати завдання синтезу у великій мовній моделі, такій як ChatGPT, необхідно надати відповідну ін- струкцію-підказку (так званий prompt). Як зазначалося в [11], для таких інструкцій бажано використовувати англійську мову. Сама інструкція структурована у форматі JSON. Відповідний текст підказки подано нижче: {"Intriduction": «You are an expert in knowledge engineering and ontologies as well as in meaningful text generation in inflect languages. You will be provided with data obtained from some ontology through a query. The ontology was made automatically basing on the results of semantic analysis of a natural language text. The results are pairs of lemmatized words ("main entity" and "dependent entity") accompanied with a name of syntactic- semantic relationship that linked them in the certain sentence.", "Action to perform": «Assuming that all the data you will be provided belong to one sentence you are to make a try to restore the original sentence using such a prompt. Language of the ontology, input and output data is Ukrainian.", "Restrictions": «Do not put the semantic relationships as a phrase as it given in the sentence you generate, it will be definitely wrong. It is just a prompt for syntactic linking. Remember that the provided words are lemmatized, so you are to put them in a correct form according to other entities of the sentence and the given syntactic-semantic relationships of the prompt.", "Additional data to provide": «Also provide an estimated value of probability that the generated sentence corresponds the intent of the prompt given.", "The essence of the syntactic-semantic relationship names and meaning explanation": {"object property: «the dependent entity express a property or some characteristic, or quality of the main entity. When the response sentence generation you should use the dependent entity as an adjective with the main entity which is noun", "action property": "the dependent entity express a property or some characteristic, or quality of the main entity which is an action. When the response sentence generation you should use the dependent entity as an adverb with the main entity which is verb", "quality change": "the dependent entity express that the main entity may be subjected to some quality changes, which may follow from the other context", "destination": «the dependent entity express the destination of the main entity", "object": «the object (noun) affected throw the action expressed by the main entity", "object / action": «the main entity performs an action expressed by the dependent entity", "preposition binding": «merely shows that the main entity here in the context of the provided sentence is to be used with the preposition which is the dependent entity. This means that you should use this preposition with the main entity when the response sentence generation", "possession": "the dependent entity or somewhat relates to the main entity. When generation this usually should be expresses using genitive case", "equality": "the different name of the entity or an equivalent entity", "objective entry": "the main entity is a part or member of the dependent entity", "state": "a state or a constant characteristic of the main entity if it is noun or an entity linked to in if it is a verb"}, "Input data": [{ "main entity": "some word 1", "dependent entity": "some word 2", "semantic relationship": «semantic category 1"}, {"main entity": "some word n", "dependent entity": "some word n+1", "semantic relationship": "semantic category n" }]} 362 Експертні та інтелектуальні інформаційні системи, штучний інтелект Дамо коротке пояснення стосовно розділів наведеної інструкції-підказки. Розділ "Introduction" встановлює початкові параметри для великої мовної моделі щодо її подальшої поведінки та пропонує основні роз’яснення вхідних даних. У розділі "Action to Perform" сфор- мовано безпосереднє завдання, яке необхі- дно виконати. Розділ "Restrictions" містить додат- кові вказівки щодо сформованого вихідно- го тексту, які націлені на усунення неодно- значності у тлумаченні інструкції. Розділ "Additional Data to Provide" слугує для вказівок моделі провести влас- не оцінювання якості виконання завдання. У розділі "The Essence of the Syntactic-Semantic Relationship Names and Meaning Explanation" подано словник по- яснень типів семантичних зв’язків і спосо- бів їх використання у побудові речення. Враховуючи значну кількість семантичних категорій за умови обмеженої кількості символів для вхідних повідомлень ChatGPT, практичний обсяг такого слов- ника обмежений семантичними категорія- ми, наявними в даному реченні. Пари сутностей і їхні відповідні се- мантичні зв’язки перераховані у вигляді списку словників у розділі "Input Data". На виході отримуємо сформульова- не речення природною мовою та власну оцінку моделі, надану ChatGPT, щодо ймовірності того, що речення було побу- довано точно та відповідає оригіналу (про вигляд його модель не знає). Загальну схему процесу форму- вання природномовних висловлювань на основі їхньої онтологічної репрезентації наведено на Рис. 1. Суть експерименту полягала в тому, що із тестової онтоло- гії, створеної на основі тексту «Склад обчислювальної системи», за допомогою запиту мовою Cypher видобувалися ок- ремі речення та відповідні їм пари сут- ностей із семантичними категоріями, що зв’язують їх у межах даного речення. Далі, застосовуючи вищенаведену ін- струкцію-підказку, великій мовній мо- делі (ChatGPT) передавалося завдання згенерувати граматично правильне ре- чення українською мовою на основі на- бору пар сутностей із заданими семан- тичними зв’язками. У відповідь отрима- но згенероване речення та зроблена мо- деллю оцінка ймовірності того, що ре- чення було точно відтворено. Для тесту- вання було використано 10 речень із за- значеного тексту. Рис. 1. Загальна схема генерації природномовних висловлювань на основі онтологічного представлення з використанням великої мовної моделі 363 Експертні та інтелектуальні інформаційні системи, штучний інтелект Методика оцінювання результатів експерименту Для порівняння подібності створе- ного речення до оригіналу використовува- лося значення косинусної подібності. Ко- синусна подібність — це міра подібності між двома передгільбертовими просторо- вими векторами, яка використовується для вимірювання косинусу кута між ними. Отже, якщо є два вектори ознак (A і B), то косинусну подібність cos(θ) можна пред- ставити за допомогою скалярного добутку та норми (1): 1 2 2 1 1 cos( ) ( ) ( ) n i i i n n i i i i A B A Bsimilarity A B A B  = = =   = = =     (1) Косинусна подібність змінюється від 0 до 1. Це пов’язано з тим, що частота термінів (ваги tf-idf) не є від’ємною, а кут між двома векторами частоти термінів не може перевищувати 90°. Косинусна подіб- ність є ефективним засобом оцінки, особ- ливо для розріджених векторів, оскільки враховує лише ненульові значення. «М’який» косинус враховує подібність між парами ознак. Традиційна косинусна подібність розглядає функції у векторній моделі як незалежні або повністю окремі, тоді як «м’яка» косинусна міра визнає по- дібність ознак у векторній моделі. Це до- зволяє узагальнити концепцію косинусної подібності та концепцію подібності об’єктів у векторному просторі. Такі сутності, як слова, N-грами або синтаксичні N-грами, можуть демонстру- вати суттєву подібність, хоча формально їх можна вважати різними функціями у век- торній моделі. Для N-грам або синтаксич- них N-грам можна застосувати відстань Левенштейна [12]. Для обчислення «м’якої» косинусної міри вводиться мат- риця подібності s між функціями. Вона об- числюється за допомогою відстані Левен- штейна або інших заходів подібності, та- ких як різні засоби подібності WordNet. Далі за цією матрицею виконується мно- ження. Якщо є два N-вимірних вектора, a і b, «м’який» косинус обчислюється так: , 1 , , _ cos ( , ) N ij i ji j N N ij i j ij i ji j i j s a b soft ine a b s a a s b b   =         (2) У формулі (2) sij представляє подіб- ність між функціями i та j. За відсутності подібності між ознаками (sii = 1, sij = 0 для i ≠ j) рівняння (2) еквівалентне загальноприйня- тій формулі косинусної подібності. Оскільки виконання математичних обчислень безпосередньо на рядках є не- можливим, а обчислення такого показника, як подібність косинусів, вимагає існування векторів, тексти для обробки та аналізу проходять векторизацію. Щоб отримати векторні відображення речень, було вико- ристано бібліотеку Python spaCy і мовні моделі uk_core_news_lg (для української мови) та xx_ent_wiki_sm (багатомовна). Також застосовувався метод TF-IDF. Для обчислення значень косинусної подібності були задіяні методи, реалізовані в spaCy. Обговорення результатів експериментів Значення кількісних оцінок, що ха- рактеризують близькість згенерованих ре- чень до оригіналу за різних методів векто- рного представлення, подані в Табл. 1. Крім того, надається «суб’єктивна» оцінка ймовірності точного відтворення від ChatGPT. Важливо зазначити, що ця оцін- ка не може вважатися цілком об’єктивним показником, а радше є орієнтиром та оцін- кою самокритики моделі GPT. Із представ- лених результатів видно, що кількісна оці- нка косинусної подібності значно залежить від моделі векторизації, застосованої до аналізованих текстів. Результати показують, що мовні моделі xx_ent_wiki_sm і uk_core_news_lg забезпечують досить високі значення ко- синусної подібності (0,87 і 0,81 відповід- но). Тим часом більш простий метод век- торизації на основі tf-idf дає значно нижчі середні значення та більший діапазон варі- ації. Модель xx_ent_wiki_sm (багатомовна) демонструє вузький діапазон варіації та ві- дносно високе значення середньої косину- сної подібності. Зменшення середнього значення із використанням моделі uk_core_news_lg (для української мови) пояснюється більшою варіацією вниз. Од- нак максимальні отримані значення для цих двох моделей досить близькі – засто- 364 Експертні та інтелектуальні інформаційні системи, штучний інтелект сування моделі uk_core_news_lg у деяких випадках призводить до значно нижчого значення косинусної подібності. Порів- няння показників косинусної подібності, отриманих за допомогою моделей векто- ризації xx_ent_wiki_sm і uk_core_news_lg, показано на Рис. 2 (a), що свідчить про ві- дсутність будь-якої суттєвої кореляції між ними. Тобто, ці моделі дещо по-різному сприймають текст природної мови. Аналіз безпосередньо згенерованих речень виявив, що під час векторизації за допомогою моделі uk_core_news_lg зни- жені оцінки косинусної подібності вини- кають у випадках генерації складних, роз- галужених речень, тоді як вихідне речення є значно простішим, хоча семантично бли- зьким. Таблиця 1 Кількісні оцінки якості зворотного синтезу речень Власна оцінка від ChatGPT Косинусна подібність Модель векторизації xx_ent_wiki_sm Модель векторизації uk_core_news_lg Модель векторизації tf-idf Середнє значення Інтервал значень Середнє значення Інтервал значень Середнє значення Інтервал значень Середнє значення Інтервал значень 0.845 ±0.037 0.75 – 0.90 0.8716 ±0.0335 0.8193 – 0.9722 0.8108 ±0.1224 0.4067 – 0.9653 0.2927 ±0.1718 0.0607 – 0.7745 R2 = 0.0006 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.8 0.85 0.9 0.95 1 xx_ent_wiki_sm uk _c or e_ ne w s_ lg R2 = 0.4853 0 0.2 0.4 0.6 0.8 1 0.8 0.85 0.9 0.95 1 xx_ent_wiki_sm tf- id f R2 = 0.0892 0 0.2 0.4 0.6 0.8 1 0.3 0.5 0.7 0.9 xx_ent_wiki_sm tf- id f а) б) в) Рис. 2. Порівняння значень косинусної подібності вихідних і сформованих речень після векторизації тексту за різними моделями: а) xx_ent_wiki_sm / uk_core_news_lg; б) xx_ent_wiki_sm / tf-idf; в) uk_core_news_lg / tf-idf. Модель xx_ent_wiki_sm видається менш чутливою до таких проявів і забез- печує вищу оцінку косинусної подібності. Однак, як видно з графіка, чіткої кореляції між моделями немає. Бувають випадки, коли uk_core_news_lg дає вищу оцінку ко- синусної подібності, а xx_ent_wiki_sm, відповідно, меншу. Аналіз свідчить про те, що в таких випадках, незважаючи на збе- реження лексично та синтаксично близької до оригіналу структури, зміст був дещо спотворений. Існує помітна кореляція в оцінках косинусної подібності між моделлю xx_ent_wiki_sm і оцінками, отриманими для методу tf-idf. Найвищі показники за цими методами були отримані у разі прак- тично повного збігу речень. Що ж до най- нижчих значень оцінки, то метод tf-idf та- кож виявився чутливим до деформованих речень, що знижувало значення метрик. Модель uk_core_news_lg слабо корелює з методом tf-idf. Таким чином, якщо форма представлення не має великого значення, а акцент робиться на змісті, можна застосу- вати векторизацію за допомогою моделі xx_ent_wiki_sm. Водночас модель uk_core_news_lg чутлива як до змісту, так і до зміни форми, що робить її придатною для отримання жорсткішого та чутливішого порівняння. Метод tf-idf дуже чутливий до зміни фор- ми, але менш вправний у розпізнаванні подібності вмісту. Подальшим розвитком наведених досліджень може стати вдосконалення ві- 365 Експертні та інтелектуальні інформаційні системи, штучний інтелект дповідних інструкцій-підказок для великих мовних моделей, у тому числі не просто для відтворення вихідного тексту за онто- логічною моделлю, а й логічного висновку із поданої інформації, що наблизить нас до вирішення глобальної задачі онтологічно- го підходу – можливості отримання нових знань [2, 3]. Також перспективним вида- ється можливість розгляду альтернативних GPT моделей, у тому числі автономних малих мовних моделей і, можливо, архіте- ктури процесорів, запропонованої у робо- тах [13, 14]. Зрозуміло, що це потребує ма- сштабних досліджень, пов’язаних із самою природою знань (оцінювання новизни, ло- гікові виведення вторинних знань на осно- ві первинних, логіко-семантичне порів- няння контекстів і т.п.). Висновки Порівняння оцінок, отриманих різ- ними методами, та візуальний перегляд ре- зультатів експерименту дозволяє підсуму- вати, що запропонований підхід до генера- ції природних речень українською мовою на основі їх онтологічної репрезентації за допомогою великої мовної моделі здатний передати загальний зміст і сенс оригіналь- ної фрази, про що свідчать високі показни- ки косинусної подібності (~0.87±0.03 у ра- зі моделі векторизації xx_ent_wiki_sm). Однак часто, хоча і не у всіх випадках, створена фраза може виглядати дещо не- природною, містити зайві сутності та ви- рази. Отримані результати вказують на те, що, хоча великі мовні моделі можна засто- совувати для створення тексту на основі онтологічного представлення та передачі загального значення, згенеровані фрази ча- сто не ідеальні з огляду на форму (а іноді ще й - нюансів значення). Запропонований у роботі підхід вбачається перспективним в аспекті надання користувачеві природ- номовних відповідей на основі результатів виконання запитів до баз знань онтологіч- ного типу. Подяки Дослідження виконано за підтримки гранту НФДУ (Open Funder Registry: 10.13039/100018227) за проєктом № 2021.01/0136 (2022–2024, проєкт у про- цесі реалізації) “Розробка хмарної платфо- рми пацієнт-центричної телереабілітації онкологічних хворих на основі математич- ного моделювання” [6] на базі Інституту кібернетики імені В.М. Глушкова НАН України. Література 1. K. Malakhov, M. Petrenko, E. Cohn, Developing an ontology-based system for semantic processing of scientific digital libraries, South African Computer Journal, 2023. Vol. 35, No. 1. P. 19–36. 2. O. Palagin, M. Petrenko, M. Boyko, Ontology- related Complex for Semantic Processing of Scientific Data. Proceedings of the 13th International Scientific and Practical Programming Conference UkrPROG 2022. Kyiv, Ukraine, October 11–12, 2022. Vol. 3501. P. 279 – 290. 3. M. Petrenko, E. Cohn, O. Shchurov, K. Malakhov, Ontology-Driven Computer Systems: Elementary Senses in Domain Knowledge Processing. South African Computer Journal, 2023. Vol. 35, No.2. P. 127 – 144. 4. K. S. Malakhov, Insight into the Digital Health System of Ukraine (eHealth): Trends, Definitions, Standards, and Legislative Revisions. International Journal of Telerehabilitation, 2023. Vol. 15, No. 2. P. 1 – 21. 5. K. S. Malakhov, Letter to the Editor – Update from Ukraine: Development of the Cloud-based Platform for Patient-centered Telerehabilitation of Oncology Patients with Mathematical-related Modeling. International Journal of Telerehabilitation, 2023. Vol. 15, No. 1. P. 1–3. 6. K. Malakhov, Letter to the Editor – Update from Ukraine: Rehabilitation and Research. International Journal of Telerehabilitation, 2022. Vol. 14, No. 2. P. 1–2. 7. H. Inefuku, K. Malakhov, E. R. Cohn, L. B. Collister, Service Diversification, Connections, and Flexibility in Library Publishing: Rapid Publication of Research from Ukraine in Wartime. Case Studies in Library Publishing, 2023. Vol.1, No.1. 8. O. V. Palagin, K. S. Malakhov, V. Yu. Velychko, T. V. Semykopn, Hybrid e-rehabilitation services: SMART-system for remote support of rehabilitation activities and services. International Journal of Telerehabilitation, Special Issue: Research Status Report – Ukraine, 2022. P. 1–16. 9. O. Palagin, V. Kaverinskiy, K. Malakhov, M. Petrenko, Fundamentals of the Integrated Use of Neural Network and Ontolinguistic Paradigms: A Comprehensive Approach. Cybern. Syst. Anal., 2024. Vol. 60. P. 111–123. 10. A. A. Litvin, V. Yu. Velychko, V. V. Kaverinsky, Synthesis of chat-bot responses in the natural language of the flexive type based on the results of 366 Експертні та інтелектуальні інформаційні системи, штучний інтелект formal questions to ontology and semantic analysis of the initial phrase. International Journal "Information Content and Processing", 2020. Vol. 7, No. 1. 11. O. Palagin, V. Kaverinskiy, K. Malakhov, A. Litvin, OntoChatGPT Information System: Ontology-Driven Structured Prompts for ChatGPT Meta-Learning. International Journal of Computing, 2023. Vol. 22, No. 2. P. 170 – 183. 12. Levenshtein distance. [cited 20 Mar 2024]. https://en.wikipedia.org/wiki/Levenshtein_distance 13. A.F. Kurgaev, N.G. Petrenko, Processor structure design. Cybern Syst Anal., 1995. Vol. 31. P. 618– 625. 14. N. G. Petrenko, A. A. Sofiyuk, On one approach to the transfer of an information structures interpreter to PLD-implementation. Upravlyayushchie Sistemy i Mashiny, 2003. No. 6. P. 48 – 57. Одержано: 21.03.2024 Внутрішня рецензія отримана: 14.04.2024 Зовнішня рецензія отримана: 20.04.2024 Про авторів: 1Каверинський Владислав Володимирович, кандидат технічних наук, старший дослідник, старший науковий співробітник. https://orcid.org/0000-0002-6940-579X. 1Літвін Анна Андріївна, кандидат технічних наук, науковий співробітник. http://orcid.org/0000-0002-5648-9074. 1Палагін Олександр Васильович, доктор технічних наук, академік НАН України, заступник директора Інституту кібернетики НАН України. https://orcid.org/0000-0003-3223-1391 Місце роботи авторів: 1Інститут кібернетики НАН України, Тел. (+38) (044) 526-20-08 E-mail: incyb@incyb.kiev.ua, www.incyb.kiev.ua

Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model

Institution

Ähnliche Einträge