Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model
The presented article introduces a novel solution that uses a specially developed structured prompt for a large language model (Chat GPT). A series of experiments were carried out on synthesizing natural language phrases based on their ontological representations. These ontological representations w...
Gespeichert in:
Datum: | 2024 |
---|---|
Hauptverfasser: | , , |
Format: | Artikel |
Sprache: | Ukrainian |
Veröffentlicht: |
Інститут програмних систем НАН України
2024
|
Schlagworte: | |
Online Zugang: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/657 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Problems in programming |
Institution
Problems in programmingid |
pp_isofts_kiev_ua-article-657 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/f7/6d8f327279905e7b11a1ea8ab7e891f7.pdf |
spelling |
pp_isofts_kiev_ua-article-6572025-02-15T15:06:43Z Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model Зворотний синтез природно-мовних висловлювань на основі їх онтологічного представлення з використанням великої мовної моделі Kaverynskyi, V.V. Litvin, A.A. Palagin, O.V. large language model; ontology; natural language text synthesis; natural language text analysis; cosine similarity; text vectorization UDC 004.724, 004.62 велика мовна модель; онтологія; синтез природномовного тексту; аналіз природномовного тексту; косинусна близькість; векторизація тексту УДК 004.724, 004.62 The presented article introduces a novel solution that uses a specially developed structured prompt for a large language model (Chat GPT). A series of experiments were carried out on synthesizing natural language phrases based on their ontological representations. These ontological representations were automatically constructed from sentences of scientific and technical texts using previously developed software tools. Such representations contain entities found in the text and typed semantic relationships between them, which can be realised in the phrases of the analysed text. The system of relationships, specified by a set of concepts, is linked with the entity of the related part of the sentence, which in turn can be a simple sentence or part of a complex sentence. The structured prompt for the large language model includes explanations of the semantic relationships between concepts in the context of sentence synthesis from ontological representation, as well as a set of pairs of concepts connected by semantic relationships, which serve as materia l for sentence creation. The synthesised natural language sentences were compared with the originals using the cosine similarity measure across different vectorisation methods. The obtained similarity scores ranged from 0.8193 to 0.9722 according to the xx_ent_wiki_sm model, although stylistic distortions of the generated sentences were observed in some cases. The research presented in this work has practical significance for the development of dialogue information systems that combine the ontological approach with the use of large language models.Prombles in programming 2024; 2-3: 359-368 Стаття презентує нове рішення, що полягає у використанні спеціально розробленої структурованої інструкції-підказки для великої мовної моделі (Chat GPT). Було проведено серію експериментів із синтезу природномовних висловлювань на основі онтологічних представлень, автоматично побудованих на основі речень науково-технічного тексту за допомогою раніше розроблених програмних засобів. Ці представлення містять сутності, знайдені у тексті, та типізовані семантичні зв’язки між ними, які можуть реалізовуватися у фразах аналізованого тексту. Система зв’язків, конкретизованих набором понять, поєднується із сутністю зв’язаної частини речення, яка, своєю чергою, може бути простим реченням або частиною складного речення. Структурована інструкція-підказка для великої мовної моделі містить роз’яснення семантичних відношень між поняттями у контексті синтезу речень із онтологічного представлення, а також набір пар понять, поєднаних семантичними зв’язками, що слугують матеріалом для створення речення. Синтезовані у такий спосіб природномовні речення порівнювалися з оригіналами за показником косинусної близькості за умов різних методів векторизації, зокрема xx_ent_wiki_sm, uk_core_news_lg та tf-idf. Отримані показники близькості сягали 0,8193 – 0,9722 за моделлю xx_ent_wiki_sm, хоча у деяких випадках спостерігалося стилістичне викривлення отриманих речень. Дослідження має практичне значення для розробки діалогових інформаційних систем, що поєднують онтологічний підхід із використанням великих мовних моделей.Prombles in programming 2024; 2-3: 359-366 Інститут програмних систем НАН України 2024-12-17 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/657 10.15407/pp2024.02-03.359 PROBLEMS IN PROGRAMMING; No 2-3 (2024); 359-366 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2024); 359-366 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2024); 359-366 1727-4907 10.15407/pp2024.02-03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/657/709 Copyright (c) 2024 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2025-02-15T15:06:43Z |
collection |
OJS |
language |
Ukrainian |
topic |
large language model ontology natural language text synthesis natural language text analysis cosine similarity text vectorization UDC 004.724 004.62 |
spellingShingle |
large language model ontology natural language text synthesis natural language text analysis cosine similarity text vectorization UDC 004.724 004.62 Kaverynskyi, V.V. Litvin, A.A. Palagin, O.V. Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model |
topic_facet |
large language model ontology natural language text synthesis natural language text analysis cosine similarity text vectorization UDC 004.724 004.62 велика мовна модель онтологія синтез природномовного тексту аналіз природномовного тексту косинусна близькість векторизація тексту УДК 004.724 004.62 |
format |
Article |
author |
Kaverynskyi, V.V. Litvin, A.A. Palagin, O.V. |
author_facet |
Kaverynskyi, V.V. Litvin, A.A. Palagin, O.V. |
author_sort |
Kaverynskyi, V.V. |
title |
Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model |
title_short |
Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model |
title_full |
Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model |
title_fullStr |
Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model |
title_full_unstemmed |
Reverse synthesis of natural language phrases grounding on their ontological representation using a large language model |
title_sort |
reverse synthesis of natural language phrases grounding on their ontological representation using a large language model |
title_alt |
Зворотний синтез природно-мовних висловлювань на основі їх онтологічного представлення з використанням великої мовної моделі |
description |
The presented article introduces a novel solution that uses a specially developed structured prompt for a large language model (Chat GPT). A series of experiments were carried out on synthesizing natural language phrases based on their ontological representations. These ontological representations were automatically constructed from sentences of scientific and technical texts using previously developed software tools. Such representations contain entities found in the text and typed semantic relationships between them, which can be realised in the phrases of the analysed text. The system of relationships, specified by a set of concepts, is linked with the entity of the related part of the sentence, which in turn can be a simple sentence or part of a complex sentence. The structured prompt for the large language model includes explanations of the semantic relationships between concepts in the context of sentence synthesis from ontological representation, as well as a set of pairs of concepts connected by semantic relationships, which serve as materia l for sentence creation. The synthesised natural language sentences were compared with the originals using the cosine similarity measure across different vectorisation methods. The obtained similarity scores ranged from 0.8193 to 0.9722 according to the xx_ent_wiki_sm model, although stylistic distortions of the generated sentences were observed in some cases. The research presented in this work has practical significance for the development of dialogue information systems that combine the ontological approach with the use of large language models.Prombles in programming 2024; 2-3: 359-368 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2024 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/657 |
work_keys_str_mv |
AT kaverynskyivv reversesynthesisofnaturallanguagephrasesgroundingontheirontologicalrepresentationusingalargelanguagemodel AT litvinaa reversesynthesisofnaturallanguagephrasesgroundingontheirontologicalrepresentationusingalargelanguagemodel AT palaginov reversesynthesisofnaturallanguagephrasesgroundingontheirontologicalrepresentationusingalargelanguagemodel AT kaverynskyivv zvorotnijsintezprirodnomovnihvislovlûvanʹnaosnovííhontologíčnogopredstavlennâzvikoristannâmvelikoímovnoímodelí AT litvinaa zvorotnijsintezprirodnomovnihvislovlûvanʹnaosnovííhontologíčnogopredstavlennâzvikoristannâmvelikoímovnoímodelí AT palaginov zvorotnijsintezprirodnomovnihvislovlûvanʹnaosnovííhontologíčnogopredstavlennâzvikoristannâmvelikoímovnoímodelí |
first_indexed |
2025-07-17T09:47:33Z |
last_indexed |
2025-07-17T09:47:33Z |
_version_ |
1838409466062569472 |
fulltext |
359
Експертні та інтелектуальні інформаційні системи, штучний інтелект
УДК 004.724, 004.62 http://doi.org/10.15407/pp2024.02-03.359
В. В. Каверинський, А. А. Літвін, О. В. Палагін
ЗВОРОТНИЙ СИНТЕЗ ПРИРОДНОМОВНИХ
ВИСЛОВЛЮВАНЬ НА ОСНОВІ ЇХ ОНТОЛОГІЧНОГО
ПРЕДСТАВЛЕННЯ З ВИКОРИСТАННЯМ
ВЕЛИКОЇ МОВНОЇ МОДЕЛІ
Стаття презентує нове рішення, що полягає у використанні спеціально розробленої структурованої
інструкції-підказки для великої мовної моделі (Chat GPT). Було проведено серію експериментів із
синтезу природномовних висловлювань на основі онтологічних представлень, автоматично побу-
дованих на основі речень науково-технічного тексту за допомогою раніше розроблених програм-
них засобів. Ці представлення містять сутності, знайдені у тексті, та типізовані семантичні зв’язки
між ними, які можуть реалізовуватися у фразах аналізованого тексту. Система зв’язків, конкрети-
зованих набором понять, поєднується із сутністю зв’язаної частини речення, яка, своєю чергою,
може бути простим реченням або частиною складного речення. Структурована інструкція-підказка
для великої мовної моделі містить роз’яснення семантичних відношень між поняттями у контексті
синтезу речень із онтологічного представлення, а також набір пар понять, поєднаних семантични-
ми зв’язками, що слугують матеріалом для створення речення. Синтезовані у такий спосіб природ-
номовні речення порівнювалися з оригіналами за показником косинусної близькості за умов різних
методів векторизації, зокрема xx_ent_wiki_sm, uk_core_news_lg та tf -idf. Отримані показники бли-
зькості сягали 0,8193 – 0,9722 за моделлю xx_ent_wiki_sm, хоча у деяких випадках спостерігалося
стилістичне викривлення отриманих речень. Дослідження має практичне значення для розробки
діалогових інформаційних систем, що поєднують онтологічний підхід із використанням великих
мовних моделей.
Ключові слова: велика мовна модель, онтологія, синтез природномовного тексту, аналіз природно-
мовного тексту, косинусна близькість, векторизація тексту.
V. V. Kaverynskyi, A. A. Litvin, O. V. Palagin
REVERSE SYNTHESIS OF NATURAL LANGUAGE PHRASES
GROUNDING ON THEIR ONTOLOGICAL REPRESENTATION
USING A LARGE LANGUAGE MODEL
The presented article introduces a novel solution that uses a specially developed structured prompt for a
large language model (Chat GPT). A series of experiments were carried out on synthesizing natural lan-
guage phrases based on their ontological representations. These ontological representations were automati-
cally constructed from sentences of scientific and technical texts using previously developed software tools.
Such representations contain entities found in the text and typed semantic relationships between them,
which can be realised in the phrases of the analysed text. The system of relationships, specified by a set of
concepts, is linked with the entity of the related part of the sentence, which in turn can be a simple sentence
or part of a complex sentence. The structured prompt for the large language model includes explanations of
the semantic relationships between concepts in the context of sentence synthesis from ontological represen-
tation, as well as a set of pairs of concepts connected by semantic relationships, which serve as materia l for
sentence creation. The synthesised natural language sentences were compared with the originals using the
cosine similarity measure across different vectorisation methods. The obtained similarity scores ranged from
0.8193 to 0.9722 according to the xx_ent_wiki_sm model, although stylistic distortions of the generated
sentences were observed in some cases. The research presented in this work has practical significance for
the development of dialogue information systems that combine the ontological approach with the use of
large language models.
Key words: large language model, ontology, natural language text synthesis, natural language text analysis,
cosine similarity, text vectorization.
© В. В. Каверинський, А. А. Літвін, О. В. Палагін, 2024
ISSN 1727-4907. Проблеми програмування. 2024. №2-3
360
Експертні та інтелектуальні інформаційні системи, штучний інтелект
Вступ
Дослідження у сфері розвитку он-
тологій та семантичної обробки наукових
даних мають велике значення для сучас-
ної наукової спільноти, особливо в кон-
тексті швидкого зростання обсягу інфор-
мації та потреб дослідників у її ефектив-
ному використанні. Основним завданням
є розроблення та впровадження техноло-
гій, що дозволять швидко й точно знахо-
дити й обробляти наукову інформацію, а
також взаємодіяти з інформаційними сис-
темами для забезпечення максимальної
корисності цих даних [1, 2]. Для вирішен-
ня цих завдань були розроблені різні сис-
теми та методології обробки наукових да-
них, наприклад [1–3]. Вони використову-
ють такі технології, як Semantic Web і ко-
гнітивна графіка, щоб полегшити пошук
інформації та відкриття знань у цифрових
бібліотеках. Дослідження у галузі цифро-
вого здоров'я та телереабілітації також
займають важливе місце у сучасній науці
[3–7]. Дослідники активно працюють над
розробкою та впровадженням інновацій-
них технологій у цій сфері, зокрема, роз-
витком хмарних платформ для телереабі-
літації пацієнтів [5, 6]. Ці платформи ба-
зуються на поєднанні штучного інтелекту
та математичного моделювання, що до-
зволяє створювати ефективні та іннова-
ційні підходи до реабілітації та підтримки
здоров'я [5, 8].
Стан розробки проблеми. Розви-
ток онтологічної інженерії в поєднанні з
нейронно-мережевими технологіями та
штучним інтелектом відкриває нові перс-
пективи у взаємодії з інформаційними сис-
темами та у розвитку інноваційних серві-
сів [8, 9]. Наприклад, у праці [9] описано
інтегрований підхід, що поєднує нейронні
мережі й онтолінгвістичні парадигми для
підвищення ефективності інтелектуальних
діалогових систем та забезпечення більш
гнучкого їх адаптування до різних потреб
користувачів і предметних областей [9].
Цей інтегрований підхід також підкреслює
важливість метанавчання та структурова-
них підказок для підвищення ефективності
мовної моделі.
У представленому в даній роботі
дослідженні подальший розвиток отримав
підхід до інтеграції великих мовних моде-
лей та онтологічних структур знань і за-
стосування структурованих інструкцій-
підказок, зокрема в аспекті процесів відт-
ворення природномовного тексту на основі
семантичного представлення. Далі для за-
значеного підходу вводиться термін зворот-
ний синтез.
Метою дослідження є розроблення
структурованої інструкції-підказки для ве-
ликої мовної моделі для синтезу природ-
номовних висловлювань на основі їхніх
онтологічних представлень, а також пода-
льше оцінювання результатів шляхом фо-
рмального порівняння згенерованих фраз
із оригінальними текстами за допомогою
різних моделей векторизації тексту.
Спосіб побудови природномовної
фрази на основі онтологічного
представлення з використанням
великої мовної моделі
Автоматично створена онтологія,
отримана з тексту природної мови, міс-
тить сутності та семантичні зв’язки, які їх
з’єднують. Ці зв’язки, задані сутностями,
пов’язані з групами виразів, які, своєю
чергою, пов’язані з реченнями у вхідному
тексті. Отже, з таким семантичним пред-
ставленням можна сформулювати речення
природною мовою. Для цього завдання
можна застосувати шаблонний підхід, як
описано в [10]. Однак із розвитком підхо-
дів, заснованих на використанні нейрон-
них мереж глибокого навчання, втіленням
яких є великі моделі мовних трансформа-
торів, такі як ChatGPT, виникає необхід-
ність дослідити їх як інструменти для си-
нтезу речень природної мови на основі
семантичних структур. Спроба в цьому
напрямку була зроблена в рамках даної
роботи.
За тестову онтологію використано
базу знань, створену на основі тексту
«Склад обчислювальної системи». Оскіль-
ки база знань управлялася графовою СУБД
361
Експертні та інтелектуальні інформаційні системи, штучний інтелект
Neo4J, мовою запитів для неї була обрана
Cypher.
Нижче наведено текст запиту до
вказаної онтології для отримання тексту
конкретного речення (для порівняння ре-
зультатів) за його ідентифікатором:
MATCH (inp:Relationship)-[:SPO]-
>(inp_type:Relationship),
(inp:Relationship)<-[:SPO]-
(linked_group:Relationship),
(linked_group:Relationship)-[:SPO]-
>(linked_group_type:Relationship),
(linked_group:Relationship)<-[:SPO]-
(certain_words_link:Relationship),
(certain_words_link:Relationship)-
[:SPO]->(sem_type:Relationship),
(sem_type:Relationship)-[:SPO]-
>(w_link_type:Relationship),
(certain_words_link:Relationship)-
[:DOMAIN]->(main_entity:Class),
(certain_words_link:Relationship)-
[:RANGE]->(dependent_entity:Class)
WHERE
inp_type.name = "SentenceGroups" and
linked_group_type.name = "Groups" and
w_link_type.name = "WordsLink" and
ID(inp) = specify sentence ID
RETURN DISTINCT ID(inp) as id, inp.label
as text, main_entity.label as main_entity,
dependent_entity.label as
dependent_entity, sem_type.label as sem_type;
Цей запит також повертає відповід-
ний набір семантичних категорій і
пов’язаних пар понять (головних і залеж-
них) для цього речення. Результати такого
запиту слугували вхідними даними для за-
вдання зворотного синтезу речення приро-
дної мови.
Відповідно до наведеного запиту із
онтології повертається речення з певним
ідентифікатором (specify sentence
ID). Результат має містити ідентифікатор,
текст, а також набір триплетів виду «осно-
вна сутність, залежна сутність і семантич-
ний тип» щодо вказаного речення. Отри-
мана з онтології семантична структура ви-
являється достатньою для побудови
зв’язного природномовного речення від-
повідного змісту. Щоб ініціювати завдання
синтезу у великій мовній моделі, такій як
ChatGPT, необхідно надати відповідну ін-
струкцію-підказку (так званий prompt). Як
зазначалося в [11], для таких інструкцій
бажано використовувати англійську мову.
Сама інструкція структурована у форматі
JSON. Відповідний текст підказки подано
нижче:
{"Intriduction": «You are an expert in
knowledge engineering and ontologies as well
as in meaningful text generation in inflect
languages. You will be provided with data
obtained from some ontology through a query.
The ontology was made automatically basing on
the results of semantic analysis of a natural
language text. The results are pairs of
lemmatized words ("main entity" and "dependent
entity") accompanied with a name of syntactic-
semantic relationship that linked them in the
certain sentence.",
"Action to perform": «Assuming that all the
data you will be provided belong to one
sentence you are to make a try to restore the
original sentence using such a prompt.
Language of the ontology, input and output
data is Ukrainian.",
"Restrictions": «Do not put the semantic
relationships as a phrase as it given in the
sentence you generate, it will be definitely
wrong. It is just a prompt for syntactic
linking. Remember that the provided words are
lemmatized, so you are to put them in a
correct form according to other entities of
the sentence and the given syntactic-semantic
relationships of the prompt.",
"Additional data to provide": «Also provide an
estimated value of probability that the
generated sentence corresponds the intent of
the prompt given.",
"The essence of the syntactic-semantic
relationship names and meaning explanation":
{"object property: «the dependent entity
express a property or some characteristic, or
quality of the main entity. When the response
sentence generation you should use the
dependent entity as an adjective with the main
entity which is noun",
"action property": "the dependent entity
express a property or some characteristic, or
quality of the main entity which is an action.
When the response sentence generation you
should use the dependent entity as an adverb
with the main entity which is verb",
"quality change": "the dependent entity
express that the main entity may be subjected
to some quality changes, which may follow from
the other context",
"destination": «the dependent entity express
the destination of the main entity",
"object": «the object (noun) affected throw
the action expressed by the main entity",
"object / action": «the main entity performs
an action expressed by the dependent entity",
"preposition binding": «merely shows that the
main entity here in the context of the
provided sentence is to be used with the
preposition which is the dependent entity.
This means that you should use this
preposition with the main entity when the
response sentence generation",
"possession": "the dependent entity or
somewhat relates to the main entity. When
generation this usually should be expresses
using genitive case",
"equality": "the different name of the entity
or an equivalent entity",
"objective entry": "the main entity is a part
or member of the dependent entity",
"state": "a state or a constant characteristic
of the main entity if it is noun or an entity
linked to in if it is a verb"},
"Input data": [{
"main entity": "some word 1",
"dependent entity": "some word 2",
"semantic relationship": «semantic category
1"},
{"main entity": "some word n",
"dependent entity": "some word n+1",
"semantic relationship": "semantic category n"
}]}
362
Експертні та інтелектуальні інформаційні системи, штучний інтелект
Дамо коротке пояснення стосовно
розділів наведеної інструкції-підказки.
Розділ "Introduction" встановлює
початкові параметри для великої мовної
моделі щодо її подальшої поведінки та
пропонує основні роз’яснення вхідних даних.
У розділі "Action to Perform" сфор-
мовано безпосереднє завдання, яке необхі-
дно виконати.
Розділ "Restrictions" містить додат-
кові вказівки щодо сформованого вихідно-
го тексту, які націлені на усунення неодно-
значності у тлумаченні інструкції.
Розділ "Additional Data to Provide"
слугує для вказівок моделі провести влас-
не оцінювання якості виконання завдання.
У розділі "The Essence of the
Syntactic-Semantic Relationship Names and
Meaning Explanation" подано словник по-
яснень типів семантичних зв’язків і спосо-
бів їх використання у побудові речення.
Враховуючи значну кількість семантичних
категорій за умови обмеженої кількості
символів для вхідних повідомлень
ChatGPT, практичний обсяг такого слов-
ника обмежений семантичними категорія-
ми, наявними в даному реченні.
Пари сутностей і їхні відповідні се-
мантичні зв’язки перераховані у вигляді
списку словників у розділі "Input Data".
На виході отримуємо сформульова-
не речення природною мовою та власну
оцінку моделі, надану ChatGPT, щодо
ймовірності того, що речення було побу-
довано точно та відповідає оригіналу (про
вигляд його модель не знає).
Загальну схему процесу форму-
вання природномовних висловлювань на
основі їхньої онтологічної репрезентації
наведено на Рис. 1. Суть експерименту
полягала в тому, що із тестової онтоло-
гії, створеної на основі тексту «Склад
обчислювальної системи», за допомогою
запиту мовою Cypher видобувалися ок-
ремі речення та відповідні їм пари сут-
ностей із семантичними категоріями, що
зв’язують їх у межах даного речення.
Далі, застосовуючи вищенаведену ін-
струкцію-підказку, великій мовній мо-
делі (ChatGPT) передавалося завдання
згенерувати граматично правильне ре-
чення українською мовою на основі на-
бору пар сутностей із заданими семан-
тичними зв’язками. У відповідь отрима-
но згенероване речення та зроблена мо-
деллю оцінка ймовірності того, що ре-
чення було точно відтворено. Для тесту-
вання було використано 10 речень із за-
значеного тексту.
Рис. 1. Загальна схема генерації природномовних висловлювань на основі онтологічного
представлення з використанням великої мовної моделі
363
Експертні та інтелектуальні інформаційні системи, штучний інтелект
Методика оцінювання результатів
експерименту
Для порівняння подібності створе-
ного речення до оригіналу використовува-
лося значення косинусної подібності. Ко-
синусна подібність — це міра подібності
між двома передгільбертовими просторо-
вими векторами, яка використовується для
вимірювання косинусу кута між ними.
Отже, якщо є два вектори ознак (A і B), то
косинусну подібність cos(θ) можна пред-
ставити за допомогою скалярного добутку
та норми (1):
1
2 2
1 1
cos( )
( ) ( )
n
i i
i
n n
i i
i i
A B
A Bsimilarity
A B
A B
=
= =
= = =
(1)
Косинусна подібність змінюється
від 0 до 1. Це пов’язано з тим, що частота
термінів (ваги tf-idf) не є від’ємною, а кут
між двома векторами частоти термінів не
може перевищувати 90°. Косинусна подіб-
ність є ефективним засобом оцінки, особ-
ливо для розріджених векторів, оскільки
враховує лише ненульові значення.
«М’який» косинус враховує подібність
між парами ознак. Традиційна косинусна
подібність розглядає функції у векторній
моделі як незалежні або повністю окремі,
тоді як «м’яка» косинусна міра визнає по-
дібність ознак у векторній моделі. Це до-
зволяє узагальнити концепцію косинусної
подібності та концепцію подібності
об’єктів у векторному просторі.
Такі сутності, як слова, N-грами або
синтаксичні N-грами, можуть демонстру-
вати суттєву подібність, хоча формально їх
можна вважати різними функціями у век-
торній моделі. Для N-грам або синтаксич-
них N-грам можна застосувати відстань
Левенштейна [12]. Для обчислення
«м’якої» косинусної міри вводиться мат-
риця подібності s між функціями. Вона об-
числюється за допомогою відстані Левен-
штейна або інших заходів подібності, та-
ких як різні засоби подібності WordNet.
Далі за цією матрицею виконується мно-
ження. Якщо є два N-вимірних вектора, a і
b, «м’який» косинус обчислюється так:
,
1
, ,
_ cos ( , )
N
ij i ji j
N N
ij i j ij i ji j i j
s a b
soft ine a b
s a a s b b
=
(2)
У формулі (2) sij представляє подіб-
ність між функціями i та j. За відсутності
подібності між ознаками (sii = 1, sij = 0 для i ≠ j)
рівняння (2) еквівалентне загальноприйня-
тій формулі косинусної подібності.
Оскільки виконання математичних
обчислень безпосередньо на рядках є не-
можливим, а обчислення такого показника,
як подібність косинусів, вимагає існування
векторів, тексти для обробки та аналізу
проходять векторизацію. Щоб отримати
векторні відображення речень, було вико-
ристано бібліотеку Python spaCy і мовні
моделі uk_core_news_lg (для української
мови) та xx_ent_wiki_sm (багатомовна).
Також застосовувався метод TF-IDF. Для
обчислення значень косинусної подібності
були задіяні методи, реалізовані в spaCy.
Обговорення результатів
експериментів
Значення кількісних оцінок, що ха-
рактеризують близькість згенерованих ре-
чень до оригіналу за різних методів векто-
рного представлення, подані в Табл. 1.
Крім того, надається «суб’єктивна» оцінка
ймовірності точного відтворення від
ChatGPT. Важливо зазначити, що ця оцін-
ка не може вважатися цілком об’єктивним
показником, а радше є орієнтиром та оцін-
кою самокритики моделі GPT. Із представ-
лених результатів видно, що кількісна оці-
нка косинусної подібності значно залежить
від моделі векторизації, застосованої до
аналізованих текстів.
Результати показують, що мовні
моделі xx_ent_wiki_sm і uk_core_news_lg
забезпечують досить високі значення ко-
синусної подібності (0,87 і 0,81 відповід-
но). Тим часом більш простий метод век-
торизації на основі tf-idf дає значно нижчі
середні значення та більший діапазон варі-
ації. Модель xx_ent_wiki_sm (багатомовна)
демонструє вузький діапазон варіації та ві-
дносно високе значення середньої косину-
сної подібності. Зменшення середнього
значення із використанням моделі
uk_core_news_lg (для української мови)
пояснюється більшою варіацією вниз. Од-
нак максимальні отримані значення для
цих двох моделей досить близькі – засто-
364
Експертні та інтелектуальні інформаційні системи, штучний інтелект
сування моделі uk_core_news_lg у деяких
випадках призводить до значно нижчого
значення косинусної подібності. Порів-
няння показників косинусної подібності,
отриманих за допомогою моделей векто-
ризації xx_ent_wiki_sm і uk_core_news_lg,
показано на Рис. 2 (a), що свідчить про ві-
дсутність будь-якої суттєвої кореляції між
ними. Тобто, ці моделі дещо по-різному
сприймають текст природної мови.
Аналіз безпосередньо згенерованих
речень виявив, що під час векторизації за
допомогою моделі uk_core_news_lg зни-
жені оцінки косинусної подібності вини-
кають у випадках генерації складних, роз-
галужених речень, тоді як вихідне речення
є значно простішим, хоча семантично бли-
зьким.
Таблиця 1
Кількісні оцінки якості зворотного синтезу речень
Власна оцінка
від ChatGPT
Косинусна подібність
Модель векторизації
xx_ent_wiki_sm
Модель векторизації
uk_core_news_lg
Модель векторизації
tf-idf
Середнє
значення
Інтервал
значень
Середнє
значення
Інтервал
значень
Середнє
значення
Інтервал
значень
Середнє
значення
Інтервал
значень
0.845
±0.037
0.75 –
0.90
0.8716
±0.0335
0.8193 –
0.9722
0.8108
±0.1224
0.4067 –
0.9653
0.2927
±0.1718
0.0607 –
0.7745
R2 = 0.0006
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.8 0.85 0.9 0.95 1
xx_ent_wiki_sm
uk
_c
or
e_
ne
w
s_
lg
R2 = 0.4853
0
0.2
0.4
0.6
0.8
1
0.8 0.85 0.9 0.95 1
xx_ent_wiki_sm
tf-
id
f
R2 = 0.0892
0
0.2
0.4
0.6
0.8
1
0.3 0.5 0.7 0.9
xx_ent_wiki_sm
tf-
id
f
а) б) в)
Рис. 2. Порівняння значень косинусної подібності вихідних і сформованих речень після
векторизації тексту за різними моделями:
а) xx_ent_wiki_sm / uk_core_news_lg;
б) xx_ent_wiki_sm / tf-idf;
в) uk_core_news_lg / tf-idf.
Модель xx_ent_wiki_sm видається
менш чутливою до таких проявів і забез-
печує вищу оцінку косинусної подібності.
Однак, як видно з графіка, чіткої кореляції
між моделями немає. Бувають випадки,
коли uk_core_news_lg дає вищу оцінку ко-
синусної подібності, а xx_ent_wiki_sm,
відповідно, меншу. Аналіз свідчить про те,
що в таких випадках, незважаючи на збе-
реження лексично та синтаксично близької
до оригіналу структури, зміст був дещо
спотворений.
Існує помітна кореляція в оцінках
косинусної подібності між моделлю
xx_ent_wiki_sm і оцінками, отриманими
для методу tf-idf. Найвищі показники за
цими методами були отримані у разі прак-
тично повного збігу речень. Що ж до най-
нижчих значень оцінки, то метод tf-idf та-
кож виявився чутливим до деформованих
речень, що знижувало значення метрик.
Модель uk_core_news_lg слабо корелює з
методом tf-idf. Таким чином, якщо форма
представлення не має великого значення, а
акцент робиться на змісті, можна застосу-
вати векторизацію за допомогою моделі
xx_ent_wiki_sm.
Водночас модель uk_core_news_lg
чутлива як до змісту, так і до зміни форми,
що робить її придатною для отримання
жорсткішого та чутливішого порівняння.
Метод tf-idf дуже чутливий до зміни фор-
ми, але менш вправний у розпізнаванні
подібності вмісту.
Подальшим розвитком наведених
досліджень може стати вдосконалення ві-
365
Експертні та інтелектуальні інформаційні системи, штучний інтелект
дповідних інструкцій-підказок для великих
мовних моделей, у тому числі не просто
для відтворення вихідного тексту за онто-
логічною моделлю, а й логічного висновку
із поданої інформації, що наблизить нас до
вирішення глобальної задачі онтологічно-
го підходу – можливості отримання нових
знань [2, 3]. Також перспективним вида-
ється можливість розгляду альтернативних
GPT моделей, у тому числі автономних
малих мовних моделей і, можливо, архіте-
ктури процесорів, запропонованої у робо-
тах [13, 14]. Зрозуміло, що це потребує ма-
сштабних досліджень, пов’язаних із самою
природою знань (оцінювання новизни, ло-
гікові виведення вторинних знань на осно-
ві первинних, логіко-семантичне порів-
няння контекстів і т.п.).
Висновки
Порівняння оцінок, отриманих різ-
ними методами, та візуальний перегляд ре-
зультатів експерименту дозволяє підсуму-
вати, що запропонований підхід до генера-
ції природних речень українською мовою
на основі їх онтологічної репрезентації за
допомогою великої мовної моделі здатний
передати загальний зміст і сенс оригіналь-
ної фрази, про що свідчать високі показни-
ки косинусної подібності (~0.87±0.03 у ра-
зі моделі векторизації xx_ent_wiki_sm).
Однак часто, хоча і не у всіх випадках,
створена фраза може виглядати дещо не-
природною, містити зайві сутності та ви-
рази. Отримані результати вказують на те,
що, хоча великі мовні моделі можна засто-
совувати для створення тексту на основі
онтологічного представлення та передачі
загального значення, згенеровані фрази ча-
сто не ідеальні з огляду на форму (а іноді
ще й - нюансів значення). Запропонований
у роботі підхід вбачається перспективним
в аспекті надання користувачеві природ-
номовних відповідей на основі результатів
виконання запитів до баз знань онтологіч-
ного типу.
Подяки
Дослідження виконано за підтримки
гранту НФДУ (Open Funder Registry:
10.13039/100018227) за проєктом
№ 2021.01/0136 (2022–2024, проєкт у про-
цесі реалізації) “Розробка хмарної платфо-
рми пацієнт-центричної телереабілітації
онкологічних хворих на основі математич-
ного моделювання” [6] на базі Інституту
кібернетики імені В.М. Глушкова НАН
України.
Література
1. K. Malakhov, M. Petrenko, E. Cohn, Developing
an ontology-based system for semantic processing
of scientific digital libraries, South African
Computer Journal, 2023. Vol. 35, No. 1. P. 19–36.
2. O. Palagin, M. Petrenko, M. Boyko, Ontology-
related Complex for Semantic Processing of
Scientific Data. Proceedings of the 13th
International Scientific and Practical
Programming Conference UkrPROG 2022. Kyiv,
Ukraine, October 11–12, 2022. Vol. 3501. P. 279 – 290.
3. M. Petrenko, E. Cohn, O. Shchurov, K. Malakhov,
Ontology-Driven Computer Systems: Elementary
Senses in Domain Knowledge Processing. South
African Computer Journal, 2023. Vol. 35, No.2. P.
127 – 144.
4. K. S. Malakhov, Insight into the Digital Health
System of Ukraine (eHealth): Trends, Definitions,
Standards, and Legislative Revisions.
International Journal of Telerehabilitation, 2023.
Vol. 15, No. 2. P. 1 – 21.
5. K. S. Malakhov, Letter to the Editor – Update
from Ukraine: Development of the Cloud-based
Platform for Patient-centered Telerehabilitation of
Oncology Patients with Mathematical-related
Modeling. International Journal of
Telerehabilitation, 2023. Vol. 15, No. 1. P. 1–3.
6. K. Malakhov, Letter to the Editor – Update from
Ukraine: Rehabilitation and Research.
International Journal of Telerehabilitation, 2022.
Vol. 14, No. 2. P. 1–2.
7. H. Inefuku, K. Malakhov, E. R. Cohn, L. B.
Collister, Service Diversification, Connections,
and Flexibility in Library Publishing: Rapid
Publication of Research from Ukraine in Wartime.
Case Studies in Library Publishing, 2023. Vol.1,
No.1.
8. O. V. Palagin, K. S. Malakhov, V. Yu. Velychko,
T. V. Semykopn, Hybrid e-rehabilitation services:
SMART-system for remote support of
rehabilitation activities and services. International
Journal of Telerehabilitation, Special Issue:
Research Status Report – Ukraine, 2022. P. 1–16.
9. O. Palagin, V. Kaverinskiy, K. Malakhov, M.
Petrenko, Fundamentals of the Integrated Use of
Neural Network and Ontolinguistic Paradigms: A
Comprehensive Approach. Cybern. Syst. Anal.,
2024. Vol. 60. P. 111–123.
10. A. A. Litvin, V. Yu. Velychko, V. V. Kaverinsky,
Synthesis of chat-bot responses in the natural
language of the flexive type based on the results of
366
Експертні та інтелектуальні інформаційні системи, штучний інтелект
formal questions to ontology and semantic analysis
of the initial phrase. International Journal
"Information Content and Processing", 2020. Vol.
7, No. 1.
11. O. Palagin, V. Kaverinskiy, K. Malakhov, A.
Litvin, OntoChatGPT Information System:
Ontology-Driven Structured Prompts for ChatGPT
Meta-Learning. International Journal of
Computing, 2023. Vol. 22, No. 2. P. 170 – 183.
12. Levenshtein distance. [cited 20 Mar 2024].
https://en.wikipedia.org/wiki/Levenshtein_distance
13. A.F. Kurgaev, N.G. Petrenko, Processor structure
design. Cybern Syst Anal., 1995. Vol. 31. P. 618–
625.
14. N. G. Petrenko, A. A. Sofiyuk, On one approach to
the transfer of an information structures interpreter
to PLD-implementation. Upravlyayushchie
Sistemy i Mashiny, 2003. No. 6. P. 48 – 57.
Одержано: 21.03.2024
Внутрішня рецензія отримана: 14.04.2024
Зовнішня рецензія отримана: 20.04.2024
Про авторів:
1Каверинський Владислав Володимирович,
кандидат технічних наук,
старший дослідник,
старший науковий співробітник.
https://orcid.org/0000-0002-6940-579X.
1Літвін Анна Андріївна,
кандидат технічних наук,
науковий співробітник.
http://orcid.org/0000-0002-5648-9074.
1Палагін Олександр Васильович,
доктор технічних наук,
академік НАН України,
заступник директора
Інституту кібернетики НАН України.
https://orcid.org/0000-0003-3223-1391
Місце роботи авторів:
1Інститут кібернетики НАН України,
Тел. (+38) (044) 526-20-08
E-mail: incyb@incyb.kiev.ua,
www.incyb.kiev.ua
|