Development of the medicine safety data monitoring system GERMES PV (literature monitoring and internet sources)
The global coronavirus pandemic of recent years has led to an emergency situation in the field of health care, determined the need to develop new vaccines for the treatment of the population under the guidance of the World Health Organization. Assessment of the safety and effectiveness of the use of...
Збережено в:
Дата: | 2024 |
---|---|
Автори: | , |
Формат: | Стаття |
Мова: | Ukrainian |
Опубліковано: |
Інститут програмних систем НАН України
2024
|
Теми: | |
Онлайн доступ: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/636 |
Теги: |
Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
|
Назва журналу: | Problems in programming |
Репозитарії
Problems in programmingid |
pp_isofts_kiev_ua-article-636 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/bf/135fd6da47ca5874752d10ef4a8b92bf.pdf |
spelling |
pp_isofts_kiev_ua-article-6362025-02-13T19:54:14Z Development of the medicine safety data monitoring system GERMES PV (literature monitoring and internet sources) Розроблення системи моніторингу даних про безпеку лікарських засобів GERMES PV (моніторинг літератури та інтернет-джерел) Chadiuk, A.V. Mashkovskyi, S.S. information and analytical system; monitoring of Internet sources; drug safety; pharmacovigilance UDC 681.3 інформаційно-аналітична система; моніторинг інтернет-джерел; безпека лікарських засобів; фармаконагляд УДК 681.3 The global coronavirus pandemic of recent years has led to an emergency situation in the field of health care, determined the need to develop new vaccines for the treatment of the population under the guidance of the World Health Organization. Assessment of the safety and effectiveness of the use of these vaccines requires a wide range of research, one of the methods of which is literature monitoring of scientific publications. Significant labor costs for the search and analysis of articles make the creation and implementation of computer information and search systems for monitoring literature and Internet sources an urgent issue. Developed for this purpose, the medicine safety data monitoring system Germes PV is intended for the comprehensive application of modern technologies of automated monitoring of periodicals and Internet resources (web portals, websites, electronic libraries, etc.) in order to search for publications on the safety of drugs, availability adverse reactions and lack of effectiveness of medicinal products, feedback and suggestions of interested persons and other information in the field of pharmacovigilance. In this work, a comprehensive analysis of the subject area is carried out and ways of automating the activities of health care institutions and pharmaceutical companies in this area are described.Prombles in programming 2024; 2-3: 190-198 Глобальна пандемія коронавірусу останніх років призвела до надзвичайної ситуації у сфері охорони здоров'я, визначила необхідність розроблення під керівництвом Всесвітньої організації охорони здоров’я нових вакцин для лікування населення. Оцінка безпеки та ефективності застосування цих вакцин потребує проведення численних досліджень, одним із методів яких є літературний моніторинг наукових публікацій. Значні трудовитрати на пошук та аналіз статей роблять актуальним питанням створення та впровадження комп’ютерних інформаційно-пошукових систем для моніторингу літератури та інтернет-джерел. Розроблена з цією метою Система моніторингу даних про безпеку лікарських засобів Germes PV призначена для комплексного застосування сучасних технологій автоматизованого моніторингу періодичних видань та інтернет-ресурсів (веб-портали, веб-сайти, електронні бібліотеки тощо) з метою пошуку публікацій щодо безпеки лікарських засобів, наявності побічних реакцій та відсутності ефективності медичних препаратів, відгуків і пропозицій зацікавлених осіб та іншої інформації в галузі фармаконагляду. В даній роботі проведено комплексний аналіз предметної галузі та описані шляхи автоматизації діяльності закладів охорони здоров’я та фармацевтичних компаній у цій сфері.Prombles in programming 2024; 2-3: 190-198 Інститут програмних систем НАН України 2024-12-17 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/636 10.15407/pp2024.02-03.190 PROBLEMS IN PROGRAMMING; No 2-3 (2024); 190-198 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2024); 190-198 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2024); 190-198 1727-4907 10.15407/pp2024.02-03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/636/688 Copyright (c) 2024 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2025-02-13T19:54:14Z |
collection |
OJS |
language |
Ukrainian |
topic |
information and analytical system monitoring of Internet sources drug safety pharmacovigilance UDC 681.3 |
spellingShingle |
information and analytical system monitoring of Internet sources drug safety pharmacovigilance UDC 681.3 Chadiuk, A.V. Mashkovskyi, S.S. Development of the medicine safety data monitoring system GERMES PV (literature monitoring and internet sources) |
topic_facet |
information and analytical system monitoring of Internet sources drug safety pharmacovigilance UDC 681.3 інформаційно-аналітична система моніторинг інтернет-джерел безпека лікарських засобів фармаконагляд УДК 681.3 |
format |
Article |
author |
Chadiuk, A.V. Mashkovskyi, S.S. |
author_facet |
Chadiuk, A.V. Mashkovskyi, S.S. |
author_sort |
Chadiuk, A.V. |
title |
Development of the medicine safety data monitoring system GERMES PV (literature monitoring and internet sources) |
title_short |
Development of the medicine safety data monitoring system GERMES PV (literature monitoring and internet sources) |
title_full |
Development of the medicine safety data monitoring system GERMES PV (literature monitoring and internet sources) |
title_fullStr |
Development of the medicine safety data monitoring system GERMES PV (literature monitoring and internet sources) |
title_full_unstemmed |
Development of the medicine safety data monitoring system GERMES PV (literature monitoring and internet sources) |
title_sort |
development of the medicine safety data monitoring system germes pv (literature monitoring and internet sources) |
title_alt |
Розроблення системи моніторингу даних про безпеку лікарських засобів GERMES PV (моніторинг літератури та інтернет-джерел) |
description |
The global coronavirus pandemic of recent years has led to an emergency situation in the field of health care, determined the need to develop new vaccines for the treatment of the population under the guidance of the World Health Organization. Assessment of the safety and effectiveness of the use of these vaccines requires a wide range of research, one of the methods of which is literature monitoring of scientific publications. Significant labor costs for the search and analysis of articles make the creation and implementation of computer information and search systems for monitoring literature and Internet sources an urgent issue. Developed for this purpose, the medicine safety data monitoring system Germes PV is intended for the comprehensive application of modern technologies of automated monitoring of periodicals and Internet resources (web portals, websites, electronic libraries, etc.) in order to search for publications on the safety of drugs, availability adverse reactions and lack of effectiveness of medicinal products, feedback and suggestions of interested persons and other information in the field of pharmacovigilance. In this work, a comprehensive analysis of the subject area is carried out and ways of automating the activities of health care institutions and pharmaceutical companies in this area are described.Prombles in programming 2024; 2-3: 190-198 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2024 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/636 |
work_keys_str_mv |
AT chadiukav developmentofthemedicinesafetydatamonitoringsystemgermespvliteraturemonitoringandinternetsources AT mashkovskyiss developmentofthemedicinesafetydatamonitoringsystemgermespvliteraturemonitoringandinternetsources AT chadiukav rozroblennâsistemimonítoringudanihprobezpekulíkarsʹkihzasobívgermespvmonítoringlíteraturitaínternetdžerel AT mashkovskyiss rozroblennâsistemimonítoringudanihprobezpekulíkarsʹkihzasobívgermespvmonítoringlíteraturitaínternetdžerel |
first_indexed |
2025-07-17T10:02:40Z |
last_indexed |
2025-07-17T10:02:40Z |
_version_ |
1838410383567618048 |
fulltext |
190
Інформаційні системи
УДК 681.3 http://doi.org/10.15407/pp2024.02-03.190
А.В. Чадюк, С.С. Машковський
РОЗРОБЛЕННЯ СИСТЕМИ МОНІТОРИНГУ ДАНИХ
ПРО БЕЗПЕКУ ЛІКАРСЬКИХ ЗАСОБІВ GERMES PV
(МОНІТОРИНГ ЛІТЕРАТУРИ ТА ІНТЕРНЕТ-ДЖЕРЕЛ)
Глобальна пандемія коронавірусу останніх років призвела до надзвичайної ситуації у сфері охорони
здоров'я, визначила необхідність розроблення під керівництвом Всесвітньої організації охорони здо-
ров’я нових вакцин для лікування населення. Оцінка безпеки та ефективності застосування цих вакцин
потребує проведення численних досліджень, одним із методів яких є літературний моніторинг науко-
вих публікацій. Значні трудовитрати на пошук та аналіз статей роблять актуальним питанням ство-
рення та впровадження комп’ютерних інформаційно-пошукових систем для моніторингу літератури
та інтернет-джерел. Розроблена з цією метою Система моніторингу даних про безпеку лікарських за-
собів Germes PV призначена для комплексного застосування сучасних технологій автоматизованого
моніторингу періодичних видань та інтернет-ресурсів (веб-портали, веб-сайти, електронні бібліотеки
тощо) з метою пошуку публікацій щодо безпеки лікарських засобів, наявності побічних реакцій та
відсутності ефективності медичних препаратів, відгуків і пропозицій зацікавлених осіб та іншої інфо-
рмації в галузі фармаконагляду. В даній роботі проведено комплексний аналіз предметної галузі та
описані шляхи автоматизації діяльності закладів охорони здоров’я та фармацевтичних компаній у цій
сфері.
Ключові слова: інформаційно-аналітична система, моніторинг інтернет-джерел, безпека лікарських за-
собів, фармаконагляд.
A. Chadiuk, S. Mashkovskyi
DEVELOPMENT OF THE MEDICINE SAFETY DATA
MONITORING SYSTEM GERMES PV (LITERATURE
MONITORING AND INTERNET SOURCES)
The global coronavirus pandemic of recent years has led to an emergency situation in the field of health care,
determined the need to develop new vaccines for the treatment of the population under the guidance of the
World Health Organization. Assessment of the safety and effectiveness of the use of these vaccines requires
a wide range of research, one of the methods of which is literature monitoring of scientific publications.
Significant labor costs for the search and analysis of articles make the creation and implementation of com-
puter information and search systems for monitoring literature and Internet sources an urgent issue. Developed
for this purpose, the medicine safety data monitoring system Germes PV is intended for the comprehensive
application of modern technologies of automated monitoring of periodicals and Internet resources (web por-
tals, websites, electronic libraries, etc.) in order to search for publications on the safety of drugs, availability
adverse reactions and lack of effectiveness of medicinal products, feedback and suggestions of interested
persons and other information in the field of pharmacovigilance. In this work, a comprehensive analysis of
the subject area is carried out and ways of automating the activities of health care institutions and pharmaceu-
tical companies in this area are described.
Keywords: information and analytical system, monitoring of Internet sources, drug safety, pharmacovigilance,
Вступ
Фармацевтичні компанії згідно із
вимогами законодавства України та міжна-
родними нормативними документами зо-
бов’язані слідкувати за міжнародним дос-
відом застосування всіх зареєстрованих
ними лікарських засобів. Міжнародний до-
свід включає опубліковану наукову та ме-
дичну літературу. Моніторинг літератури
повинен здійснюватись з метою виявлення
публікацій, що містять інформацію, яка
може вплинути на співвідношення ризик-
користь лікарського засобу, особливо у
зв’язку з виявленням нових сигналів із без-
пеки або актуальних питань із безпеки.
Фармацевтична компанія повинна
забезпечити систематичний моніторинг на-
укових і медичних публікацій, який би
© А.В. Чадюк, С.С. Машковський, 2024
ISSN 1727-4907. Проблеми програмування. 2024. №2-3
191
Інформаційні системи
включав обов’язковий перегляд наступних
груп літературних джерел:
- глобальні бази даних, які містять
найбільший перелік посилань на
статті, що стосуються властивос-
тей лікарських засобів;
- локальні (місцеві) медичні жур-
нали та видання;
- веб-сайт Державного підприємс-
тва «Державний експертний
центр Міністерства охорони здо-
ров’я України»
(https://www.dec.gov.ua);
- веб-сайти регуляторних органів
провідних країн світу.
Серед важливих глобальних баз да-
них можливо назвати наступні: PubMed
(https://pubmed.ncbi.nlm.nih.gov), Excerpta
Medica (https://excerptamedica.com), Wiley
online library
(https://onlinelibrary.wiley.com) або
EMBASE (Elsevier)
(https://www.elsevier.com).
Знайдена інформація має бути ре-
тельно проаналізована та оформлена у від-
повідних звітних документах. Крім того,
фармацевтична компанія повинна дово-
дити отриману інформацію до відома регу-
ляторного органу країни.
На сьогодні для спеціалістів фарма-
цевтичної компанії основними інструмен-
тами моніторингу публікацій залишаються
популярні пошукові канали на кшталт
«Google» та безпосередній пошук інформа-
ції на веб-сайтах і в електронних бібліоте-
ках, які надають можливість відслідкову-
вати всі ресурси з поля інтересів спожива-
чів та виробників лікарських засобів. Та-
кий пошук виконується, як правило, в руч-
ному режимі, що потребує значних трудо-
витрат з огляду на необхідну періодичність
виконання пошуків, кількість інтернет-
джерел та кількість лікарських засобів, які
необхідно відслідковувати.
Виходячи з цього, проблема забез-
печення ефективного та результативного
проведення моніторингу літературних да-
них із безпеки та ефективності лікарських
засобів є на сьогодні вельми актуальною і
може бути вирішена шляхом запрова-
дження сучасних засобів автоматизації
процесу літературного пошуку, а також
процесу аналізу знайдених результатів та
їх обліку з використанням методів штуч-
ного інтелекту.
Метою створення Системи монітори-
нгу даних про безпеку лікарських засобів
Germes PV (далі – Система Germes PV) є ав-
томатизований моніторинг інформації щодо
безпеки та ефективності лікарських засобів
на веб-сайтах провідних міжнародних та на-
ціональних регуляторних органів світу, нау-
кових і медичних видань і, як результат,
сприяння безпечному та ефективному засто-
суванню лікарських засобів, зокрема, через
своєчасне інформування про безпеку лікар-
ських засобів пацієнтів, спеціалістів сис-
теми охорони здоров’я і громадськість.
Система Germes PV (свідоцтво про
реєстрацію авторського права на твір №
71259 від 03.04.2017 р., видане Державною
службою інтелектуальної власності Укра-
їни) - це Веб-платформа для комплексного
застосування сучасних технологій автома-
тизованого моніторингу періодичних ви-
дань, інтернет-ресурсів та електронних бі-
бліотек з метою пошуку публікацій щодо
безпеки лікарських засобів, наявності побі-
чних реакцій та відсутності ефективності
медичних препаратів, відгуків і пропозицій
зацікавлених осіб та іншої інформації в га-
лузі фармаконагляду.
Загальні концептуальні та
основні технологічні підходи
Загальна концепція щодо створення
системи Germes PV заснована на тому, що
дана система повинна бути побудована на
сучасній програмній платформі, мати ши-
рокі можливості щодо масштабування, від-
повідати вимогам міжнародних норматив-
них документів та бути продуктом націона-
льного розробника.
Система Germes PV забезпечує:
- планування моніторингу літера-
тури за торговим найменуван-
ням, міжнародним непатентова-
ним найменуванням лікарського
засобу (назвою діючої речо-
вини);
- створення та ведення реєстру пе-
ріодичних видань та інтернет-ре-
сурсів для моніторингу;
192
Інформаційні системи
- формування розкладу та план-
графіків моніторингу періодич-
них видань;
- складання пакетів завдань для
моніторингу та їх диспетчериза-
ція;
- виконання регулярного моніто-
рингу періодичних видань та ін-
тернет-ресурсів в автоматич-
ному режимі;
- скачування повних текстів пуб-
лікацій і гіперпосилань на них з
подальшим збереженням у базі
даних;
- очищення результатів пошуку
від дублікатів та повторів статей,
рекламних матеріалів;
- протоколювання дій з монітори-
нгу та результатів пошуку публі-
кацій;
- формування звітних форм щодо
результатів моніторингу;
- належне документування діяль-
ності фармацевтичної компанії
щодо моніторингу літератури
для проходження аудиту.
Розробка системи Germes PV вико-
нана з дотриманням таких принципів:
- відкритість системи (можливість
модифікації та розвитку) за раху-
нок модульної побудови її струк-
тури, клієнт-серверної архітек-
тури, відкритих інтерфейсів для
можливої доробки та інтеграції з
іншими системами;
- поетапність нарощування функ-
ціональних можливостей і ресу-
рсів системи; можливість вне-
сення змін і модифікації сис-
теми;
- висока надійність і відмовостій-
кість, безпека та захищеність ін-
формації;
- врахування передового досвіду
створення подібних систем, що
розроблені і виконуються як в
Україні, так і в світі в цілому.
Архітектура системи
Архітектура системи Germes PV має
трирівневу клієнт-серверну архітектуру.
Клієнт системи дозволяє користува-
чам з використанням Інтернет-браузера ве-
сти реєстр видань (інтернет джерел для мо-
ніторингу), формувати пакети монітори-
нгу, які визначають період моніторингу ви-
значеного переліку інтернет джерел, мно-
жину ключових слів, створювати та налаш-
товувати план-графіки, за якими викону-
ється пошук, отримувати результати моні-
торингу.
Сервер системи – це електронна біб-
ліотека, яка забезпечує функціонування слу-
жби пошуку та вбудованого браузера, відс-
лідковує розклад виконання пошукових за-
питів, здійснює реєстрацію службової інфо-
рмації щодо виконаних пошуків, підтримує
завантаження файлів знайдених статей до
бази даних електронної бібліотеки системи
Germes PV та їх попередній аналіз.
Структурна схема системи Germes
PV, яка зображена на рис. 1, розкриває вза-
ємодію компонентів системи під час її фу-
нкціонування. Сервер системи дозволяє
отримувати результати пошуку, обробляти
їх, аналізувати отримані в результаті по-
шуку публікації, надсилати результати по-
шуку клієнтам, реєструвати підписки кліє-
нтів на певні видання.
Служба пошуку з використанням
таймеру (планувальник завдань) може ви-
користовувати необмежену кількість про-
вайдерів пошуку (таких як Google, Bing та
інші) та необмежену кількість адаптерів,
через які результати пошуку віддаються
клієнтам.
Служба отримання результатів за-
безпечує для клієнтів подальшу роботу з
результатами моніторингу, виконання по-
дальшого аналізу знайдених результатів,
маркування ключових слів у тексті статей
для зручності роботи фахівців.
Стратегія пошуку для
моніторингу літературних даних
Медичні та наукові бази даних – це
набір відомостей щодо публікацій. Усі бази
даних структуровані, що полегшує органі-
зацію та пошук записів за допомогою різ-
них засобів, від простого тексту до склад-
ного індексування термінів. Для об’єд-
нання поняття, розширення або зниження
специфічності запиту, ключові слова по-
193
Інформаційні системи
шуку (текстові або індексовані) можуть
бути пов’язані за допомогою логічних опе-
раторів і кодів приблизності. Крім того, мо-
жна використовувати фільтри результатів
пошуку. Застосування ключових слів у
процесі пошуку означає, що результат по-
шуку за обсягом буде меншим від усієї
бази наявних публікацій. Успішність по-
шуку можна визначити на основі точності і
вибірки (чутливості) пошуку.
Вибірка (чутливість) – це кількісне
співвідношення отриманих в результаті по-
шуку записів («попадань») до загальної кі-
лькості релевантних записів, наявних в базі
даних. Точність – це співвідношення доре-
чних «попадань» до загальної кількості
отриманих записів. Загальновідомо, що
чим ширша повнота пошуку, тим нижча
його точність.
Бази даних відрізняються за струк-
турою, часом затримки під час індексації
та принципом індексації нових термінів
(ключових слів). У деяких базах даних збе-
рігається інформація щодо історії індекса-
ції термінів (ключових слів) чи застосу-
вання синонімів, в інших, більш примітив-
них, – ні.
В системі Germes PV реалізується
стратегія пошуку у два етапи.
Перший етап передбачає прямий
пошук релевантних результатів в базах да-
них та на веб-сайтах періодичних видань.
Прямий пошук виконується в першу чергу
за діючою речовиною (у всіх варіантах)
або торгівельною назвою лікарського за-
собу з метою запобігання ризику втрати
результатів та забезпечення найбільшої
повноти результатів згідно із рекомендаці-
ями «VI. Додатку 2. Детальна інструкція з
моніторингу медичної та наукової літера-
тури Настанови СТ-Н МОЗУ 42-8.7:2018
Лікарські засоби. Належні практики фар-
маконагляду».
На цьому етапі здійснюється скачу-
вання повних текстів публікацій і гіперпо-
силань на них з подальшим збереженням в
базі даних та очищення результатів пошуку
від дублікатів та повторів статей, реклам-
них матеріалів. Таким чином формується
внутрішня бібліотека знайдених статей си-
стеми Germes PV, яка використовується
для подальшої роботи.
Другий етап передбачає більш дета-
льний аналіз вмісту публікації, її анотації та
реферату, обробку повного тексту статті,
включаючи її переклад українською мовою.
Аналіз вмісту публікації викону-
ється з урахуванням встановлених цілей
огляду (питання фармаконагляду, інфор-
мація щодо безпеки, сигнали тощо). На
цьому етапі для зменшення обсягу резуль-
татів пошуку може бути застосований ін-
струмент введення додаткових термінів
(ключових слів) та текстових формулю-
вань, які для зручності роботи автомати-
чно підфарбовуються у тексті статті. Набір
Рис. 1. Структурна схема системи Germes PV
194
Інформаційні системи
термінів (ключових слів) повинен відпові-
дати використовуваній базі даних і пред-
метові пошуку.
Частково наступний аналіз та селе-
кція знайдених результатів моніторингу
покладаються на користувача система
Germes PV.
Тож для запуску пошуку необхідно
створити пакет моніторингу, який містить
інформацію про видання та ключові слова
щодо лікарського засобу та сформувати
план-графік для обраного часового періоду
моніторингу. Після створення плану-гра-
фіку у фахівця є можливість створити се-
анс моніторингу і запустити план-графік на
автоматичне виконання через певні інтер-
вали часу на певний строк, або виконати
миттєвий пошук.
Розглянемо алгоритм автоматич-
ного пошуку.
Автоматичний пошук починається
в той момент, коли запускається план-гра-
фік на автоматичне виконання. Цієї миті в
базі даних створюються записи про сеан-
сові запити (список всіх запланованих по-
вторень пошуку до кінця строку дії план-
графіка). Ці запити містять інформацію
про ключові слова пошуку, лікарський за-
сіб та джерело пошуку у вигляді URL-ад-
реси (будемо називати це правилом по-
шуку). Під час роботи веб-застосунку пра-
цює таймер, який за зазначеним в конфігу-
раційному файлі параметрами тайм-ауту
здійснює запити до бази даних для пошуку
сеансових запитів, які ще не були запущені
та не є простроченими.
Після отримання набору сеансових
запитів вони відправляються на службу
планувальника у вигляді правил пошуку.
На службі планувальника правила пошуку
зберігаються в базі даних і їм надається іде-
нтифікаційний код, який віддається кліє-
нту моніторингу і зберігається в базі даних
у таблиці сеансових запитів.
На стороні служби планування запу-
скаються на кожне правило пошуку тай-
мери, які в необхідні періоди часу (які за-
даються клієнтом) виконують запит до слу-
жби пошуку.
Служба пошуку отримує необхідну
інформацію від служби планування і в за-
лежності від провайдера пошуку формує
рялок пошуку або передає необхідні пара-
метри. В даній системі провайдерами по-
шуку є DuckDuckGo, Google та Google
Search API. Також реалізована можливість
використовувати як провайдера пошукові
інструменти сайтів, за їх наявності.
Отримавши рядок пошуку чи необ-
хідні параметри, служба пошуку конфігу-
рує провайдера пошуку та передає йому
необхідну інформацію. У разі викорис-
тання Google Search API відбувається ви-
клик через цей інтерфейс і служба отримує
результати пошуку в специфічній струк-
турі даних.
У разі ж використання звичайної по-
шукової системи або пошукового інструме-
нту сайту система пошуку застосовує слу-
жбу браузера, до якої передає рядок запиту.
Далі служба за допомогою внутрішніх меха-
нізмів отримує веб-сторінку з результатами
пошуку, здійснює початкове фільтрування
(наприклад, чи є в тексті веб-сторінки слова
з пошукового запиту) та у випадку успіху
повертає її до служби пошуку.
Після отримання результатів по-
шуку служба пошуку знаходить хендлер
передачі результату до електронної бібліо-
теки. Приймання результатів пошуку елек-
тронною бібліотекою відбувається за допо-
могою служби приймання результатів по-
шуку. В електронній бібліотеці результати
перевіряються на дублікати та оригінальні
статті зберігаються в базі даних.
Після цього результати пошуку ана-
лізуються за допомогою служби виконання
скриптів Python. Скрипти пишуться для ко-
жного видання окремо для отримання не-
обхідної інформації про знайдену публіка-
цію. Після аналізу скриптами відбувається
фінальна обробка результатів пошуку еле-
ктронною бібліотекою.
Водночас служба пошуку парале-
льно з передачею результатів пошуку до
електронної бібліотеки передає результати
в службу планувальників. Служба планува-
льників конфігурує необхідний адаптер
для передачі результатів на клієнт моніто-
рингу видань. Передача результатів відбу-
вається за допомогою служби заванта-
ження результатів моніторингу. На клієнті
результати так само перевіряються на дуб-
лікати, після чого нові надходження збері-
195
Інформаційні системи
гаються частково в базі даних. Після збере-
ження результатів клієнт моніторингу ви-
дань робить запит до служби отримання
публікацій електронної бібліотеки, а також
робить маніпуляції для очищення бази да-
них від непотрібних сеансових запитів та
створення нових (наступних у списку) сеа-
нсових запитів. Отримання публікації від-
бувається за ідентифікаційним кодом пуб-
лікації. Після отримання проаналізованої
публікації до клієнта моніторингу можна
вважати процес автоматичного пошуку за-
вершеним.
Алгоритм роботи миттєвого пошуку
дуже схожий на алгоритм автоматичного
виконання пошуку, але має деякі відмінно-
сті. По-перше, під час натискання кнопки
миттєвого пошуку, створюється сеанс по-
шуку, для сеансу пошуку створюються се-
ансові запити. Далі ці запити віддаються на
службу планувальників, де на кожен запит
створюється одноразовий таймер (після
відпрацювання таймер утилізується), далі
повторюється алгоритм автоматичного по-
шуку. По-друге, у процесі завантаження
результатів пошуку клієнту з бази видаля-
ються дані про сеанс та сеансовий запит, а
також видаляється інформація з бази даних
служби планувальника.
Функціональну схему системи зо-
бражено на рис. 2.
Насамкінець слід зазначити, що в
систему Germes PV вбудований механізм
«захисту» на випадок, якщо якийсь із чер-
гових сеансів не зміг виконатись вчасно,
руйнуючи тим самим ланцюжок плану-гра-
фіка. Через задані інтервали часу веб-клі-
єнт перевіряє записи в базі даних на пред-
мет сеансів, які не виконались, та повторно
призначає їх виконання з новим часом на
тому ж місці у черзі плану-графіка. Разом з
тим задля зниження навантаження на сис-
Рис. 2. Функціональна схема системи Germes PV
196
Інформаційні системи
тему, а також із міркувань раціональності,
так і невиконані сеанси після певного
строку (зазвичай тиждень) видаляються із
системи.
Постановка задачі моніторингу
літератури
З метою постановки задачі моніто-
рингу літератури скористаємося визначен-
ням поняття інформаційного потоку [1],
під яким будемо розуміти послідовність
повідомлень у веб-просторі, що у певному
змісті належать до заданої теми. З точки
зору моніторингу літератури існує два па-
ралельних інформаційних потоки:
- безперервний процес публікації
статей у наукових періодичних
виданнях;
- дискретний процес пошуку но-
вих статей в інтернет-джерелах.
Для формального опису задачі моні-
торингу літератури введемо деякі загальні
визначення.
Множина лікарських засобів фарма-
цевтичної компанії щодо яких потрібно
здійснювати літературний моніторинг,
𝑴𝑴 = {𝒋𝒋} (кількість зареєстрованих лікарсь-
ких засобів компанії), j – відповідний ліка-
рський засіб, де j = 𝟏𝟏, 𝑴𝑴.
Множина інтернет-джерел та ви-
дань 𝐕𝐕 = {𝐯𝐯} (загальна кількість джерел), v
– відповідне інтернет-джерело, де v = 𝟏𝟏, 𝑽𝑽,
яке характеризується періодичністю 𝜽𝜽𝒗𝒗 ви-
дання наукового журналу (щомісячно, що-
квартально тощо) або рекомендованою ча-
стотою перегляду нових надходжень до на-
укової бібліотеки (бази даних) (зазвичай
пропонується щотижнево).
Розглянемо відрізок (a, τ) дійсної осі
часу, де τ > a. Припустимо, що на цьому
відрізку часу відповідно до деяких законо-
мірностей публікуються декілька статей –
k та відбувається процес моніторингу літе-
ратури. На осі часу моменти публікації ок-
ремих статей позначимо як
τ1, τ2,..., τk (a ≤ τ1 ≤ τ2 ≤ …≤ τk ≤ τ).
Процес публікації статей характери-
зується функцію Nα(τ) кількості статей, які
опубліковані в інтервалі (a, τ). Відповідно
до цього визначення функція Nα(τ) є незни-
женою, ступінчастою, завжди цілою, тобто
Nα(τ) = ∫ ∑ 𝑴𝑴
𝒋𝒋=𝟏𝟏
𝝉𝝉
𝟎𝟎 𝒏𝒏j(𝒕𝒕)𝒅𝒅𝒕𝒕,
де 𝒏𝒏j(𝒕𝒕) – це кількість статей в одиницю
часу стосовно лікарського засобу j.
Водночас визначимо на часовому
відрізку (a, τ) період планування монітори-
нгу літератури U, який є дискретним та ви-
мірюється у днях, де u = 𝟏𝟏, 𝑼𝑼 – це ціле чи-
сло, що позначає номер доби на часовому
періоді планування, який зазвичай складає
один рік, U = 365. Нульовим пошуком u0
будемо називати стартовий пошук на пері-
оді планування з метою знаходження опуб-
лікованих раніше статей з ретроспективою
в λ днів.
З точки зору нормативних вимог до
організації моніторингу літератури запла-
нована кількість пошуків нових статей по-
винна становити
P ≥ ∑ 𝑴𝑴 (𝟏𝟏 + 𝑼𝑼 / 𝜽𝜽𝒗𝒗).𝑽𝑽
𝒗𝒗=𝟏𝟏
Визначимо календарний план моні-
торингу літератури як послідовність
π = (𝒊𝒊𝟏𝟏, 𝒊𝒊𝟐𝟐, …. , 𝒊𝒊𝑷𝑷),
в якій виконуються пошуки за встановле-
ними план графіками. Тут 𝒊𝒊𝒌𝒌 означає номер
пошуку, який в послідовності π викону-
ється k-м за порядком.
Кожний пошук характеризується та-
кими параметрами:
- 𝒔𝒔𝒌𝒌𝒋𝒋𝒗𝒗 - запланований момент ви-
конання k-го за порядком по-
шуку в інтернет джерелі v для лі-
карського засобу 𝒋𝒋;
- 𝒔𝒔𝒌𝒌𝒋𝒋𝒗𝒗 + 𝜽𝜽𝒗𝒗 ≤ 𝒔𝒔𝒌𝒌+𝟏𝟏𝒋𝒋𝒗𝒗, де k+1 – це
номер наступного планового по-
шуку за пошуком k в інтернет дже-
релі v для лікарського засобу 𝒋𝒋;
- 𝒓𝒓𝒌𝒌𝒋𝒋 – кількість знайдених за ре-
зультатом k-го пошуку статей
для лікарського засобу 𝒋𝒋, де
𝒓𝒓𝒌𝒌𝒋𝒋 = { 𝟎𝟎,
𝜼𝜼 ≥ 𝟏𝟏,
Кількість знайдених статей 𝒓𝒓𝒌𝒌𝒋𝒋 = 0,
якщо інформація не знайдена або відсутні
нові результати пошуку із урахуванням
того, що дублікати повторно знайдених ста-
тей не враховуються, або 𝒓𝒓𝒌𝒌𝒋𝒋 = η, якщо
знайдено одну і більше статей, які відпові-
197
Інформаційні системи
дають умовам запиту. Цей параметр вира-
ховується вручну. В подальшому є можли-
вість зробити його оцінку на підставі стати-
стичних даних.
В послідовності π для зручності мо-
менти виконання пошуків відсортовані у
порядку зростання, тобто
𝒔𝒔𝟏𝟏𝟏𝟏𝟏𝟏 ≤ 𝒔𝒔𝟐𝟐𝟏𝟏𝟏𝟏 ≤ ≤ 𝒔𝒔𝑷𝑷𝟏𝟏𝟏𝟏
Тоді кількість знайдених статей мо-
жливо оцінити як
N(U) = ∑ ∑ 𝒓𝒓𝒌𝒌𝟏𝟏
𝑴𝑴
𝟏𝟏=𝟏𝟏
𝑷𝑷
𝒌𝒌=𝟏𝟏
Оцінку якості процесу моніторингу
літератури будемо здійснювати за характери-
стикою повноти (англ. – recall). Під релеван-
тністю будемо розуміти формальну відповід-
ність знайденої статті пошуковому запиту.
Для обчислення показників якості
пошуку прийнято розглядати таблицю, яку
заповнюють за результатами пошуку доку-
ментів [2]. Цей підхід був запропонований
у рамках створеної Американським Інсти-
тутом Стандартів (NIST) конференції з оці-
нки систем текстового пошуку – Text
REtrieval Conference (TREC,
http://trec.nist.gov/). Таблиця результатів
пошуку має такий вигляд табл. 1.
Таблиця 1
Таблиця результатів пошуку
Статті Знайдені Незнайдені
Релевантні a c
Нерелевантні b d
За допомогою цієї таблиці коефіці-
єнт повноти пошуку розраховується так:
r = a / (a + c).
На підставі вищевикладеного отри-
муємо таку оцінку якості системи
r = N(U) / Nα(τ).
Аналіз якості системи
Було виконано аналіз якості сис-
теми Germes PV. Заміри відбувалися з ви-
користанням набору назв лікарських засо-
бів та визначеної групи веб-сайтів видань,
на яких здійснювався пошук системою, та
перевірявся мануально.
В табл. 2 наведено аналіз якості по-
шуку на веб-сайтах відповідних видань.
Таблиця 2
Аналіз якості пошуку
Лікарський
засіб
Опуб-
лікова-
них
статей
Знайде-
них
статей
систе-
мою
Ви-
дання
Susprin 6 4 PubMed
Суспрін 5 4 ДЕЦ
МОЗУ
Тайгерон 4 4 ДЕЦ
МОЗУ
Tigeron 4 3 FDA
Tigeron 7 7 PubMed
Levetiracetam 12 10 EMA
Аброл 11 10 EMA
Домрид 8 7 EMA
Levetiracetam 1 0 FDA
Аброл 2 1 FDA
Домрид 1 1 FDA
Levetiracetam 1 0 MHRA
Levetiracetam 13 10 PubMed
Аброл 13 10 PubMed
Домрид 7 6 PubMed
Всього 95 77 r = 0,81
Отримані результати показали зна-
чну ефективність роботи системи Germes
PV у порівняні з існуючими методами по-
шуку літературних даних, які використову-
ються у фармацевтичних компаніях.
Висновок
Розроблена система Germes PV за-
безпечує пошук в Інтернеті даних про без-
пеку та ефективність лікарських засобів за
ключовими словами на заданих сайтах ви-
дань в заданому часовому періоді.
Результати пошуку та аналізу літе-
ратурних даних використовуються фарма-
цевтичними компаніями для підготовки ре-
єстраційних досьє лікарських засобів, пері-
одичних звітів з безпеки та інших докуме-
нтів у галузі фармаконагляду.
Запропонована автоматизація по-
шуку суттєво знижує річні трудовитрати
198
Інформаційні системи
компаній на пошук та аналіз літературних
даних, які можуть перевищувати 4000 го-
дин на рік для 70 – 100 видань стосовно 50
– 100 лікарських засобів.
Література
1. Ланде Д.В., Субач І.Ю., Бояринова
Ю.Є. Основи теорії і практики інте-
лектуального аналізу даних у сфері
кібербезпеки: навчальний посібник.
— К.: ІСЗЗІ КПІ ім. Ігоря Сікорсь-
кого», 2018.
2. Choosing & Using Sources: A Guide to
Academic Research. Teaching &
Learning, Ohio State University
Libraries, 2015. - [Електронний ре-
сурс]. – Режим доступу:
https://ohiostate.pressbooks.pub/choos
ingsources/.
3. Свістельник І.Р. Система наукової
інформації: формування, розвиток,
перспективи / Свістельник І.Р. // Те-
орія і методика та методика фізич-
ного виховання. – 2005. – № 4. – С.
2–5.
4. Data Mining and Image Processing
Toolkits. – [Електронний ресурс]. –
Режим доступу
http://datamining.itsc.uah.edu/adam/
5. Гороховатський В.О., Творошенко
І.С. Методи інтелектуального ана-
лізу та оброблення даних. - Х.: Хар-
ківський національний університет
радіоелектроніки, 2021.
6. Калько Д.Р., Ніколюк П.К. Методи
та задачі інтелектуального аналізу
даних. // Комп'ютерні технології об-
робки даних. - 2022. - С. 59-63.
7. Кучер М.О., Бабаков Р.М. Аналіз ро-
зробки програмного додатку, який
використовує нейронні мережі. //
Комп'ютерні технології обробки да-
них. - 2022. - С. 14-16.
8. Інтелектуальний аналіз даних.
Комп’ютерний практикум: навчаль-
ний посібник для студентів спеціа-
льності 122 «Комп’ютерні науки та
інформаційні технології», спеціалі-
зацій «Інформаційні системи та тех-
нології проектування», «Системне
проектування сервісів» / О.О. Сер-
геєв-Горчинський, Г.В. Іщенко; КПІ
ім. Ігоря Сікорського. – К.: КПІ ім.
Ігоря Сікорського, 2018. – 75 с.
Одержано: 10.04.2024
Внутрішня рецензія отримана: 17.04.2024
Зовнішня рецензія отримана: 24.04.2024
Про авторів
1Чадюк Анатолій Володимирович,
кандидат технічних наук,
заступник завідувача відділу
2Машковський Сергій Сергійович,
кандидат технічних наук,
завідувач відділу
Місце роботи авторів:
1 Інститут програмних систем
НАН України,
03187, м. Київ-187, проспект
Академіка Глушкова, 40, корпус 5.
E-mail: anatolyc@ukr.net
2 Інститут розробки інформаційних
систем,
03055, м. Київ, пр-т Перемоги, 29
E-mail: iisd@iisd.com.ua
|