Integrated open source metadata aggregation environment to support scientific research

Metadata for electronic libraries is an integral part of the organization and access to digital resources. In this article, we explore common approaches to e-library integration, focusing on metadata analysis, protocols, and software. The types of metadata considered, such as descriptive, structural...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2024
1. Verfasser: Novytskyi, O.V.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Інститут програмних систем НАН України 2024
Schlagworte:
Online Zugang:https://pp.isofts.kiev.ua/index.php/ojs1/article/view/663
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Problems in programming

Institution

Problems in programming
id pp_isofts_kiev_ua-article-663
record_format ojs
resource_txt_mv ppisoftskievua/95/a0bbfde2331c76e28c7ffa3edd998895.pdf
spelling pp_isofts_kiev_ua-article-6632025-02-15T15:29:14Z Integrated open source metadata aggregation environment to support scientific research Інтегроване середовище агрегації метаданих відкритих джерел для підтримки наукових досліджень Novytskyi, O.V. integration of electronic libraries; metadata exchange protocols; oai-pmh; vufind; Dublin core UDC 681.3 інтеграція електронних бібліотек; протоколи обміну метаданими; oai-pmh; vufind; Dublin core УДК 681.3 Metadata for electronic libraries is an integral part of the organization and access to digital resources. In this article, we explore common approaches to e-library integration, focusing on metadata analysis, protocols, and software. The types of metadata considered, such as descriptive, structural, administrative, preservation metadata, rights metadata, and technical metadata, reveal various aspects of digital resources. Various protocols and approaches to integration are considered, in particular the OAI-PMH protocol, which plays a key role in providing access and metadata exchange between repositories. An overview of software for integration using the OAI-PMH protocol is also provided, including a comparative table of characteristics of popular software solutions. This article helps to understand the importance of metadata and the effectiveness of its use to ensure access to digital resources in the modern scientific environment. The processes of extraction, transformation, loading, which can be used in the semantic integration of data through OAI-PMH, are described in detail. Software for the integration of electronic libraries and open access journals was also reviewed and key functions for creating an effective scientific environment were identified.Prombles in programming 2024; 2-3: 408-417 Метадані для електронних бібліотек є невід'ємною частиною організації та доступу до цифрових ресурсів. У цій статті ми досліджуємо типові підходи до інтеграції електронних бібліотек, зосереджуючись на аналізі метаданих, протоколах та програмному забезпеченні. Розглянуті типи метаданих, такі як описові, структурні, адміністративні, метадані збереження, метадані прав та технічні метадані, розкривають різноманітні аспекти цифрових ресурсів. Розглянуто різні протоколи та підходи до інтеграції, зокрема, протокол ОАІ-PMH, який відіграє ключову роль у забезпеченні доступу та обміну метаданими між репозиторіями. Також надається огляд програмного забезпечення для інтеграції за допомогою протоколу ОАІ-PMH, включно із порівняльною таблицею характеристик популярних програмних рішень. Ця стаття допомагає розуміти важливість метаданих та ефективність їх використання для забезпечення доступу до цифрових ресурсів у сучасному науковому середовищі. Детально описано процеси екстракції, трансформації, завантаження, які можна застосовувати при семантичній інтеграції даних через OAI-PMH. Також проведено огляд програмного забезпечення для інтеграції електронних бібліотек та журналів відкритого доступу та визначено ключові функції для створення ефективного наукового середовища.Prombles in programming 2024; 2-3: 408-417 Інститут програмних систем НАН України 2024-12-17 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/663 10.15407/pp2024.02-03.408 PROBLEMS IN PROGRAMMING; No 2-3 (2024); 408-417 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2024); 408-417 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2024); 408-417 1727-4907 10.15407/pp2024.02-03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/663/715 Copyright (c) 2024 PROBLEMS IN PROGRAMMING
institution Problems in programming
baseUrl_str https://pp.isofts.kiev.ua/index.php/ojs1/oai
datestamp_date 2025-02-15T15:29:14Z
collection OJS
language Ukrainian
topic integration of electronic libraries
metadata exchange protocols
oai-pmh
vufind
Dublin core
UDC 681.3
spellingShingle integration of electronic libraries
metadata exchange protocols
oai-pmh
vufind
Dublin core
UDC 681.3
Novytskyi, O.V.
Integrated open source metadata aggregation environment to support scientific research
topic_facet integration of electronic libraries
metadata exchange protocols
oai-pmh
vufind
Dublin core
UDC 681.3
інтеграція електронних бібліотек
протоколи обміну метаданими
oai-pmh
vufind
Dublin core
УДК 681.3
format Article
author Novytskyi, O.V.
author_facet Novytskyi, O.V.
author_sort Novytskyi, O.V.
title Integrated open source metadata aggregation environment to support scientific research
title_short Integrated open source metadata aggregation environment to support scientific research
title_full Integrated open source metadata aggregation environment to support scientific research
title_fullStr Integrated open source metadata aggregation environment to support scientific research
title_full_unstemmed Integrated open source metadata aggregation environment to support scientific research
title_sort integrated open source metadata aggregation environment to support scientific research
title_alt Інтегроване середовище агрегації метаданих відкритих джерел для підтримки наукових досліджень
description Metadata for electronic libraries is an integral part of the organization and access to digital resources. In this article, we explore common approaches to e-library integration, focusing on metadata analysis, protocols, and software. The types of metadata considered, such as descriptive, structural, administrative, preservation metadata, rights metadata, and technical metadata, reveal various aspects of digital resources. Various protocols and approaches to integration are considered, in particular the OAI-PMH protocol, which plays a key role in providing access and metadata exchange between repositories. An overview of software for integration using the OAI-PMH protocol is also provided, including a comparative table of characteristics of popular software solutions. This article helps to understand the importance of metadata and the effectiveness of its use to ensure access to digital resources in the modern scientific environment. The processes of extraction, transformation, loading, which can be used in the semantic integration of data through OAI-PMH, are described in detail. Software for the integration of electronic libraries and open access journals was also reviewed and key functions for creating an effective scientific environment were identified.Prombles in programming 2024; 2-3: 408-417
publisher Інститут програмних систем НАН України
publishDate 2024
url https://pp.isofts.kiev.ua/index.php/ojs1/article/view/663
work_keys_str_mv AT novytskyiov integratedopensourcemetadataaggregationenvironmenttosupportscientificresearch
AT novytskyiov íntegrovaneseredoviŝeagregacíímetadanihvídkritihdžereldlâpídtrimkinaukovihdoslídženʹ
first_indexed 2025-07-17T09:57:52Z
last_indexed 2025-07-17T09:57:52Z
_version_ 1838410085370429440
fulltext 408 Інформатизація наукових досліджень УДК 681.3 http://doi.org/10.15407/pp2024.02-03.408 О.В. Новицький ІНТЕГРОВАНЕ СЕРЕДОВИЩЕ АГРЕГАЦІЇ МЕТАДАНИХ ВІДКРИТИХ ДЖЕРЕЛ ДЛЯ ПІДТРИМКИ НАУКОВИХ ДОСЛІДЖЕНЬ Метадані для електронних бібліотек є невід'ємною частиною організації та доступу до цифрових ре- сурсів. У цій статті ми досліджуємо типові підходи до інтеграції електронних бібліотек, зосереджую- чись на аналізі метаданих, протоколах та програмному забезпеченні. Розглянуті типи метаданих, такі як описові, структурні, адміністративні, метадані збереження, метадані прав та технічні метадані, ро- зкривають різноманітні аспекти цифрових ресурсів. Розглянуто різні протоколи та підходи до інтегра- ції, зокрема, протокол ОАІ-PMH, який відіграє ключову роль у забезпеченні доступу та обміну мета- даними між репозиторіями. Також надається огляд програмного забезпечення для інтеграції за допо- могою протоколу ОАІ-PMH, включно із порівняльною таблицею характеристик популярних програм- них рішень. Ця стаття допомагає розуміти важливість метаданих та ефективність їх використання для забезпечення доступу до цифрових ресурсів у сучасному науковому середовищі. Детально описано процеси екстракції, трансформації, завантаження, які можна застосовувати при семантичній інтеграції даних через OAI-PMH. Також проведено огляд програмного забезпечення для інтеграції електронних бібліотек та журналів відкритого доступу та визначено ключові функції для створення ефективного наукового середовища. Ключові слова: інтеграція електронних бібліотек, протоколи обміну метаданими, oai-pmh, vufind, Dub- lin core. O. Novytskyi INTEGRATED OPEN SOURCE METADATA AGGREGATION ENVIRONMENT TO SUPPORT SCIENTIFIC RESEARCH Metadata for electronic libraries is an integral part of the organization and access to digital resources. In this article, we explore common approaches to e-library integration, focusing on metadata analysis, protocols, and software. The types of metadata considered, such as descriptive, structural, administrative, preservation metadata, rights metadata, and technical metadata, reveal various aspects of digital resources. Various proto- cols and approaches to integration are considered, in particular the OAI-PMH protocol, which plays a key role in providing access and metadata exchange between repositories. An overview of software for integration using the OAI-PMH protocol is also provided, including a comparative table of characteristics of popular software solutions. This article helps to understand the importance of metadata and the effectiveness of its use to ensure access to digital resources in the modern scientific environment. The processes of extraction, trans- formation, loading, which can be used in the semantic integration of data through OAI-PMH, are described in detail. Software for the integration of electronic libraries and open access journals was also reviewed and key functions for creating an effective scientific environment were identified. Keywords: integration of electronic libraries, metadata exchange protocols, oai-pmh, vufind, Dublin core. Вступ Метадані для електронних бібліотек є ключовим аспектом організації та на- дання доступу до цифрових ресурсів. Він передбачає створення, керування та засто- сування описової інформації про цифрові об’єкти, такі як книги, статті, зображення, аудіофайли та інший цифровий вміст. Про- блема представлення та обміну метаданими між бібліотеками завжди актуальна, але тривалий час вона не досягfла значного прогресу. Своєрідний клас систем інтегра- ції представляють системи, в яких за основу взято технологію Ініціативи відкритих архі- вів (Open Archive Initiative – OAI) [1]. У бі- льшості відомих систем цієї категорії їхні інформаційні ресурси представляють со- бою колекції текстових документів, переду- сім наукових публікацій, які автономно фо- © О.В. Новицький, 2024 ISSN 1727-4907. Проблеми програмування. 2024. №2-3 409 Інформатизація наукових досліджень рмуються у вузлах глобальної мережі, підт- римуються та адмініструються їхніми влас- никами. Агрегація метаданих для репозито- рія здійснюється згідно зі спеціально розро- бленим протоколом Open Archives Initiative – Protocol for Metadata Harvesting (ОАІ- PMH) [2], що забезпечує глобальні послуги доступу та пошуку. Суть підходу відкритих архівів полягає у тому, щоб дозволити здій- снювати веб-доступ до інформаційних ре- сурсів, розташованих у інтероперабельних репозиторіях, за допомогою організації спі- льного використання, публікації й архіву- вання метаданих таких ресурсів. Протокол OAІ-PMH надає провайдерам даних прос- тий спосіб такого представлення їхніх ме- таданих, який робить їх доступними для провайдерів сервісів. Водночас як транспо- ртний протокол використовуються HTTP, а як формат обміну даних XML. Проте в про- токолі OAІ-PMH для забезпечення базового рівня інтероперабельності специфіковано формат Дублінського ядра. Таким чином, метадані з різних неоднорідних джерел по- єднуються в єдиній базі даних для того, щоб надати множину сервісів на основі та- ких агрегованих метаданих. Концепція протоколу OAІ-PMH ви- діляє дві ролі: провайдера даних та провай- дера сервісів. Провайдер даних – це слу- жба, що підтримує створення і ведення од- ного чи більше репозиторіїв (бази докуме- нтів, архівів, електронних бібліотек), здій- снює публікацію своїх ресурсів, а також уможливлює доступ до своїх метаданих для їхнього використання в інших систе- мах. Провайдер сервісів здійснює збір і збереження метаданих, наданих провайде- рами даних, для надання кінцевим корис- тувачам різних сервісів. Тривалий час в Україні працював провайдер сервісів для електронних бібліотек на базі PKP Harvester https://oai.org.ua/ [3]. PKP Open Archives Harvester (PKP OAI Harvester) є хорошим інструментом для збору метада- них з різних архівів через протокол OAI- PMH. Ця система дозволяє збирати мета- дані з цифрових репозиторіїв в Україні та індексувати 76 репозиторіїв, загальна кіль- кість записів становить понад 630 тисяч. Сторінку списку електронних бібліотек показано на рис. 1. Рис. 1. Сторінка списку електронних бібліотек PKP Harvester використовує мову програмування PHP 5.6, термін служби якої закінчився. Це створює проблему розвитку та розробки нових сервісів. У рамках розробки програмних за- собів підтримки наукових досліджень необ- хідно передбачити не тільки пошук метада- них, а й надати розширені можливості їх обробки та інтеграції з іншими системами. Водночас мета – створити систему, орієнто- вану на роботу з українськими постачаль- никами даних. Це спонукає досліджувати сучасні методи та рішення для створення середовищ, які інтегрують цифрові бібліо- теки. Хоча багато проєктів використову- ють протокол OAI-PMH для інтеграції да- них [4], в таблиці 1 наведено список порта- лів збору метаданих: Таблиця 1 Перелік відкритих сервіс провайдерів ме- таданих Назва та URL Кіль- кість ресур- сів Список основних сервісів BASE base- search.net 340 M. Title and abstract search OAIster oaister.on. worldcat.org 50 M. title and abstract search, advanced metadata CORE core.ac.uk 275M title and abstract search, advanced metadata Незважаючи на існування таких проєктів, електронні бібліотеки України не повною мірою представлені в цих агрегато- 410 Інформатизація наукових досліджень рах. Зокрема, це також пов’язано з тим, що мова метаданих є переважно українською. Не всі цифрові бібліотеки належним чином надають багатомовні метадані. Зокрема, в одній з найбільших електронних бібліотек України Науковій електронній бібліотеці періодичних видань НАН України (Рис. 2) такі дані, як опис ресурсу, дублюються, але не вказано, якою мовою. Це створює пот- ребу в обробці даних, джерело цієї про- блеми буде розглянуто далі. Рис. 2. Дуплікація описових метада- них без ідентифікатора мови У статті розглянуто типові підходи до інтеграції електронних бібліотек. Зок- рема, проведено аналіз типів метаданих, на- явних в електронних бібліотеках, розгля- нуто протоколи та методи інтеграції, а та- кож проведено порівняльний аналіз програ- мних продуктів, призначених для інтеграції даних. У статтях [5], [6], [7], [8] було опи- сано типові компоненти електронних біблі- отек та основні проблеми, пов’язані з типо- вими підходами до побудови архітектури електронних бібліотек. Як було зазначено, в основі інтегра- ції лежить обмін метаданими. Проте ці ме- тадані бувають різними. Ось деякі з основ- них типів метаданих, які використовуються в цифрових бібліотеках [9], [10]: − Описові метадані: описові мета- дані надають основну інформацію про ре- сурс, таку як його назва, автор, тема, клю- чові слова, анотація та дата публікації. Ці метадані відіграють більшу роль у розши- реній архітектурі для обміну даними. − Структурні метадані: структурні метадані описують внутрішню організацію та зв’язки між компонентами в цифровому ресурсі. Він визначає послідовність, ієрар- хію та логічну структуру ресурсу, як-от ро- зділів у книзі, розділів у статті, тому для журналу. − Адміністративні метадані: адмі- ністративні метадані включають інформа- цію про управління та адміністрування ци- фрових ресурсів. Вони містять відомості про права, дозволи, обмеження доступу, формати файлів, розміри файлів, технічні характеристики та інформацію про збере- ження. − Метадані збереження важливі для збереження та архівування цифрових ресурсів. Вони містять інформацію, напри- клад, звідки надійшов ресурс, у якому фор- маті файлу він знаходиться, контрольні суми для забезпечення його цілісності, істо- рію міграції та інші технічні метадані. Ці метадані необхідні для гарантування того, що цифрові об’єкти залишатимуться автен- тичними та доступними з часом. − Метадані прав: метадані прав ви- значають права інтелектуальної власності та дозволи на використання, пов’язані з ци- фровими ресурсами. Він містить інформа- цію про авторські права, умови ліцензу- вання, обмеження використання та вимоги до посилання. − Технічні метадані: Технічні ме- тадані надають інформацію про технічні ха- рактеристики цифрових ресурсів. Він міс- тить відомості про формати файлів, роз- дільну здатність, методи стиснення, колірні простори та інші технічні характеристики, необхідні для візуалізації, відтворення чи обробки цифрового вмісту. − Метадані використання: мета- дані використання відстежують викорис- тання та взаємодію користувача з цифро- вими ресурсами. Вони містять таку інфор- мацію, як кількість завантажень, перегля- дів, оцінки, коментарі та створений корис- тувачами вміст, пов’язаний із певним ре- сурсом. Усі ці типи метаданих можуть бути задіяні в інтеграції електронних бібліотек. Для інтеграції використовуються різнома- нітні протоколи та підходи, які дозволяють через єдину точку доступу отримувати дос- туп до метаданих. Метадані працюють ра- 411 Інформатизація наукових досліджень зом, щоб забезпечити повний опис цифро- вих ресурсів у цифровій бібліотеці, забезпе- чуючи ефективний пошук, виявлення, дос- туп і керування ресурсами. Протоколи обміну даними для електронних бібліотек Однією з важливих проблем для еле- ктронних бібліотек є інтеграція даних [11]. Обмін даними в цифровій бібліотеці озна- чає передачу інформації або ресурсів між різними системами, платформами або схо- вищами в екосистемі бібліотеки. Процес включає обмін, імпорт, експорт або синхро- нізацію даних для гарантування того, що колекція цифрової бібліотеки залишається актуальною, доступною та однорідною на різних платформах. Ось деякі загальні ком- поненти обміну даними в електронній біб- ліотеці: • Обмін метаданими: метадані опи- сують характеристики та атрибути цифро- вих ресурсів у стандартизованому форматі. Механізми обміну даними дозволяють об- мінюватися метаданими між цифровими бі- бліотеками, дозволяючи їм знаходити, отримувати доступ до ресурсів з різних джерел. Такі формати метаданих, як Dublin Core, MARC (Machine-Readable Cataloging) або MODS (Metadata Object Description Schema), сприяють взаємодії та обміну да- ними. • Збирання та агрегація: цифрові бі- бліотеки часто збирають вміст із різних джерел, таких як видавці, сховища чи інші бібліотеки. Збирання – це процес система- тичного збору даних із цих джерел та імпо- ртування їх до колекції бібліотеки. Такі те- хнології, як OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), полегшують збір та обмін метаданими, за- безпечуючи ефективну синхронізацію да- них. Окрім Дублінского ядра чи Metadata Object Description Schema (MODS) для об- міну метаданими використовуються схеми метаданих такі як Journal Article Tag Suite (JATS) [12] - це стандартизований формат розмітки для наукових статей у веб-публі- каціях. JATS використовується для струк- турування та представлення метаданих, те- ксту, посилань та інших елементів, що сто- суються наукових статей. Він забезпечує єдність формату, який полегшує обмін, ін- теграцію та аналіз наукових даних між різ- ними платформами та системами. JATS за- снований на стандарті XML, що дозволяє легко обробляти та адаптувати дані для різ- них потреб в обробці та візуалізації. Факти- чно OAI-PMH є транспортним протоколом, який дозволяє обмінюватися метаданими між різними системами. • Об’єднаний пошук: об’єднаний по- шук дозволяє користувачам одночасно здійснювати пошук у кількох цифрових бі- бліотеках або сховищах і отримувати відпо- відні результати з кожного джерела. Обмін даними має вирішальне значення в сцена- ріях об’єднаного пошуку, оскільки він пе- редбачає надсилання пошукових запитів до різних систем, отримання результатів по- шуку та їх агрегування в уніфікований інте- рфейс для користувачів. Це інший метод за- безпечення єдиної точки доступу, за якого пошук здійснюється розподіленим чином. Типовим представником даного протоколу є Z39.50 або SRW (Search/Retrieve Web Service) [13] • Збереження та архівування: циф- рові бібліотеки часто співпрацюють із уста- новами, що займаються збереженням, або архівними сховищами для забезпечення довгострокої доступності і цілісності своїх колекцій. Обмін даними в цьому контексті передбачає передачу ресурсів, метаданих або інформації, пов’язаної зі збереженням, до архівних систем, що забезпечує належне збереження та майбутній доступ. Існує на- бір стандартів, які забезпечують реалізацію довготривалого зберігання. Розглянемо дещо детальніше прото- кол OAI-PMH, який є найпоширенішим протоколом для обміну метаданими в елек- тронних бібліотеках відкритого доступу. Найпоширенішою схемою метаданих, що підтримується в OAI-PMH, є Dublin Core, яка надає базовий набір елементів для опису ресурсів. Базуючись на тому факті, що прото- кол походить від електронної публікації, модель даних OAI-PMH зазвичай інтерпре- тується в термінах бібліографічних даних, що описують академічні ресурси, хоча та- кож можливі інші інтерпретації [14]. OAI- 412 Інформатизація наукових досліджень PMH має просту та гнучку модель даних Рис. 3. Resource http://dspace.nbuv.gov.ua/handle/123456789/159075 Identifier oai:dspace.nbu v.gov.ua:12345 6789-159075 Metadata Schema DC ORE MODS METS Рис. 3. Модель даних OAI-PMH опису ресурсу Це може бути традиційний бібліоте- чний об’єкт (наприклад, книга, стаття), а та- кож інші сутності (наприклад, зображення, концепції). Далі - ідентифікатор запису (ідентифікатор OAI) або шлюз до всіх мета- даних, що описують ресурс. Нарешті у ни- жній частині моделі даних є записи. Записи описують ресурс у будь-якому форматі ме- таданих, який може бути виражений у схемі XML. Протокол OAI-PMH розроблено для підтримки будь-якої схеми опису метада- них, але основною, включеною в OAI-PMH, є набір метаданих Dublin Core (DC), що описує ресурс. Також бажано включити в опис більші набори метаданих (наприклад, MARC). На відміну від OAI-PMH, протокол OAI-ORE фокусується виключно на ство- ренні моделі даних, а не на визначенні про- токолу обміну. Він пропонує потенційні формати обміну, наприклад XML/RDF. У моделі OAI-ORE існує чотири різні типи ресурсів: агрегація розроблена як ресурси для групування інших ресурсів, які назива- ються агрегованими ресурсами. Агрегова- ний ресурс — це ресурс, який є частиною агрегації, що представляє інформаційний об’єкт у складеному об’єкті за стандар- тами ORE; карта ресурсів — це серіалізо- ване зображення агрегації, містить перера- ховані агреговані ресурси та властивості щодо агрегації та її агрегованих ресурсів, включаючи зв’язки із зовнішніми ресур- сами [15], [16]. Підхід до інтеграції даних З огляду на вищеописану концепцію архітектури OAI-PMH, у цій статті пропо- нується семантичний підхід для інтеграції даних у ЕБ [17]. Як було зазначено, сам протокол не передбачає ніяких механізмів для семантичної інтеграції даних. Пропону- ється застосувати наступні відомі підходи до інтеграції семантичних даних у поєд- нанні з OAI-PMH: 1. Зіставлення метаданих: визначте зіставлення між схемами метаданих, що використовуються в різних сховищах. Цей процес відображення вирівнює сема- нтику відповідних елементів у різних схе- мах, забезпечуючи значущу інтеграцію. Наприклад, ви можете відобразити елеме- нти Dublin Core у більш специфічну онто- логію, що використовується в цільовому сховищі. 2. Відображення онтології: викорис- товуються існуючі онтології, щоб забезпе- чити загальний словник для інтеграції да- них. Інструменти та методи відображення онтологій можна використовувати для ви- явлення відповідностей і співставлення он- тологій. 3. Зв’язані дані. Використання прин- ципу зв’язаних даних для з’єднання та зв’язування наборів даних між сховищами. Зв’язані дані дозволяють встановлювати явні зв’язки між ресурсами за допомогою стандартних протоколів, таких як RDF. Важливо відзначити, що семанти- чна інтеграція даних є складним завданням і вимагає ретельного розгляду знань пред- метної області, моделей даних і стратегій інтеграції. Хоча OAI-PMH не може безпо- середньо вирішити проблему семантичної інтеграції, він може бути будівельним бло- ком для полегшення обміну метаданими. Його можна покращити за допомогою до- даткових методів для досягнення глибшої інтеграції. Процеси програмного забезпе- чення, які полегшують інтеграцію метада- них, широко відомі як процеси вилучення- перетворення-завантаження (ETL). ETL (Extract, Transform, Load) означає процес 413 Інформатизація наукових досліджень вилучення даних із різних джерел, перет- ворення їх у потрібний формат і заванта- ження в цільову систему чи сховище да- них. Модель процесу ETL виглядає насту- пним чином: Екстракція (E): можна визначити як комплексний пошук усіх даних, що міс- тяться у вихідній системі, не залишаючи жодних даних неврахованими чи пропуще- ними під час процесу екстракції. Трансформація (T) означає зміну структури даних на нову: очищення даних, що включає видалення або виправлення по- милок, невідповідностей, дублікатів і відсу- тніх значень у даних; перевірка даних на ці- лісність, якість та узгодженість даних із по- передньо визначеними правилами або біз- нес-логікою; збагачення даних, що включає покращення даних шляхом додавання дода- ткової інформації, похідних атрибутів або обчислених значень на основі бізнес-пра- вил або зовнішніх джерел даних; фільтру- вання даних: вибір або виключення певних даних на основі попередньо визначених критерії. Завантаження (L): цей процес вклю- чає в себе завантаження перетворених да- них безпосередньо в цільову систему або базу даних за допомогою власних механіз- мів завантаження або API. Дані процеси доречно застосувати у вирішенні проблеми семантичної інтеграції в рамках протоколу OAI-PMH. Огляд програмного забезпечення для інтеграції даних за протоколом OAI-PMH Кілька програмних рішень доступні для інтеграції OAI-PMH, що дозволяє орга- нізаціям збирати та показувати метадані з різних сховищ. Ми зробили короткий ана- ліз популярного програмного забезпечення для створення комбайна OAI-PMH і визна- чили ключові функції для створення ефек- тивного наукового середовища. Під час фо- рмування списку було висунуто наступні вимоги: відкритий код; регулярні онов- лення системи; час існування ПЗ на ринку понад 10 років. Порівняльна таблиця хара- ктеристик популярних ПЗ для інтеграції електронних бібліотек OAI-PMH. Таблиця 2 Перелік сучасного ПЗ для інтеграції ЕБ та журналів ПЗ VuFind DSpace Omeka S Опис VuFind — це платформа підтримує збір та інтег- рацію OAI- PMH суміс- них репози- торіїв, що до- зволяє зби- рати мета- дані з бага- тьох джерел і забезпечу- вати уніфіко- ваний пошук. DSpace — це плат- форма цифро- вого схо- вища, яка підтримує протокол OAI-PMH. Omeka S — це веб-плат- форма для створення цифрових ко- лекцій. Вклю- чає підтримку OAI-PMH, що дозволяє об- мінюватися метаданими з іншими OAI- PMH-суміс- ними систе- мами. Технології PHP, MySQL, SORL JAVA, MySQL PHP, MySQL ETL Так Ні Ні Підтримка інтегрова- них бібліо- течних сис- тем Aleph, Alma, DAIA, Evergreen, Folio, GeniePlus, Horizon, Innovative, Koha, KohaILSDI, KohaRest, NewGenLib, NoILS, PAIA, Polaris, SierraRest, Symphony, Unicorn, Virtua, Voyager, Ні Ні Фасетна навігація Так Так Так Фільтрація отриманих записів/фі- льтрація пошуку Так Так Так Система рекоменда- цій в інтер- фейсі кори- стувача Так Ні Так Наявність механізму зв'язу- вання з по- внотексто- вим екст- рактором Так Ні Ні 414 Інформатизація наукових досліджень Повнотекс- товий по- шук Так Так Так Нечіткий пошук Так (Sorl) Так (Sorl) Так (Elasticsear ch) Ролі корис- тувачів Так Так Так Авториза- ція LDAP Так Так Так Створення титульної сторінки Так Ні Ні DOI Так Так Так EZproxy Так Так Так Правопис для пошуку Так Так Ні Експорт RefWorks, EndNote, EndNoteWe b, MARC, MARCXML, RDF, BibTeX, RIS, OAI Linked Open Data, SWORD, OAI Json, XML, Spreadshe et, Bibtex, Csl, Ris Інтерфейс на основі конфігура- ції Так Обме- жена Ні Багатомо- вна підтри- мка для метаданих Обмежена Так Ні Matomo аналітика Так (з коро- бки) Так Так (з ко- робки) API підтри- мка REST API REST API REST API Підтриму- вані схеми метаданих (Імпорт та перегляд) Dublin Core, METS, Dublin Core Terms, MARC, XML, CSV Dublin Core, Dublin Core Terms Dublin Core, METS Редагу- вання ме- таданих Ні Так Так Веб-інтер- фейс для управління ресурсами Ні Так Так Автодопов- нення при пошуку Так Ні Ні Оцінюючи характеристики, слід ро- зуміти, що порівнювати ряд параметрів дуже складно. Наприклад, у Vufind [18], [19], архітектура системи виконана таким чином, управління відображенням метада- них ресурсу повністю контролюється за до- помогою змін у темі. VuFind — це програ- мне забезпечення для створення порталу бі- бліотечних ресурсів, основною метою якого є покращення взаємодії з користува- чем шляхом перетворення традиційного онлайнового каталогу публічного доступу (OPAC) [20]. Ця платформа є бібліотечною пошуковою системою з відкритим вихід- ним кодом і розроблена бібліотекою уніве- рситету Вілланова, яка вперше була стабі- льно опублікована для громадськості в 2010 році. Програмна архітектура цього програмного продукту реалізована дуже вдало завдяки орієнтованому на розроб- ника набору інструментів, фреймворку Laminas і великій кількості системних нала- штувань. Це дозволяє змінити структуру метаданих, які потрібно показати користу- вачеві без необхідності змінювати програм- ний код системи. Правила форматування об’єкта контролюються з коду теми, таким чином ми встановлюємо правила, для яких метаданих слід використовувати та які ме- тоди системи будуть відповідати за отри- мання даних. Це надсилається на серверну частину і після обробки результат поверта- ється до інтерфейсу, де відображається для користувача. Тобто в архітектурі системи дані та правила форматування цих даних розділені. Це дуже зручно для кастомізації. Розглянемо більш детально, як реалізова- ний метод ETL у Vufind. Фактично в да- ному програмному продукті процес перет- ворення даних розділений на два етапи. У процесі отримання даних відбувається по- чаткова трансформація метаданих для зміни ідентифікатора запису з архіву. Це пов'язано з тим, що ідентифікатори мають бути унікальними і, з іншого боку, струк- тура ідентифікатора не повинна містити по- хилих рисок. Оскільки кожен ресурс має URL-адресу, яка відповідає його ідентифі- катору в основній електронній бібліотеці, яка є джерелом метаданих. Власне на ос- нові таких переваг даний програмний про- дукт був обраний за основу для побудови інтегрованого середовища для підтримки наукових досліджень. 415 Інформатизація наукових досліджень Результат розгортання та індексації наукової електронної бібліотеки періодич- них видань НАН України представлено на Рис 4. Рис. 4. Інтерфейс списку ресурсів з фацетним філь- тром Інтеграція семантичних даних не передбачена в Vufind, але її можна дося- гти за допомогою функцій користувача, які можуть виконувати відображення се- мантичних даних. Однією з переваг Vufind є можливість використовувати такі виклики. Процес інтеграції та організації доступу до інформації в VuFind склада- ється з таких етапів: 1) збір метаданих за допомогою протоколу OAI-PMH; 2) пере- творення даних відповідно до моделі ETL. На етапі екстракції Vufind дозволяє здійс- нювати частково операції трансформації. Цей процес дозволяє VuFind створювати уніфікований і повний індекс ресурсів із багатьох джерел, надаючи користувачам можливість централізованого пошуку; 3) надання користувацького пошуку на агре- гованих даних за допомогою зручного ін- терфейсу з глибокою доступністю для конфігурації; 4) доступ до ресурсу. Кожен ресурс має доступ безпосередньо через надані посилання, включаючи необхідні ідентифікатори (наприклад, URL-адреси або DOI) до повного вмісту, розміщеного оригінальними постачальниками даних; 5) відображення метаданих представляє зібрані метадані у стандартизованому ETL процесі та зручному для користувача вигляді. Це може збагатити метадані до- датковою інформацією або аспектами для покращення пошуку та допомоги у вияв- ленні ресурсів. Висновки Побудова інтегрованого середовища для агрегації наукових ресурсів потребує вирішення низки проблем. У статті розгля- нуто підходи до інтеграції електронних ар- хівів, а також описано досвід практичного застосування інтеграції електронних архі- вів України за протоколом OAI-PMH. Побудова інтегрованого середовища для агрегації наукових ресурсів потребує вирішення низки проблем. У статті розгля- нуто підходи до інтеграції електронних ар- хівів, а також описано досвід практичного застосування інтеграції електронних архі- вів України за протоколом OAI-PMH. Розг- лянуто основні протоколи інтеграції елект- ронних бібліотек. Як показав аналіз за останні 10 років, жодного значного прото- колу обміну, альтернативного OAI-PMH, не з’явилося. Проаналізовано підходи до структурної інтеграції електронних бібліо- тек та здійснено порівняльний аналіз функ- ціональних можливостей кожного програм- ного забезпечення. Було показано, що Vufind є найефективнішим інструментом для інтеграції цифрових бібліотек. VuFind — це платформа з відкритим вихідним кодом, призначена для надання доступу до різноманітних бібліотечних ре- сурсів і ресурсів культурної спадщини, включаючи книги, журнали, статті, циф- рові колекції тощо. Однією з його ключо- вих особливостей є підтримка протоколу OAI-PMH, що означає Open Archives Initiative Protocol for Metadata Harvesting. Література 1. H. Van de Sompel, M. Nelson, C. Lagoze и S. Warner, «Resource harvesting within the OAI- PMH framework,» D-lib magazine, № 10, 2004. 2. "The Open Archives Initiative Protocol for Metadata Harvesting Protocol Version 2.0 of 2002-06-14," [Online]. Available: http://www.openarchives.org /OAI/2.0/openarchivesprotocol.htm. 3. V. O. Kopanieva, L. I. Kostenko, O. V. Novyt- skyi та V. A. Reznichenko, «The task of digital transformation of the scientific information en- vironment,» Problems in programming, т. 1, pp. 3-10, 2023. 416 Інформатизація наукових досліджень 4. S. Roy, B. Sutradhar та P. Das, «Large-scale Metadata Harvesting—Tools, Techniques and Challenges: A Case Study of National Digital Library (NDL),» World Digital Libraries: An International Journal., т. 10, 2017. 5. R. Gartner, Metadata for digital libraries: state of the art and future directions, JISC, 2008. 6. A. Getaneh, B. Stevens та P. Ross, «Towards a conceptual framework for user-driven se- mantic metadata interoperability in digital li- braries: A social constructivist approach,» New Library World, т. 113, pp. 38-54, 2012. 7. K. Лобузіна, «Сучасні підходи до інтеграції електронних інформаційних ресурсів бібліотек,» Вісник Книжкової палати, т. 12, pp. 24-28, 2012. 8. О. М. Спірін, С. М. Іванова, О. В. Новиць- кий, З. Савченко, В. А. Резніченко, А. В. Яцишин, Н. М. Андрійчук та В. Ткаченко, Електронні бібліотечні інформаційні си- стеми наукових і навчальних закладів., Пе- дагогічна преса, 2012. 9. J. Pomerantz, Metadata, MIT Press Essential Knowledge series, 2015. 10. W. M. Beyene, «Metadata and universal access in digital library environments,» Library Hi Tech, т. 35, № 2, pp. 210-221, 2017. 11. M. Agosti, N. Ferro та G. Silvello, «Digital li- brary interoperability at high level of abstrac- tion,» Future Generation Computer Systems, т. 55, pp. 129-146, 2016. 12. National Center for Biotechnology Infor- mation, U.S. National Library of Medicine, «Journal Article Tag Suite,» 2024. [Онлайно- вий]. Available: https://jats.nlm.nih.gov/. [Дата звернення: 10 2024]. 13. . A. S. Lingam, «Federated search and discov- ery solutions.,» IP Indian J. Libr. Sci. Inf. Technol., Томи 1-2 January-June 5, № 1, pp. 39-42, 2020. 14. C. Lagoze та H. Van de Sompel, «The Open Archives Initiative Protocol for Metadata Har- vesting,» 2015. [Онлайновий]. Available: http://www.openarchives.org/OAI/openarchiv esprotocol.html. 15. C. Lagoze та H. Van de Sompel, «ORE User Guide - HTTP Implementation,» [Онлайновий]. Available: https://www.openarchives.org/ore/1.0/http. [Дата звернення: 2023]. 16. C. Lagoze та H. Van de Sompel, «ORE User Guide - Resource Map Implementation in RDF/XML,» [Онлайновий]. Available: https://www.openarchives.org/ore/1.0/rdfxml. [Дата звернення: 2023]. 17. В. А. Резніченко, О. В. Новицкий та Г. Ю. Проскудіна, «Інтеграція наукових елек- тронних бібліотек на основі протоколу ОАІ-РМН,» Проблеми програмування, № 2, pp. 97-112, 2007. 18. Villanova University's Falvey Library., «VuFind® - Search. Discover. Share.,» [Онлайновий]. Available: https://vufind.org/. [Дата звернення: 2023]. 19. D. Katz, R. LeVan та Y. Ziso, «Using authority data in VuFind,» Code4Lib Journal, т. 14, 2011. 20. Н. Yu та M. Young, «The impact of web search engines on subject searching in OPAC,» Information technology and libraries, т. 4, № 23, pp. 168-180, 2004. References 1. H. Van de Sompel, M. Nelson, C. Lagoze и S. Warner, «Resource harvesting within the OAI-PMH framework,» D-lib magazine, № 10, 2004. 2. "The Open Archives Initiative Protocol for Metadata Harvesting Protocol Version 2.0 of 2002-06-14," [Online]. Available: http://www.openarchives.org /OAI/2.0/open- archivesprotocol.htm. 3. V. O. Kopanieva, L. I. Kostenko, O. V. No- vytskyi and V. A. Reznichenko, "The task of digital transformation of the scientific infor- mation environment," Problems in program- ming, vol. 1, pp. 3-10, 2023. 4. S. Roy, B. Sutradhar and P. Das, "Large- scale Metadata Harvesting—Tools, Tech- niques and Challenges: A Case Study of Na- tional Digital Library (NDL)," World Digital Libraries: An International Journal., vol. 10, 2017. 5. R. Gartner, Metadata for digital libraries: state of the art and future directions, JISC, 2008. 6. A. Getaneh, B. Stevens and P. Ross, "To- wards a conceptual framework for user- driven semantic metadata interoperability in digital libraries: A social constructivist ap- proach," New Library World, vol. 113, pp. 38-54, 2012. 7. K. Lobuzina, "Suchasni pidkhody do inteh- ratsiyi elektronnykh informatsiynykh resursiv bibliotek," Visnyk Knyzhkovoyi palaty, vol. 12, pp. 24-28, 2012. 8. O. M. Spirin, S. M. Ivanova, O. V. Novyt- skyy, Z. Savchenko, V. A. Reznichenko, A. V. Yatsyshyn, N. M. Andriychuk and V. Tkachenko, Elektronni bibliotechni infor- 417 Інформатизація наукових досліджень matsiyni systemy naukovykh i navchalnykh zakladiv., Pedahohichna presa, 2012. 9. J. Pomerantz, Metadata, MIT Press Essential Knowledge series, 2015. 10. W. M. Beyene, "Metadata and universal ac- cess in digital library environments," Library Hi Tech, vol. 35, no. 2, pp. 210-221, 2017. 11. M. Agosti, N. Ferro and G. Silvello, "Digital library interoperability at high level of ab- straction," Future Generation Computer Sys- tems, vol. 55, pp. 129-146, 2016. 12. National Center for Biotechnology Infor- mation, U.S. National Library of Medicine, "Journal Article Tag Suite," 2024. [Online]. Available: https://jats.nlm.nih.gov/. [Ac- cessed 10 2024]. 13. . A. S. Lingam, "Federated search and dis- covery solutions.," IP Indian J. Libr. Sci. Inf. Technol., Vols. January-June 5, no. 1, pp. 39- 42, 2020. 14. C. Lagoze and H. Van de Sompel, "The Open Archives Initiative Protocol for Metadata Harvesting," 2015. [Online]. Available: http://www.openarchives.org/OAI/openar- chivesprotocol.html. 15. C. Lagoze and H. Van de Sompel, "ORE User Guide - HTTP Implementation," [Online]. Available: https://www.openar- chives.org/ore/1.0/http. [Accessed 2023]. 16. C. Lagoze and H. Van de Sompel, "ORE User Guide - Resource Map Implementation in RDF/XML," [Online]. Available: https://www.openar- chives.org/ore/1.0/rdfxml. [Accessed 2023]. 17. V. A. Reznichenko, O. V. Novytskyy and H. Yu. Proskudina, "Intehratsiya naukovykh el- ektronnykh bibliotek na osnovi protokolu OAI-RMN," Problemy prohramuvannya, no. 2, pp. 97-112, 2007. 18. Villanova University's Falvey Library., "VuFind® - Search. Discover. Share.," [Online]. Available: https://vufind.org/. [Ac- cessed 2023]. 19. D. Katz, R. LeVan and Y. Ziso, "Using au- thority data in VuFind," Code4Lib Journal, vol. 14, 2011. 20. Н. Yu and M. Young, "The impact of web search engines on subject searching in OPAC," Information technology and librar- ies, vol. 4, no. 23, pp. 168-180, 2004. Одержано: 12.02.2024 Внутрішня рецензія отримана: 19.02.2024 Зовнішня рецензія отримана: 08.03.2024 Про авторів: 1Новицький Олександр Вадимович, Кандидат технічних наук, науковий співробітник. https://orcid.org/0000-0002-9955-7882. Місце роботи авторів: 1Інститут програмних систем НАН України, тел. +38 (044) 526-33-19 E-mail: alex.googl@gmail.com https://iss.nas.gov.ua/