Integrated open source metadata aggregation environment to support scientific research
Metadata for electronic libraries is an integral part of the organization and access to digital resources. In this article, we explore common approaches to e-library integration, focusing on metadata analysis, protocols, and software. The types of metadata considered, such as descriptive, structural...
Gespeichert in:
Datum: | 2024 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | Ukrainian |
Veröffentlicht: |
Інститут програмних систем НАН України
2024
|
Schlagworte: | |
Online Zugang: | https://pp.isofts.kiev.ua/index.php/ojs1/article/view/663 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Problems in programming |
Institution
Problems in programmingid |
pp_isofts_kiev_ua-article-663 |
---|---|
record_format |
ojs |
resource_txt_mv |
ppisoftskievua/95/a0bbfde2331c76e28c7ffa3edd998895.pdf |
spelling |
pp_isofts_kiev_ua-article-6632025-02-15T15:29:14Z Integrated open source metadata aggregation environment to support scientific research Інтегроване середовище агрегації метаданих відкритих джерел для підтримки наукових досліджень Novytskyi, O.V. integration of electronic libraries; metadata exchange protocols; oai-pmh; vufind; Dublin core UDC 681.3 інтеграція електронних бібліотек; протоколи обміну метаданими; oai-pmh; vufind; Dublin core УДК 681.3 Metadata for electronic libraries is an integral part of the organization and access to digital resources. In this article, we explore common approaches to e-library integration, focusing on metadata analysis, protocols, and software. The types of metadata considered, such as descriptive, structural, administrative, preservation metadata, rights metadata, and technical metadata, reveal various aspects of digital resources. Various protocols and approaches to integration are considered, in particular the OAI-PMH protocol, which plays a key role in providing access and metadata exchange between repositories. An overview of software for integration using the OAI-PMH protocol is also provided, including a comparative table of characteristics of popular software solutions. This article helps to understand the importance of metadata and the effectiveness of its use to ensure access to digital resources in the modern scientific environment. The processes of extraction, transformation, loading, which can be used in the semantic integration of data through OAI-PMH, are described in detail. Software for the integration of electronic libraries and open access journals was also reviewed and key functions for creating an effective scientific environment were identified.Prombles in programming 2024; 2-3: 408-417 Метадані для електронних бібліотек є невід'ємною частиною організації та доступу до цифрових ресурсів. У цій статті ми досліджуємо типові підходи до інтеграції електронних бібліотек, зосереджуючись на аналізі метаданих, протоколах та програмному забезпеченні. Розглянуті типи метаданих, такі як описові, структурні, адміністративні, метадані збереження, метадані прав та технічні метадані, розкривають різноманітні аспекти цифрових ресурсів. Розглянуто різні протоколи та підходи до інтеграції, зокрема, протокол ОАІ-PMH, який відіграє ключову роль у забезпеченні доступу та обміну метаданими між репозиторіями. Також надається огляд програмного забезпечення для інтеграції за допомогою протоколу ОАІ-PMH, включно із порівняльною таблицею характеристик популярних програмних рішень. Ця стаття допомагає розуміти важливість метаданих та ефективність їх використання для забезпечення доступу до цифрових ресурсів у сучасному науковому середовищі. Детально описано процеси екстракції, трансформації, завантаження, які можна застосовувати при семантичній інтеграції даних через OAI-PMH. Також проведено огляд програмного забезпечення для інтеграції електронних бібліотек та журналів відкритого доступу та визначено ключові функції для створення ефективного наукового середовища.Prombles in programming 2024; 2-3: 408-417 Інститут програмних систем НАН України 2024-12-17 Article Article application/pdf https://pp.isofts.kiev.ua/index.php/ojs1/article/view/663 10.15407/pp2024.02-03.408 PROBLEMS IN PROGRAMMING; No 2-3 (2024); 408-417 ПРОБЛЕМЫ ПРОГРАММИРОВАНИЯ; No 2-3 (2024); 408-417 ПРОБЛЕМИ ПРОГРАМУВАННЯ; No 2-3 (2024); 408-417 1727-4907 10.15407/pp2024.02-03 uk https://pp.isofts.kiev.ua/index.php/ojs1/article/view/663/715 Copyright (c) 2024 PROBLEMS IN PROGRAMMING |
institution |
Problems in programming |
baseUrl_str |
https://pp.isofts.kiev.ua/index.php/ojs1/oai |
datestamp_date |
2025-02-15T15:29:14Z |
collection |
OJS |
language |
Ukrainian |
topic |
integration of electronic libraries metadata exchange protocols oai-pmh vufind Dublin core UDC 681.3 |
spellingShingle |
integration of electronic libraries metadata exchange protocols oai-pmh vufind Dublin core UDC 681.3 Novytskyi, O.V. Integrated open source metadata aggregation environment to support scientific research |
topic_facet |
integration of electronic libraries metadata exchange protocols oai-pmh vufind Dublin core UDC 681.3 інтеграція електронних бібліотек протоколи обміну метаданими oai-pmh vufind Dublin core УДК 681.3 |
format |
Article |
author |
Novytskyi, O.V. |
author_facet |
Novytskyi, O.V. |
author_sort |
Novytskyi, O.V. |
title |
Integrated open source metadata aggregation environment to support scientific research |
title_short |
Integrated open source metadata aggregation environment to support scientific research |
title_full |
Integrated open source metadata aggregation environment to support scientific research |
title_fullStr |
Integrated open source metadata aggregation environment to support scientific research |
title_full_unstemmed |
Integrated open source metadata aggregation environment to support scientific research |
title_sort |
integrated open source metadata aggregation environment to support scientific research |
title_alt |
Інтегроване середовище агрегації метаданих відкритих джерел для підтримки наукових досліджень |
description |
Metadata for electronic libraries is an integral part of the organization and access to digital resources. In this article, we explore common approaches to e-library integration, focusing on metadata analysis, protocols, and software. The types of metadata considered, such as descriptive, structural, administrative, preservation metadata, rights metadata, and technical metadata, reveal various aspects of digital resources. Various protocols and approaches to integration are considered, in particular the OAI-PMH protocol, which plays a key role in providing access and metadata exchange between repositories. An overview of software for integration using the OAI-PMH protocol is also provided, including a comparative table of characteristics of popular software solutions. This article helps to understand the importance of metadata and the effectiveness of its use to ensure access to digital resources in the modern scientific environment. The processes of extraction, transformation, loading, which can be used in the semantic integration of data through OAI-PMH, are described in detail. Software for the integration of electronic libraries and open access journals was also reviewed and key functions for creating an effective scientific environment were identified.Prombles in programming 2024; 2-3: 408-417 |
publisher |
Інститут програмних систем НАН України |
publishDate |
2024 |
url |
https://pp.isofts.kiev.ua/index.php/ojs1/article/view/663 |
work_keys_str_mv |
AT novytskyiov integratedopensourcemetadataaggregationenvironmenttosupportscientificresearch AT novytskyiov íntegrovaneseredoviŝeagregacíímetadanihvídkritihdžereldlâpídtrimkinaukovihdoslídženʹ |
first_indexed |
2025-07-17T09:57:52Z |
last_indexed |
2025-07-17T09:57:52Z |
_version_ |
1838410085370429440 |
fulltext |
408
Інформатизація наукових досліджень
УДК 681.3 http://doi.org/10.15407/pp2024.02-03.408
О.В. Новицький
ІНТЕГРОВАНЕ СЕРЕДОВИЩЕ АГРЕГАЦІЇ МЕТАДАНИХ
ВІДКРИТИХ ДЖЕРЕЛ ДЛЯ ПІДТРИМКИ НАУКОВИХ
ДОСЛІДЖЕНЬ
Метадані для електронних бібліотек є невід'ємною частиною організації та доступу до цифрових ре-
сурсів. У цій статті ми досліджуємо типові підходи до інтеграції електронних бібліотек, зосереджую-
чись на аналізі метаданих, протоколах та програмному забезпеченні. Розглянуті типи метаданих, такі
як описові, структурні, адміністративні, метадані збереження, метадані прав та технічні метадані, ро-
зкривають різноманітні аспекти цифрових ресурсів. Розглянуто різні протоколи та підходи до інтегра-
ції, зокрема, протокол ОАІ-PMH, який відіграє ключову роль у забезпеченні доступу та обміну мета-
даними між репозиторіями. Також надається огляд програмного забезпечення для інтеграції за допо-
могою протоколу ОАІ-PMH, включно із порівняльною таблицею характеристик популярних програм-
них рішень. Ця стаття допомагає розуміти важливість метаданих та ефективність їх використання для
забезпечення доступу до цифрових ресурсів у сучасному науковому середовищі. Детально описано
процеси екстракції, трансформації, завантаження, які можна застосовувати при семантичній інтеграції
даних через OAI-PMH. Також проведено огляд програмного забезпечення для інтеграції електронних
бібліотек та журналів відкритого доступу та визначено ключові функції для створення ефективного
наукового середовища.
Ключові слова: інтеграція електронних бібліотек, протоколи обміну метаданими, oai-pmh, vufind, Dub-
lin core.
O. Novytskyi
INTEGRATED OPEN SOURCE METADATA AGGREGATION
ENVIRONMENT TO SUPPORT SCIENTIFIC RESEARCH
Metadata for electronic libraries is an integral part of the organization and access to digital resources. In this
article, we explore common approaches to e-library integration, focusing on metadata analysis, protocols, and
software. The types of metadata considered, such as descriptive, structural, administrative, preservation
metadata, rights metadata, and technical metadata, reveal various aspects of digital resources. Various proto-
cols and approaches to integration are considered, in particular the OAI-PMH protocol, which plays a key role
in providing access and metadata exchange between repositories. An overview of software for integration
using the OAI-PMH protocol is also provided, including a comparative table of characteristics of popular
software solutions. This article helps to understand the importance of metadata and the effectiveness of its use
to ensure access to digital resources in the modern scientific environment. The processes of extraction, trans-
formation, loading, which can be used in the semantic integration of data through OAI-PMH, are described in
detail. Software for the integration of electronic libraries and open access journals was also reviewed and key
functions for creating an effective scientific environment were identified.
Keywords: integration of electronic libraries, metadata exchange protocols, oai-pmh, vufind, Dublin core.
Вступ
Метадані для електронних бібліотек
є ключовим аспектом організації та на-
дання доступу до цифрових ресурсів. Він
передбачає створення, керування та засто-
сування описової інформації про цифрові
об’єкти, такі як книги, статті, зображення,
аудіофайли та інший цифровий вміст. Про-
блема представлення та обміну метаданими
між бібліотеками завжди актуальна, але
тривалий час вона не досягfла значного
прогресу. Своєрідний клас систем інтегра-
ції представляють системи, в яких за основу
взято технологію Ініціативи відкритих архі-
вів (Open Archive Initiative – OAI) [1]. У бі-
льшості відомих систем цієї категорії їхні
інформаційні ресурси представляють со-
бою колекції текстових документів, переду-
сім наукових публікацій, які автономно фо-
© О.В. Новицький, 2024
ISSN 1727-4907. Проблеми програмування. 2024. №2-3
409
Інформатизація наукових досліджень
рмуються у вузлах глобальної мережі, підт-
римуються та адмініструються їхніми влас-
никами. Агрегація метаданих для репозито-
рія здійснюється згідно зі спеціально розро-
бленим протоколом Open Archives Initiative
– Protocol for Metadata Harvesting (ОАІ-
PMH) [2], що забезпечує глобальні послуги
доступу та пошуку. Суть підходу відкритих
архівів полягає у тому, щоб дозволити здій-
снювати веб-доступ до інформаційних ре-
сурсів, розташованих у інтероперабельних
репозиторіях, за допомогою організації спі-
льного використання, публікації й архіву-
вання метаданих таких ресурсів. Протокол
OAІ-PMH надає провайдерам даних прос-
тий спосіб такого представлення їхніх ме-
таданих, який робить їх доступними для
провайдерів сервісів. Водночас як транспо-
ртний протокол використовуються HTTP, а
як формат обміну даних XML. Проте в про-
токолі OAІ-PMH для забезпечення базового
рівня інтероперабельності специфіковано
формат Дублінського ядра. Таким чином,
метадані з різних неоднорідних джерел по-
єднуються в єдиній базі даних для того,
щоб надати множину сервісів на основі та-
ких агрегованих метаданих.
Концепція протоколу OAІ-PMH ви-
діляє дві ролі: провайдера даних та провай-
дера сервісів. Провайдер даних – це слу-
жба, що підтримує створення і ведення од-
ного чи більше репозиторіїв (бази докуме-
нтів, архівів, електронних бібліотек), здій-
снює публікацію своїх ресурсів, а також
уможливлює доступ до своїх метаданих
для їхнього використання в інших систе-
мах. Провайдер сервісів здійснює збір і
збереження метаданих, наданих провайде-
рами даних, для надання кінцевим корис-
тувачам різних сервісів. Тривалий час в
Україні працював провайдер сервісів для
електронних бібліотек на базі PKP
Harvester https://oai.org.ua/ [3]. PKP Open
Archives Harvester (PKP OAI Harvester) є
хорошим інструментом для збору метада-
них з різних архівів через протокол OAI-
PMH. Ця система дозволяє збирати мета-
дані з цифрових репозиторіїв в Україні та
індексувати 76 репозиторіїв, загальна кіль-
кість записів становить понад 630 тисяч.
Сторінку списку електронних бібліотек
показано на рис. 1.
Рис. 1. Сторінка списку електронних
бібліотек
PKP Harvester використовує мову
програмування PHP 5.6, термін служби якої
закінчився. Це створює проблему розвитку
та розробки нових сервісів.
У рамках розробки програмних за-
собів підтримки наукових досліджень необ-
хідно передбачити не тільки пошук метада-
них, а й надати розширені можливості їх
обробки та інтеграції з іншими системами.
Водночас мета – створити систему, орієнто-
вану на роботу з українськими постачаль-
никами даних. Це спонукає досліджувати
сучасні методи та рішення для створення
середовищ, які інтегрують цифрові бібліо-
теки.
Хоча багато проєктів використову-
ють протокол OAI-PMH для інтеграції да-
них [4], в таблиці 1 наведено список порта-
лів збору метаданих:
Таблиця 1
Перелік відкритих сервіс провайдерів ме-
таданих
Назва та
URL
Кіль-
кість
ресур-
сів
Список основних
сервісів
BASE
base-
search.net
340 M. Title and abstract
search
OAIster
oaister.on.
worldcat.org
50 M. title and abstract
search, advanced
metadata
CORE
core.ac.uk
275M title and abstract
search, advanced
metadata
Незважаючи на існування таких
проєктів, електронні бібліотеки України не
повною мірою представлені в цих агрегато-
410
Інформатизація наукових досліджень
рах. Зокрема, це також пов’язано з тим, що
мова метаданих є переважно українською.
Не всі цифрові бібліотеки належним чином
надають багатомовні метадані. Зокрема, в
одній з найбільших електронних бібліотек
України Науковій електронній бібліотеці
періодичних видань НАН України (Рис. 2)
такі дані, як опис ресурсу, дублюються, але
не вказано, якою мовою. Це створює пот-
ребу в обробці даних, джерело цієї про-
блеми буде розглянуто далі.
Рис. 2. Дуплікація описових метада-
них без ідентифікатора мови
У статті розглянуто типові підходи
до інтеграції електронних бібліотек. Зок-
рема, проведено аналіз типів метаданих, на-
явних в електронних бібліотеках, розгля-
нуто протоколи та методи інтеграції, а та-
кож проведено порівняльний аналіз програ-
мних продуктів, призначених для інтеграції
даних. У статтях [5], [6], [7], [8] було опи-
сано типові компоненти електронних біблі-
отек та основні проблеми, пов’язані з типо-
вими підходами до побудови архітектури
електронних бібліотек.
Як було зазначено, в основі інтегра-
ції лежить обмін метаданими. Проте ці ме-
тадані бувають різними. Ось деякі з основ-
них типів метаданих, які використовуються
в цифрових бібліотеках [9], [10]:
− Описові метадані: описові мета-
дані надають основну інформацію про ре-
сурс, таку як його назва, автор, тема, клю-
чові слова, анотація та дата публікації. Ці
метадані відіграють більшу роль у розши-
реній архітектурі для обміну даними.
− Структурні метадані: структурні
метадані описують внутрішню організацію
та зв’язки між компонентами в цифровому
ресурсі. Він визначає послідовність, ієрар-
хію та логічну структуру ресурсу, як-от ро-
зділів у книзі, розділів у статті, тому для
журналу.
− Адміністративні метадані: адмі-
ністративні метадані включають інформа-
цію про управління та адміністрування ци-
фрових ресурсів. Вони містять відомості
про права, дозволи, обмеження доступу,
формати файлів, розміри файлів, технічні
характеристики та інформацію про збере-
ження.
− Метадані збереження важливі
для збереження та архівування цифрових
ресурсів. Вони містять інформацію, напри-
клад, звідки надійшов ресурс, у якому фор-
маті файлу він знаходиться, контрольні
суми для забезпечення його цілісності, істо-
рію міграції та інші технічні метадані. Ці
метадані необхідні для гарантування того,
що цифрові об’єкти залишатимуться автен-
тичними та доступними з часом.
− Метадані прав: метадані прав ви-
значають права інтелектуальної власності
та дозволи на використання, пов’язані з ци-
фровими ресурсами. Він містить інформа-
цію про авторські права, умови ліцензу-
вання, обмеження використання та вимоги
до посилання.
− Технічні метадані: Технічні ме-
тадані надають інформацію про технічні ха-
рактеристики цифрових ресурсів. Він міс-
тить відомості про формати файлів, роз-
дільну здатність, методи стиснення, колірні
простори та інші технічні характеристики,
необхідні для візуалізації, відтворення чи
обробки цифрового вмісту.
− Метадані використання: мета-
дані використання відстежують викорис-
тання та взаємодію користувача з цифро-
вими ресурсами. Вони містять таку інфор-
мацію, як кількість завантажень, перегля-
дів, оцінки, коментарі та створений корис-
тувачами вміст, пов’язаний із певним ре-
сурсом.
Усі ці типи метаданих можуть бути
задіяні в інтеграції електронних бібліотек.
Для інтеграції використовуються різнома-
нітні протоколи та підходи, які дозволяють
через єдину точку доступу отримувати дос-
туп до метаданих. Метадані працюють ра-
411
Інформатизація наукових досліджень
зом, щоб забезпечити повний опис цифро-
вих ресурсів у цифровій бібліотеці, забезпе-
чуючи ефективний пошук, виявлення, дос-
туп і керування ресурсами.
Протоколи обміну даними для
електронних бібліотек
Однією з важливих проблем для еле-
ктронних бібліотек є інтеграція даних [11].
Обмін даними в цифровій бібліотеці озна-
чає передачу інформації або ресурсів між
різними системами, платформами або схо-
вищами в екосистемі бібліотеки. Процес
включає обмін, імпорт, експорт або синхро-
нізацію даних для гарантування того, що
колекція цифрової бібліотеки залишається
актуальною, доступною та однорідною на
різних платформах. Ось деякі загальні ком-
поненти обміну даними в електронній біб-
ліотеці:
• Обмін метаданими: метадані опи-
сують характеристики та атрибути цифро-
вих ресурсів у стандартизованому форматі.
Механізми обміну даними дозволяють об-
мінюватися метаданими між цифровими бі-
бліотеками, дозволяючи їм знаходити,
отримувати доступ до ресурсів з різних
джерел. Такі формати метаданих, як Dublin
Core, MARC (Machine-Readable Cataloging)
або MODS (Metadata Object Description
Schema), сприяють взаємодії та обміну да-
ними.
• Збирання та агрегація: цифрові бі-
бліотеки часто збирають вміст із різних
джерел, таких як видавці, сховища чи інші
бібліотеки. Збирання – це процес система-
тичного збору даних із цих джерел та імпо-
ртування їх до колекції бібліотеки. Такі те-
хнології, як OAI-PMH (Open Archives
Initiative Protocol for Metadata Harvesting),
полегшують збір та обмін метаданими, за-
безпечуючи ефективну синхронізацію да-
них. Окрім Дублінского ядра чи Metadata
Object Description Schema (MODS) для об-
міну метаданими використовуються схеми
метаданих такі як Journal Article Tag Suite
(JATS) [12] - це стандартизований формат
розмітки для наукових статей у веб-публі-
каціях. JATS використовується для струк-
турування та представлення метаданих, те-
ксту, посилань та інших елементів, що сто-
суються наукових статей. Він забезпечує
єдність формату, який полегшує обмін, ін-
теграцію та аналіз наукових даних між різ-
ними платформами та системами. JATS за-
снований на стандарті XML, що дозволяє
легко обробляти та адаптувати дані для різ-
них потреб в обробці та візуалізації. Факти-
чно OAI-PMH є транспортним протоколом,
який дозволяє обмінюватися метаданими
між різними системами.
• Об’єднаний пошук: об’єднаний по-
шук дозволяє користувачам одночасно
здійснювати пошук у кількох цифрових бі-
бліотеках або сховищах і отримувати відпо-
відні результати з кожного джерела. Обмін
даними має вирішальне значення в сцена-
ріях об’єднаного пошуку, оскільки він пе-
редбачає надсилання пошукових запитів до
різних систем, отримання результатів по-
шуку та їх агрегування в уніфікований інте-
рфейс для користувачів. Це інший метод за-
безпечення єдиної точки доступу, за якого
пошук здійснюється розподіленим чином.
Типовим представником даного протоколу
є Z39.50 або SRW (Search/Retrieve Web
Service) [13]
• Збереження та архівування: циф-
рові бібліотеки часто співпрацюють із уста-
новами, що займаються збереженням, або
архівними сховищами для забезпечення
довгострокої доступності і цілісності своїх
колекцій. Обмін даними в цьому контексті
передбачає передачу ресурсів, метаданих
або інформації, пов’язаної зі збереженням,
до архівних систем, що забезпечує належне
збереження та майбутній доступ. Існує на-
бір стандартів, які забезпечують реалізацію
довготривалого зберігання.
Розглянемо дещо детальніше прото-
кол OAI-PMH, який є найпоширенішим
протоколом для обміну метаданими в елек-
тронних бібліотеках відкритого доступу.
Найпоширенішою схемою метаданих, що
підтримується в OAI-PMH, є Dublin Core,
яка надає базовий набір елементів для
опису ресурсів.
Базуючись на тому факті, що прото-
кол походить від електронної публікації,
модель даних OAI-PMH зазвичай інтерпре-
тується в термінах бібліографічних даних,
що описують академічні ресурси, хоча та-
кож можливі інші інтерпретації [14]. OAI-
412
Інформатизація наукових досліджень
PMH має просту та гнучку модель даних
Рис. 3.
Resource
http://dspace.nbuv.gov.ua/handle/123456789/159075
Identifier
oai:dspace.nbu
v.gov.ua:12345
6789-159075
Metadata
Schema
DC
ORE
MODS METS
Рис. 3. Модель даних OAI-PMH опису ресурсу
Це може бути традиційний бібліоте-
чний об’єкт (наприклад, книга, стаття), а та-
кож інші сутності (наприклад, зображення,
концепції). Далі - ідентифікатор запису
(ідентифікатор OAI) або шлюз до всіх мета-
даних, що описують ресурс. Нарешті у ни-
жній частині моделі даних є записи. Записи
описують ресурс у будь-якому форматі ме-
таданих, який може бути виражений у схемі
XML. Протокол OAI-PMH розроблено для
підтримки будь-якої схеми опису метада-
них, але основною, включеною в OAI-PMH,
є набір метаданих Dublin Core (DC), що
описує ресурс. Також бажано включити в
опис більші набори метаданих (наприклад,
MARC).
На відміну від OAI-PMH, протокол
OAI-ORE фокусується виключно на ство-
ренні моделі даних, а не на визначенні про-
токолу обміну. Він пропонує потенційні
формати обміну, наприклад XML/RDF. У
моделі OAI-ORE існує чотири різні типи
ресурсів: агрегація розроблена як ресурси
для групування інших ресурсів, які назива-
ються агрегованими ресурсами. Агрегова-
ний ресурс — це ресурс, який є частиною
агрегації, що представляє інформаційний
об’єкт у складеному об’єкті за стандар-
тами ORE; карта ресурсів — це серіалізо-
ване зображення агрегації, містить перера-
ховані агреговані ресурси та властивості
щодо агрегації та її агрегованих ресурсів,
включаючи зв’язки із зовнішніми ресур-
сами [15], [16].
Підхід до інтеграції даних
З огляду на вищеописану концепцію
архітектури OAI-PMH, у цій статті пропо-
нується семантичний підхід для інтеграції
даних у ЕБ [17]. Як було зазначено, сам
протокол не передбачає ніяких механізмів
для семантичної інтеграції даних. Пропону-
ється застосувати наступні відомі підходи
до інтеграції семантичних даних у поєд-
нанні з OAI-PMH:
1. Зіставлення метаданих: визначте
зіставлення між схемами метаданих, що
використовуються в різних сховищах.
Цей процес відображення вирівнює сема-
нтику відповідних елементів у різних схе-
мах, забезпечуючи значущу інтеграцію.
Наприклад, ви можете відобразити елеме-
нти Dublin Core у більш специфічну онто-
логію, що використовується в цільовому
сховищі.
2. Відображення онтології: викорис-
товуються існуючі онтології, щоб забезпе-
чити загальний словник для інтеграції да-
них. Інструменти та методи відображення
онтологій можна використовувати для ви-
явлення відповідностей і співставлення он-
тологій.
3. Зв’язані дані. Використання прин-
ципу зв’язаних даних для з’єднання та
зв’язування наборів даних між сховищами.
Зв’язані дані дозволяють встановлювати
явні зв’язки між ресурсами за допомогою
стандартних протоколів, таких як RDF.
Важливо відзначити, що семанти-
чна інтеграція даних є складним завданням
і вимагає ретельного розгляду знань пред-
метної області, моделей даних і стратегій
інтеграції. Хоча OAI-PMH не може безпо-
середньо вирішити проблему семантичної
інтеграції, він може бути будівельним бло-
ком для полегшення обміну метаданими.
Його можна покращити за допомогою до-
даткових методів для досягнення глибшої
інтеграції. Процеси програмного забезпе-
чення, які полегшують інтеграцію метада-
них, широко відомі як процеси вилучення-
перетворення-завантаження (ETL). ETL
(Extract, Transform, Load) означає процес
413
Інформатизація наукових досліджень
вилучення даних із різних джерел, перет-
ворення їх у потрібний формат і заванта-
ження в цільову систему чи сховище да-
них. Модель процесу ETL виглядає насту-
пним чином:
Екстракція (E): можна визначити як
комплексний пошук усіх даних, що міс-
тяться у вихідній системі, не залишаючи
жодних даних неврахованими чи пропуще-
ними під час процесу екстракції.
Трансформація (T) означає зміну
структури даних на нову: очищення даних,
що включає видалення або виправлення по-
милок, невідповідностей, дублікатів і відсу-
тніх значень у даних; перевірка даних на ці-
лісність, якість та узгодженість даних із по-
передньо визначеними правилами або біз-
нес-логікою; збагачення даних, що включає
покращення даних шляхом додавання дода-
ткової інформації, похідних атрибутів або
обчислених значень на основі бізнес-пра-
вил або зовнішніх джерел даних; фільтру-
вання даних: вибір або виключення певних
даних на основі попередньо визначених
критерії.
Завантаження (L): цей процес вклю-
чає в себе завантаження перетворених да-
них безпосередньо в цільову систему або
базу даних за допомогою власних механіз-
мів завантаження або API.
Дані процеси доречно застосувати у
вирішенні проблеми семантичної інтеграції
в рамках протоколу OAI-PMH.
Огляд програмного
забезпечення для інтеграції даних
за протоколом OAI-PMH
Кілька програмних рішень доступні
для інтеграції OAI-PMH, що дозволяє орга-
нізаціям збирати та показувати метадані з
різних сховищ. Ми зробили короткий ана-
ліз популярного програмного забезпечення
для створення комбайна OAI-PMH і визна-
чили ключові функції для створення ефек-
тивного наукового середовища. Під час фо-
рмування списку було висунуто наступні
вимоги: відкритий код; регулярні онов-
лення системи; час існування ПЗ на ринку
понад 10 років. Порівняльна таблиця хара-
ктеристик популярних ПЗ для інтеграції
електронних бібліотек OAI-PMH.
Таблиця 2
Перелік сучасного ПЗ для інтеграції ЕБ
та журналів
ПЗ VuFind DSpace Omeka S
Опис VuFind — це
платформа
підтримує
збір та інтег-
рацію OAI-
PMH суміс-
них репози-
торіїв, що до-
зволяє зби-
рати мета-
дані з бага-
тьох джерел і
забезпечу-
вати уніфіко-
ваний пошук.
DSpace —
це плат-
форма
цифро-
вого схо-
вища, яка
підтримує
протокол
OAI-PMH.
Omeka S —
це веб-плат-
форма для
створення
цифрових ко-
лекцій. Вклю-
чає підтримку
OAI-PMH, що
дозволяє об-
мінюватися
метаданими з
іншими OAI-
PMH-суміс-
ними систе-
мами.
Технології PHP,
MySQL,
SORL
JAVA,
MySQL
PHP,
MySQL
ETL Так Ні Ні
Підтримка
інтегрова-
них бібліо-
течних сис-
тем
Aleph, Alma,
DAIA,
Evergreen,
Folio,
GeniePlus,
Horizon,
Innovative,
Koha,
KohaILSDI,
KohaRest,
NewGenLib,
NoILS,
PAIA,
Polaris,
SierraRest,
Symphony,
Unicorn,
Virtua,
Voyager,
Ні Ні
Фасетна
навігація
Так Так Так
Фільтрація
отриманих
записів/фі-
льтрація
пошуку
Так Так Так
Система
рекоменда-
цій в інтер-
фейсі кори-
стувача
Так Ні Так
Наявність
механізму
зв'язу-
вання з по-
внотексто-
вим екст-
рактором
Так Ні Ні
414
Інформатизація наукових досліджень
Повнотекс-
товий по-
шук
Так Так Так
Нечіткий
пошук
Так (Sorl) Так
(Sorl)
Так
(Elasticsear
ch)
Ролі корис-
тувачів
Так Так Так
Авториза-
ція LDAP
Так Так Так
Створення
титульної
сторінки
Так Ні Ні
DOI Так Так Так
EZproxy Так Так Так
Правопис
для пошуку
Так Так Ні
Експорт RefWorks,
EndNote,
EndNoteWe
b, MARC,
MARCXML,
RDF,
BibTeX, RIS,
OAI
Linked
Open
Data,
SWORD,
OAI
Json, XML,
Spreadshe
et, Bibtex,
Csl, Ris
Інтерфейс
на основі
конфігура-
ції
Так Обме-
жена
Ні
Багатомо-
вна підтри-
мка для
метаданих
Обмежена Так Ні
Matomo
аналітика
Так (з коро-
бки)
Так Так (з ко-
робки)
API підтри-
мка
REST API REST
API
REST API
Підтриму-
вані схеми
метаданих
(Імпорт та
перегляд)
Dublin Core,
METS,
Dublin Core
Terms,
MARC,
XML, CSV
Dublin
Core,
Dublin
Core
Terms
Dublin
Core,
METS
Редагу-
вання ме-
таданих
Ні Так Так
Веб-інтер-
фейс для
управління
ресурсами
Ні Так Так
Автодопов-
нення при
пошуку
Так Ні Ні
Оцінюючи характеристики, слід ро-
зуміти, що порівнювати ряд параметрів
дуже складно. Наприклад, у Vufind [18],
[19], архітектура системи виконана таким
чином, управління відображенням метада-
них ресурсу повністю контролюється за до-
помогою змін у темі. VuFind — це програ-
мне забезпечення для створення порталу бі-
бліотечних ресурсів, основною метою
якого є покращення взаємодії з користува-
чем шляхом перетворення традиційного
онлайнового каталогу публічного доступу
(OPAC) [20]. Ця платформа є бібліотечною
пошуковою системою з відкритим вихід-
ним кодом і розроблена бібліотекою уніве-
рситету Вілланова, яка вперше була стабі-
льно опублікована для громадськості в
2010 році. Програмна архітектура цього
програмного продукту реалізована дуже
вдало завдяки орієнтованому на розроб-
ника набору інструментів, фреймворку
Laminas і великій кількості системних нала-
штувань. Це дозволяє змінити структуру
метаданих, які потрібно показати користу-
вачеві без необхідності змінювати програм-
ний код системи. Правила форматування
об’єкта контролюються з коду теми, таким
чином ми встановлюємо правила, для яких
метаданих слід використовувати та які ме-
тоди системи будуть відповідати за отри-
мання даних. Це надсилається на серверну
частину і після обробки результат поверта-
ється до інтерфейсу, де відображається для
користувача. Тобто в архітектурі системи
дані та правила форматування цих даних
розділені. Це дуже зручно для кастомізації.
Розглянемо більш детально, як реалізова-
ний метод ETL у Vufind. Фактично в да-
ному програмному продукті процес перет-
ворення даних розділений на два етапи. У
процесі отримання даних відбувається по-
чаткова трансформація метаданих для
зміни ідентифікатора запису з архіву. Це
пов'язано з тим, що ідентифікатори мають
бути унікальними і, з іншого боку, струк-
тура ідентифікатора не повинна містити по-
хилих рисок. Оскільки кожен ресурс має
URL-адресу, яка відповідає його ідентифі-
катору в основній електронній бібліотеці,
яка є джерелом метаданих. Власне на ос-
нові таких переваг даний програмний про-
дукт був обраний за основу для побудови
інтегрованого середовища для підтримки
наукових досліджень.
415
Інформатизація наукових досліджень
Результат розгортання та індексації
наукової електронної бібліотеки періодич-
них видань НАН України представлено на
Рис 4.
Рис. 4. Інтерфейс списку ресурсів з фацетним філь-
тром
Інтеграція семантичних даних не
передбачена в Vufind, але її можна дося-
гти за допомогою функцій користувача,
які можуть виконувати відображення се-
мантичних даних. Однією з переваг
Vufind є можливість використовувати такі
виклики. Процес інтеграції та організації
доступу до інформації в VuFind склада-
ється з таких етапів: 1) збір метаданих за
допомогою протоколу OAI-PMH; 2) пере-
творення даних відповідно до моделі ETL.
На етапі екстракції Vufind дозволяє здійс-
нювати частково операції трансформації.
Цей процес дозволяє VuFind створювати
уніфікований і повний індекс ресурсів із
багатьох джерел, надаючи користувачам
можливість централізованого пошуку; 3)
надання користувацького пошуку на агре-
гованих даних за допомогою зручного ін-
терфейсу з глибокою доступністю для
конфігурації; 4) доступ до ресурсу. Кожен
ресурс має доступ безпосередньо через
надані посилання, включаючи необхідні
ідентифікатори (наприклад, URL-адреси
або DOI) до повного вмісту, розміщеного
оригінальними постачальниками даних;
5) відображення метаданих представляє
зібрані метадані у стандартизованому
ETL процесі та зручному для користувача
вигляді. Це може збагатити метадані до-
датковою інформацією або аспектами для
покращення пошуку та допомоги у вияв-
ленні ресурсів.
Висновки
Побудова інтегрованого середовища
для агрегації наукових ресурсів потребує
вирішення низки проблем. У статті розгля-
нуто підходи до інтеграції електронних ар-
хівів, а також описано досвід практичного
застосування інтеграції електронних архі-
вів України за протоколом OAI-PMH.
Побудова інтегрованого середовища
для агрегації наукових ресурсів потребує
вирішення низки проблем. У статті розгля-
нуто підходи до інтеграції електронних ар-
хівів, а також описано досвід практичного
застосування інтеграції електронних архі-
вів України за протоколом OAI-PMH. Розг-
лянуто основні протоколи інтеграції елект-
ронних бібліотек. Як показав аналіз за
останні 10 років, жодного значного прото-
колу обміну, альтернативного OAI-PMH,
не з’явилося. Проаналізовано підходи до
структурної інтеграції електронних бібліо-
тек та здійснено порівняльний аналіз функ-
ціональних можливостей кожного програм-
ного забезпечення. Було показано, що
Vufind є найефективнішим інструментом
для інтеграції цифрових бібліотек.
VuFind — це платформа з відкритим
вихідним кодом, призначена для надання
доступу до різноманітних бібліотечних ре-
сурсів і ресурсів культурної спадщини,
включаючи книги, журнали, статті, циф-
рові колекції тощо. Однією з його ключо-
вих особливостей є підтримка протоколу
OAI-PMH, що означає Open Archives
Initiative Protocol for Metadata Harvesting.
Література
1. H. Van de Sompel, M. Nelson, C. Lagoze и S.
Warner, «Resource harvesting within the OAI-
PMH framework,» D-lib magazine, № 10,
2004.
2. "The Open Archives Initiative Protocol for
Metadata Harvesting Protocol Version 2.0 of
2002-06-14," [Online]. Available:
http://www.openarchives.org
/OAI/2.0/openarchivesprotocol.htm.
3. V. O. Kopanieva, L. I. Kostenko, O. V. Novyt-
skyi та V. A. Reznichenko, «The task of digital
transformation of the scientific information en-
vironment,» Problems in programming, т. 1,
pp. 3-10, 2023.
416
Інформатизація наукових досліджень
4. S. Roy, B. Sutradhar та P. Das, «Large-scale
Metadata Harvesting—Tools, Techniques and
Challenges: A Case Study of National Digital
Library (NDL),» World Digital Libraries: An
International Journal., т. 10, 2017.
5. R. Gartner, Metadata for digital libraries: state
of the art and future directions, JISC, 2008.
6. A. Getaneh, B. Stevens та P. Ross, «Towards
a conceptual framework for user-driven se-
mantic metadata interoperability in digital li-
braries: A social constructivist approach,»
New Library World, т. 113, pp. 38-54, 2012.
7. K. Лобузіна, «Сучасні підходи до інтеграції
електронних інформаційних ресурсів
бібліотек,» Вісник Книжкової палати, т. 12,
pp. 24-28, 2012.
8. О. М. Спірін, С. М. Іванова, О. В. Новиць-
кий, З. Савченко, В. А. Резніченко, А. В.
Яцишин, Н. М. Андрійчук та В. Ткаченко,
Електронні бібліотечні інформаційні си-
стеми наукових і навчальних закладів., Пе-
дагогічна преса, 2012.
9. J. Pomerantz, Metadata, MIT Press Essential
Knowledge series, 2015.
10. W. M. Beyene, «Metadata and universal access
in digital library environments,» Library Hi
Tech, т. 35, № 2, pp. 210-221, 2017.
11. M. Agosti, N. Ferro та G. Silvello, «Digital li-
brary interoperability at high level of abstrac-
tion,» Future Generation Computer Systems, т.
55, pp. 129-146, 2016.
12. National Center for Biotechnology Infor-
mation, U.S. National Library of Medicine,
«Journal Article Tag Suite,» 2024. [Онлайно-
вий]. Available: https://jats.nlm.nih.gov/.
[Дата звернення: 10 2024].
13. . A. S. Lingam, «Federated search and discov-
ery solutions.,» IP Indian J. Libr. Sci. Inf.
Technol., Томи 1-2 January-June 5, № 1, pp.
39-42, 2020.
14. C. Lagoze та H. Van de Sompel, «The Open
Archives Initiative Protocol for Metadata Har-
vesting,» 2015. [Онлайновий]. Available:
http://www.openarchives.org/OAI/openarchiv
esprotocol.html.
15. C. Lagoze та H. Van de Sompel, «ORE User
Guide - HTTP Implementation,»
[Онлайновий]. Available:
https://www.openarchives.org/ore/1.0/http.
[Дата звернення: 2023].
16. C. Lagoze та H. Van de Sompel, «ORE User
Guide - Resource Map Implementation in
RDF/XML,» [Онлайновий]. Available:
https://www.openarchives.org/ore/1.0/rdfxml.
[Дата звернення: 2023].
17. В. А. Резніченко, О. В. Новицкий та Г. Ю.
Проскудіна, «Інтеграція наукових елек-
тронних бібліотек на основі протоколу
ОАІ-РМН,» Проблеми програмування, № 2,
pp. 97-112, 2007.
18. Villanova University's Falvey Library.,
«VuFind® - Search. Discover. Share.,»
[Онлайновий]. Available: https://vufind.org/.
[Дата звернення: 2023].
19. D. Katz, R. LeVan та Y. Ziso, «Using authority
data in VuFind,» Code4Lib Journal, т. 14,
2011.
20. Н. Yu та M. Young, «The impact of web
search engines on subject searching in OPAC,»
Information technology and libraries, т. 4, №
23, pp. 168-180, 2004.
References
1. H. Van de Sompel, M. Nelson, C. Lagoze и
S. Warner, «Resource harvesting within the
OAI-PMH framework,» D-lib magazine, №
10, 2004.
2. "The Open Archives Initiative Protocol for
Metadata Harvesting Protocol Version 2.0 of
2002-06-14," [Online]. Available:
http://www.openarchives.org /OAI/2.0/open-
archivesprotocol.htm.
3. V. O. Kopanieva, L. I. Kostenko, O. V. No-
vytskyi and V. A. Reznichenko, "The task of
digital transformation of the scientific infor-
mation environment," Problems in program-
ming, vol. 1, pp. 3-10, 2023.
4. S. Roy, B. Sutradhar and P. Das, "Large-
scale Metadata Harvesting—Tools, Tech-
niques and Challenges: A Case Study of Na-
tional Digital Library (NDL)," World Digital
Libraries: An International Journal., vol. 10,
2017.
5. R. Gartner, Metadata for digital libraries:
state of the art and future directions, JISC,
2008.
6. A. Getaneh, B. Stevens and P. Ross, "To-
wards a conceptual framework for user-
driven semantic metadata interoperability in
digital libraries: A social constructivist ap-
proach," New Library World, vol. 113, pp.
38-54, 2012.
7. K. Lobuzina, "Suchasni pidkhody do inteh-
ratsiyi elektronnykh informatsiynykh resursiv
bibliotek," Visnyk Knyzhkovoyi palaty, vol.
12, pp. 24-28, 2012.
8. O. M. Spirin, S. M. Ivanova, O. V. Novyt-
skyy, Z. Savchenko, V. A. Reznichenko, A.
V. Yatsyshyn, N. M. Andriychuk and V.
Tkachenko, Elektronni bibliotechni infor-
417
Інформатизація наукових досліджень
matsiyni systemy naukovykh i navchalnykh
zakladiv., Pedahohichna presa, 2012.
9. J. Pomerantz, Metadata, MIT Press Essential
Knowledge series, 2015.
10. W. M. Beyene, "Metadata and universal ac-
cess in digital library environments," Library
Hi Tech, vol. 35, no. 2, pp. 210-221, 2017.
11. M. Agosti, N. Ferro and G. Silvello, "Digital
library interoperability at high level of ab-
straction," Future Generation Computer Sys-
tems, vol. 55, pp. 129-146, 2016.
12. National Center for Biotechnology Infor-
mation, U.S. National Library of Medicine,
"Journal Article Tag Suite," 2024. [Online].
Available: https://jats.nlm.nih.gov/. [Ac-
cessed 10 2024].
13. . A. S. Lingam, "Federated search and dis-
covery solutions.," IP Indian J. Libr. Sci. Inf.
Technol., Vols. January-June 5, no. 1, pp. 39-
42, 2020.
14. C. Lagoze and H. Van de Sompel, "The Open
Archives Initiative Protocol for Metadata
Harvesting," 2015. [Online]. Available:
http://www.openarchives.org/OAI/openar-
chivesprotocol.html.
15. C. Lagoze and H. Van de Sompel, "ORE
User Guide - HTTP Implementation,"
[Online]. Available: https://www.openar-
chives.org/ore/1.0/http. [Accessed 2023].
16. C. Lagoze and H. Van de Sompel, "ORE
User Guide - Resource Map Implementation
in RDF/XML," [Online]. Available:
https://www.openar-
chives.org/ore/1.0/rdfxml. [Accessed 2023].
17. V. A. Reznichenko, O. V. Novytskyy and H.
Yu. Proskudina, "Intehratsiya naukovykh el-
ektronnykh bibliotek na osnovi protokolu
OAI-RMN," Problemy prohramuvannya, no.
2, pp. 97-112, 2007.
18. Villanova University's Falvey Library.,
"VuFind® - Search. Discover. Share.,"
[Online]. Available: https://vufind.org/. [Ac-
cessed 2023].
19. D. Katz, R. LeVan and Y. Ziso, "Using au-
thority data in VuFind," Code4Lib Journal,
vol. 14, 2011.
20. Н. Yu and M. Young, "The impact of web
search engines on subject searching in
OPAC," Information technology and librar-
ies, vol. 4, no. 23, pp. 168-180, 2004.
Одержано: 12.02.2024
Внутрішня рецензія отримана: 19.02.2024
Зовнішня рецензія отримана: 08.03.2024
Про авторів:
1Новицький Олександр Вадимович,
Кандидат технічних наук,
науковий співробітник.
https://orcid.org/0000-0002-9955-7882.
Місце роботи авторів:
1Інститут програмних систем
НАН України,
тел. +38 (044) 526-33-19
E-mail: alex.googl@gmail.com
https://iss.nas.gov.ua/
|