Методы и средства извлечения данных о персоналиях из авторефератов диссертаций
В работе рассмотрены подходы к решению задачи сбора и извлечения разрозненных данных о персоналиях из слабоструктурированных и неструктурированных документов, представленных в общедоступных каталогах авторефератов диссертаций. На языке PHP с применением XPath разработана система, которая позволяет а...
Saved in:
Date: | 2019 |
---|---|
Main Authors: | , |
Format: | Article |
Language: | Russian |
Published: |
Інститут програмних систем НАН України
2019
|
Series: | Проблеми програмування |
Subjects: | |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Journal Title: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Cite this: | Методы и средства извлечения данных о персоналиях из авторефератов диссертаций / К.А. Кудим, Г.Ю. Проскудина // Проблеми програмування. — 2019. — № 2. — С. 38-46. — Бібліогр.: 2 назв. — рос. |
Institution
Digital Library of Periodicals of National Academy of Sciences of UkraineSummary: | В работе рассмотрены подходы к решению задачи сбора и извлечения разрозненных данных о персоналиях из слабоструктурированных и неструктурированных документов, представленных в общедоступных каталогах авторефератов диссертаций. На языке PHP с применением XPath разработана система, которая позволяет автоматически собирать первичные документы из электронного каталога Национальной библиотеки Украины им. В.И. Вернадского, извлекать из этих документов данные и сохранять их в локальном хранилище. Для хранения выбрана модель данных RDF с учётом особенностей данных и возможностью последующего представления в семантической сети. |
---|