Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”

Розглядається комп’ютерна технологія укладання нового тлумачного Словника української мови. Описано структуру лексикографічної бази даних (ЛБД) словника, принципи її побудови та внутрішні зв’язки між окремими елементами. Запропоновано клієнтську програму для редагування ЛБД словника, розглянуто її ф...

Повний опис

Збережено в:

Бібліографічні деталі
Дата:	2004
Автор:	Якименко, К.М.
Формат:	Стаття
Мова:	Ukrainian
Опубліковано:	Інститут програмних систем НАН України 2004
Теми:	Лингвистические системы
Онлайн доступ:	http://dspace.nbuv.gov.ua/handle/123456789/1342
Теги:	Додати тег Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:	Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”/ К.М. Якименко // Проблеми програмування. — 2004. — N 1. — С. 24-37. — Бібліогр.: 2 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine

id	irk-123456789-1342
record_format	dspace
spelling	irk-123456789-13422008-07-28T12:00:51Z Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови” Якименко, К.М. Лингвистические системы Розглядається комп’ютерна технологія укладання нового тлумачного Словника української мови. Описано структуру лексикографічної бази даних (ЛБД) словника, принципи її побудови та внутрішні зв’язки між окремими елементами. Запропоновано клієнтську програму для редагування ЛБД словника, розглянуто її функціональні можливості. 2004 Article Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”/ К.М. Якименко // Проблеми програмування. — 2004. — N 1. — С. 24-37. — Бібліогр.: 2 назв. — укр. 1727-4907 http://dspace.nbuv.gov.ua/handle/123456789/1342 658.012.011.56 uk Інститут програмних систем НАН України
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection	DSpace DC
language	Ukrainian
topic	Лингвистические системы Лингвистические системы
spellingShingle	Лингвистические системы Лингвистические системы Якименко, К.М. Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”
description	Розглядається комп’ютерна технологія укладання нового тлумачного Словника української мови. Описано структуру лексикографічної бази даних (ЛБД) словника, принципи її побудови та внутрішні зв’язки між окремими елементами. Запропоновано клієнтську програму для редагування ЛБД словника, розглянуто її функціональні можливості.
format	Article
author	Якименко, К.М.
author_facet	Якименко, К.М.
author_sort	Якименко, К.М.
title	Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”
title_short	Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”
title_full	Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”
title_fullStr	Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”
title_full_unstemmed	Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”
title_sort	програмно-технологічні аспекти створення лексикографічної системи “словник української мови”
publisher	Інститут програмних систем НАН України
publishDate	2004
topic_facet	Лингвистические системы
url	http://dspace.nbuv.gov.ua/handle/123456789/1342
citation_txt	Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”/ К.М. Якименко // Проблеми програмування. — 2004. — N 1. — С. 24-37. — Бібліогр.: 2 назв. — укр.
work_keys_str_mv	AT âkimenkokm programnotehnologíčníaspektistvorennâleksikografíčnoísistemislovnikukraínsʹkoímovi
first_indexed	2025-07-02T04:49:39Z
last_indexed	2025-07-02T04:49:39Z
_version_	1836509329781424128
fulltext	Лингвистические системы © К.М. Якименко, 2004 24 ISSN 1727-4907. Проблемы программирования. 2004. № 1 УДК 658.012.011.56 К.М. Якименко ПРОГРАМНО-ТЕХНОЛОГІЧНІ АСПЕКТИ СТВОРЕННЯ ЛЕКСИКОГРАФІЧНОЇ СИСТЕМИ “СЛОВНИК УКРАЇНСЬКОЇ МОВИ” Розглядається комп’ютерна технологія укладання нового тлумачного Словника української мови. Описано структуру лексикографічної бази даних (ЛБД) словника, принципи її побудови та внутрішні зв’язки між окремими елементами. Запропонова- но клієнтську програму для редагування ЛБД словника, розглянуто її функціональні можливості. Вступ В 1999 році вийшов Указ Прези- дента України “Про розвиток націо- нальної словникової бази” та згодом було затверджено план-графік реаліза- ції визначених Указом завдань. Серед них своєю масштабністю вирізняється створення нової версії багатотомного тлумачного Словника української мови. Його обсяг планується на рівні 20 то- мів, а прототипом слугує 11-томний академічний Словник української томи (СУМ) [1]. Робота над створенням СУМа тривала понад 30 років, і він становить цілу епоху у вітчизняній лін- гвістиці, подаючи в цілісному вигляді всю систему української мови, яка склалася. Було усвідомлено, що лексико- графічний проект такого масштабу й рівня не може здійснюватися без за- стосування сучасних комп’ютерних технологій на всіх етапах лексикогра- фічного опрацювання мовних одиниць. Іншим вирішальним аргументом щодо використання цих технологій виявила- ся необхідність створення сучасної на- ціональної словникової бази у надзви- чайно стислі терміни (4 роки), що не- реально за використання традиційних методів лексикографування. Отже, проект нового тлумачного Словника української мови передбачує створення щонайменше двох кінцевих продуктів: традиційного паперового ба- гатотомного словника, “відправною то- чкою” якого слугує 11-томний СУМ, і комп’ютерної лексикографічної систе- ми, що не лише вбирає зміст паперово- го варіанта словника, але й містить ці- лу низку додаткових інформаційних і лінгвістичних функцій. Така постанов- ка завдання є новою для вітчизняного словникарства, тому вимагає вироб- лення концептуальних засад, які б вра- ховували разом із суто лінгвістичними аспектам також організаційні та техно- логічні (а отже, й програмні) проблеми реалізації фундаментального лексико- графічного процесу. Технологія створення лексикографіч- ної бази даних СУМа Розробка структури фундамента- льної академічної лексикографічної си- стеми “Словник української мови”, створення лексикографічних баз даних (ЛБД) тлумачного типу та клієнтського програмного забезпечення опрацюван- ня цих ЛБД розпочалося з обробки те- ксту СУМа на основі його структурної теорії [2]. З метою створення ЛБД СУМа було здійснено конверсію папе- рового варіанту 11-томника [1] до еле- ктронної форми. Цей етап виконувався засобами сканування та розпізнавання тексту, в результаті чого було одержа- но цифровий варіант тексту 11-томного СУМа. Ланцюг підготовки тексту СУМа до конвертації в ЛБД представ- лено на рис. 1. Після сканування і роз- пізнавання тексту СУМа (9856 сторі- нок) його було збережено в RTF- форматі та роздруковано для коректу- ри з метою виправлення помилок, які виникли при роботі програми оптично- го розпізнавання. Після подвійної ко- ректури й внесення виправлень до електронного тексту СУМа було одер- Лингвистические системы 25 жано еталонний варіант тексту 11- томника. Останній етап підготовки до створення ЛБД – конверсія з RTF- до HTML-формату з системою кодування Unicode засобами текстового редактора MS Word. Слід відзначити, що робота з ЛБД у форматі електронного тексту такого значного обсягу (понад 135 Мбайт дискового простору) є абсолют- но неефективною. Окрім дуже повіль- ного темпу, з яким система працює на таких текстових масивах, принципову незручність представляє неможливість прямого доступу до окремих елементів структури словника. Такі вади годні звести нанівець усі переваги, які надає використання комп’ютерів у лексико- графії. Отже необхідною постала роз- робка спеціалізованої ЛБД Словника української мови, причому її форму- вання треба було здійснити автоматич- но, оскільки в ручному або напівруч- ному режимі створення такої бази да- них, як переконує досвід, є просто не- можливим. Для забезпечення процесу авто- матичної конверсії тексту СУМа до ЛБД в Українському мовно-інформа- ційному фонді НАН України було роз- роблено програмне забезпечення виді- лення елементів його структури відпо- відно до будови Л-системи та з вико- ристанням поліграфічних ознак її текс- тової ідентифікації. В результаті кон- версії весь текст СУМа з HTML-файлів був перенесений до ЛБД зі структу- рою, яку розглянемо детальніше. Структура лексикографічної бази даних СУМа Структура ЛБД СУМа є мініма- льною – вона дозволяє правильно ві- дображати всі структурні елементи СУМа, але водночас має можливості для розширення. Наприклад, ліва час- тина словникової статті у цій ЛБД не є структурованою, а записується єдиним блоком. Структура ЛБД СУМа разом з клієнтською програмою дозволяє не тільки представити, а й візуалізувати представлення будь-якої словникової статті СУМа у вигляді дерева. При цьому значно спрощується доступ до структурних елементів статті, а зв’язки між елементами унаочнюються. Чима- ло допоміжних елементів статті (термі- нальні символи, номери тлумачень, пе- вні розділові знаки, спеціальні символи та шрифтові виділення) не потребують збереження у ЛБД, а можуть додавати- ся динамічно під час формування стат- ті програмою виводу. Такі автоматичні операції допомагають уникнути бага- тьох помилок при редагуванні статей, а можливість помилкового введення еле- Сканер Перша коректура Друга коректура Розпізнавання Конвертація в HTML Сервер Принтер Принтер Лексикограф Лексикограф Рис. 1. Ланцюг підготовки тексту СУМа до конвертації в ЛБД Лингвистические системы 26 ментів, які порушують структуру слов- ника, взагалі виключається. Процес ре- дагування стає більш простим, контро- льованим та уніфікованим, легко здій- снюються операції додавання, вилу- чення та виправлення елементів слов- никових статей. Гнучкість структури ЛБД СУМа дозволяє в перспективі ре- алізувати те, що було принципово не- можливим при представленні СУМа у вигляді послідовного тексту. Напри- клад, якщо фрагменти різних статей повторюються, то такий фрагмент мо- жна зберігати в базі тільки один раз, але при цьому створити покажчики, які пов’язували б цей фрагмент з усіма відповідними статтями. Такий механізм разом з уже реалізованими функціями динамічного формування приводить до економії дискового простору. У структурі ЛБД СУМа виділено сукупність таблиць (див. табл. 1—10) та зв’язків між ними, зміст яких розкри- вається нижче. • ID – унікальний ідентифіка- тор статті; • Reestr – реєстрове слово СУМа; • Part – код частини мови ре- єстрового слова; • Data – дата та час, коли ро- билася остання правка статті; • Digit – цифровий код реєст- рового слова, що використовується для сортування (в цьому коді літери украї- нського алфавіту позначені двома ци- фрами: А – 01, Б – 02, В – 03 і т. д., числа позначаються чотирма цифрами: 1 – 0001, 2 – 0002, ..., 10 – 0010 і т. д. Всі інші символи ігноруються); • IsLink – ознака, чи є стаття відсилковою (при виводі позначається "див."); • LinkText – текст відсилки; • IsOldSum – ознака, чи нале- жить стаття до 11-томного СУМу або є новою; • IsDel – ознака, чи є стаття видаленою з БД; • QtyEd – кількість правок статті; • FinalEd – ознака, чи була стаття узгоджена з головним науковим редактором; • NREd – ознака, чи була стаття узгоджена з науковим редакто- ром; • Printed – ознака, чи була стаття відправлена на роздрук; • Odious – ознака, чи нале- жить стаття до проблемних (таких, що мають недоліки в інтерпретаційній час- тині та підлягають подальшому пере- гляду та редагуванню). Таблиця проіндексована за поля- ми: ID (Unique), Reestr, Part, Digit. Таблиця 1. Реєстрові слова СУМа ("nom") ID Reestr Pa rt Data Digit Is Li nk LinkText Is O ld Su m Is D el Q ty Ed Fi na lE d N R Ed Pr in te d O di ou s 31 АБИ#ЯКИЙ 3 18.03.02 15:35 1021133151114 0 1 0 1 1 1 1 0 32 АБІОГЕНЕ#З 1 18.03.02 15:35 10212190407180700 0 1 0 1 1 1 1 0 33 АБІОГЕ#ННИЙ 3 18.03.02 15:36 1021219040718180000 0 1 0 1 1 1 1 0 34 АБІСА#ЛЬ 1 18.03.02 15:37 1021222011631 0 1 0 1 1 1 1 0 35 АБІСА#ЛЬНИЙ 3 19.03.02 10:11 1021222011631180000 0 1 0 2 1 1 1 0 36 АБІССІ#НЕЦЬ 1 19.03.02 10:12 1021222221218070000 1 абіссі#нці. 1 0 2 1 1 1 0 37 АБІССІНКА 1 19.03.02 10:12 10212222212181500 1 абіссі#нці. 1 0 3 1 1 1 0 38 АБІССІ#НСЬКИЙ 3 19.03.02 10:12 10212222212182200000000 0 1 0 2 1 1 1 0 39 АБІССІ#НЦІ 21 19.03.02 10:12 10212222212182700 0 1 0 1 1 1 1 0 40 АБІТУРІЄ#НТ 1 19.03.02 10:14 1021223242112080000 0 1 0 1 1 1 1 0 Лингвистические системы 27 Таблиця 2. Діапазони редагування СУМа ("Ranges") • Part – номер технологічного тому (Т-тому) чи його частини; • Lower – слово, яке є ниж- ньою границею частини; • Upper – слово, яке є верх- ньою границею частини; • Letter – літера, яка цілком належить до частини тому (якщо це поле непусте, то значення полів Lower та Upper ігноруються та навпаки); • LexEd – ім’я та ініціали нау- кового редактора або лексикографа, відповідального за Т-том або частину Т-тому. Таблиця 3. Ліві частини статей ("lr") ID Left Right IsDel 1 0 2 1 3 0 4 0 5 0 • ID – унікальний ідентифіка- тор статті (має збігатися з відповідним ідентифікатором статті з таблиці nom); • Left – текст лівої частини; • Right – зарезервовано для правої частини статті; не використову- ється; • IsDel – ознака, чи є запис видаленим з БД; Таблиця проіндексована за полем ID (Unique). Таблиця 4. Блоки тлумачень ("intgroup") ID ID_lv NumbGr IsDel Param 1 168538 1 1 Протиставний 2 168538 2 1 Зіставний 3 168539 1 0 протиставний. 4 168539 2 0 зіставний. 5 168539 3 0 приєднувальний. 6 168539 4 0 приєднально-підсилювальний; у сполуч. із займ. і присл.</I> <span style="letter-spacing:5"> як, який, скільки, що </span><I>та ін. 7 168539 5 0 єднальний, діал. • ID – унікальний ідентифіка- тор блока; • ID_lv – ідентифікатор фраг- мента вищого рівня, з яким пов’язаний блок; • NumbGr – номер блока в межах статті (нумерація має бути по- слідовною); • IsDel – ознака, чи є запис видаленим з БД; • Param – параметр блока. Таблиця проіндексована за поля- ми: ID (Unique), ID_lv, NumbGr. Таблиця 5. Тлумачення ("interpr") ID ID_lv Relat NumbInt IsDel Lv 7459 6305 1 18 0 0 7460 6305 1 19 0 0 7461 6305 11 20 0 0 7462 6305 11 21 0 0 7463 6305 11 22 0 0 7464 6305 9 23 0 0 7465 6305 9 24 0 0 7466 6305 9 25 0 0 7467 6305 9 26 0 0 7468 6305 5 27 0 0 • ID – унікальний ідентифіка- тор тлумачення; • ID_lv – ідентифікатор фраг- мента вищого рівня, з яким пов’язане тлумачення; • Relat – код типу відношення, яке виражають сполучення з реєстро- вим словом у даному тлумаченні (тіль- Part Lower Upper Letter LexEd 1.1 Й Горюшина Г.Н. 1.1 Метро мозаїка Горюшина Г.Н. 1.2 М метрівка Лозова Н.Є. 1.2 Р розвиватися Лозова Н.Є. 1.3 Д Самойлова І.А. 1.3 мозковий м'ячик Самойлова І.А. 2.1 П переступник Бибик С.П. 2.2 літо льяноси Єрмоленко С.Я. 2.2 рух ряхтливий Єрмоленко С.Я. 2.3 розвиднитися рутяний Неровня Н.М. Лингвистические системы 28 ки для прийменникових словникових статей); • NumbInt – номер тлумачен- ня в межах фрагмента (нумерація має бути послідовною); • IsDel – ознака, чи є запис видаленим з БД; • Lv – код типу фрагмента вищого рівня. Таблиця проіндексована за поля- ми: ID (Unique), ID_lv, NumbInt, Lv. Таблиця 6. Фразеологізми та еквівален- ти слів ("fraseol") ID ID_lv NumbFras Kind Fras IsDel Lv 6 65 1 5 0 2 7 79 1 2 0 2 8 83 1 2 0 2 9 84 1 2 0 2 10 119 1 5 0 2 11 119 2 4 0 2 12 119 3 4 0 2 13 119 4 4 0 2 14 119 5 4 0 2 15 119 6 4 0 2 • ID – унікальний ідентифіка- тор фразеологізму або еквівалента слова; • ID_lv – ідентифікатор фраг- мента вищого рівня, з яким пов’язаний фразеологізм або еквівалент слова; • NumbFras – номер фразео- логізму або еквівалента слова в межах фрагмента (нумерація має бути послі- довною); • Kind – вид фразеологізму або еквівалента слова; • Fras – назва фразеологізму або еквівалента слова; • IsDel – ознака, чи є запис видаленим з БД; • Lv – код типу фрагмента вищого рівня. Таблиця проіндексована за поля- ми: ID (Unique), ID_lv, NumbFras, Lv. Таблиця 7. Відтінки ("shade") ID ID_lv NumbShade Lv IsDel 5 7 2 2 1 6 7 3 2 1 7 7 4 2 1 8 7 5 2 1 9 7 6 2 1 10 8 1 2 1 11 42 1 2 0 12 49 1 2 0 13 49 2 2 0 14 49 3 2 0 • ID – унікальний ідентифіка- тор відтінка; • ID_lv – ідентифікатор фраг- мента вищого рівня, з яким пов’язаний відтінок; • NumbShade – номер відтінка в межах фрагмента (нумерація має бу- ти послідовною); • Lv – код типу фрагмента вищого рівня; • IsDel – ознака, чи є запис видаленим з БД. Таблиця проіндексована за поля- ми: ID (Unique), ID_lv, NumbShade, Lv. Таблиця 8. Частини тлумачень або зна- чення фразеологізмів (еквівалентів слів) ("subshade") ID ID_lv NumbSub Lv IsDel 2726 171923 1 2 0 2727 171923 2 2 0 2728 41053 1 4 0 2729 41053 2 4 0 2730 16581 1 3 0 2731 16581 2 3 0 2732 102061 1 2 0 2733 102061 2 2 0 2735 1587 2 3 0 2736 32095 1 3 0 • ID – унікальний ідентифіка- тор частини тлумачення або значення; Лингвистические системы 29 • ID_lv – ідентифікатор фраг- мента вищого рівня, з яким пов’язана частина тлумачення або значення; • NumbSub – номер частини тлумачення або значення в межах фра- гмента (нумерація має бути послідов- ною); • Lv – код типу фрагмента ви- щого рівня; • IsDel – ознака, чи є запис видаленим з БД. Таблиця проіндексована за поля- ми: ID (Unique), ID_lv, NumbSub, Lv. Таблиця 9. Формули тлумачень ("for- mula") ID ID _l v N um Fo rm In te rp r Lv Pa ra di gm Vi d Pe re xi dn K er uv an Sp ol uc h R id C hi sl o St yl e El sO ll Is D el 114 8 1 3 0 115 84 1 2 мед. 0 116 7 1 5 0 117 8 1 5 0 118 85 1 2 біол. 0 119 86 1 2 кого, мед. 0 120 87 1 2 біол. 0 121 88 1 2 0 • ID – унікальний ідентифіка- тор формули тлумачення; • ID_lv – ідентифікатор фраг- мента вищого рівня, з яким пов’язана формула тлумачення; • NumForm – номер формули тлумачення в межах фрагмента; • Interpr – текст формули тлумачення; • Lv – код типу фрагмента вищого рівня; • Paradigm – парадигматичний клас; • Vid – вид; • Perexidn – перехідність; • Keruvan – керування; • Spoluch – сполучуваність; • Rid – рід; • Chislo – число; • Style – стиль; • ElsOll – інші параметри формули тлумачення; • IsDel – ознака, чи є запис видаленим з БД. Таблиця проіндексована за поля- ми: ID (Unique), ID_lv, NumForm, Lv. Таблиця 10. Ілюстрації ("illustr") ID N um bI ll Ill us tr Au th or Ti tle Ed iti on Pa ge s Fi gu r C m Is D el ID _l v 595 3 А. Малишко 0 0 0 0 0 558 596 1 А. Шиян 0 0 0 0 0 560 597 2 Леся Українка 0 0 0 1 0 560 598 1 з газ. 0 0 0 0 0 561 599 2 В. Собко 0 0 0 0 0 561 600 3 Остап Вишня 0 0 1 0 0 561 601 1 0 0 0 0 0 562 602 1 0 0 0 0 1 563 603 1 Український світ 0 0 0 0 1 564 604 1 І. Франко 0 0 0 0 0 565 • ID – унікальний ідентифіка- тор ілюстрації; • NumbIll – номер ілюстрації в межах формули тлумачення (нумера- ція має бути послідовною); • Illustr – текст ілюстрації; • Author – автор джерела ілюстрації; • Title – назва джерела ілюст- рації (введено для сумісності з 11- томним СУМом, у новому СУМі не ви- користовується); • Edition – рік видання джере- ла ілюстрації (введено для сумісності з 11-томним СУМом, у новому СУМі не використовується); • Pages – номер сторінки з джерела ілюстрації (введено для суміс- ності з 11-томним СУМом, у новому СУМі не використовується); • Figur – ознака, чи реєстрове слово вживається в ілюстрації в образ- ному значенні; • Cm – ознака, чи реєстрове слово вживається в ілюстрації у порів- нянні; Лингвистические системы 30 • IsDel – ознака, чи є запис видаленим з БД; • ID_lv – ідентифікатор фраг- мента вищого рівня, з яким пов’язана ілюстрація; Таблиця проіндексована за поля- ми: ID (Unique), ID_lv, NumbIll. Перейдемо до опису зв’язків між таблицями ЛБД СУМ, представлених на рис. 2. Головною таблицею ЛБД є таблиця nom, кожний її запис відпові- дає одній словниковій статті СУМа. Таблиця lr зв’язана з nom за принци- пом "один до одного", тому що кожна стаття має тільки одну ліву частину. Зв’язок здійснюється через поле ID. Таблиці intgroup, interpr, fraseol, shade, subshade, formula та illustr мають у своєму складі поля ID, ID_lv та Lv (крім intgroup та illustr, які не мають поля Lv). Ці поля використовуються для зв’язків між таблицями, і їх призна- чення у всіх перерахованих таблицях однакове. Поле ID є унікальним іден- тифікатором запису; ID_lv – ідентифі- катор вищого рівня, з яким пов’язаний даний запис; Lv визначає, яка саме таблиця (тобто тип фрагмента статті) вищого рівня мається на увазі. Напри- клад, якщо в деякому запису в таблиці interpr Lv має значення 0, то цей запис (тлумачення) відноситься до реєстрово- го слова (а не є частиною блока тлума- чень), такого, що його ID дорівнює значенню ID_lv для цього запису. Далі для кожної таблиці перера- ховані ті, які можуть бути для неї без- посереднім вищим рівнем: • intgroup: nom; • interpr: nom, intgroup; • fraseol: nom, interpr; • shade: interpr, fraseol, subshade (тільки коли він відноситься до fraseol); • subshade: interpr, fraseol, shade (тільки коли він відноситься до interpr); • formula: interpr, fraseol, shade, subshade; • illustr: formula. Як видно з цього переліку, поля Lv не мають ті таблиці, які зв’язані тільки з однією таблицею. Значення, які приймає Lv залеж- но від таблиці вищого рівня: 0 nom 3 fraseol 1 intgroup 4 shade 2 interpr 5 subshade Зв'язки між таблицями ЛБД СУМ відповідно до структури СУМа можна інтерпретувати наступним чином: ⇒ Словникова стаття СУМа завжди має ліву частину. ⇒ Стаття може складатися з де- кількох (1 та більше) блоків тлумачень, тлумачень, фразеологізмів або еквіва- лентів слова (у випадку, якщо слово вживається тільки у складі фразеологі- зму або еквівалента слова). ⇒ Блок може складатися з декі- лькох тлумачень. ⇒ Тлумачення може мати відті- нки, частини тлумачення та пов’язані з ним фразеологізми або еквіваленти слова. ⇒ Фразеологізм та еквівалент слова може мати декілька значень та відтінки. ⇒ Значення фразеологізму або еквівалента слова також може мати відтінки. ⇒ Тлумачення, відтінок, частина тлумачення, фразеологізм (еквівалент слова), значення фразеологізму (екві- валента слова) мають у своєму складі формулу тлумачення (інколи вони мо- жуть її не мати, але тоді вважається, що є фіктивна (пуста) формула тлума- чення) та можуть мати ілюстрації. ⇒ Формула тлумачення фактич- но є компонентом тлумачення, відтін- ку, частини тлумачення, фразеологізму (еквівалента слова) або значення фра- зеологізму (еквівалента слова). Але структури всіх цих формул тлумачення подібні, тому вони винесені в окрему таблицю formula. Як видно зі структу- ри цієї таблиці (див. табл. 9), вона збе- рігає як безпосередньо текст формули тлумачення, так і її граматичні, стиліс- тичні та інші параметри. Для цих па- раметрів зарезервовано окремі поля, але на сьогодні усі параметри зберіга- ються в полі ElsOll. Лингвистические системы 31 Р и с. 2 . С хе м а зв ’я зк ів м іж т аб ли ц ям и Л Б Д С У М Лингвистические системы 32 ⇒ Текстові ілюстрації з прикла- дами вживання реєстрового слова у певних значеннях можуть бути наявні тільки тоді, коли є формула тлумачення для відповідного значення. Тому табли- ця ілюстрацій illustr зв’язана тільки з таблицею формул тлумачення formula. Можливі випадки, коли формули тлу- мачення фактично немає, а є тільки параметри – тоді в таблиці formula створюється запис з нульовим значен- ням поля Interpr. Фразеологізм та екві- валент слова також можуть не мати формули тлумачення – у випадках, коли вони є відсилковими або мають декілька значень. В обох цих випадках відповідний йому запис у таблиці formula може не створюватись, тому такий фразеологізм чи еквівалент сло- ва не має власних ілюстрацій. Структури таблиць intgroup, in- terpr, fraseol, shade та subshade дуже подібні між собою, але мають деякі від- мінності: • intgroup: блок не має форму- ли тлумачення, але може мати параме- три. Тому його параметри є безпосере- дньою частиною таблиці intgroup та записуються в поле Param; • interpr: тлумачення може ха- рактеризуватися відношенням, код якого записується у поле Relat. Для тлумачень з однаковим типом відно- шення, які належать до одного вищого рівня та мають послідовні номери, при формуванні статті тип вказується тіль- ки один раз для першого з групи тлу- мачень; • fraseol: фразеологізм завжди має назву (тобто текст самого фразео- логізму, до якого обов’язково входить реєстрове слово), яка записується у поле Fras. Також фразеологізм має по- ле Kind для виду фразеологізму, що позначається числом від 1 до 5. Вид ви- значає, як фразеологізм буде позначе- ний при виводі статті. Фразеологізми однакового виду, що відносяться до одного вищого рівня та мають послідо- вні номери, поєднуються в блок, по- значка до якого виводиться тільки один раз. Фразеологізм виду 5 не має ніякої спеціальної позначки. Все те саме справедливе також для еквівалентів слів, тільки поле Kind для них набуває значення 6; • subshade: ця таблиця не має відзнак у структурі, але її особливість полягає в тому, що вона зберігає як ча- стини тлумачень та відтінків, так і зна- чення фразеологізмів. При цьому вва- жається, що коли фразеологізм (або його значення) має відтінок, то такий відтінок не може мати частин, інакше це призводило б до виникнення циклу в структурі зв’язків таблиць. • Таблиця illustr має поле Il- lustr з безпосередньо текстом ілюстра- ції, а також поле Author для збережен- ня прізвища автора або назви джерела ілюстрації. Поля Title, Edition та Pages створені виключно для сумісності з 11-томним СУМом і в новому СУМі не використовуються, але якщо вони за- повнені, то при формуванні статті ви- водяться саме в такій послідовності (про поля Figur та Cm див. опис табли- ці illustr). Таблиці intgroup, interpr, fraseol, shade, subshade, formula та illustr ма- ють поля для внутрішньої послідовної нумерації записів у рамках статті або її фрагменту. Ці поля відповідно такі для таблиць: • intgroup: NumbGr; • interpr: NumbInt; • fraseol: NumbFras; • shade: NumbShade; • subshade: NumbSub; • formula: NumForm; • illustr: NumbIll. Формула тлумачення фактично завжди тільки одна, тому значення по- ля NumForm завжди має дорівнювати 1. Це поле є надлишковим, але його введено до таблиці для більшої одно- манітності структур. При додаванні нових записів до таблиць мають виконуватися наступні умови. Значення ID для нового запису має дорівнювати найбільшому з існую- чих значень плюс одиниця (це правило дійсне для всіх таблиць, крім lr). Зна- чення IsDel має дорівнювати 0. Інші Лингвистические системы 33 умови розглянемо для кожної таблиці окремо. ⇒ Таблиця nom. Значення Digit визначається відповідно до реєстрового слова (див. опис таблиці nom). Part за- повнюється згідно з таблицею кодів частин мови, яка в даній статті не при- водиться. У поле Data заноситься пото- чний час. Поля-ознаки мають бути встановлені для нового запису наступ- ним чином: ⇒ IsOldSum = 0; ⇒ QtyEd = 0; ⇒ FinalEd = 0; ⇒ NREd = 0; ⇒ Printed = 0; ⇒ Odious = 0. ⇒ Таблиця lr. Значення ID має дорівнювати ідентифікатору реєстро- вого слова ID, з яким пов’язана ліва частина. ⇒ Таблиці intgroup, interpr, fra- seol, shade, subshade, formula, illustr. ID_lv має дорівнювати ID запису вищо- го рівня, з яким пов’язаний запис, що додається. Lv заповнюється так, як бу- ло описано вище (крім illustr). Для ви- значення значення поля внутрішньої нумерації (крім formula) вибираються всі поля з цієї таблиці, які мають ті са- мі значення ID_lv та Lv, тобто пов’язані з тим самим записом вищого рівня. З них вибирається найбільше значення поля NumХХХ та до нього додається одиниця. ⇒ Таблиця interpr. Значення ти- пу відношення Relat за умовчуванням дорівнює 0. ⇒ Таблиця fraseol. Якщо дода- ється фразеологізм, його значення ви- ду Kind за умовчуванням дорівнює 5, якщо еквівалент слова – то 6. ⇒ Таблиця formula. Звичайно новий запис для неї створюється одно- часно з додаванням запису до таблиці interpr, fraseol, shade або subshade, з якою пов’язана формула тлумачення, і визначаються відповідні ID_lv та Lv. Значення поля NumForm має дорівню- вати 1. Фрагмент статті видаляється з БД без збереження будь-яких даних про нього, а якщо вилучається ціла стаття, то її фрагменти та саме реєстрове сло- во насправді не видаляються з БД, а значення ознаки IsDel для них встано- влюється рівним 1. При вилученні будь-якого фраг- менту мають бути вилучені також усі пов’язані з ним елементи нижчих рів- нів. Наприклад, на рівні видалення фо- рмули тлумачення відбувається також пошук та видалення всіх пов’язаних з нею ілюстрацій. Програмний комплекс редагування ЛБД СУМа ЛБД СУМа, реалізована в УМІФі, функціонує під СКБД Microsoft SQL Server 7.0. Клієнтську програму редагу- вання ЛБД СУМа було розроблено і створено в середовищі Microsoft Visual Studio 6.0, вона працює під операцій- ною системою Microsoft Windows 2000 або Microsoft Windows XP. Програма орієнтована на роботу в мережевому середовищі, де багато користувачів одночасно мають доступ до ЛБД СУМа. У цьому випадку залеж- но від пріоритету користувачі можуть отримати доступ до всієї бази або її ча- стини, можливість редагування статей або тільки їх перегляду. Крім того, оскільки для редагування реєстр СУМа був розбитий на 9 приблизно рівних технологічних томів, за кожний з яких відповідає окремий науковий редактор, а кожний з цих томів у свою чергу по- ділений між 3 або 4 лексикографами, було вирішено ввести діапазони реда- гування СУМа безпосередньо в ЛБД до таблиці Ranges (див. табл. 2). Для кож- ного з 9 томів існує свій логін, що об- межує доступ технолога, який працює з БД через клієнтську програму, тільки даним конкретним томом і блокує до- ступ до інших. Для контролю за проце- сом редагування в ЛБД введено кілька спеціальних полів (див. табл. 1). В ре- жимі повного доступу також може бу- ти здійснена фільтрація реєстру за технологічним томом або його части- ною, за яку відповідає окремий лекси- кограф. Клієнтська програма реалізує ба- гато функцій для роботи з ЛБД. Ці фун- кції виконуються окремими модулями Лингвистические системы 34 програми. Далі наведено стислий опис модулів та приклади зовнішнього ви- гляду діалогових вікон, пов’язаних з ними (рис. 3—8). DicUASplApp – головний модуль програми. Містить функції для роботи зі статтею в цілому: додавання, вилу- чення, копіювання, перехід до редагу- вання статті, встановлення ознак реда- гування, запис статей у файл для на- ступного роздруку, а також функції, пов’язані з переглядом: встановлення шрифту, вибір режиму фільтрації (за частиною мови, діапазонами редагу- вання, довільним запитом). Крім того, до модуля входить декілька системних функцій: перевірка належності слова до потрібного діапазону, перетворення слова в його цифровий код, реакція на натиснення певних клавіш та інші; та- кож тут описані основні глобальні змінні програми. DicUASplView, TrGr, FindForm – головне вікно програми. Сюди входять функції вибору діапазону редагування та статті для перегляду, пошуку реєст- рового слова, а також системні функції ініціалізації бази даних СУМа та дере- ва діапазонів редагування. Рис. 4. Перегляд структури статті Рис. 3. Головне вікно програми Лингвистические системы 35 ArtTree – перегляд структури статті. Звідси можуть бути викликані функції додавання та вилучення окре- мих елементів статті, редагування їх, переставлення у потрібній послідовно- сті та встановлення ознак редагування. Якщо програму викликано в режимі тільки перегляду, то можна здійснюва- ти навігацію по структурі статті, але функції редагування при цьому будуть недоступні. WordE – редагування слова. Дає можливість ввести реєстрове слово та указати, до якої частини мови воно на- лежить. Якщо стаття є відсилковою, тут встановлюється відповідна ознака та вводиться реєстрове слово, на яке вона посилається. InterprE – редагування тлума- чення. У цьому вікні вводиться значен- ня формули тлумачення та, при необ- хідності, встановлюється потрібне від- ношення. Може бути здійснена навіга- ція між тлумаченнями, що належать до однієї словникової статті або блока. Аналогічні діалогові вікна (з деякими відмінностями) є також для редагуван- ня блоків тлумачень (GroupE), фразео- логізмів (FraseolE), відтінків (ShadeE), частин тлумачень та значень фразеоло- гізмів (SubE), ілюстрацій (IllustrE). AddParam – редагування додат- кових параметрів. У цьому вікні можна ввести значення граматичних, стиліс- тичних та інших параметрів формули тлумачення. WriteHTML – запис статей у файл. Статті можуть бути вибрані з діапазону (задається початкове та кінцеве слово) або зі списку. Якщо Рис. 5. Редагування слова Рис. 6. Редагування тлумачення Лингвистические системы 36 користувач має доступ тільки до певного діапазону редагування, то він може вибрати статті тільки в межах цього діапазону. Також вибирається ім’я файла (формату HTML), до якого будуть записані статті. MakeHTML – модуль функцій для формування словникової статті в HTML-форматі, зокрема її елементів у тому вигляді, у якому вони мають бути представлені на екрані. Безпосередньо MakeHTML викликає ці функції в цик- лі та формує зовнішній вигляд статті згідно з усіма потрібними шрифтовими виділеннями та іншими поліграфічними ознаками. Висновок Розроблена в УМІФі лексико- графічна база даних Словника україн- ської мови та програмний комплекс її редагування дозволяють організувати процес створення нового Словника значно ефективніше, ніж це було б Рис. 7. Редагування додаткових параметрів Рис. 8. Запис статей у файл Лингвистические системы 37 можливо при використанні тільки тра- диційних засобів укладання словників, та максимально підвищити продуктив- ність лексикографічної праці. 1. Словник української мови в 11-и томах. – К.: Наук. думка, 1970—1980. 2. Широков В.А. Інформаційна теорія лекси- кографічних систем. – К.: Довіра, 1998. – 331 с. Отримано 06.11.03 Про автора Якименко Костянтин Миколайович, молодший науковий співробітник Місце роботи автора: Український мовно-інформаційний фонд НАН України, вул. Володимирська, 54, м. Київ, 01601, Україна Тел. (044) 267 4895 E-mail: watcher@enger.kiev.ua

Програмно-технологічні аспекти створення лексикографічної системи “Словник української мови”

Репозитарії

Схожі ресурси