Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів

The question of the place of paronymy in the automatic text processing has been discussed. A formal description of concepts of the phonetic paronyms and quasiparonyms is given. The principles of automatic building of lexicographical database (LDB) of paronyms have been described. LDB is the basis...

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2011
Автори: Грязнухіна, Т., Любченко, Т.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут української мови НАН України 2011
Назва видання:Лексикографічний бюлетень
Теми:
Онлайн доступ:http://dspace.nbuv.gov.ua/handle/123456789/73192
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів / Т. Грязнухіна, Т. Любченко // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2011. — Вип. 20. — С. 28-34. — Бібліогр.: 5 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-73192
record_format dspace
spelling irk-123456789-731922015-01-06T03:02:13Z Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів Грязнухіна, Т. Любченко, Т. Матеріали міжнародної наукової конференції The question of the place of paronymy in the automatic text processing has been discussed. A formal description of concepts of the phonetic paronyms and quasiparonyms is given. The principles of automatic building of lexicographical database (LDB) of paronyms have been described. LDB is the basis for creating digital dictionary paronyms. Dictionary article contains information about the types of paronyms (phonetic or quasiparonyms), their grammatical features and about the values of the components of paronymic pair. This information is selected from the Explanatory Dictionary integrated with the LDB of paronyms. Computer technology for creation of digital dictionary of paronyms compiled in the Ukrainian Lingua-Information Fund of National Academy of Sciences of Ukraine has been described. 2011 Article Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів / Т. Грязнухіна, Т. Любченко // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2011. — Вип. 20. — С. 28-34. — Бібліогр.: 5 назв. — укр. XXXX-0118 http://dspace.nbuv.gov.ua/handle/123456789/73192 81’33+81’373.42 uk Лексикографічний бюлетень Інститут української мови НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
topic Матеріали міжнародної наукової конференції
Матеріали міжнародної наукової конференції
spellingShingle Матеріали міжнародної наукової конференції
Матеріали міжнародної наукової конференції
Грязнухіна, Т.
Любченко, Т.
Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів
Лексикографічний бюлетень
description The question of the place of paronymy in the automatic text processing has been discussed. A formal description of concepts of the phonetic paronyms and quasiparonyms is given. The principles of automatic building of lexicographical database (LDB) of paronyms have been described. LDB is the basis for creating digital dictionary paronyms. Dictionary article contains information about the types of paronyms (phonetic or quasiparonyms), their grammatical features and about the values of the components of paronymic pair. This information is selected from the Explanatory Dictionary integrated with the LDB of paronyms. Computer technology for creation of digital dictionary of paronyms compiled in the Ukrainian Lingua-Information Fund of National Academy of Sciences of Ukraine has been described.
format Article
author Грязнухіна, Т.
Любченко, Т.
author_facet Грязнухіна, Т.
Любченко, Т.
author_sort Грязнухіна, Т.
title Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів
title_short Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів
title_full Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів
title_fullStr Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів
title_full_unstemmed Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів
title_sort словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів
publisher Інститут української мови НАН України
publishDate 2011
topic_facet Матеріали міжнародної наукової конференції
url http://dspace.nbuv.gov.ua/handle/123456789/73192
citation_txt Словник української мови у 20-ти томах як інструмент для створення електронного словника паронімів / Т. Грязнухіна, Т. Любченко // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2011. — Вип. 20. — С. 28-34. — Бібліогр.: 5 назв. — укр.
series Лексикографічний бюлетень
work_keys_str_mv AT grâznuhínat slovnikukraínsʹkoímoviu20titomahâkínstrumentdlâstvorennâelektronnogoslovnikaparonímív
AT lûbčenkot slovnikukraínsʹkoímoviu20titomahâkínstrumentdlâstvorennâelektronnogoslovnikaparonímív
first_indexed 2025-07-05T21:50:37Z
last_indexed 2025-07-05T21:50:37Z
_version_ 1836845354262200320
fulltext 28 Грязнухіна Т., Любченко Т. Тетяна Грязнухіна Тетяна Любченко Словник української мови у 20-ти томах як інструмент для створення Електронного словника паронімів У галузі автоматичної обробки текстової інформації явище паронімії при- вертає до себе велику увагу. Досить згадати відому систему «КроссЛекси- ка: Большой Электронный Словарь сочетаний и смысловых связей русских слов» [1], в якій зафіксовано понад 0,5 млн. паронімічних зв’язків. Стало очевидним, що ступінь ефективності систем автоматичної обробки текстів (АОТ) значною мірою залежить від того, наскільки ці системи вміють розпізнавати у вихідному тексті ситуації неправильного (з погляду адекват- ності передачі авторської думки) вживання одного з компонентів пароніміч- ного комплексу. Уявімо собі, як, наприклад, пошукова інформаційна система здійснить відбір документів на запит філософа, якщо серед ключових слів для пошуку буде задано інсайд (гравець у футбольній або хокейній команді, який займає положення в лінії нападу між крайнім і центральним гравцями) замість ін- сайт (в інтуїтивістській теорії пізнання – акт раптового проникнення в суть проблеми без логічного аналізу її, акт безпосереднього пізнання), а в запиті фізика буде записано як ключове слово ампір (стиль пізнього класицизму в західноєвропейській архітектурі та прикладному мистецтві) замість ампер (одиниця виміру сили електричного струму). Зрозуміло, що помилкове вжи- вання таких схожих слів одне замість іншого суттєво збільшує показники «шуму» інформаційної пошукової системи. Виходом із подібних ситуацій є забезпечення систем АОТ модулем авто- матичного редагування, який за допомогою електронного словника пароні- мів міг би розпізнавати пароніми в тексті і надавати користувачеві інформа- цію щодо значення відповідних слів у мові. Завданням цього дослідження є: – формування лінгвістичної бази даних (ЛБД) паронімів української мови і створення на її основі електронного словника паронімів (ЕСП), орієнтованого на писемний варіант мови; – інтеграція електронного словника в лексикографічну систему Україн- ського мовно-інформаційного фонду НАН України; УДК 81’33+81’373.42 29 Словник української мови у 20-ти томах... – паронімічна параметризація реєстру тлумачного словника; – розробка алгоритму ідентифікації паронімів у тексті. Вихідним лексичним матеріалом, на якому формується Словник паронімів, обрано реєстр 20-томного Словника української мови. У цьому словнику, як і в інтегрованому з ним Граматичному словнику, широко представлено загально- наукову термінологію та спеціалізовані терміносистеми. Граматичний словник використовується як інструмент автоматичного морфологічного аналізу, здій- снення якого необхідне як на етапі визначення претендентів-паронімів (останні визначаються в межах одного лексико-граматичного класу), так і на етапі іден- тифікації паронімів у тексті, що виконується за лемами текстових словоформ. Зрозуміло, що формування ЕСП на такій представницькій вибірці, як тлу- мачний словник (близько 200 тис. реєстрових одиниць) може здійснюватися тільки в автоматизованому режимі. А це, в свою чергу, зумовлює необхід- ність розроблення спеціальних програм, які забезпечували б розв’язання по- ставлених завдань. Створення програм неможливе без формалізації поняття паронім, тобто без інтерпретації по відношенню до писемної форми мов- лення двох основних (визнаних усіма лінгвістами) характеристик пароні- мів – «подібність звучання» та «семантична розбіжність». За ступенем прояву в паронімах указаних характеристик їх розділили на дві групи: власне пароніми (фонетичні) та квазіпароніми (семантичні). Паро- німи першої групи є повністю семантично різними. Квазіпаронімам властива загальна понятійно-логічна співвіднесеність, яка встанавлюється за кореневи- ми частинами слів. Порівняймо: (1) Фонетичні пароніми: сУВі#й• (1. Що-небудь згорнуте, скручене в трубку // Відт. 1. Старовин- ний рукопис, згорнутий у трубку // Відт. 2. Клуб (диму, пари і т. ін.) // Відт. 3. Сніговий замет // Відт. 4. Кільце, петля 2. Шматок полотна або іншої тканини певної довжини, який зберігають згорнутим у трубку 3. Ланцюг послідовних подій, вражень, думок і т. ін. 4. Те саме, що пакỳнок 1) – сУфі#й (1. Послідовник, прихильник суфізму) роба#к• (1. Те саме, що черв’к) – роПа#к, (1. Різновид торосистих утворень морського льоду у вигляді крижини, що стоїть ребром на порівняно рівній льодяній поверхні) (2) Квазіпароніми: такти#чний • (1. Стос. до тактики. 2. Стос. до провадження бою, бойо- вий) – 30 Грязнухіна Т., Любченко Т. такто#Вний (Який володіє почуттям міри, такту); інфорМати#Вність• (відомості, знання про якісь події) – інфорМо#Ваність (кількісні та якісні показники, що характеризу- ють процес засвоєння інформації). Включення квазіпаронімів до електронного словника зумовлено тим мір- куваням, що таких слів у мові й мовленні багато, а неправильне вживання їх у тексті призводить до тих самих спотворень змісту висловлювання, які виника- ють і в результаті помилкового вживання фонетичних паронімів. Квазіпароні- ми поширені здебільшого в текстах нехудожнього стилю і, як правило, нале- жать до термінологічної лексики. А саме ці тексти, у першу чергу, і є об’єктом аналізу в системах АОТ. Неправильне вживання квазіпаронімів фіксується в текстах частіше, ніж фонетичних. І якщо неправильне вживання останніх – на- слідок описки чи друкарської помилки, то причиною помилкового вживання квазіпаронімів є швидше за все незнання семантики слів. Саме тому ця части- на лексики є об’єктом пильної уваги в словниках-довідниках С. І. Головащука [2; 3], Д. Г. Гринчишина [4], С. Я. Єрмоленко [5]. Інтерпретація характеристики «звукова подібність» паронімів для квазіпа- ронімів здійснюється за менш жорсткими правилами, ніж для фонетичних. У писемній формі мовлення звуковій подібності слів-паронімів від- повідає подібність їхніх графемних структур. Для фонетичних паронімів остання інтерпретується як розбіжність цих структур лише в одну букву, а для квазіпаронімів – в одну чи в дві-шість контактно розташованих букв залежно від довжини слова. Експліцитне визначення ознаки «графемна подібність» близьких за звучанням слів-претендентів на роль фонетичних паронімів задається множиною бінарних фонологічних ознак букв, які забезпечують ознаку звукової подібності паронімів. До ознак, які забороняють встановлення паронімічних відношень, належать опозиції: приголосний / голосний, сонорний / несонорний. За цим правилом не вважатимуться паронімами пари: баран – бакан, кольт – кольє, люес – люкс, хокей – хорей. Виняток було зроблено для слів з початковими літерами «в/у». Специфічною ри- сою української мови є контекстна варіативність прийменника та префікса «в/у», що зафіксована в правилах Правопису, які задають фонетичні кон- тексти вибору одного з варіантів: «зустріла вдома», але «зустрів удома». Здавалося б, що перевірка та виправлення помилки неправильного вибору варіанта не викликає ніяких труднощів у процесі автоматичного редагуван- ня: закінчується слово, що стоїть у препозиції до слова з варіативним «в/у», голосним – замінюємо «у» на «в». Якщо «зустріла», то замість написаного 31 Словник української мови у 20-ти томах... «удома» слід написати «вдома». Але, як показав попередній аналіз словни- ка, серед варіантів префіксальних слів з «в/у» є досить багато слів, у яких саме префікс «в-» чи «у-» виконує смислову розрізнювальну функцію, і, отже, ми маємо справу не з фонетичними варіантами, а з паронімами. Під- порядкування таких слів загальним правилам фонетичного контексту може призвести до викривлення змісту. Порівняємо: ВПраВа (спеціальне завдання для набуття або закріплення певних навичок або знань) – УПраВа (1. іст. Установа, яка займалася суспіль- ними, становими та адміністративними справами. // Будинок, в якому містилася така установа. 2. іст. Керівний орган певної установи, орга- нізації, якогось підприємства і т. ін.; правління. 3. розм. Сила, здатна зупинити кого-небудь в його незаконних діях, сваволі і т. ін.; можливість справитися з кимось). ВДача (Сукупність психічних особливостей, із яких складається осо- бистість людини і які виявляються в її діях, поведінці) – УДача (успіх). При програмному формуванні ЛБД претендентів на роль паронімів було прийнято такі конкретні допустимі графемні розбіжності між ком- понентами паронімічної пари: – дзвінкий – глухий: б/п, в/ф, д/т, з/с, ж/ш, ґ/к, г/х; – сонорні між собою: м/н, л/р, в/л, в/й; – глухі між собою: п/т, к/х, к/т, к/ф, т/ф, ц/ч, ч/ш, ш/щ; – йотовані між собою: я/є, я/ї, я/ю, ю/ї, ї/є; – голосні: и/і, е/і, е/и, е/о, е/є, е/а, о/а, о/у, у/а, у/ю, і/ю, о/я; – нуль-графема / будь-яка графема (усередині слова). Крім того, для забезпечення умови подібності звучання до фонетичних па- ронімів висували ще вимоги – мати однакову схему наголосу і однакову до- вжину слова. За названими ознаками до ЛБД претендентів на роль паронімів автома- тично було відібрано близько 3 000 пар фонетичних паронімів. Усі три ознаки фонетичних паронімів не визнавали обов’язковими для квазіпаронімів. Добирання претендентів на роль квазіпаронімів відбувається серед слів завдовжки 5 або більше. Основним інструментом формування списку квазіпаронімів було обрано множину розрізнювальних ланцюжків букв у графемних структурах квазіпаронімів, зафіксованих у Словнику паронімів української мови Д. Г. Гринчишина [4]. Розрізнювальні ланцюжки визна- чали програмно. Для цього попередньо було конвертовано паперовий слов- ник у комп’ютерний. 32 Грязнухіна Т., Любченко Т. Таблиця 1 Визначення розрізнювальних ланцюжків за комп’ютерною версією Словника Гринчишина Паронімічна пара Збіг початкової частини Збіг кінцевої частини Розрізнювальні ланцюжки ГК Компонент 1 Компонент 2 1 2 абонент абонемент абоне нт ме І абонентський абонементний абоне ий нтськ ментн А автоматичний автоматизований автомати ний ч зова А автоматний автоматичний автомат ний ич А автоматично автоматизовано автомати но ч зова П У таблиці прийнято такі позначення: ГК – граматичний клас, І – іменни- ки, А – ад’єктиви, П – прислівники. Усього за Словником [4] було виділено 395 різновидів розрізнювальних ланцюжків. Одержаний список було доповнено 104 розрізнювальними лан- цюжками, визначеними за згаданими Довідниками С. І. Головащука [2; 3]. Відбирання квазіпаронімів до ЛБД претендентів здійснено автоматично. За- галом у ЛБД увійшло 9180 претендентів на роль квазіпаронімів. Таблиця 2 Приклади ланцюжків та приклади претендентів-квазіпаронімів Розрізнювальний ланцюжок Кількість квазіпаронімів Слово 1 Слово 2 аль/зацій 1 колоніальний колонізаційний аль/й 29 есенціальний есенційний аль/йова 7 градуальний градуйований альн/уюч 6 фіксальний фіксуючий ар/ет 5 авторитарно авторитетно арня/уваль 1 лікарняний лікувальний ат/ова 28 інтернатний інтернований аль/зацій 1 колоніальний колонізаційний зова/ч 77 автоматизовано автоматично Сформовану ЛБД претендентів на роль паронімів було інтегровано з комп’ютерною версією Тлумачного словника. Реалізацію даної інте- 33 Словник української мови у 20-ти томах... грації виконав співробітник Українського мовно-інформаційного фонду НАН України к. т. н. К. М. Якименко. У результаті інтеграції компонентам паронімічних пар поставлено у відповідність їхні лексичні значення, зафік- совані в тлумачних статтях Словника. Це дозволило здійснювати перевірку другої обов’язкової ознаки паронімів «бути семантично різними» в автома- тизованому режимі. На рис. 1 наводиться стаття редагування паронімічної пари шторм – штурм. Рис. 1. Вікно редагування паронімів Система редагування дозволяє вносити зміни в тлумачення значень ком- понентів паронімічної пари, якщо в Тлумачному словнику воно дається че- рез відсилання до тлумачень інших слів (звабливий 1 те саме, що тупий у значенні 6, звабливий 3 – те саме, що болючий у значенні 2 ...). Якщо в результаті зіставлення значень паронімів експерт приймає рішен- ня про переведення їх з претендентів у власне пароніми, натискується кла- віша «Паронім», якщо експерт не визнає претендентів паронімами, натиску- ється клавіша «Вилучити». 34 Грязнухіна Т., Любченко Т. Інформація в ЛБД про розрізнювальний ланцюжок у графемній структурі паронімів, про належність їх до певного граматичного класу, а також інфор- мація про тип паронімів (квазіпаронім чи фонетичний) використовується для формування вибірок за однією з цих характеристик. Це забезпечує зручність процесу редагування. У сформованому за результатами редагування Електронному словнику паронімів експліцитною залишається інформація про тип пароніма і зна- чення його компонентів. Література 1. Большаков И. А. КроссЛексика – большой электронный словарь со- четаний и смысловых связей русских слов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной кон- ференции «Диалог 2009» (Бекасово, 27–31 мая 2009 г.). – Вып. 8 (15).– М.: РГГУ, 2009. – С. 45 – 50. – Режим доступу до збірника праць: http://www.dialog-21.ru/ dialog2009/materials/html/08.htm 2. Головащук С. І. Українське літературне слововживання: Словник-довідник. – К.: Вища школа, 1995. – 318 с. 3. Головащук С. І. Словник-довідник з українського літературного слововжи- вання. – К.: УНВЦ «Рідна мова», 2000. – 351 с. 4. Гринчишин Д. Г. Словник паронімів української мови / Д. Г. Гринчишин, О. А. Сербенська. – К.: Освіта, 2008. – 320 с. 5. Культура української мови: Довідник / Єрмоленко С. Я., Дзюбишина- Мельник Н. Я., Ленець К. В. та ін. – Київ: Либідь. – 1990. – 304 с. Тetiana HRYAZNUKHINA, Тetiana LYUBCHENKO Explanatory Dictionary Of The Ukrainian Language In 20 Volumes As A Tool For Development Of The Digital Dictionary Of Paronyms. The question of the place of paronymy in the automatic text processing has been dis- cussed. A formal description of concepts of the phonetic paronyms and quasiparonyms is given. The principles of automatic building of lexicographical database (LDB) of paronyms have been described. LDB is the basis for creating digital dictionary paronyms. Dictionary article contains information about the types of paronyms (pho- netic or quasiparonyms), their grammatical features and about the values of the com- ponents of paronymic pair. This information is selected from the Explanatory Diction- ary integrated with the LDB of paronyms. Computer technology for creation of digital dictionary of paronyms compiled in the Ukrainian Lingua-Information Fund of Na- tional Academy of Sciences of Ukraine has been described.