Паралельні українсько-російський та російсько-український корпуси

Gespeichert in:
Bibliographische Detailangaben
Datum:2011
Hauptverfasser: Тищенко-Монастирська, О., Шведова, М., Січінава, Д.
Format: Artikel
Sprache:Ukrainian
Veröffentlicht: Інститут української мови НАН України 2011
Schriftenreihe:Лексикографічний бюлетень
Schlagworte:
Online Zugang:http://dspace.nbuv.gov.ua/handle/123456789/73193
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Паралельні українсько-російський та російсько-український корпуси / О. Тищенко-Монастирська, М. Шведова, Д. Січінава // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2011. — Вип. 20. — С. 35-38. — Бібліогр.: 7 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-73193
record_format dspace
spelling irk-123456789-731932015-01-06T03:02:10Z Паралельні українсько-російський та російсько-український корпуси Тищенко-Монастирська, О. Шведова, М. Січінава, Д. Матеріали міжнародної наукової конференції 2011 Article Паралельні українсько-російський та російсько-український корпуси / О. Тищенко-Монастирська, М. Шведова, Д. Січінава // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2011. — Вип. 20. — С. 35-38. — Бібліогр.: 7 назв. — укр. XXXX-0118 http://dspace.nbuv.gov.ua/handle/123456789/73193 811.2’374.72’22 uk Лексикографічний бюлетень Інститут української мови НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
topic Матеріали міжнародної наукової конференції
Матеріали міжнародної наукової конференції
spellingShingle Матеріали міжнародної наукової конференції
Матеріали міжнародної наукової конференції
Тищенко-Монастирська, О.
Шведова, М.
Січінава, Д.
Паралельні українсько-російський та російсько-український корпуси
Лексикографічний бюлетень
format Article
author Тищенко-Монастирська, О.
Шведова, М.
Січінава, Д.
author_facet Тищенко-Монастирська, О.
Шведова, М.
Січінава, Д.
author_sort Тищенко-Монастирська, О.
title Паралельні українсько-російський та російсько-український корпуси
title_short Паралельні українсько-російський та російсько-український корпуси
title_full Паралельні українсько-російський та російсько-український корпуси
title_fullStr Паралельні українсько-російський та російсько-український корпуси
title_full_unstemmed Паралельні українсько-російський та російсько-український корпуси
title_sort паралельні українсько-російський та російсько-український корпуси
publisher Інститут української мови НАН України
publishDate 2011
topic_facet Матеріали міжнародної наукової конференції
url http://dspace.nbuv.gov.ua/handle/123456789/73193
citation_txt Паралельні українсько-російський та російсько-український корпуси / О. Тищенко-Монастирська, М. Шведова, Д. Січінава // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2011. — Вип. 20. — С. 35-38. — Бібліогр.: 7 назв. — укр.
series Лексикографічний бюлетень
work_keys_str_mv AT tiŝenkomonastirsʹkao paralelʹníukraínsʹkorosíjsʹkijtarosíjsʹkoukraínsʹkijkorpusi
AT švedovam paralelʹníukraínsʹkorosíjsʹkijtarosíjsʹkoukraínsʹkijkorpusi
AT síčínavad paralelʹníukraínsʹkorosíjsʹkijtarosíjsʹkoukraínsʹkijkorpusi
first_indexed 2025-07-05T21:50:39Z
last_indexed 2025-07-05T21:50:39Z
_version_ 1836845356507201536
fulltext 35 Паралельні українсько-російський та російсько-український корпуси Оксана Тищенко-Монастирська Марія Шведова Дмитро Січінава Паралельні українсько-російський та російсько-український корпуси1 Паралельний корпус (тобто електронний анотований корпус, до якого крім оригінальних текстів залучено їхні переклади тією чи іншою мовою, які вирів- няні за реченнями або абзацами) – новий напрямок корпусної лінгвістики, що стрімко поширюється нині в Європі та світі. Можливості застосування пара- лельних корпусів різноманітні. Вони, зокрема, використовуються в переклад- ній лексикографії (укладання загальномовних та термінологічних словників, добір ілюстративного матеріалу), порівняльних лексичних та граматичних до- слідженнях (контрастивна лінгвістика), вивченні теорії та практики перекладу, розробці систем автоматичного перекладу, викладанні мови. Особливу роль у європейській корпусній лінгвістиці відіграє створення паралельних корпусів кількох слов’янських мов. Окрім проекту паралель- них українсько-російських та російсько-українських корпусів, пов’язаного з Національним корпусом російської мови (за участю НКРМ розвиваються також білорусько-російський та польсько-російський паралельні корпуси), динамічно розгортаються такі великі проекти, як ASPAC (Амстердамський слов’янський паралельний корпус А.Барентсена, http://home.medewerker. uva.nl/a.a.barentsen/), ParaSOL («Паралельний корпус слов’янських та ін- ших мов», Берн–Регенсбург, [Waldenfels 2006]), чеський InterCorp [Vavřín, Rosen 2009]. Колективи розробників регулярно представляють паралельні слов’янські корпуси на конференціях з корпусної лінгвістики, де обгово- рюються питання обміну матеріалом та досвідом. З 2010 р. корпусна комі- сія міжнародного комітету славістів організовує конференції Slavicorp, а у 2012 р. на Міжнародному з’їзді славістів у Мінську слов’янським паралель- ним корпусам буде присвячено спеціальний круглий стіл. Проект з розвитку паралельних українсько-російських та російсько-україн- ських корпусів розробляється з 2010 р. спільним колективом українських і УДК 811.2’374.72’22 1Статтю написано за підтримки програми Президії РАН «Корпусна лінгвістика». 36 Тищенко-Монастирська О., Шведова М., Січінава Д. російських учасників, які представляють різні науково-дослідні організа- ції (Інститут української мови та Інститут мовознавства НАНУ, Київський лінгвістичний університет, Інститут російської мови та Інститут мовознав- ства РАН). І україністи, й русисти мають уже достатній досвід з теоретич- ної та практичної розробки одномовних корпусів. Для російської мови це передусім традиція, що іде від проекту Машинного фонду російської мови до Національного корпусу (http://ruscorpora.ru; див. на цьому сайті список публікацій), для української – Мовно-інформаційний фонд НАНУ, корпус (точніше, низка корпусів) лабораторії комп’ютерної лінгвістики КНУ (http:// mova.info), проект Національного корпусу [Демська-Кульчицька 2005]. Є також досвід створення паралельних корпусів: крім уже згаданих багато- мовних, що містять російську й українську мови, існують проекти польсько- українського корпусу [Kotsyba 2010], українсько-російського корпусу но- вин ElVisti, що створюється автоматичним шляхом [Ландэ, Жигало 2010], російсько-іншомовних корпусів (не лише слов’янських) у складі Національ- ного корпусу російської мови [Шведова, Сичинава 2010]. Досвід розробки усіх цих проектів всебічно враховується в підготовці українсько-російського та російсько-українського корпусів. Паралельний українсько-російський корпус відкритий для пошуку у відпо- відному розділі сайту НКРМ і станом на липень 2011 р. містить 131 текст об- сягом 2 млн словоформ (за кількістю текстів це найбільший паралельний кор- пус серед тих, що були розроблені за участю НКРМ). Російсько-український корпус поки що складається з 25 текстів загальним обсягом 1 млн словоформ. Розширення його обсягу триває. Для паралельного корпусу цей параметр є не менш значущим, ніж для одномовного: чим більший за обсягом корпус, тим вища надійність невипадковості повторення тих чи інших моделей перекладу. Обидва корпуси достатньо репрезентативні з хронологічного погляду: вони охоплюють період від творчості засновників літературних мов – Кот- ляревського й Пушкіна – до сьогодення. Цікавою теоретичною проблемою є той факт, що під час розробки паралельних корпусів завдання жанрової ре- презентативності раніше практично не ставилося. У більшості паралельних корпусів зібрано тексти, що представляють лише один жанр; зазвичай це тіль- ки художні тексти, іноді – тільки офіційно-ділові (наприклад, у корпусі доку- ментів Європейського союзу, http://corpus.leeds.ac.uk/paraquery.html). Звісно, це пояснюється об’єктивними чинниками функціонування перекладних тек- стів: тиражні тексти, які часто перевидаються (особливо художні), перекла- дають частіше, ніж, скажімо, газетну публіцистику або тим більше приватне листування. Проте до українсько-російського та російсько-українського кор- 37 Паралельні українсько-російський та російсько-український корпуси пусів залучено (або планується залучити) також наукові тексти, публіцисти- ку, навіть особисті листи письменників, які увійшли до перекладних видань їхніх творів. До корпусу також залучено перекладений російською мовою український фольклор (казки та легенди). Прецедентів включення до пара- лельних корпусів такого матеріалу раніше не було. Ми намагаємося якомога репрезентативніше відобразити жанри та різновиди текстів, які були пере- кладені в різні часи з української мови на російську та навпаки. Переклади з української на російську та з російської на українську ста- новлять значний інтерес для вивчення обох мов. Адже йдеться про близькос- поріднені мови, різниця у лексичній та граматичній будові між якими часто є досить неочевидною і складною. Слід також враховувати, що в описах та словниках радянського часу норми цих мов з ідеологічних міркувань не- рідко штучно зближувалися. Корпусне дослідження (рівносильне повному «розписуванню» величезного обсягу текстів на картки в традиційній лекси- кографії) надає можливість виявити всю повноту і складність картини між- мовних відповідностей у кожному конкретному випадку. Перекладні тексти тут становлять не менш цінний матеріал, ніж оригінальні. Українська школа художнього перекладу завжди цінувалася з огляду на мовне та стилістичне багатство перекладених текстів, мова українських перекладачів уже аналізу- валася з лінгвістичного, зокрема з лексикографічного, погляду [Скопненко, Цимбалюк 2003]. Перекладачами виступали й відомі українські та російські письменники. Серед перекладачів з російської на українську – Леся Укра- їнка, Максим Рильський та Борис Антоненко-Давидович (крім того, деякі письменники самі перекладали свої твори російською мовою), серед пере- кладачів з української на російську – Корній Чуковський, Павло Антоколь- ський і Всеволод Рождественський. Навіть у пересічних перекладах радян- ського часу, в яких необхідно зважати на цензурні та редакційні зміни тексту з ідеологічних причин, а також у сучасних масових перекладах публіцистики та наукових текстів відображаються динамічні зміни мови у XX столітті, не кажучи вже про історичну та культурологічну інформацію. Тексти корпусу напівавтоматично, за реченнями, вирівнювали М. О. Шве- дова, О. О. Тищенко-Монастирська і Г. Г. Кривенко за допомогою безкоштов- ної програми LeoBilingua, доступної за адресою www.hot.ee/b/bclogic/. Ви- користовувалися також уже вирівняні, люб’язно надані А. Барентсеном та Р. фон Вальденфельсом тексти з проектів ASPAC і ParaSOL (їхня розмітка при цьому дещо коригувалася, зокрема вирівнювання за абзацами у тих випад- ках, де це можливо зробити автоматично, було замінене на вирівнювання за реченнями). Надалі планується використовувати власну розробку (оболонку 38 Тищенко-Монастирська О., Шведова М., Січінава Д. до програми HunAlign, яка застосовується, зокрема, у корпусі ParaSOL). Ви- рівняні речення представлено у форматі XML. Всі тексти отримують авто- матичну морфологічну розмітку (із незнятою омонімією; планується також зняття омонімії в частині текстів). Для пошуку доступні будь-які сполучення словоформ, лексем та граматичних характеристик; можливий також пошук з урахуванням розділових знаків. В інтернет-інтерфейсі корпусу можна задати хронологічний і жанровий підкорпус текстів, сортування пошукової видачі. Нагальне для цілої низки потреб (зокрема лексикографічних) завдання створення великих загальнодоступних корпусів української мови вирішене ще не повністю, і розробка паралельних українсько-російських та російсько- українських корпусів є лише одним із кроків у цьому напрямку. Література 1. Демська-Кульчицька О. Основи Національного корпусу української мови. – К., 2005. 2. Ландэ Д. В., Жигало В. В. О создании параллельного двуязычного корпуса веб- публикаций [Електронний ресурс] // http://infostream.ua/ling/ml-small-end.pdf 3. Скопненко О., Цимбалюк Т. Фразеологiя перекладiв Миколи Лукаша, Словник- довiдник. – К., Довiра, 2003. – 735 с. 4. Сичинава Д. В., Шведова М. А. Параллельные корпуса в составе национального корпуса русского языка: технологии и решаемые задачи // Компьютерная лингвис- тика: научное направление и учебная дисциплина: сборник научных статей. Вып. 1 / Отв. ред. В. И. Коваль. – Гомель: ГГУ им. Ф. Скорины, 2010. – С. 31–35. 5. Kotsyba N. PolUKR (a Polish-Ukrainian parallel corpus) as a testbed for a parallel corpora toolbox. (submitted for publication to the proceedings of the international conference «SlaviCorp», 22–24 November 2010, Warsaw [Електронний ресурс] // http://domeczek.pl/~natko/papers/NKotsyba_SlaviCorp2010_paper.pdf. 6. Vavřín M., Rosen A. Korpus InterCorp [Електронний ресурс] // http://korpus. cz/intercorp-info.php. 7. Waldenfels R. Compiling a parallel corpus of slavic languages. Text strategies, tools and the question of lemmatization in alignment. In: Brehmer, B., Zdanova, V., Zimny, R. (Hrsg.); Beiträge der Europäischen Slavistischen Linguistik (POLYSLAV) 9. München, 123-138, 2006 [Електронний ресурс] // (http://www-nw.uni- regensburg. de/%7E.war05297.slavistik. sprachlit.uni-regensburg.de/pub/ WaldenfelsParallel Corpora2006. pdf.