Паралельні українсько-російський та російсько-український корпуси
Gespeichert in:
Datum: | 2011 |
---|---|
Hauptverfasser: | , , |
Format: | Artikel |
Sprache: | Ukrainian |
Veröffentlicht: |
Інститут української мови НАН України
2011
|
Schriftenreihe: | Лексикографічний бюлетень |
Schlagworte: | |
Online Zugang: | http://dspace.nbuv.gov.ua/handle/123456789/73193 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Zitieren: | Паралельні українсько-російський та російсько-український корпуси / О. Тищенко-Монастирська, М. Шведова, Д. Січінава // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2011. — Вип. 20. — С. 35-38. — Бібліогр.: 7 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-73193 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-731932015-01-06T03:02:10Z Паралельні українсько-російський та російсько-український корпуси Тищенко-Монастирська, О. Шведова, М. Січінава, Д. Матеріали міжнародної наукової конференції 2011 Article Паралельні українсько-російський та російсько-український корпуси / О. Тищенко-Монастирська, М. Шведова, Д. Січінава // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2011. — Вип. 20. — С. 35-38. — Бібліогр.: 7 назв. — укр. XXXX-0118 http://dspace.nbuv.gov.ua/handle/123456789/73193 811.2’374.72’22 uk Лексикографічний бюлетень Інститут української мови НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Ukrainian |
topic |
Матеріали міжнародної наукової конференції Матеріали міжнародної наукової конференції |
spellingShingle |
Матеріали міжнародної наукової конференції Матеріали міжнародної наукової конференції Тищенко-Монастирська, О. Шведова, М. Січінава, Д. Паралельні українсько-російський та російсько-український корпуси Лексикографічний бюлетень |
format |
Article |
author |
Тищенко-Монастирська, О. Шведова, М. Січінава, Д. |
author_facet |
Тищенко-Монастирська, О. Шведова, М. Січінава, Д. |
author_sort |
Тищенко-Монастирська, О. |
title |
Паралельні українсько-російський та російсько-український корпуси |
title_short |
Паралельні українсько-російський та російсько-український корпуси |
title_full |
Паралельні українсько-російський та російсько-український корпуси |
title_fullStr |
Паралельні українсько-російський та російсько-український корпуси |
title_full_unstemmed |
Паралельні українсько-російський та російсько-український корпуси |
title_sort |
паралельні українсько-російський та російсько-український корпуси |
publisher |
Інститут української мови НАН України |
publishDate |
2011 |
topic_facet |
Матеріали міжнародної наукової конференції |
url |
http://dspace.nbuv.gov.ua/handle/123456789/73193 |
citation_txt |
Паралельні українсько-російський та російсько-український корпуси / О. Тищенко-Монастирська, М. Шведова, Д. Січінава // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2011. — Вип. 20. — С. 35-38. — Бібліогр.: 7 назв. — укр. |
series |
Лексикографічний бюлетень |
work_keys_str_mv |
AT tiŝenkomonastirsʹkao paralelʹníukraínsʹkorosíjsʹkijtarosíjsʹkoukraínsʹkijkorpusi AT švedovam paralelʹníukraínsʹkorosíjsʹkijtarosíjsʹkoukraínsʹkijkorpusi AT síčínavad paralelʹníukraínsʹkorosíjsʹkijtarosíjsʹkoukraínsʹkijkorpusi |
first_indexed |
2025-07-05T21:50:39Z |
last_indexed |
2025-07-05T21:50:39Z |
_version_ |
1836845356507201536 |
fulltext |
35
Паралельні українсько-російський та російсько-український корпуси
Оксана Тищенко-Монастирська
Марія Шведова
Дмитро Січінава
Паралельні українсько-російський та
російсько-український корпуси1
Паралельний корпус (тобто електронний анотований корпус, до якого крім
оригінальних текстів залучено їхні переклади тією чи іншою мовою, які вирів-
няні за реченнями або абзацами) – новий напрямок корпусної лінгвістики, що
стрімко поширюється нині в Європі та світі. Можливості застосування пара-
лельних корпусів різноманітні. Вони, зокрема, використовуються в переклад-
ній лексикографії (укладання загальномовних та термінологічних словників,
добір ілюстративного матеріалу), порівняльних лексичних та граматичних до-
слідженнях (контрастивна лінгвістика), вивченні теорії та практики перекладу,
розробці систем автоматичного перекладу, викладанні мови.
Особливу роль у європейській корпусній лінгвістиці відіграє створення
паралельних корпусів кількох слов’янських мов. Окрім проекту паралель-
них українсько-російських та російсько-українських корпусів, пов’язаного
з Національним корпусом російської мови (за участю НКРМ розвиваються
також білорусько-російський та польсько-російський паралельні корпуси),
динамічно розгортаються такі великі проекти, як ASPAC (Амстердамський
слов’янський паралельний корпус А.Барентсена, http://home.medewerker.
uva.nl/a.a.barentsen/), ParaSOL («Паралельний корпус слов’янських та ін-
ших мов», Берн–Регенсбург, [Waldenfels 2006]), чеський InterCorp [Vavřín,
Rosen 2009]. Колективи розробників регулярно представляють паралельні
слов’янські корпуси на конференціях з корпусної лінгвістики, де обгово-
рюються питання обміну матеріалом та досвідом. З 2010 р. корпусна комі-
сія міжнародного комітету славістів організовує конференції Slavicorp, а у
2012 р. на Міжнародному з’їзді славістів у Мінську слов’янським паралель-
ним корпусам буде присвячено спеціальний круглий стіл.
Проект з розвитку паралельних українсько-російських та російсько-україн-
ських корпусів розробляється з 2010 р. спільним колективом українських і
УДК 811.2’374.72’22
1Статтю написано за підтримки програми Президії РАН «Корпусна лінгвістика».
36
Тищенко-Монастирська О., Шведова М., Січінава Д.
російських учасників, які представляють різні науково-дослідні організа-
ції (Інститут української мови та Інститут мовознавства НАНУ, Київський
лінгвістичний університет, Інститут російської мови та Інститут мовознав-
ства РАН). І україністи, й русисти мають уже достатній досвід з теоретич-
ної та практичної розробки одномовних корпусів. Для російської мови це
передусім традиція, що іде від проекту Машинного фонду російської мови
до Національного корпусу (http://ruscorpora.ru; див. на цьому сайті список
публікацій), для української – Мовно-інформаційний фонд НАНУ, корпус
(точніше, низка корпусів) лабораторії комп’ютерної лінгвістики КНУ (http://
mova.info), проект Національного корпусу [Демська-Кульчицька 2005]. Є
також досвід створення паралельних корпусів: крім уже згаданих багато-
мовних, що містять російську й українську мови, існують проекти польсько-
українського корпусу [Kotsyba 2010], українсько-російського корпусу но-
вин ElVisti, що створюється автоматичним шляхом [Ландэ, Жигало 2010],
російсько-іншомовних корпусів (не лише слов’янських) у складі Національ-
ного корпусу російської мови [Шведова, Сичинава 2010]. Досвід розробки
усіх цих проектів всебічно враховується в підготовці українсько-російського
та російсько-українського корпусів.
Паралельний українсько-російський корпус відкритий для пошуку у відпо-
відному розділі сайту НКРМ і станом на липень 2011 р. містить 131 текст об-
сягом 2 млн словоформ (за кількістю текстів це найбільший паралельний кор-
пус серед тих, що були розроблені за участю НКРМ). Російсько-український
корпус поки що складається з 25 текстів загальним обсягом 1 млн словоформ.
Розширення його обсягу триває. Для паралельного корпусу цей параметр є не
менш значущим, ніж для одномовного: чим більший за обсягом корпус, тим
вища надійність невипадковості повторення тих чи інших моделей перекладу.
Обидва корпуси достатньо репрезентативні з хронологічного погляду:
вони охоплюють період від творчості засновників літературних мов – Кот-
ляревського й Пушкіна – до сьогодення. Цікавою теоретичною проблемою є
той факт, що під час розробки паралельних корпусів завдання жанрової ре-
презентативності раніше практично не ставилося. У більшості паралельних
корпусів зібрано тексти, що представляють лише один жанр; зазвичай це тіль-
ки художні тексти, іноді – тільки офіційно-ділові (наприклад, у корпусі доку-
ментів Європейського союзу, http://corpus.leeds.ac.uk/paraquery.html). Звісно,
це пояснюється об’єктивними чинниками функціонування перекладних тек-
стів: тиражні тексти, які часто перевидаються (особливо художні), перекла-
дають частіше, ніж, скажімо, газетну публіцистику або тим більше приватне
листування. Проте до українсько-російського та російсько-українського кор-
37
Паралельні українсько-російський та російсько-український корпуси
пусів залучено (або планується залучити) також наукові тексти, публіцисти-
ку, навіть особисті листи письменників, які увійшли до перекладних видань
їхніх творів. До корпусу також залучено перекладений російською мовою
український фольклор (казки та легенди). Прецедентів включення до пара-
лельних корпусів такого матеріалу раніше не було. Ми намагаємося якомога
репрезентативніше відобразити жанри та різновиди текстів, які були пере-
кладені в різні часи з української мови на російську та навпаки.
Переклади з української на російську та з російської на українську ста-
новлять значний інтерес для вивчення обох мов. Адже йдеться про близькос-
поріднені мови, різниця у лексичній та граматичній будові між якими часто
є досить неочевидною і складною. Слід також враховувати, що в описах та
словниках радянського часу норми цих мов з ідеологічних міркувань не-
рідко штучно зближувалися. Корпусне дослідження (рівносильне повному
«розписуванню» величезного обсягу текстів на картки в традиційній лекси-
кографії) надає можливість виявити всю повноту і складність картини між-
мовних відповідностей у кожному конкретному випадку. Перекладні тексти
тут становлять не менш цінний матеріал, ніж оригінальні. Українська школа
художнього перекладу завжди цінувалася з огляду на мовне та стилістичне
багатство перекладених текстів, мова українських перекладачів уже аналізу-
валася з лінгвістичного, зокрема з лексикографічного, погляду [Скопненко,
Цимбалюк 2003]. Перекладачами виступали й відомі українські та російські
письменники. Серед перекладачів з російської на українську – Леся Укра-
їнка, Максим Рильський та Борис Антоненко-Давидович (крім того, деякі
письменники самі перекладали свої твори російською мовою), серед пере-
кладачів з української на російську – Корній Чуковський, Павло Антоколь-
ський і Всеволод Рождественський. Навіть у пересічних перекладах радян-
ського часу, в яких необхідно зважати на цензурні та редакційні зміни тексту
з ідеологічних причин, а також у сучасних масових перекладах публіцистики
та наукових текстів відображаються динамічні зміни мови у XX столітті, не
кажучи вже про історичну та культурологічну інформацію.
Тексти корпусу напівавтоматично, за реченнями, вирівнювали М. О. Шве-
дова, О. О. Тищенко-Монастирська і Г. Г. Кривенко за допомогою безкоштов-
ної програми LeoBilingua, доступної за адресою www.hot.ee/b/bclogic/. Ви-
користовувалися також уже вирівняні, люб’язно надані А. Барентсеном та
Р. фон Вальденфельсом тексти з проектів ASPAC і ParaSOL (їхня розмітка при
цьому дещо коригувалася, зокрема вирівнювання за абзацами у тих випад-
ках, де це можливо зробити автоматично, було замінене на вирівнювання за
реченнями). Надалі планується використовувати власну розробку (оболонку
38
Тищенко-Монастирська О., Шведова М., Січінава Д.
до програми HunAlign, яка застосовується, зокрема, у корпусі ParaSOL). Ви-
рівняні речення представлено у форматі XML. Всі тексти отримують авто-
матичну морфологічну розмітку (із незнятою омонімією; планується також
зняття омонімії в частині текстів). Для пошуку доступні будь-які сполучення
словоформ, лексем та граматичних характеристик; можливий також пошук з
урахуванням розділових знаків. В інтернет-інтерфейсі корпусу можна задати
хронологічний і жанровий підкорпус текстів, сортування пошукової видачі.
Нагальне для цілої низки потреб (зокрема лексикографічних) завдання
створення великих загальнодоступних корпусів української мови вирішене
ще не повністю, і розробка паралельних українсько-російських та російсько-
українських корпусів є лише одним із кроків у цьому напрямку.
Література
1. Демська-Кульчицька О. Основи Національного корпусу української мови. –
К., 2005.
2. Ландэ Д. В., Жигало В. В. О создании параллельного двуязычного корпуса веб-
публикаций [Електронний ресурс] // http://infostream.ua/ling/ml-small-end.pdf
3. Скопненко О., Цимбалюк Т. Фразеологiя перекладiв Миколи Лукаша, Словник-
довiдник. – К., Довiра, 2003. – 735 с.
4. Сичинава Д. В., Шведова М. А. Параллельные корпуса в составе национального
корпуса русского языка: технологии и решаемые задачи // Компьютерная лингвис-
тика: научное направление и учебная дисциплина: сборник научных статей. Вып. 1 /
Отв. ред. В. И. Коваль. – Гомель: ГГУ им. Ф. Скорины, 2010. – С. 31–35.
5. Kotsyba N. PolUKR (a Polish-Ukrainian parallel corpus) as a testbed for a parallel
corpora toolbox. (submitted for publication to the proceedings of the international
conference «SlaviCorp», 22–24 November 2010, Warsaw [Електронний ресурс] //
http://domeczek.pl/~natko/papers/NKotsyba_SlaviCorp2010_paper.pdf.
6. Vavřín M., Rosen A. Korpus InterCorp [Електронний ресурс] // http://korpus.
cz/intercorp-info.php.
7. Waldenfels R. Compiling a parallel corpus of slavic languages. Text strategies,
tools and the question of lemmatization in alignment. In: Brehmer, B., Zdanova, V.,
Zimny, R. (Hrsg.); Beiträge der Europäischen Slavistischen Linguistik (POLYSLAV) 9.
München, 123-138, 2006 [Електронний ресурс] // (http://www-nw.uni- regensburg.
de/%7E.war05297.slavistik. sprachlit.uni-regensburg.de/pub/ WaldenfelsParallel
Corpora2006. pdf.
|