Тегування дат в національному корпусі української мови

У статті йдеться про кодування дат у текстах Національного корпусу української мови. Розглянуто власне поняття дати, способи її репрезентації в текстах різних стилів та можливі варіанти тегування....

Повний опис

Збережено в:
Бібліографічні деталі
Дата:2007
Автор: Тищенко, О.
Формат: Стаття
Мова:Ukrainian
Опубліковано: Інститут української мови НАН України 2007
Назва видання:Лексикографічний бюлетень
Теми:
Онлайн доступ:http://dspace.nbuv.gov.ua/handle/123456789/73037
Теги: Додати тег
Немає тегів, Будьте першим, хто поставить тег для цього запису!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Цитувати:Тегування дат в національному корпусі української мови / О. Тищенко // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2007. — Вип. 16. — С. 82-88. — Бібліогр.: 4 назв. — укр.

Репозитарії

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-73037
record_format dspace
spelling irk-123456789-730372015-01-04T03:01:59Z Тегування дат в національному корпусі української мови Тищенко, О. Комп'ютерна лінгвістика У статті йдеться про кодування дат у текстах Національного корпусу української мови. Розглянуто власне поняття дати, способи її репрезентації в текстах різних стилів та можливі варіанти тегування. 2007 Article Тегування дат в національному корпусі української мови / О. Тищенко // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2007. — Вип. 16. — С. 82-88. — Бібліогр.: 4 назв. — укр. XXXX-0118 http://dspace.nbuv.gov.ua/handle/123456789/73037 811.161.2’374.72’22 uk Лексикографічний бюлетень Інститут української мови НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Ukrainian
topic Комп'ютерна лінгвістика
Комп'ютерна лінгвістика
spellingShingle Комп'ютерна лінгвістика
Комп'ютерна лінгвістика
Тищенко, О.
Тегування дат в національному корпусі української мови
Лексикографічний бюлетень
description У статті йдеться про кодування дат у текстах Національного корпусу української мови. Розглянуто власне поняття дати, способи її репрезентації в текстах різних стилів та можливі варіанти тегування.
format Article
author Тищенко, О.
author_facet Тищенко, О.
author_sort Тищенко, О.
title Тегування дат в національному корпусі української мови
title_short Тегування дат в національному корпусі української мови
title_full Тегування дат в національному корпусі української мови
title_fullStr Тегування дат в національному корпусі української мови
title_full_unstemmed Тегування дат в національному корпусі української мови
title_sort тегування дат в національному корпусі української мови
publisher Інститут української мови НАН України
publishDate 2007
topic_facet Комп'ютерна лінгвістика
url http://dspace.nbuv.gov.ua/handle/123456789/73037
citation_txt Тегування дат в національному корпусі української мови / О. Тищенко // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2007. — Вип. 16. — С. 82-88. — Бібліогр.: 4 назв. — укр.
series Лексикографічний бюлетень
work_keys_str_mv AT tiŝenkoo teguvannâdatvnacíonalʹnomukorpusíukraínsʹkoímovi
first_indexed 2025-07-05T21:40:36Z
last_indexed 2025-07-05T21:40:36Z
_version_ 1836844724955119616
fulltext 82 Лексикографічний бюлетень 2007’16 ТЕГУВАННЯ ДАТ В НАЦІОНАЛЬНОМУ КОРПУСІ УКРАЇНСЬКОЇ МОВИ © Оксана Тищенко, 2007 к. філол. н., Інститут української мови НАНУ (Київ) УДК 811.161.2’374.72’22 У статті йдеться про кодування дат у текстах Національного корпусу української мови. Розглянуто власне поняття дати, способи її репрезентації в текстах різних стилів та можливі варіанти тегування. Створення корпусів мови як специфічно організованих текстових множин зумовлено тим, що певні дослідження в сучасних умовах інформаційного суспільства можна здійснювати лише на основі значного за обсягом мовного матеріалу, послуговуючись найновішими методами й технологіями в дослідженнях природних мов. Світовий досвід у цій галузі представлений численною кількістю репрезентативних корпусів як національних мов, так і мов окремих авторів чи функціональних стилів, діалектів та ін. 2 . Одним з наріжних питань у корпусній лінгвістиці є проблема кодування первинних даних та лінгвістичне анотування, тобто введення формалізованої лінгвістичної інформації в електронний текст (тегування). У Національному корпусі української мови (НКУМ) прийнято формат подання, що відповідає принципам ТЕІ 1 . Існує кілька типів анотації – довільної лінгвістичної інформації про лінгвально релевантні одиниці текстових даних і наявність такої інформації в тексті – семантична, анафорична, дискурсна, прагматична, морфологічна тощо 1 . Розглянемо проблему семантичного анотування, зокрема представлення в корпусі дат і часу. Дата – це календарний час якої-небудь події; позначка, що вказує час (рік, місяць, число) написання чого-небудь (листа, статті тощо) 4 . Отже, анотуванню підлягає позначка в тексті, що вказує на календарний час будь-якої події. Для визначення змісту та меж позначки, що підлягає анотуванню, а також змісту самої анотації дат в НКУМ використовуємо дані теоретичних джерел, передусім 1: 164–165; 3 . О. М. Демська-Кульчицька, закладаючи основи Національного корпусу української мови, розглядає кодування дат у межах кодування первинних даних – як число, тобто пріоритет надано не даті, а числовому позначенню величин, зокрема дат. Так, автор пропонує використовувати теги: Лексикографічний бюлетень 2007’16 83 <num> – довільно записане число з атрибутами type, який експлікує тип числового значення (дріб, порядковий числівник тощо), і value – стандартне подання значення числа; <date> – дата в довільному форматі запису за атрибутами calendar, що визначає систему числення чи календар, за яким подано дату, value – стандартне подання дати у форматі «рік–місяць–день»; цей атрибут визначає стандартний запис через Міжнародну Організацію зі Стандартизації (МОС) 8601 (ISO 8601). МОС 8601 описує значну кількість форматів дати й часу, наприклад, основний формат (без пунктуації) та розгорнутий (з використанням пунктуації), що дає можливість опускати певні елементи, як-от століття може бути представлене лише двома цифрами – 01.12.98, 13.01.07; <time> – часова інформація в межах доби в довільному форматі запису: <date value=’1980-02-21’>21 лютого 1980</date> <date value=’1980’>1980</date> <date value=’12.06’>дванадцятого червня</date> <time value=’15:00’>о третій дня</time > <s>Треба зауважити, що темпи зростання економіки США <date value=’2003’>в 2003 році</date> склали 8,3%.</> Такі анотації цілком задовільні, коли дати й час в анотованому тексті подані чітко й точно. Їх можна розширити, звернувшись до подання часу за МОС 8601, що окрім року (YY або YYYY), місяця (MM), дня (DD) пропонує подання: – секунд та десяткових часток секунд: ss.s; – годин і хвилин (hh:mm), виражених як у скоординованому середньому гринвіцькому часі (в UTS) зі спеціальним вказівником UTS («Z»), так і виражених у форматі місцевого часу, з поданням часового поясу в годинах та хвилинах: YYYY-MM-DDТhh:mm:ss.sTZD, де TZD вказує на часових пояс (Z + hh:mm:ss.s), напр.: 2007-09-16Т19:28:30.4+02:00. Однак крім точно вказаного моменту подій (рік, місяць, день, години, хвилини) у текстах трапляються приблизні вказівки, так звані неточні дати, напр., у другій половині дня, на початку вересня, в кінці року, середина XX ст., з вересня до грудня, за кілька років до проголошення незалежності тощо. У цьому разі для анотування пропонуємо розрізнювати точні й неточні, зокрема оказіональні (події, виражені в тексті як, наприклад, назва свята, якого-небудь відомого випадку, історичного періоду тощо), абсолютні та відносні дати й час, а також використовувати атрибут certainty, який вказує на ступінь точності, з якою подано дату. Абсолютна часова анотація містить такі елементи або їхню послідовність: <day>, <week>, <month>, <year>, <second>, <minute>, <hore>, <occasion> (останній елемент вживають для анотування оказіональних дат). 84 Лексикографічний бюлетень 2007’16 Додатково можливе детальніше анотування дат, для чого пропонується тег <dateStruct> – містить внутрішнє структуроване представлення, напр., для абсолютної дати, <timeStruct> – містить внутрішнє структуроване представлення часу (за джерелом 3 ): Мінімальний обсяг анотації дати й часу в тексті, який вказує тільки на їхню наявність: <s>Як відомо, <date>у четвер</date> його як свідка було викликано повісткою, підписаною слідчим у особливо важливих справах, керівником слідчої групи у справі Гонгадзе Грищенком.</> <s>Ті американці, які побували у нас в Полтаві <date>в жовтні 2003 року</date>, більше всього ділились враженнями саме про наш чорнозем. </> <s><date>11 листопада</date> до редакції зателефонували з виробничого відділу видавництва «Донеччина». </> <s>Тоді наступного дня, <date>12 листопада</date>, <time>о 9 год. 40 хв.</time> до приміщення, де ще кілька днів тому перебувала редакція «Острова», прибули молоді люди бритоголової зовнішності та вражаючих габаритів.</> <s>Рішенням господарського суду «Т» області <date>від 25 липня 2003 року</date>, що прийняте суддею, позовні вимоги задоволені у повному обсязі. </> <s>Незважаючи на драконівські закони царату <date>від 1863</date> та <date>1876 р.</date> щодо української мови, розвиток української культури піднявся на новий рівень.</> Представлення значення дати: <s>Ті американці, які побували у нас в Полтаві <date value=’2003- 10’>в жовтні 2003 року </date>, більше всього ділились враженнями саме про наш чорнозем. </> Представлення типу вираження дати: <s>Як відомо, у <date type=’name’>четвер</date> його як свідка було викликано повісткою, підписаною слідчим у особливо важливих справах, керівником слідчої групи у справі Гонгадзе Грищенком.</> Структуроване представлення дати: <s> Ті американці, які побували у нас в Полтаві <dateStruct value=’2003-10’> <month type=’name’ value=’–-10’> в жовтні</month> <year type=’num’ value=’2003–-’>2003 року</year> </dateStruct >, більше всього ділились враженнями саме про наш чорнозем.</> <dateRange> – містить дві абсолютні дати або інше визначення, що має значення певного періоду часу (діапазону), містить атрибути from – вказує на Лексикографічний бюлетень 2007’16 85 початкову точку дати, to – вказує на кінцеву точку дати, exact вказує на точність приписаних значень: <s>Населення Лівобережжя підтримало визвольний бунт польських землевласників <dateRange from=’1830’ to=’1831’>1830–1831 років </dateRange>.</> <s>Українському національному культурному відродженню сприяло .. заснування популярної газети «Український вісник» <dateRange from=’1816’ to=’1863’>1816–1863</dateRange>.</> <s>Якщо темпи росту ринку лізингу залишаться такими як <dateRange from=’2005’ to=’2006’> у 2005 – 2006 роках </dateRange>, то вартість укладених лізингових угод на кінець року збільшиться з 423 до 660 млн. доларів США. </> <timeRange> – так само містить дві вказівки на час, представлений у стандартній формі, або інше визначення, що вказує на певний проміжок часу (діапазон). Відносна часова анотація описує дату або час відносно іншого (абсолютного) часового моменту, містить такі елементи: <distanse> – вказує на часовий відтинок, що відмежовує анотовану подію від певної дати, відносно якої згадується; exact – вказує на ступінь точності, з якою подано часову відстань; <offset> – частина часової анотації, що означає напрям зміщення анотованої події відносно певної дати. <s><dateStruct value=’11-11’> <day type=’num’>11</day> <month type=’name’> листопада</month> </dateStruct> до редакції зателефонували з виробничого відділу видавництва «Донеччина».</> <s>Тоді <s><dateStruct value=’12-11’> <distanse reg=’1 day’ offset=after’11-11’>наступного дня</distanse> </dateStruct> до приміщення, де ще кілька днів тому перебувала редакція «Острова», прибули молоді люди бритоголової зовнішності та вражаючих габаритів.</> У наступному прикладі використано елемент <exact>, щоб продемонструвати брак точності часового проміжку відносно дати: <s><dateStruct > <distanse exact =«N» offset=after> Після</distanse> <year type=’num’>1885 р.</year> </dateStruct> народники втратили свою провідну позицію у визвольному русі.</> 86 Лексикографічний бюлетень 2007’16 Подія, відносно якої називається анотована точка часу, може бути вираженя як датою (у попередніх прикладах), так і в інший спосіб, напр., напередодні Нового року, після вітчизняної війни, за рік до помаранчевої революції тощо. Для означення таких подій вживаємо елемент <occasion>: <s>Національний рух не зник навіть <dateStruct> <distanse exact =«N» offset=after> після</distanse> <occasion>придушення революції</occasion> </dateStruct> </> <s> <dateStruct> < distanse reg=’1 day’ offset=before> Напередодні</distanse> <occasion>святвечора</occasion> </dateStruct> святий вогонь з Віфлеєма, який запалили від вічної лампади у печері, де народився Христос, привезли до Москви та Калінінграда.</> Таким чином, у текстах корпусу виявляємо дати абсолютні та відносні, серед них точні й неточні, репрезентовані як вказівкою на століття, рік, місяць, день, так і вказівкою на подію (свято, історична епоха, часткова подія тощо). На початковому етапі кодування вважаємо за необхідне мінімально ідентифікувати дату в тексті, означивши її межі. Так, крім власне вказівки на точку часу (1997, липень, XX, день народження тощо), до дати належать елементи тексту р., рік, ст., наприкінці, на початку, з середини, після, до та ін. Точні абсолютні дати: <s>Прийняття <date>в грудні 1867 р.</date> конституції гарантувало (хоча б формально) рівність всіх мов та національностей.</> <s>Як відомо, Крушельницький був автором низки публікацій у газеті «Індепендент», в яких наводилися уривки із допитів міліціонерів, які стежили за Георгієм Гонгадзе аж до дня його викрадення <date>16 вересня 2000 року</date>.</> Неточні абсолютні дати, зокрема оказіональні: <s>Так, англійській Ост-Індській та голандській Вест-Індській компаніям <date>на початку XVII ст.</date> держава надала виняткове (монопольне) право на торгівлю з Індією. </ > <s><date>З самого початку 19 століття</date> український національний культурний рух був тісно пов’язаний з політичним.</ > <s><date>Наприкінці ХІХ ст.</date> ринок чи не вперше за багатовікову історію свого існування та розвитку зіткнувся з серйозними проблемами. </ > Лексикографічний бюлетень 2007’16 87 <s>Ідеї Братства, закладені у національну свідомість, отримали розвиток серед представників соціального руху <date>наприкінці 19 ст.</date>.</> <s>В результаті розподілу селянських господарств <date>наприкінці 19 ст.</date> було створено ринок найманої праці.</> <s><date>В середині 1850 рр.</date> селянський рух охопив 422 селища Київської, Катеринославської та Херсонської губерній.</> <s><date>На святвечір</date> католики в різних регіонах Росії намагалися забути про кордони, що роз'єднують людей.</> <s><date>Під час так званої “галилейської кризи”</date>, коли вчення Ісуса про живий хліб, який зійшов з неба, обурило навіть його наближених, і можливо тут і відбувся кардинальний перелом в душі Іуди. </> <s>Відомий біблейський персонаж - Іуда Іскаріотський, якого ми знаємо як зрадника Ісуса Христа, став в <date>останні часи</date> об`єктом зацікавленості як вітчизняних так і зарубіжних дослідників Біблії та питань християнської релігії. </> Неточність може або не може бути подолана залежно від характеру датованої події, напр., країни підписали мирну угоду тільки в кінці століття – точність дати може бути відновлена в струкутрованому поданні року і дня підписання угоди; панівними монополістичні тенденції стають лише наприкінці ХІХ ст. – подання обмежується приблизною вказівкою. Абсолютні діапазонні дати (точні й неточні): <s>Перші політичні організації з’явилися <date>в 1880–1890 рр.</date>.</> <s>Взагалі монополістичні тенденції в різних формах та з різною силою проявлялися на всіх етапах розвитку ринкового суспільства (<date>з IV тисячоліття до н.е. до останньої третини ХІХ ст. </date>).</> Відносні дати точні, зокрема оказіональні: <s>Усього <date>через два роки після закінчення Великої Вітчизняної</date>.</> Відносні дати неточні: <s>Це сталося <date>за кілька днів до Різдва</date>.</> Відносні дати діапазонні (точні й неточні): <s>Зі шкільних часів ми пам'ятаємо історію про те, що експерти із капіталістичних країн після перемоги соціалістичної революції визначали наше відставання в 100 років.</> <s>Ми гордились тим, що наздогнали розвинені країни вже <date>через 10–20 років</date>.</> Література 1. Демська-Кульчицька О. М. Основи Національного корпусу української мови. – К., 2005. – 219 с. 88 Лексикографічний бюлетень 2007’16 2. Електронний ресурс: http://nkum.nm.ru. 3. Електронний ресурс: http://www.w3.org/TR/1998/NOTE-datetime-19980827 4. Словник іншомовних слів / Уклад. Л. О. Пустовіт, О. І. Скопненко та ін. – К.: Довіра, 2000. – 1018 с. ТЕГУВАННЯ ВЛАСНИХ НАЗВ ОРГАНІЗАЦІЙ В НАЦІОНАЛЬНОМУ КОРПУСІ УКРАЇНСЬКОЇ МОВИ © Ніна Лозова, 2007 Інститут української мови НАН України (Київ) УДК 811.161.2’374.72’22 У статті здійснено спробу уніфікувати оформлення власних назв у Національному корпусі української мови. Запропоновано способи тегування назв організацій. В Інституті української мови продовжується робота над створенням Національного корпусу української мови. Однією з невідкладних проблем є визначення принципів тегування текстів. Завданням цієї статті є випрацювання способів тегування власних назв організацій. Для того щоб виокремити в тексті власні назви організацій, потрібно визначити, що саме ми розуміємо під поняттям організація. Оскільки створюваний корпус української мови потребує формалізованого викладу даних, слід спиратися не на юридичне визначення, а на формальне. Пропонуємо власною назвою організації вважати будь-яку власну назву на позначення об’єднання осіб, організацій або держав. Це й підприємства, і громадські установи. До організацій зараховуємо й такі, як ЄС, СНД, Рада національної безпеки і оборони, Рада народних депутатів, Верховна Рада України, Рада Європи. Організацією вважаємо також комплекс споруд, у якому група людей або організацій здійснює певний обсяг робіт (це й аеропорт, і зоопарк). Отже, назва організації – це назва об’єднання осіб, організацій або держав, перше слово якої пишеться з великої літери. Назва може бути оформлена графічно будь-яким чином, містити пунктуаційні знаки, скорочення. Усі слова (або частина слів), а не лише перше, можуть писатися з великої літери. Слід визначити межу, за якою починається (закінчується) назва організації. Так, у наведених вище прикладах (Верховна Рада України, Рада Європи) до назви організації належить і географічна назва. Однак якщо топонім лише вказує на місце, якому організація належить чи де вона