Сегментація на акустичні склади для компілятивного синтезу англійського мовлення
This paper describes the approach to syllabification currently used in the Laboratory of Computational Linguistics (Kyiv National Linguistic University) for English text-to-speech synthesis. Syllable is a subcomponent of the word model whereas quasi-syllable is a subcomponent of the hierarchic sp...
Gespeichert in:
Datum: | 2006 |
---|---|
1. Verfasser: | |
Format: | Artikel |
Sprache: | Ukrainian |
Veröffentlicht: |
Інститут української мови НАН України
2006
|
Schriftenreihe: | Лексикографічний бюлетень |
Schlagworte: | |
Online Zugang: | http://dspace.nbuv.gov.ua/handle/123456789/72874 |
Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
Назва журналу: | Digital Library of Periodicals of National Academy of Sciences of Ukraine |
Zitieren: | Сегментація на акустичні склади для компілятивного синтезу англійського мовлення / З. Дудник // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2006. — Вип. 13. — С. 123-125. — Бібліогр.: 1 назв. — укр. |
Institution
Digital Library of Periodicals of National Academy of Sciences of Ukraineid |
irk-123456789-72874 |
---|---|
record_format |
dspace |
spelling |
irk-123456789-728742015-01-01T03:01:57Z Сегментація на акустичні склади для компілятивного синтезу англійського мовлення Дудник, З. Комп’ютерне розпізнавання й синтез усної мови This paper describes the approach to syllabification currently used in the Laboratory of Computational Linguistics (Kyiv National Linguistic University) for English text-to-speech synthesis. Syllable is a subcomponent of the word model whereas quasi-syllable is a subcomponent of the hierarchic speech model of phonetic word, rhythmical group, and syntagma. The real structure and syntactical position of quasi-syllables enables the TTS-system to retain the naturalness of concatenative speech signals. 2006 Article Сегментація на акустичні склади для компілятивного синтезу англійського мовлення / З. Дудник // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2006. — Вип. 13. — С. 123-125. — Бібліогр.: 1 назв. — укр. XXXX-0118 http://dspace.nbuv.gov.ua/handle/123456789/72874 81‘322.6 uk Лексикографічний бюлетень Інститут української мови НАН України |
institution |
Digital Library of Periodicals of National Academy of Sciences of Ukraine |
collection |
DSpace DC |
language |
Ukrainian |
topic |
Комп’ютерне розпізнавання й синтез усної мови Комп’ютерне розпізнавання й синтез усної мови |
spellingShingle |
Комп’ютерне розпізнавання й синтез усної мови Комп’ютерне розпізнавання й синтез усної мови Дудник, З. Сегментація на акустичні склади для компілятивного синтезу англійського мовлення Лексикографічний бюлетень |
description |
This paper describes the approach to syllabification currently used in the Laboratory of
Computational Linguistics (Kyiv National Linguistic University) for English text-to-speech
synthesis. Syllable is a subcomponent of the word model whereas quasi-syllable is a
subcomponent of the hierarchic speech model of phonetic word, rhythmical group, and
syntagma. The real structure and syntactical position of quasi-syllables enables the TTS-system to retain the naturalness of concatenative speech signals. |
format |
Article |
author |
Дудник, З. |
author_facet |
Дудник, З. |
author_sort |
Дудник, З. |
title |
Сегментація на акустичні склади для компілятивного синтезу англійського мовлення |
title_short |
Сегментація на акустичні склади для компілятивного синтезу англійського мовлення |
title_full |
Сегментація на акустичні склади для компілятивного синтезу англійського мовлення |
title_fullStr |
Сегментація на акустичні склади для компілятивного синтезу англійського мовлення |
title_full_unstemmed |
Сегментація на акустичні склади для компілятивного синтезу англійського мовлення |
title_sort |
сегментація на акустичні склади для компілятивного синтезу англійського мовлення |
publisher |
Інститут української мови НАН України |
publishDate |
2006 |
topic_facet |
Комп’ютерне розпізнавання й синтез усної мови |
url |
http://dspace.nbuv.gov.ua/handle/123456789/72874 |
citation_txt |
Сегментація на акустичні склади для компілятивного синтезу англійського мовлення / З. Дудник // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2006. — Вип. 13. — С. 123-125. — Бібліогр.: 1 назв. — укр. |
series |
Лексикографічний бюлетень |
work_keys_str_mv |
AT dudnikz segmentacíânaakustičnískladidlâkompílâtivnogosintezuanglíjsʹkogomovlennâ |
first_indexed |
2025-07-05T21:34:12Z |
last_indexed |
2025-07-05T21:34:12Z |
_version_ |
1836844321769259008 |
fulltext |
Лексикографічний бюлетень 123
6. Слипченко Л. Д. Фонемная структура лексики английского языка: Автореф. дис. …
канд. филол. наук: 10.02.21. – К., 1974 – 21 с.
7. СЭС. Советский энциклопедический словарь. – М.: Сов. энциклопедия, 1982. – 1600 с.:
ил.
8. Челышева И. И., Черданцева Т. З. Итальянский язык // Языки мира: Романские языки. –
М.: Academia, 2001. – С. 56-90.
9. Hockett Ch. F. A course in modern linguistics. – New York: The Macmillan Company, 1958.
– 621 p.
10. Nespor M. Fonologia. – Bologna: il Mulino, 1994. – 348 p.
11. Sabatini F., Coletti V. Dizionario Italiano Sabatini Coletti. – Firenze: Giunti Gruppo
Editoriale, 1997. – 3037 p. con illustrazioni
З. Дудник*
УДК 81‘322.6
СЕГМЕНТАЦІЯ НА АКУСТИЧНІ СКЛАДИ ДЛЯ КОМПІЛЯТИВНОГО
СИНТЕЗУ АНГЛІЙСЬКОГО МОВЛЕННЯ
This paper describes the approach to syllabification currently used in the Laboratory of
Computational Linguistics (Kyiv National Linguistic University) for English text-to-speech
synthesis. Syllable is a subcomponent of the word model whereas quasi-syllable is a
subcomponent of the hierarchic speech model of phonetic word, rhythmical group, and
syntagma. The real structure and syntactical position of quasi-syllables enables the TTS-system
to retain the naturalness of concatenative speech signals.
1. Відомо, що в теорії складу залишається багато нез‘ясованих питань, хоча над ними
працюють тисячі дослідників. Тісно пов‘язаними між собою є проблема складоподілу і
процедура сегментування на склади з прикладною метою. Синтезатори мовлення «текст
на озвучення», які підтримують конкатенацію складів, при доборі елементної бази
спираються здебільшого на морфемно-фонологічні принципи складоподілу [1].
Процедуру препроцесорного фонетичного аналізу в цьому випадку прирівнюють до
процедури автоматичного складоподілу графічного тексту, тобто джерелом правил
силабіфікації використовують матеріали, що фіксують результати мовного розвитку і
функціонування. Натомість вимогою, яка висувається до конкатенованого мовлення на
виході, є природність звучання, досягти якої можна лише з урахуванням реальних
властивостей породження мовлення. Несумісність теоретичних підходів і практичних
вимог вкотре ставить питання онтологічного підґрунтя теорії складу.
2. Виконання ручної сегментації акустичного сигналу мовлення на відрізки складової
розмірності з метою створення акустичної бази складів в системі синтезатора
англійського мовлення «текст на озвучення» привернуло увагу до можливостей
розв‘язання теоретичних проблем загальної фонетики і практичних проблем технології
мовлення. Якщо за вихідну точку відліку обрати онтологічний аспект породження, то
сегментація на склади має бути процедурою, що орієнтована на сутнісні властивості
матерії мовлення, а саме на її психофізіологічно і артикуляторно обумовлену
дискретність, а також на значну варіативність якості мовленнєвих подій. У такому разі
широкі лінгвістичні узагальнення про склад з позиції виділення в ньому суттєвого, а
також залежні від цієї позиції правила складоподілу мають братися до уваги з певною
обережністю, адже їх онтологічна орієнтація – це результати мовного функціонування і
нормативні вимоги, які не в змозі охопити реальні стратегії мовленнєвої поведінки.
Однак і для дослідника, який має справу з акустичним сигналом, вимовне зусилля
розкривається через підручний матеріал, тобто є інструментально фіксованим
результатом події. Тут так само виникає небезпека в тому, що особливості репрезентації
мовлення за допомогою певного технічного прийому будуть ототожнені із особливостями
самого мовлення. Приміром, структуру акустичної події репрезентує часова розгортка
сигналу (осцилограма, спектрограма), що відображує зміни тиску повітря та зміни
передавальної функції мовленнєвого тракту, яку фіксує мікрофон із власними технічними
характеристиками. Тому в акустичній картині немає повної відповідності артикуляційним
зусиллям. Наприклад, коли язик сильно притискається до піднебіння і відштовхується від
нього для наступного артикуляторного зусилля, акустичний сигнал як такий може бути
відсутній, але це не означає, що немає артикуляційної події. Іншими словами, подія
* © З. Дудник, 2006
124 Лексикографічний бюлетень
реальна може бути розтлумачена через властивості відображення цієї події фізичним
приладом у певний спосіб. Акустичні ознаки складового контрасту, пропоновані
Л. В. Бондарко для обґрунтування складової структури, мають бути узгоджені з
артикуляційною активністю органів і механізмами породження, інакше залишається
небезпека ототожнення підручної репрезентації сигналу із самими мовленнєвими
властивостями.
Таким чином, у теорії складу маємо Скіллу (ілюзія першовартості функціонального
підходу) і Харибду (ілюзія самодостатності підручного матеріалу), між якими необхідно
прокласти шлях і отримати позитивний результат, зокрема для здійснення обґрунтуваної
процедури сегментації.
Якщо при аналізі починати відлік не з традиційно прийнятих лінгвістичних категорій
та їх ознак, а з явищ і параметрів аспекту породження, то необхідно віддати належне
індивідуальному рівню, а саме психо-фізіологічним умовам звукотворення і
варіативності як сутнісним властивостям живого мовлення. Тоді через ці сутнісні
характеристики можна виходити на функціональний рівень існування складу як мовної
категорії, для якої суттєвою є реалізація фонетичної типології (складометричного чи
акцентноритмічного типу мовлення). Таким чином, у цілокупне розуміння складу як
актуального вимовного зусилля (сутнісне) й одночасно як вихованої артикуляторно-
акустичної звички (суттєве) включені не лише типологічний, а й індивідуальний
виміри, де типологічний визначає реалізацію структури складу, а індивідуальний –
його конститутивну роль, і разом вони залежать від виконавського наміру мовця.
Поєднання суттєвого й сутнісного у визначенні складу забезпечує адекватний підхід до
проблеми реального складоподілу і принципів сегментації.
3. Процедуру сегментації можна звільнити від двох когнітивних ілюзій, нашарованих
на явище дискретизації мовленнєвого потоку (широкого лінгвістичного узагальнення
явища в категорії склад та технічно обумовлених властивостей сигналу), якщо залишити
в стороні принципово неможливе визначення меж складу (як категорії), потім
відмовитися від технічно допустимого встановлення меж акустичних подій. Тоді
вивільнену увагу можна зосередити на коректній фіксації змін в координації
артикуляторних зусиль мовця.
За цим реальним орієнтиром фізичні ознаки, або параметри, які бралися до уваги при
встановленні межі складових зусиль, були визначені за фонетичною типологією
англійського мовлення, що належить до акцентноритмічного типу. Для мовлення цього
типу притаманний динамічний (силовий) наголос, який посилює контраст між
наголошеними й ненаголошеними складами не лише за інтенсивністю й чіткістю
вимовляння, а й за зміною тону. Для мовлення акцентноритмічного типу також
притаманне злиття кількох ненаголошених складів. В аналізованому матеріалі
простежувалася тенденція ритмічного підпорядкування частотних односкладових
артиклів, сполучників і прийменників наступному чи попередньому складу: and I; be a;
for our (рис. 1).
Рисунок 1. Квазісклади «and I», «be a», «for our».
Саме ці типологічно визначені характеристики й дозволили у складних випадках не
шукати обов‘язкового поділу на склади в очікуваному нормою випадку, а орієнтуватися
на ціліснісне артикуляційне зусилля. Виявилося, що межа фізіологічних зусиль
синхронізується зі зміною просодичних характеристик. Дещо подібне простежується у
мовленнєвій поведінці людини: макродискретність мовлення збігається зі зміною жестів
руки. У процедурі сегментації бралися до уваги порушення стабільності тонального
контуру (зміна висоти та/або інтенсивності, зміна руху тону та/або інтенсивності). З
огляду на обмеженість акустичної репрезентації щодо кількості проаналізованих
Лексикографічний бюлетень 125
артикуляційних подій (550 квазіскладів), шукати жорсткий акустичний еквівалент межі
виявилося недоцільним, хоча з накопиченням і описом максимально можливої кількості
випадків постане необхідність обґрунтувати правила автоматичної сегментації.
Серед завдань сегментації постало питання щодо залучення складів, які виникають на
міжсловесних стиках і відповідають за фонетичну цілісність синтагми: build a lot of (рис.
2); think it; break in; tariffs on; if I; sort out; don't agree; rich, expanding.
Рисунок 2. Міжсловесні квазісклади: buil da lo tof.
Просодичні ознаки також виявилися важливими критеріями при виділенні
міжсловесних квазіскладів. На рис. 2 можна навіть помітити зміну частоти основного
тону для кожного зусилля.
Важливу роль відіграло урахування при сегментації позиції складу в синтагмі чи
акцентній групі. Склади для бази даних індексувалися як початкові, серединні й кінцеві
відносно синтагматичної паузи. Початкові й кінцеві склади були почленовані з
включенням невеликої паузи. Детальніше про укладання бази даних див. у статті
Володкевич О. в цьому ж збірнику. Маючи природно оформлені характеристики інтонації
в синтагмі при синтезі такі склади створюють задовільний інтонаційний малюнок
звучання. Уже при синтезуванні цих елементів акустичної бази з‘ясувалася також і
перевага збереження й використання базою даних варіативних реалізацій складу, що
додає природності синтезованому мовленню.
4. Склад на функціональному рівні виявляє свої властивості як субкомпонент морфо-
фонемної моделі слова, склад на рівні породження (як квазісклад) є субкомпонентом в
ієрархічній моделі фонетичного слова, ритмічної групи й синтагми.
Таким чином, складовий синтез англійського мовлення може спиратися на такі
реальні характеристики складу, які мають місце як в типології англійського мовлення, так
і в індивідуальному мовленні диктора.
Література
1. Lewis E., Tatham M. W // Sixth European Conference on Speech Communications and
Technology, September 1999 // Proceedings of the ESCA. – Budapest. – V. 2. – Р. 615–618;
Möbius B. Word and Syllable Models for German Text-to-Speech Synthesis // SSW3–1998. – Р.
59–64.
Н. Наумова, к. філол. н.*
Запорізький національний університет (Запоріжжя)
УДК 81‘322.6
ІДЕНТИФІКАЦІЯ КОРИСТУВАЧІВ АНГЛІЙСЬКОЇ МОВИ У ДІЛОВОМУ
ДИСКУРСІ
The English language users’ identification in Business Discourse is studied diachronically.
Socio-pragmatic, discoursive and communicational parameters are considered.
Міждисциплінарний характер сучасних мовознавчих студій уможливлює вивчення
когнітивно-дискурсивних аспектів мовлення у різних сферах діяльності людини.
Розробка комунікативних і когнітивних засад теорії дискурсу О.М. Ільченко (2002),
В.І. Карасиком (2004), К.Я. Кусько (2002), М.Л. Макаровим (2003), М.М. Полюжиним
* © Н. Наумова, 2006
|