Сегментація на акустичні склади для компілятивного синтезу англійського мовлення

This paper describes the approach to syllabification currently used in the Laboratory of Computational Linguistics (Kyiv National Linguistic University) for English text-to-speech synthesis. Syllable is a subcomponent of the word model whereas quasi-syllable is a subcomponent of the hierarchic sp...

Ausführliche Beschreibung

Gespeichert in:

Bibliographische Detailangaben
Datum:	2006
1. Verfasser:	Дудник, З.
Format:	Artikel
Sprache:	Ukrainian
Veröffentlicht:	Інститут української мови НАН України 2006
Schriftenreihe:	Лексикографічний бюлетень
Schlagworte:	Комп’ютерне розпізнавання й синтез усної мови
Online Zugang:	http://dspace.nbuv.gov.ua/handle/123456789/72874
Tags:	Tag hinzufügen Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:	Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:	Сегментація на акустичні склади для компілятивного синтезу англійського мовлення / З. Дудник // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2006. — Вип. 13. — С. 123-125. — Бібліогр.: 1 назв. — укр.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine

id	irk-123456789-72874
record_format	dspace
spelling	irk-123456789-728742015-01-01T03:01:57Z Сегментація на акустичні склади для компілятивного синтезу англійського мовлення Дудник, З. Комп’ютерне розпізнавання й синтез усної мови This paper describes the approach to syllabification currently used in the Laboratory of Computational Linguistics (Kyiv National Linguistic University) for English text-to-speech synthesis. Syllable is a subcomponent of the word model whereas quasi-syllable is a subcomponent of the hierarchic speech model of phonetic word, rhythmical group, and syntagma. The real structure and syntactical position of quasi-syllables enables the TTS-system to retain the naturalness of concatenative speech signals. 2006 Article Сегментація на акустичні склади для компілятивного синтезу англійського мовлення / З. Дудник // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2006. — Вип. 13. — С. 123-125. — Бібліогр.: 1 назв. — укр. XXXX-0118 http://dspace.nbuv.gov.ua/handle/123456789/72874 81‘322.6 uk Лексикографічний бюлетень Інститут української мови НАН України
institution	Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection	DSpace DC
language	Ukrainian
topic	Комп’ютерне розпізнавання й синтез усної мови Комп’ютерне розпізнавання й синтез усної мови
spellingShingle	Комп’ютерне розпізнавання й синтез усної мови Комп’ютерне розпізнавання й синтез усної мови Дудник, З. Сегментація на акустичні склади для компілятивного синтезу англійського мовлення Лексикографічний бюлетень
description	This paper describes the approach to syllabification currently used in the Laboratory of Computational Linguistics (Kyiv National Linguistic University) for English text-to-speech synthesis. Syllable is a subcomponent of the word model whereas quasi-syllable is a subcomponent of the hierarchic speech model of phonetic word, rhythmical group, and syntagma. The real structure and syntactical position of quasi-syllables enables the TTS-system to retain the naturalness of concatenative speech signals.
format	Article
author	Дудник, З.
author_facet	Дудник, З.
author_sort	Дудник, З.
title	Сегментація на акустичні склади для компілятивного синтезу англійського мовлення
title_short	Сегментація на акустичні склади для компілятивного синтезу англійського мовлення
title_full	Сегментація на акустичні склади для компілятивного синтезу англійського мовлення
title_fullStr	Сегментація на акустичні склади для компілятивного синтезу англійського мовлення
title_full_unstemmed	Сегментація на акустичні склади для компілятивного синтезу англійського мовлення
title_sort	сегментація на акустичні склади для компілятивного синтезу англійського мовлення
publisher	Інститут української мови НАН України
publishDate	2006
topic_facet	Комп’ютерне розпізнавання й синтез усної мови
url	http://dspace.nbuv.gov.ua/handle/123456789/72874
citation_txt	Сегментація на акустичні склади для компілятивного синтезу англійського мовлення / З. Дудник // Лексикографічний бюлетень: Зб. наук. пр. — К.: Ін-т української мови НАН України, 2006. — Вип. 13. — С. 123-125. — Бібліогр.: 1 назв. — укр.
series	Лексикографічний бюлетень
work_keys_str_mv	AT dudnikz segmentacíânaakustičnískladidlâkompílâtivnogosintezuanglíjsʹkogomovlennâ
first_indexed	2025-07-05T21:34:12Z
last_indexed	2025-07-05T21:34:12Z
_version_	1836844321769259008
fulltext	Лексикографічний бюлетень 123 6. Слипченко Л. Д. Фонемная структура лексики английского языка: Автореф. дис. … канд. филол. наук: 10.02.21. – К., 1974 – 21 с. 7. СЭС. Советский энциклопедический словарь. – М.: Сов. энциклопедия, 1982. – 1600 с.: ил. 8. Челышева И. И., Черданцева Т. З. Итальянский язык // Языки мира: Романские языки. – М.: Academia, 2001. – С. 56-90. 9. Hockett Ch. F. A course in modern linguistics. – New York: The Macmillan Company, 1958. – 621 p. 10. Nespor M. Fonologia. – Bologna: il Mulino, 1994. – 348 p. 11. Sabatini F., Coletti V. Dizionario Italiano Sabatini Coletti. – Firenze: Giunti Gruppo Editoriale, 1997. – 3037 p. con illustrazioni З. Дудник* УДК 81‘322.6 СЕГМЕНТАЦІЯ НА АКУСТИЧНІ СКЛАДИ ДЛЯ КОМПІЛЯТИВНОГО СИНТЕЗУ АНГЛІЙСЬКОГО МОВЛЕННЯ This paper describes the approach to syllabification currently used in the Laboratory of Computational Linguistics (Kyiv National Linguistic University) for English text-to-speech synthesis. Syllable is a subcomponent of the word model whereas quasi-syllable is a subcomponent of the hierarchic speech model of phonetic word, rhythmical group, and syntagma. The real structure and syntactical position of quasi-syllables enables the TTS-system to retain the naturalness of concatenative speech signals. 1. Відомо, що в теорії складу залишається багато нез‘ясованих питань, хоча над ними працюють тисячі дослідників. Тісно пов‘язаними між собою є проблема складоподілу і процедура сегментування на склади з прикладною метою. Синтезатори мовлення «текст на озвучення», які підтримують конкатенацію складів, при доборі елементної бази спираються здебільшого на морфемно-фонологічні принципи складоподілу [1]. Процедуру препроцесорного фонетичного аналізу в цьому випадку прирівнюють до процедури автоматичного складоподілу графічного тексту, тобто джерелом правил силабіфікації використовують матеріали, що фіксують результати мовного розвитку і функціонування. Натомість вимогою, яка висувається до конкатенованого мовлення на виході, є природність звучання, досягти якої можна лише з урахуванням реальних властивостей породження мовлення. Несумісність теоретичних підходів і практичних вимог вкотре ставить питання онтологічного підґрунтя теорії складу. 2. Виконання ручної сегментації акустичного сигналу мовлення на відрізки складової розмірності з метою створення акустичної бази складів в системі синтезатора англійського мовлення «текст на озвучення» привернуло увагу до можливостей розв‘язання теоретичних проблем загальної фонетики і практичних проблем технології мовлення. Якщо за вихідну точку відліку обрати онтологічний аспект породження, то сегментація на склади має бути процедурою, що орієнтована на сутнісні властивості матерії мовлення, а саме на її психофізіологічно і артикуляторно обумовлену дискретність, а також на значну варіативність якості мовленнєвих подій. У такому разі широкі лінгвістичні узагальнення про склад з позиції виділення в ньому суттєвого, а також залежні від цієї позиції правила складоподілу мають братися до уваги з певною обережністю, адже їх онтологічна орієнтація – це результати мовного функціонування і нормативні вимоги, які не в змозі охопити реальні стратегії мовленнєвої поведінки. Однак і для дослідника, який має справу з акустичним сигналом, вимовне зусилля розкривається через підручний матеріал, тобто є інструментально фіксованим результатом події. Тут так само виникає небезпека в тому, що особливості репрезентації мовлення за допомогою певного технічного прийому будуть ототожнені із особливостями самого мовлення. Приміром, структуру акустичної події репрезентує часова розгортка сигналу (осцилограма, спектрограма), що відображує зміни тиску повітря та зміни передавальної функції мовленнєвого тракту, яку фіксує мікрофон із власними технічними характеристиками. Тому в акустичній картині немає повної відповідності артикуляційним зусиллям. Наприклад, коли язик сильно притискається до піднебіння і відштовхується від нього для наступного артикуляторного зусилля, акустичний сигнал як такий може бути відсутній, але це не означає, що немає артикуляційної події. Іншими словами, подія * © З. Дудник, 2006 124 Лексикографічний бюлетень реальна може бути розтлумачена через властивості відображення цієї події фізичним приладом у певний спосіб. Акустичні ознаки складового контрасту, пропоновані Л. В. Бондарко для обґрунтування складової структури, мають бути узгоджені з артикуляційною активністю органів і механізмами породження, інакше залишається небезпека ототожнення підручної репрезентації сигналу із самими мовленнєвими властивостями. Таким чином, у теорії складу маємо Скіллу (ілюзія першовартості функціонального підходу) і Харибду (ілюзія самодостатності підручного матеріалу), між якими необхідно прокласти шлях і отримати позитивний результат, зокрема для здійснення обґрунтуваної процедури сегментації. Якщо при аналізі починати відлік не з традиційно прийнятих лінгвістичних категорій та їх ознак, а з явищ і параметрів аспекту породження, то необхідно віддати належне індивідуальному рівню, а саме психо-фізіологічним умовам звукотворення і варіативності як сутнісним властивостям живого мовлення. Тоді через ці сутнісні характеристики можна виходити на функціональний рівень існування складу як мовної категорії, для якої суттєвою є реалізація фонетичної типології (складометричного чи акцентноритмічного типу мовлення). Таким чином, у цілокупне розуміння складу як актуального вимовного зусилля (сутнісне) й одночасно як вихованої артикуляторно- акустичної звички (суттєве) включені не лише типологічний, а й індивідуальний виміри, де типологічний визначає реалізацію структури складу, а індивідуальний – його конститутивну роль, і разом вони залежать від виконавського наміру мовця. Поєднання суттєвого й сутнісного у визначенні складу забезпечує адекватний підхід до проблеми реального складоподілу і принципів сегментації. 3. Процедуру сегментації можна звільнити від двох когнітивних ілюзій, нашарованих на явище дискретизації мовленнєвого потоку (широкого лінгвістичного узагальнення явища в категорії склад та технічно обумовлених властивостей сигналу), якщо залишити в стороні принципово неможливе визначення меж складу (як категорії), потім відмовитися від технічно допустимого встановлення меж акустичних подій. Тоді вивільнену увагу можна зосередити на коректній фіксації змін в координації артикуляторних зусиль мовця. За цим реальним орієнтиром фізичні ознаки, або параметри, які бралися до уваги при встановленні межі складових зусиль, були визначені за фонетичною типологією англійського мовлення, що належить до акцентноритмічного типу. Для мовлення цього типу притаманний динамічний (силовий) наголос, який посилює контраст між наголошеними й ненаголошеними складами не лише за інтенсивністю й чіткістю вимовляння, а й за зміною тону. Для мовлення акцентноритмічного типу також притаманне злиття кількох ненаголошених складів. В аналізованому матеріалі простежувалася тенденція ритмічного підпорядкування частотних односкладових артиклів, сполучників і прийменників наступному чи попередньому складу: and I; be a; for our (рис. 1). Рисунок 1. Квазісклади «and I», «be a», «for our». Саме ці типологічно визначені характеристики й дозволили у складних випадках не шукати обов‘язкового поділу на склади в очікуваному нормою випадку, а орієнтуватися на ціліснісне артикуляційне зусилля. Виявилося, що межа фізіологічних зусиль синхронізується зі зміною просодичних характеристик. Дещо подібне простежується у мовленнєвій поведінці людини: макродискретність мовлення збігається зі зміною жестів руки. У процедурі сегментації бралися до уваги порушення стабільності тонального контуру (зміна висоти та/або інтенсивності, зміна руху тону та/або інтенсивності). З огляду на обмеженість акустичної репрезентації щодо кількості проаналізованих Лексикографічний бюлетень 125 артикуляційних подій (550 квазіскладів), шукати жорсткий акустичний еквівалент межі виявилося недоцільним, хоча з накопиченням і описом максимально можливої кількості випадків постане необхідність обґрунтувати правила автоматичної сегментації. Серед завдань сегментації постало питання щодо залучення складів, які виникають на міжсловесних стиках і відповідають за фонетичну цілісність синтагми: build a lot of (рис. 2); think it; break in; tariffs on; if I; sort out; don't agree; rich, expanding. Рисунок 2. Міжсловесні квазісклади: buil da lo tof. Просодичні ознаки також виявилися важливими критеріями при виділенні міжсловесних квазіскладів. На рис. 2 можна навіть помітити зміну частоти основного тону для кожного зусилля. Важливу роль відіграло урахування при сегментації позиції складу в синтагмі чи акцентній групі. Склади для бази даних індексувалися як початкові, серединні й кінцеві відносно синтагматичної паузи. Початкові й кінцеві склади були почленовані з включенням невеликої паузи. Детальніше про укладання бази даних див. у статті Володкевич О. в цьому ж збірнику. Маючи природно оформлені характеристики інтонації в синтагмі при синтезі такі склади створюють задовільний інтонаційний малюнок звучання. Уже при синтезуванні цих елементів акустичної бази з‘ясувалася також і перевага збереження й використання базою даних варіативних реалізацій складу, що додає природності синтезованому мовленню. 4. Склад на функціональному рівні виявляє свої властивості як субкомпонент морфо- фонемної моделі слова, склад на рівні породження (як квазісклад) є субкомпонентом в ієрархічній моделі фонетичного слова, ритмічної групи й синтагми. Таким чином, складовий синтез англійського мовлення може спиратися на такі реальні характеристики складу, які мають місце як в типології англійського мовлення, так і в індивідуальному мовленні диктора. Література 1. Lewis E., Tatham M. W // Sixth European Conference on Speech Communications and Technology, September 1999 // Proceedings of the ESCA. – Budapest. – V. 2. – Р. 615–618; Möbius B. Word and Syllable Models for German Text-to-Speech Synthesis // SSW3–1998. – Р. 59–64. Н. Наумова, к. філол. н.* Запорізький національний університет (Запоріжжя) УДК 81‘322.6 ІДЕНТИФІКАЦІЯ КОРИСТУВАЧІВ АНГЛІЙСЬКОЇ МОВИ У ДІЛОВОМУ ДИСКУРСІ The English language users’ identification in Business Discourse is studied diachronically. Socio-pragmatic, discoursive and communicational parameters are considered. Міждисциплінарний характер сучасних мовознавчих студій уможливлює вивчення когнітивно-дискурсивних аспектів мовлення у різних сферах діяльності людини. Розробка комунікативних і когнітивних засад теорії дискурсу О.М. Ільченко (2002), В.І. Карасиком (2004), К.Я. Кусько (2002), М.Л. Макаровим (2003), М.М. Полюжиним * © Н. Наумова, 2006

Сегментація на акустичні склади для компілятивного синтезу англійського мовлення

Institution

Ähnliche Einträge