Определение позиций изменения диктора в речевом сигнале

В статье рассматривается один из подходов к определению позиции изменения диктора в непрерывном голосовом сигнале. Предложенный подход базируется на использовании коэффициентов мэл-кепстр для построения характеристического вектора и решении о наличии или отсутствии точки изменения диктора на основе...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Datum:2010
Hauptverfasser: Кривонос, Ю.Г., Загваздин, А.С., Крак, Ю.В.
Format: Artikel
Sprache:Russian
Veröffentlicht: Інститут проблем штучного інтелекту МОН України та НАН України 2010
Schriftenreihe:Штучний інтелект
Schlagworte:
Online Zugang:http://dspace.nbuv.gov.ua/handle/123456789/56281
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Назва журналу:Digital Library of Periodicals of National Academy of Sciences of Ukraine
Zitieren:Определение позиций изменения диктора в речевом сигнале / Ю.Г. Кривонос, А.С. Загваздин, Ю.В. Крак // Штучний інтелект. — 2010. — № 3. — С. 220-226. — Бібліогр.: 10 назв. — рос.

Institution

Digital Library of Periodicals of National Academy of Sciences of Ukraine
id irk-123456789-56281
record_format dspace
spelling irk-123456789-562812014-02-16T03:14:31Z Определение позиций изменения диктора в речевом сигнале Кривонос, Ю.Г. Загваздин, А.С. Крак, Ю.В. Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск В статье рассматривается один из подходов к определению позиции изменения диктора в непрерывном голосовом сигнале. Предложенный подход базируется на использовании коэффициентов мэл-кепстр для построения характеристического вектора и решении о наличии или отсутствии точки изменения диктора на основе меры различия множеств характеристических векторов. У статті розглядається один з підходів до визначення позиції зміни диктора у неперервному мовному сигналі. Запропонований підхід базується на використанні коефіцієнтів мел-кепстр для побудови характеристичного вектора і прийнятті рішення про існування чи відсутність точки зміни диктора на основі запропонованої міри відмінності множин характеристичних векторів. One of the approaches to detect speaker change in continuous speech signal is proposed in the paper. Suggested approach is based on using the mel-frequency cepstral coefficients to build a characteristic vector. Decision on existence or absence of speaker change at a given point is based on a proposed dissimilarity measure between the sets of characteristic vectors. 2010 Article Определение позиций изменения диктора в речевом сигнале / Ю.Г. Кривонос, А.С. Загваздин, Ю.В. Крак // Штучний інтелект. — 2010. — № 3. — С. 220-226. — Бібліогр.: 10 назв. — рос. 1561-5359 http://dspace.nbuv.gov.ua/handle/123456789/56281 004.934 ru Штучний інтелект Інститут проблем штучного інтелекту МОН України та НАН України
institution Digital Library of Periodicals of National Academy of Sciences of Ukraine
collection DSpace DC
language Russian
topic Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
spellingShingle Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
Кривонос, Ю.Г.
Загваздин, А.С.
Крак, Ю.В.
Определение позиций изменения диктора в речевом сигнале
Штучний інтелект
description В статье рассматривается один из подходов к определению позиции изменения диктора в непрерывном голосовом сигнале. Предложенный подход базируется на использовании коэффициентов мэл-кепстр для построения характеристического вектора и решении о наличии или отсутствии точки изменения диктора на основе меры различия множеств характеристических векторов.
format Article
author Кривонос, Ю.Г.
Загваздин, А.С.
Крак, Ю.В.
author_facet Кривонос, Ю.Г.
Загваздин, А.С.
Крак, Ю.В.
author_sort Кривонос, Ю.Г.
title Определение позиций изменения диктора в речевом сигнале
title_short Определение позиций изменения диктора в речевом сигнале
title_full Определение позиций изменения диктора в речевом сигнале
title_fullStr Определение позиций изменения диктора в речевом сигнале
title_full_unstemmed Определение позиций изменения диктора в речевом сигнале
title_sort определение позиций изменения диктора в речевом сигнале
publisher Інститут проблем штучного інтелекту МОН України та НАН України
publishDate 2010
topic_facet Интеллектуальные речевые технологии. Компьютерная обработка естественно-языковых текстов и семантический поиск
url http://dspace.nbuv.gov.ua/handle/123456789/56281
citation_txt Определение позиций изменения диктора в речевом сигнале / Ю.Г. Кривонос, А.С. Загваздин, Ю.В. Крак // Штучний інтелект. — 2010. — № 3. — С. 220-226. — Бібліогр.: 10 назв. — рос.
series Штучний інтелект
work_keys_str_mv AT krivonosûg opredeleniepozicijizmeneniâdiktoravrečevomsignale
AT zagvazdinas opredeleniepozicijizmeneniâdiktoravrečevomsignale
AT krakûv opredeleniepozicijizmeneniâdiktoravrečevomsignale
first_indexed 2025-07-05T07:33:26Z
last_indexed 2025-07-05T07:33:26Z
_version_ 1836791425973354496
fulltext «Искусственный интеллект» 3’2010 220 3К УДК 004.934 Ю.Г. Кривонос, А.С. Загваздин, Ю.В. Крак Институт кибернетики НАН Украины им. В.М. Глушкова, г. Киев alex.zagvazdin@gmail.com, krak@unicyb.kiev.ua Определение позиций изменения диктора в речевом сигнале В статье рассматривается один из подходов к определению позиции изменения диктора в непрерывном голосовом сигнале. Предложенный подход базируется на использовании коэффициентов мэл-кепстр для построения характеристического вектора и решении о наличии или отсутствии точки изменения диктора на основе меры различия множеств характеристических векторов. Введение Во многих задачах, связанных с обработкой речевых сигналов и распознаванием речевой информации, необходимо знать, в каких местах речевого сигнала происхо- дит изменение диктора – лица, чей голос звучит в определенный промежуток вре- мени. В частности в задачах автоматизированного стенографирования [1-3] полезно использовать информацию о смене диктора для более качественной сегментации сигнала. В задачах дикторонезависимого распознавания речи информация о смене диктора позволяет системе адаптироваться под нового диктора. Задача определения точки изменения диктора состоит в том, чтобы определить позиции в звуковом сигнале, где происходит изменение диктора без информации о дикторах, известной априори. Отсутствие предварительной информации о дикторе отличает задачу определения изменения диктора от более традиционных задач рас- познавания или верификации диктора. Если бы предварительная информация о дик- торе была доступной, для решения задачи можно было бы применить традиционные методы идентификации и распознавания, такие, как методы линейной и нелинейной классификации и методы искусственных нейронных сетей. В реальных же задачах сегментации звукового сигнала получить предварительную информацию о дикторах для составления обучающей выборки и даже информацию о количестве различных дикторов в звуковом сигнале не представляется возможным. Важным аспектом задачи определения смены диктора является возможность решения задачи в реальном или квазиреальном времени, следовательно вычисли- тельная сложность алгоритма определения смены диктора должна быть относительно невысокой, чтобы решение задачи в реальном времени было возможным на широко- распространенном аппаратном обеспечении. Существует набор методов определения смены диктора в речевом сигнале [4-6], которые в большинстве своем базируются на использовании коэффициентов мэл- кепстр для построения характеристических векторов, но при этом используют раз- ные подходы для определения степени различия между множествами характеристи- ческих векторов или между отдельными характеристическими векторами. В частности в [6] в качестве меры различия предложена взвешенная мера, основанная на взвешен- ном Евклидовом расстоянии между векторами. При таком подходе для определения Определение позиций изменения диктора в речевом сигнале «Штучний інтелект» 3’2010 221 3К изменения диктора проводится сравнение двух соседних сегментов, причем каждый из сегментов представлен одним характеристическим вектором, который является усредненным характеристическим вектором для сегмента, помноженным на весовой коэффициент, зависящий от класса, к которому принадлежит рассматриваемый век- тор. Недостаток такого подхода состоит в том, что случайные возмущения сигнала в сегменте могут существенно исказить усредненный вектор, во избежание чего необ- ходимо проводить качественную нормализацию сигнала, что в реальных условиях не всегда осуществимо или целесообразно. Другой метод рассматривается в [4], [5]. Для определения точки изменения диктора авторы предлагают использовать меру дивергенции для определения расс- тояния между отдельно взятыми характеристическими векторами. Несмотря на то, что такой метод дает достаточно высокую точность и является не очень требователь- ным к вычислительным ресурсам, ввиду того, что в каждый момент времени рас- сматриваются лишь несколько соседних характеристических векторов, вероятность ошибочного определения точки изменения диктора достаточно высока из-за возмож- ных случайных возмущений в сигнале, локального изменения интонации и т.п. Ав- торы [4] предлагают дополнить характеристический вектор кроме коэффициентов мэл-кепстр, еще и коэффициентами линейного предсказания и питчем. Несмотря на то, что такой подход дает более широкое представление о голосовом сигнале в характе- ристическом векторе, он требует значительно большего числа вычислений для расчета дополнительных коэффициентов, что усложняет решение задачи в реальном времени. В данной статье предлагается еще один подход для определения точки измене- ния диктора в реальном времени. Предполагается, что на вход системы подается звуковой сигнал, содержащий голосовую информацию, прошедший предваритель- ную обработку для снижения уровня посторонних шумов. Количество дикторов в сигнале, число точек изменения диктора заранее неизвестны. Любая информация о характеристиках дикторов априори также неизвестна. Рассматривается выбор и по- строение характеристического вектора, приводится мера различия между множест- вами характеристических векторов и решение о присутствии изменения диктора в заданной точке на основании такой меры. Обсуждаются вопросы применения пред- ложенного алгоритма в системе автоматизированного стенографирования. Выбор и построение характеристического вектора Выбор характеристик для задачи определения изменения диктора аналогичен выбору характеристик для задачи идентификации и верификации диктора. Исследо- вания показали, что для задач распознавания диктора одной из самых подходящих характеристик являются коэффициенты мэл-кепстр [7]. Коэффициенты мэл-кепстр определяются как кепстр в области действительных чисел кратковременного звукового сигнала, полученный из преобразования Фурье этого сигнала. Отличие от простого кепстра состоит в том, что для разложения используется нелинейная шкала частот, которая приблизительно описывает особен- ности слухового восприятия информации человеком. Полагая, что дискретное преобразование Фурье входного сигнала задано 1 2 0 [ ] [ ] , 0 N j nk a n X k x n e k Nπ − − = = ≤ <∑ , (1) определяется набор M фильтров ( 1, 2, ...,m M= ), где фильтр m – это треугольный Кривонос Ю.Г., Загваздин А.С., Крак Ю.В. «Искусственный интеллект» 3’2010 222 3К фильтр, заданный как:            +> +≤≤ −+−−+ −+ ≤≤− −−−−+ −− −< = ]1[,0 ]1[][, ])[]1[])(1[]1[( )]1[(2 ][]1[, ])1[][])(1[]1[( ])1[(2 ]1[,0 ][ mfk mfkmf mfmfmfmf kmf mfkmf mfmfmfmf mfk mfk kH m . (2) Такие фильтры вычисляют средний спектр вокруг каждой из центральных частот с возрастающей шириной, как показано на рис. 1: Рисунок 1 – Набор треугольных фильтров для вычисления мэл-кепстра Пусть lf и hf – соответственно самая низкая и самая высокая частоты в наборе фильтров, заданные в Гц, sF – частота дискретизации в Гц, M – количество фильт- ров в наборе, N – размер БПФ. Граничные точки фильтров ][mf тогда равномерно расположены по мэл-шкале:       + − +      = − 1 )()( )(][ 1 M fBfB mfBB F Nmf lh l s , (3) где             −=− 1 1125 exp700)(1 bbB . (4) Как правило, для задач анализа голосовых сигналов используется M в преде- лах от 24 до 40, при этом при расчетах учитываются первые 13 коэффициентов мэл- кепстр [8]. При экспериментальной реализации системы алгоритм построения характери- стических векторов был реализован следующим образом: для вычисления мэл-кепстр проходим по сигналу окном типа Хэннинга длиной 1024 сэмплов (0,023 с при час- тоте дискретизации 44 100 Гц). Начало каждого следующего окна смещено на 10 мс от начала предыдущего. Так, для участка звукового сигнала, где происходит изме- нение диктора, коэффициенты мэл-кепстр на графике выглядят следующим образом: На рис. 2 представлен график изменения коэффициентов мэл-кепстр со време- нем в звуковом сигнале. Прямоугольником выделена область, где происходит смена диктора. На графике можно достаточно отчетливо увидеть различие между коэффи- циентами мэл-кепстр в левой (до точки смены диктора) и правой (после точки смены диктора) части графика. Определение позиций изменения диктора в речевом сигнале «Штучний інтелект» 3’2010 223 3К Рисунок 2 – Изменение коэффициентов мэл-кепстр при смене диктора Мера различия между множествами характеристических векторов В реальном голосовом сигнале изменение диктора с достаточно большой ве- роятностью происходит в окружении одной из областей, где в сигнале присутствует пауза. Таким образом для нахождения точек изменения диктора в голосовом сигнале достаточно найти все паузы, в окружении которых возможно изменение диктора, построить множества характеристических векторов сигнала до и после паузы и сравнить эти множества между собой для принятия решения о том, есть ли в окру- жении данной паузы изменение диктора. Решение о наличии или отсутствии смены диктора принимается на основе вычисления различия между собой множеств харак- теристических векторов до и после паузы. Если условное расстояние между мно- жествами превышает вычисленный экспериментальным путем порог, то в окруже- нии данной паузы вероятнее всего есть смена диктора. Паузы в сигнале находятся аналогичным образом, как и в задаче сегменти- рования звукового сигнала для системы распределенного автоматизированного стенографирования [1]: по сигналу проходим прямоугольным окном заданной длины и вычисляем дисперсию амплитуды сигнала в рамках данного окна. Если дисперсия в рамках данного окна не превышает вычисленного экспериментальным путем поро- гового значения, то утверждаем, что в соответствующей области сигнала есть пауза. 11, ),...,( δ<++ kiii xxxD . (5) Здесь i – начало окна, для которого проводится анализ, k – длина окна, а 1δ – экспериментально определенное пороговое значение. Кривонос Ю.Г., Загваздин А.С., Крак Ю.В. «Искусственный интеллект» 3’2010 224 3К Несколько следующих подряд областей сигнала, в которых дисперсия не пре- вышает порогового значения, объединяются в одну паузу. Пусть 1X – множество характеристических векторов звукового сигнала до паузы, а 2X – множество характеристических векторов сигнала после паузы. Тогда пред- положение о том, что в окружении данной паузы есть смена диктора возможно, исходя из того, что 221 ),( δ>XXd , (6) где ),( 21 XXd – мера различия между множествами векторов, а 2δ – эксперимен- тально определенный порог. Меру различия между множествами определим как медиану расстояний между всеми векторами каждого из сравниваемых: )),((),( 212/121 ji xxdXXd µ= 2211 , XxXx ji ∈∈∀ . (7) В качестве расстояния между векторами можно использовать обыкновенное Евклидово расстояние между векторами: ∑ = −= N n jiji nxnxxxd 1 2 2121 ])[][(),( . (8) Такая мера позволяет определить, насколько разные компоненты содержатся в каждом из множеств, определив, насколько далеко друг от друга находятся векторы каждого из множеств при помощи Евклидового расстояния. Использование медианы в качестве усредненного расстояния позволяет исключить возможные возмущения звукового сигнала в одном из множеств, которые бы могли дать слишком большое или слишком маленькое расстояния между одним или несколькими векторами из одного множества и векторами другого множества. Таким образом значительно уменьшается необходимость в предварительной нормализации звукового сигнала и избавлении его от случайных возмущений, которые могут создаваться звукозаписы- вающей аппаратурой или случайными посторонними шумами. Пороговое значение подбирается вручную в результате экспериментов таким образом, чтобы уменьшить количество неверно определенных точек изменения диктора и увеличить количество правильно определенных точек. Как правило, для вычисления порога достаточно проанализировать небольшой участок сигнала, где есть изменение диктора, в дальнейшем порог можно уточнять по мере появления новых дикторов. Реализация и экспериментальная проверка Описанный выше метод был реализован в рамках системы автоматизированного стенографирования для сегментации звукового сигнала по точкам изменения дик- тора. Вычисление точек изменения диктора происходит одновременно с нахождением пауз в звуковом сигнале и сегментации сигнала по паузам. Значение порогового параметра устанавливается вручную при конфигурации системы. Для проверки эффективности метода было проведено несколько испытаний на реальных звуковых сигналах англоязычным и украиноязычным текстом (для англо- язычных текстов использовались фрагменты обучающих фильмов, для украиноязыч- ных – записи фонограмм заседаний ученых советов по защите диссертаций Инсти- Определение позиций изменения диктора в речевом сигнале «Штучний інтелект» 3’2010 225 3К тута кибернетики НАН Украины им. Глушкова). В результате экспериментов выяс- нились следующие особенности рассматриваемого подхода: 1. Предложенный метод в целом дает достаточно точное распознавание точек смены диктора в различных условиях. Количество пропущенных точек смены диктора как правило не превышало 10 – 15% при правильном подборе пороговых значений. 2. Подбор пороговых значений является нетривиальной задачей и требует достаточно точного определения порога вручную при конфигурации системы, при этом порог часто требует корректировки для различных участков сигнала. 3. Несмотря на то, что точность определения смены диктора достаточно ве- лика, при определенных особенностях звукового сигнала количество неверно опре- деленных точек смены диктора (когда система указывала, что в данной точке есть смена диктора, когда ее там на самом деле нет) может быть также достаточно боль- шим. К таким особенностям звукового сигнала следует отнести существенное изме- нение интонации одним и тем же диктором, существенное изменение амплитуды сигнала и т.п. 4. Предложенный алгоритм достаточно чувствителен к точному определению пауз в сигнале. Если в голосовом сигнале присутствует фоновая музыка или силь- ный фоновый шум, правильно определить паузы достаточно сложно, что в свою оче- редь отрицательно сказывается на количестве правильно определенных точек изме- нения диктора. 5. Слишком длинные паузы, которые в середине могут содержать возмущение звукового сигнала (шум), также отрицательно сказываются на качестве определения точек смены диктора, так как случайные шумы могут быть восприняты алгоритмом как участок сигнала, содержащий голосовую информацию. Выводы и дальнейшее развитие предложенного подхода Несмотря на вышеперечисленные некоторые недостатки рассматриваемого под- хода, точность определения точек смены диктора достаточна для большинства при- менений, включая задачу сегментации сигнала в системе автоматизированного сте- нографирования. Качество определения точек изменения диктора при предложенном подходе можно повысить за счет следующего: 1. Качественной подготовки звукового сигнала перед его сегментацией, в част- ности, избавлением сигнала от посторонних шумов. 2. Автоматизированного определения пороговых значений для различных участ- ков звукового сигнала. 3. Расширения характеристических векторов за счет добавления к ним, на- пример, информации о частоте основного тона сигнала (питча), что может повысить качество определения точек изменения диктора, особенно, когда происходит смена мужского голоса на женский и наоборот. Среди преимуществ рассматриваемого подхода также следует отметить его относительно невысокую требовательность к вычислительным ресурсам, что позво- ляет применять его для решения задачи в реальном времени. Литература 1. Информационная система распределенного компьютерного документирования речевых фоно- грамм заседаний / Ю.Г. Кривонос, Ю.В. Крак, А.В. Бармак, А.С. Загваздин // Управляющие систе- мы и машины. – 2008. – № 3. Кривонос Ю.Г., Загваздин А.С., Крак Ю.В. «Искусственный интеллект» 3’2010 226 3К 2. Розподілене комп’ютерне документування голосових мовних фонограм / Ю.Г. Кривонос, Ю.В. Крак, О.В. Бармак, О.С. Загваздін // Проблеми програмування. – 2008. – № 2 – 3. 3. Автоматизированная система стенографирования / Ю.Г. Кривонос, Ю.В. Крак, А.В. Бармак, А.С. Загваздин // Искусственный интеллект. – 2009. – № 3. – С. 228-233. 4. Lu L. Speaker change detection and tracking in real-time news broadcasting analysis [Электронный ресурс] / L. Lu, H.-J. Zhang // Proceedings of the tenth ACM international conference on Multimedia. – December 1 – 6, 2002. – Juan les Pins, France ACM, 2002. – Режим доступа : www.informatik.uni-trier.de/~ley/db/conf/mm/index.html 5. Universal background models for real-time speaker change detection [Электронный ресурс] / T.Y. Wu, L. Lu, K. Chen, H.-J. Zhang // Microsoft Research. – Режим доступа : http://research.microsoft.com/users/llu/publications/mmm03_ubmforspkseg.pdf. 6. Kwon. Speaker change detection using a new weighted distance measure / Kwon, Narayanan // International conference on spoken language processing. – 2002. – Vol. 4. – P. 2078-2086. 7. Reynolds D.A. Robust text-independent speaker identification using Gaussian mixture speaker models / D.A. Reynolds, R.C. Rose // IEEE transactions on speech and audio processing. – 1995. – Vol. 3, № 1. – Р. 238-246. 8. Huang X. Spoken language processing: a guide to theory, algorithm and system development / X. Huang, A. Acero, H.W. – HonPrentice Hall, 2001. 9. Ajmera J. Robust speaker change detection / J. Ajmera, I. McCowan, H. Bourlard // IEEE signal proces- sing letters. – 2004. – Vol. 11, № 8. – Р. 689-695. 10. Saha G. Modified Mel-frequency cepstral coefficient [Электронный ресурс] / G. Saha, U.S. Yadhunandan // Department of electronics and electrical engineering. – Technical university of Denmark, 2004. – Режим доступа : recherche.ircam.fr/equipes/analyse-synthese/burred/phd/burred_phd.pdf. Ю.Г. Кривонос, Ю.В. Крак, О.С. Загваздін Визначення зміни диктора у мовному сигналі У статті розглядається один з підходів до визначення позиції зміни диктора у неперервному мовному сигналі. Запропонований підхід базується на використанні коефіцієнтів мел-кепстр для побудови характеристичного вектора і прийнятті рішення про існування чи відсутність точки зміни диктора на основі запропонованої міри відмінності множин характеристичних векторів. Yu.G. Kryvonos, Yu.V. Krak, O.S. Zagvazdin Detect Speaker Change in Continuous Speech Signal One of the approaches to detect speaker change in continuous speech signal is proposed in the paper. Suggested approach is based on using the mel-frequency cepstral coefficients to build a characteristic vector. Decision on existence or absence of speaker change at a given point is based on a proposed dissimilarity measure between the sets of characteristic vectors Статья поступила в редакцию 21.06.2010.