3.3. ФОНЕМНЫЙ СОСТАВ ФОНЕТИЧЕСКОЙПОСЛЕДОВАТЕЛЬНОСТИ
Распространенная точка зрения, на которой основывается большинство работ по автоматическому распознаванию речи, заключается в том, что элементами речевого сигнала являются звуки речи и что фонемы распознаются последовательно одна за другой.
Исследователи восприятия речи за последнее время все больше склоняются к тому, что фонемы могут распозна-ваться параллельно и что в качестве фонетического элемента выступает слог [19, 196, 220J. Далее мы начнем с изложения этой наиболее привычной точки зрения и попытаемся пояснить раз-ницу между последовательным и параллельным распознаванием фонем.3.3.1. ФОНЕМНАЯ КЛАССИФИКАЦИЯ ТЕКУЩИХ
ЗНАЧЕНИЙ РЕЧЕВОГО СИГНАЛА
Существо традиционных представлений относительно связи между речевым сигналом и фонемой, используемых в теориях восприятия речи и автоматическом распознавании, сводится к следующим основным допущениям: 1) фонема является харак-теристикой звука речи — указанием класса, которому этот звук принадлежит; 2) каждому звуку речи соответствует определенное состояние речевого аппарата и соответственно определенная форма спектра звука (и тип источника возбуждения); 3) звуки речи произносятся последовательно один за другим.
На первом этапе развития работ по автоматическому распознаванию речи было сделано дополнительное допущение, что длительность квазистационарных участков, в течение которых сохраняется спектр, типичный для данного звука речи, существенно больше длительности участков, соответствующих переходам от одного звука речи к другому.
Если все эти допущения верны, то для фонемного распознавания речи нужно только научиться классифицировать спектры, т. е. найти оптимальные решающие правила, обеспечивающие переход от значения спектра к фонеме — названию класса спектров. Реализовав эти правила в соответствующем классификаторе и подавая на его вход отклик на речевой сигнал спектрального анализатора (гребенки фильтров), мы автоматически получим и фонемное распознавание, и сегментацию речевого потока.
Классификатор будет сохранять на выходе один и тот же фо-немный символ, пока спектр сигнала будет находиться внутри обозначаемого этим символом класса.
Как только значения сигнала выйдут за пределы данного класса, символ нужно записать в ячейку памяти и перейти к следующей по порядку ячейке.Быстро выяснилось, что системы, построенные по этому принципу, не являются работоспособными. Основная причина неудачи, по распространенному мнению, кроется в том, что относительная длительность переходных участков реально оказалась не меньше, а больше длительности стационарных участков.
Если длительность переходных участков велика, то число «фонем», выработанных классификатором при предъявлении слова, будет неизбежно больше числа фонем, которые обнаруживает в этом слове человек. Так как такой эффект будет наблюдаться в случае любой системы, работающей по принципу фонемной клас-сификации текущих значений сигнала, приходится сделать вывод, что фонемная классификация, осуществляемая человеком, основана на других принципах.
3.3.2. ПОСЛЕДОВАТЕЛЬНОЕ ИЛИ ПАРАЛЛЕЛЬНОЕ
РАСПОЗНАВАНИЕ ФОНЕМ
В литературе неоднократно указывалось на то, что фонемы «переслаиваются», что один и тот же участок сигнала содержит информацию более чем об одной фонеме и найти такую точку в сигнале, которая соответствовала бы концу одной и началу другой фонемы, в принципе невозможно.
Основанием для этой точки зрения послужили в основном результаты экспериментов по фонемной идентификации синтетических слогов [зб0 зб1] и выделенных отрезков естественного речевого сигнала [б9]. Весьма показателен в этом смысле пример с так называемыми переходами второй форманты (см. главы 4 и 12). Контур частоты второй форманты на отрезке, соответствующем артикуляции гласного, закономерно зависит от фонемного ка-чества как этого гласного, так и соседних согласных. Участки, на которых частотаF2изменяется (они находятся вблизи начала и конца отрезка гласного), названы участками переходовF2. На основании характера переходов (направления изменения частотыF2)человек различает согласные фонемы, и по этому признаку переход должен быть отнесен к участку согласного.
Однако исключение этих участков приводит к ухудшению раз-борчивости гласного. Если гласный короткий, то при исключении из него переходов от гласного может вообще ничего не остаться.Такого рода факты привели к довольно распространенному сейчас представлению, что согласные и гласные фонемы .распознаются не последовательно, но параллельно. Вопрос о том, что формально означает параллельное распознавание и при каких условиях оно допустимо, пока, насколько нам известно, в общем виде не рассматривался. Мы ограничимся тем, что приведем частный пример, на котором видна возможная принципиальная разница между последовательным и параллельным распознаванием.
Допустим, мы знаем, что некоторый наблюдатель обозначает отрезок функцииx(t),изображенный на рис. 3.2, последователь-ностью двух символов АВ. Необходимо составить некоторые предварительные гипотезы относительно принципов, которыми он
при этом пользуется.
Одна гипотеза может состоять в том, что где-то между хг и хг расположена граница между двумя классами значений х, обозначим ее<х. Пока х (t) меньше а, выбирается символ А, при х(t) > а выбирается В. В результате классификации отре-
зок функции разбивается на два
t, ta t2 tучастка, граница между ними соот
ветствует тому значениюt,при кото- Рис. 3 2. ромx(t)= Предположим теперь, что А и В обозначают разные признаки отрезка. Например, А обозначает, что х возрастает а В обозначает, что среднее по отрезку значение х находится в определенных пределах <[ у jх (t) Чистый случай параллельного распознавания необходимо предполагает предварительное указание отрезка, на котором производится анализ — определяются признаки функции. Очевидно, что вопрос о том, в какой мере (или в какой комби-нации) последовательное и параллельное распознавание фонем используется человеком, выгодно решать уже после того, как будут созданы хотя бы предварительные представления относи-тельно сегментации звукового потока. Заметим, что фонетист или психолог, описывающий связь между динамической спектрограммой речевого сигнала и его фонемным опйсаннем, свободно пользуется понятиями отрезка гласного и слога. Использование этих понятий (гласного и слога) в модели фонетической интерпретации означает необходимость включения дополнительного блока обработки информации, заключенного между первичным спектральным анализатором и фонемным классификатором. Для того чтобы пойти на такое усложнение модели, нужно быть уверенным в том, что понятия отрезка гласного и слога не изобретены учеными для удобства описания наблюдаемых ими явлений, но реально используются человеком в процессе фонетической интерпретации. Экспериментальные данные, приводимые в следующих разделах главы, как кажется, не оставляют в этом сомнений.
Еще по теме 3.3. ФОНЕМНЫЙ СОСТАВ ФОНЕТИЧЕСКОЙПОСЛЕДОВАТЕЛЬНОСТИ:
- ГРАММАТИКА. СОСТАВ СЛОВА (МОРФЕМИКА) И СЛОВООБРАЗОВАНИЕ
- 7.3 Состав преступления
- § 20. СОСТАВ СЛОВА.УПОТРЕБЛЕНИЕ ОДНОКОРЕННЫХ СЛОВ
- 4. Число и внешний состав
- 1. Этнографический состав населения русских государств.
- 2. Социальный состав населения (классы общества).
- Состав Русской Правды.
- Состав Боярской думы
- Состав и заседания Земского собора.
- Глава 2. Состав арбитражного суда
- Статья 40. Состав лиц, участвующих в деле
- Статья 101. Состав судебных расходов
- § 1 Общая характеристика и состав особого производства
- § 1. Общая характеристика и состав особого производства
- 2.2. ПОТЕРИ ИНФОРМАЦИИ В УСТНОЙ РЕЧИ
- 3.1. ПОНЯТИЕ ФОНЕТИЧЕСКОЙ
- 3.3. ФОНЕМНЫЙ СОСТАВ ФОНЕТИЧЕСКОЙПОСЛЕДОВАТЕЛЬНОСТИ