<<
>>

3.3. ФОНЕМНЫЙ СОСТАВ ФОНЕТИЧЕСКОЙПОСЛЕДОВАТЕЛЬНОСТИ

Распространенная точка зрения, на которой основывается большинство работ по автоматическому распознаванию речи, заключается в том, что элементами речевого сигнала являются звуки речи и что фонемы распознаются последовательно одна за другой.

Исследователи восприятия речи за последнее время все больше склоняются к тому, что фонемы могут распозна-ваться параллельно и что в качестве фонетического элемента выступает слог [19, 196, 220J. Далее мы начнем с изложения этой наиболее привычной точки зрения и попытаемся пояснить раз-ницу между последовательным и параллельным распознаванием фонем.

3.3.1. ФОНЕМНАЯ КЛАССИФИКАЦИЯ ТЕКУЩИХ

ЗНАЧЕНИЙ РЕЧЕВОГО СИГНАЛА

Существо традиционных представлений относительно связи между речевым сигналом и фонемой, используемых в теориях восприятия речи и автоматическом распознавании, сводится к следующим основным допущениям: 1) фонема является харак-теристикой звука речи — указанием класса, которому этот звук принадлежит; 2) каждому звуку речи соответствует определенное состояние речевого аппарата и соответственно определенная форма спектра звука (и тип источника возбуждения); 3) звуки речи произносятся последовательно один за другим.

На первом этапе развития работ по автоматическому распознаванию речи было сделано дополнительное допущение, что длительность квазистационарных участков, в течение которых сохраняется спектр, типичный для данного звука речи, существенно больше длительности участков, соответствующих переходам от одного звука речи к другому.

Если все эти допущения верны, то для фонемного распознавания речи нужно только научиться классифицировать спектры, т. е. найти оптимальные решающие правила, обеспечивающие переход от значения спектра к фонеме — названию класса спектров. Реализовав эти правила в соответствующем классификаторе и подавая на его вход отклик на речевой сигнал спектрального анализатора (гребенки фильтров), мы автоматически получим и фонемное распознавание, и сегментацию речевого потока.

Классификатор будет сохранять на выходе один и тот же фо-немный символ, пока спектр сигнала будет находиться внутри обозначаемого этим символом класса.

Как только значения сигнала выйдут за пределы данного класса, символ нужно записать в ячейку памяти и перейти к следующей по порядку ячейке.

Быстро выяснилось, что системы, построенные по этому принципу, не являются работоспособными. Основная причина неудачи, по распространенному мнению, кроется в том, что относительная длительность переходных участков реально оказалась не меньше, а больше длительности стационарных участков.

Если длительность переходных участков велика, то число «фонем», выработанных классификатором при предъявлении слова, будет неизбежно больше числа фонем, которые обнаруживает в этом слове человек. Так как такой эффект будет наблюдаться в случае любой системы, работающей по принципу фонемной клас-сификации текущих значений сигнала, приходится сделать вывод, что фонемная классификация, осуществляемая человеком, основана на других принципах.

3.3.2. ПОСЛЕДОВАТЕЛЬНОЕ ИЛИ ПАРАЛЛЕЛЬНОЕ

РАСПОЗНАВАНИЕ ФОНЕМ

В литературе неоднократно указывалось на то, что фонемы «переслаиваются», что один и тот же участок сигнала содержит информацию более чем об одной фонеме и найти такую точку в сигнале, которая соответствовала бы концу одной и началу другой фонемы, в принципе невозможно.

Основанием для этой точки зрения послужили в основном результаты экспериментов по фонемной идентификации синтетических слогов [зб0 зб1] и выделенных отрезков естественного речевого сигнала [б9]. Весьма показателен в этом смысле пример с так называемыми переходами второй форманты (см. главы 4 и 12). Контур частоты второй форманты на отрезке, соответствующем артикуляции гласного, закономерно зависит от фонемного ка-чества как этого гласного, так и соседних согласных. Участки, на которых частотаF2изменяется (они находятся вблизи начала и конца отрезка гласного), названы участками переходовF2. На основании характера переходов (направления изменения частотыF2)человек различает согласные фонемы, и по этому признаку переход должен быть отнесен к участку согласного.

Однако исключение этих участков приводит к ухудшению раз-борчивости гласного. Если гласный короткий, то при исключении из него переходов от гласного может вообще ничего не остаться.

Такого рода факты привели к довольно распространенному сейчас представлению, что согласные и гласные фонемы .распознаются не последовательно, но параллельно. Вопрос о том, что формально означает параллельное распознавание и при каких условиях оно допустимо, пока, насколько нам известно, в общем виде не рассматривался. Мы ограничимся тем, что приведем частный пример, на котором видна возможная принципиальная разница между последовательным и параллельным распознаванием.

Допустим, мы знаем, что некоторый наблюдатель обозначает отрезок функцииx(t),изображенный на рис. 3.2, последователь-ностью двух символов АВ. Необходимо составить некоторые предварительные гипотезы относительно принципов, которыми он

при этом пользуется.

Одна гипотеза может состоять в том, что где-то между хг и хг расположена граница между двумя классами значений х, обозначим ее<х. Пока х (t) меньше а, выбирается символ А, при х(t) > а выбирается В. В результате классификации отре-

зок функции разбивается на два

t, ta t2 tучастка, граница между ними соот

ветствует тому значениюt,при кото- Рис. 3 2. ромx(t)=стый случай последовательного распознавания.

Предположим теперь, что А и В обозначают разные признаки отрезка. Например, А обозначает, что х возрастает а В обозначает, что среднее по отрезку значение х находится в определенных пределах <[ у jх (t) символа относятся к отрезку в целом, и естественно говорить о параллельном распознавании. В приведенном примере параллельного распознавания порядок записи символов (АВ или В А) не определяется сигналом, он должен быть предусмотрен специальными правилами.

Чистый случай параллельного распознавания необходимо предполагает предварительное указание отрезка, на котором производится анализ — определяются признаки функции.

В при-веденном примере в признак, обозначаемый символом В, в явном виде входит понятие отрезка — интегрирование производится в пределах от начала (?г) до конца отрезка (f2).

Очевидно, что вопрос о том, в какой мере (или в какой комби-нации) последовательное и параллельное распознавание фонем используется человеком, выгодно решать уже после того, как будут созданы хотя бы предварительные представления относи-тельно сегментации звукового потока.

Заметим, что фонетист или психолог, описывающий связь между динамической спектрограммой речевого сигнала и его фонемным опйсаннем, свободно пользуется понятиями отрезка гласного и слога.

Использование этих понятий (гласного и слога) в модели фонетической интерпретации означает необходимость включения дополнительного блока обработки информации, заключенного между первичным спектральным анализатором и фонемным классификатором.

Для того чтобы пойти на такое усложнение модели, нужно быть уверенным в том, что понятия отрезка гласного и слога не изобретены учеными для удобства описания наблюдаемых ими явлений, но реально используются человеком в процессе фонетической интерпретации. Экспериментальные данные, приводимые в следующих разделах главы, как кажется, не оставляют в этом сомнений.

<< | >>
Источник: Чистович Л. А., Венцов А. В., ГранстремМ. П. и др. Физиология речи. Восприятие речи человеком. «Наука»,1976. 388 с.. 1976

Еще по теме 3.3. ФОНЕМНЫЙ СОСТАВ ФОНЕТИЧЕСКОЙПОСЛЕДОВАТЕЛЬНОСТИ:

  1. ГРАММАТИКА. СОСТАВ СЛОВА (МОРФЕМИКА) И СЛОВООБРАЗОВАНИЕ
  2. 7.3 Состав преступления
  3. § 20. СОСТАВ СЛОВА.УПОТРЕБЛЕНИЕ ОДНОКОРЕННЫХ СЛОВ
  4. 4. Число и внешний состав
  5. 1. Этнографический состав населения русских государств.
  6. 2. Социальный состав населения (классы общества).
  7. Состав Русской Правды.
  8. Состав Боярской думы
  9. Состав и заседания Земского собора.
  10. Глава 2. Состав арбитражного суда
  11. Статья 40. Состав лиц, участвующих в деле
  12. Статья 101. Состав судебных расходов
  13. § 1 Общая характеристика и состав особого производства
  14. § 1. Общая характеристика и состав особого производства
  15. 2.2. ПОТЕРИ ИНФОРМАЦИИ В УСТНОЙ РЕЧИ
  16. 3.1. ПОНЯТИЕ ФОНЕТИЧЕСКОЙ
  17. 3.3. ФОНЕМНЫЙ СОСТАВ ФОНЕТИЧЕСКОЙПОСЛЕДОВАТЕЛЬНОСТИ