2 курс / Нормальная физиология / Физиология_речи_Восприятие_речи_человеком_Чистович_Л_А_
.pdfРис. 3.6 позволяет судить о выраженности этого эффекта по всему полученному материалу. На рисунке представлены ре
зультаты классификации |
данных |
89 опытов |
(89 фотографий) |
по размаху флюктуаций |
в опыте |
каждой из |
границ сегментов |
в реакции. Ряд чисел 1 2 3 4, например, означает, что самый боль шой размах флюктуаций соответствует началу первого гласного, затем в порядке убывания размаха следует конец первого глас ного, начало второго гласного и конец второго гласного. Можно видеть, что именно этот случай (класс 1 2 3 4) наблюдался наибо лее часто. Очевидно, что если при управлении речеобразованием в качестве точек отсчета длительностей последовательных сег ментов используются только некоторые явления в самой реакции, то размах флюктуаций для каждой следующей границы должен быть таким же (или большим), как размах флюктуаций начала первого гласного.
Для объяснения полученного эффекта (убывание флюктуаций с возрастанием номера сегментной границы) приходится принять, что испытуемый выделяет во внешнем речевом стимуле какие-то явления, служащие индикатором i-той сегментной границы, и использует их в качестве пусковых сигналов при выработке (i+l)-oi"i команды.
Полученные данные позволяют считать, что требование синхро низации произносимого звукосочетания с внешним речевым сиг налом интерпретируется испытуемым как требование добиться того, чтобы гласные в реакции приходились по времени на гласные стимула, а согласный в реакции приходился по времени на соглас ный или на сочетание согласных стимула. Очевидно, что такая интерпретация возможна лишь в том случае, если испытуемый располагает понятием интервалов гласных и интервалов соглас ных, т. е. членит воспринимаемый сигнал на соответствующие отрезки и может управлять длительностью этих отрезков при речеобразовании.
3.4.2. ГЛАСНЫЙ ЗВУК
ИФОРМАНТНЫЕ ПЕРЕХОДЫ
Вправилах, предлагаемых фонетистами относительно
членения осциллограмм и спектрограмм речевого сигнала на от резки гласных и согласных f13' 416 J, формантный переход отно сится к отрезку гласного. Если исходить из переносимой им фо немной информации, его нужно было бы отнести к согласному f346].
Попытка выяснить, входит ли участок перехода в воспринимае мый гласный звук, была предпринята в эксперименте Жукова и Чистович. В качестве стимулов были использованы два синте тических звукосочетания (.4 и В на рис. 3.7), образованных из трех отрезков: стационарного гласного [i] (/); паузы (//); отрезка (III), состоящего из переходного участка, на котором частота F2 меня
61
лась от некоторого начального значения до значения, характер ного для гласного [и], и стационарного участка.
Единственное физическое отличие стимулов А и Б (рис. 3.7) состояло в разной длительности переходного участка 3-го отрезка; она составляла 72 мс для стимула А и 143 мс для стимула Б. Стимул А воспринимался как звукосочетание (idol, стимул Б — как звукосочетание [id'u].
Испытуемые (5 человек) управляли длительностью интервала от начала 3-го отрезка до конца стимула — меняли момент окон чания стимула. Задача испытуе мых состояла в нахождении гра ницы по ударению — такой дли тельности второго гласного, когда ударение в стимуле начинает пе ремещаться с одного гласного на
другой.
Если человек определяет вто рой гласный как интервал от мо мента усиления звука (размыка ние смычки) в стимуле до окон чания стимула, т. е. относит фор-
Рис. 3.7. Формантная структура стиму- г ■ лов А п Б.
Обозначения см. в тексте.
мантныи переход к гласному, тогда устанавливаемые испытуемым длительности должны быть одинаковыми для стимулов Л и Б.
Если же второй гласный определяется человеком как интервал от момента пересечения второй формантой области, характерной для гласного [и], до окончания стимула, тогда длительность, устанавливаемая для стимула Б, должна превышать таковую для стимула А примерно на 71 мс (разность длительностей формант ных переходов).
Результаты экспериментов для разных испытуемых приведены ниже (М — среднее арифметическое из 10 установленных значе ний длительности интервала от начала 3-го отрезка до конца сти мула в мс; s — стандартное отклонение в мс):
|
|
|
С т и м у л А |
С типу л Б |
|
||
л |
ч . |
|
«А |
Мд |
SB |
Мд — МА |
|
181 |
22.6 |
180 |
16.0 |
8 |
|||
с. |
ж. . . |
175 |
15.6 |
178 |
19.1 |
3 |
|
в. |
т. |
|
207 |
13.2 |
2J1 |
29.4 |
4 |
11. |
с. . . |
237 |
13.8 |
243 |
19.7 |
6 |
|
т. |
м. |
, , |
147 |
17.1 |
141 |
14.9 |
—6 |
Как видно, различия (Мв — МА) очень малы и для всех испы туемых не являются статистически достоверными.
Таким образом, полученные данные позволяют считать, что участок формантного перехода F2 в применявшихся стимулах дей ствительно включается при восприятии в отрезок гласного и испы туемый принимает за начало гласного момент начала звука (конец паузы).
Нужно подчеркнуть, что сделанный вывод не следует распро странять на все случаи формантных переходов, особенно на пере ходы первой форманты. Есть основание полагать, что связанное с повышением Fr увеличение энергии в средней области спектра или сам факт повышения Fr являются для человека сигналом начала отрезка гласного.
3.4.3. ДЛИТЕЛЬНОСТЬ ГЛАСНОГО ЗВУКА КАК ФОНЕМАТИЧЕСКИЙ ПРИЗНАК
В большей части языков признаки, ответственные за различение гласных фонем, заключены в спектральной (фор мантной) картине звука, а длительности гласных звуков несут информацию прежде всего о просодических и эмоциональных характеристиках высказывания. Однако существуют языки, в ко торых длительности гласных имеют фонологическое значение; система гласных фонем в таких языках включает долгие и крат кие гласные. При этом в ряде языков (например, финском, чеш ском, норвежском) члены каждой пары «долгий — краткий» имеют одинаковые спектральные характеристики, и длительность гласных звуков является единственным различительным при знаком этих фонем. В ряде других языков (немецком, шведском, голландском) члены каждой такой пары различаются не только длительностью, но и своими спектральными характеристиками.
Если человек действительно использует длительность отрезка гласного для идентификации фонем, это может служить дока зательством того, что сегментация (выделение отрезка гласного) логически предшествует фонемной классификации, т. е. при знаком фонемного класса является не текущее значение спектра, но характеристика отрезка звукового потока.
Доказательства использования длительности в качестве фо немного признака были получены двумя экспериментальными методами: методом идентификации и методом установки «харак терной» для долгих и кратких фонем длительности в синтетических
стимулах. |
|
|
На рис. 3.8 приведены данные [410J, |
полученные в |
опытах |
по идентификации синтезированных голландских слов, |
которые |
|
представляли собой минимальные пары, |
различающиеся |
только |
длительностью гласного. Длительность гласного изменялась сту пенями по 5 и по 10 мс; его спектральные характеристики сохра нялись неизменными. Испытуемые должны были записать, какое
63
из Голландских слов: fosj пли (a:sj, [nt| или fa:t] (рис. 3.S, Л), [otj или [a:tj, [nte/aj или (a:ta/a| (рис. 3.S, В) — они слышат.
Убывание количества ответов «краткий» при увеличении дли тельности гласного является экспериментальным подтверждением
Рис. 3.8. Функция идентификации синтетического гласного но признаку долготы-краткости. По [41°].
По оси абсцисс — длительность гласного; по оси ординат — относительное количество ответов «краткий». На А: 1 — для стимулов [at]; 2 — для стимулов [аз]. На Б: 1— для стимулов [ata/э]; 2— для стимулов [at].
Рис. 3.9. Двадцать последовательных установок длительности удар ного гласного в синтезированном слове двумя испытуемыми (Л и Б). По [409].
По оси абсцисс — номер установки; по оси ординат—длительность гласного. 1 — устновка длительности [а:] в слове [рарй:рар]; 2 — установка длительности [а] в слоте [рарарар].
того, что длительность гласного может быть использована человеком в качестве признака при фонемной идентификации.
Аналогичные результаты были получены и на носителях япон ского языка [267]. Стимулы представляли собой 17 синтезированных
04
(осмысленных) слов, в которых длительность гласного [о] изме нялась так, чтобы покрыть весь диапазон длительностей от слова [oi] до слова [o:ij (от^80 до_240 мс ступенями по 10 мс). В тестах по идентификации эти синтетические стимулы предъявлялись как изолированно, так и в контексте предложения.
В работе j409] приведены данные по установке «оптимальной» длительности долгого и краткого гласного в бессмысленных звуко сочетаниях. Испытуемых (носителей голландского языка) просили установить длительность ударного гласного [а:] в слове [рэра’.рэр] и [а] в слове [рэрарэр], руководствуясь только тем критерием, чтобы все слово целиком звучало как можно естественнее.
Результаты приведены на рис. 3.9. Как видно из рисунка, устанавливаемые длительности для кратких гласных оказы ваются значительно меньше, чем для долгих (примерно в 2 раза), что согласуется с результатами, полученными при измерениях в естественной речи.
Известно, что в речи длительности гласных могут изменяться в достаточно широких пределах. Это является результатом дей ствия целого ряда фонетических факторов, в том числе контек стуальных (характера окружающих согласных, позиции по отно шению к ударению, количества слогов в слове, темпа речи и т. д.). Приведенные выше данные (рис. 3.8) указывают на то, что кон текстуальные влияния в какой-то мере учитываются при приня тии решения о фонематической длительности гласного. В естест венной речи гласные имеют большую длительность перед щеле выми, чем перед смычными согласными. Как видно из рис. 3.8, А, фонемная граница между [а:] и [а] сдвигается влево, если следую щее за этим гласным [s] (кривая 2) заменяется на [t] (кривая 7).
Из рис. 3.8, Б видно, что увеличение числа слогов в слове сдвигает фонемную границу между [а:] и [а] в направлении более коротких длительностей, что также согласуется с фактами из рече образования.
Вопрос же о том, какова процедура учета этих контекстуаль ных влияний при восприятии длительности гласного, пока оста ется нерешенным.
3.4.4. ДЛИТЕЛЬНОСТЬ ГЛАСНОГО КАК ПРИЗНАК ДЛЯ ИДЕНТИФИКАЦИИ ГЛУХОСТИ-ЗВОНКОСТИ
ПОСЛЕДУЮЩЕГО СОГЛАСНОГО
Изменения длительности гласного, связанные с ха рактером последующего согласного — его звонкостью или глу хостью, являются известным фонетическим фактом.
Наиболее ярко этот эффект выражен в английском языке, в котором длительность гласного, предшествующего глухому согласному, составляет приблизительно от 1/2 до 2/3 длитель
ности того же гласного в идентичных условиях, но перед звон ким [439].
Такие большие различия между длительностями гласных, предшествующих глухим и звонким согласным, привлекают вни мание исследователей речи по той причине, что в ряде случаев
Рис. 3.10. Схематическое изображение формантной структуры стимулов, использованных в эксперименте. По [44°].
Обозначения см. в тексте.
длительность предшествующего гласного является единственным признаком для идентификации глухости или звонкости последую щего согласного. Так, например, в парах слов типа английских bit—bid, которые теоретически различаются только глухостьюзвонкостью последнего согласного, самый надежный признак звонкости этого согласного — систематически большая длитель
66
ность предшествующего гласного. Акустические признаки соб ственно согласного, несущие информацию о звонкости (наличие
Рис. 3.11. Зависимость восприятия признака глухости-звонкости конечного согласного или сочетания согласных от длительности предшествущего глас ного (для соответствующих стимулов, синтезированных с «глухими» и «звон кими» конечными согласными). По [44°].
По оси абсцисс — длительность гласного; по оси ординат — относительное количество ответов «глухой».
голоса во время смычки и взрыва), в конечном положении могут быть выражены очень слабо или даже полностью отсутствовать.
Возникает естественный вопрос, используется ли информация о длительности гласного для принятия решения о глухости-звон
67
кости соседнего согласного при восприятии речи. Положительный ответ, с одной стороны, означал бы, что человек способен выде лять отрезок речевого потока, соответствующий гласному звуку, и, с другой стороны, что при принятии фонемного решения должно происходить объединение фонемной информации, заключенной в соседних сегментах (в ГС слоге).
На рис. 3.10 приведено схематическое изображение синтети ческих стимулов, использованных в работе [44°]. Конечная часть стимулов синтезировалась таким образом, чтобы воспроизводить типичные акустические явления в естественных сочетаниях, окан чивающихся на глухой или на звонкий согласный (сочетание согласных). Переменным параметром при синтезе была длитель ность гласного, изменяющаяся в диапазоне от 150 до 350 мс. Записанные на пленку стимулы предъявлялись испытуемым, которые должны были ответить, звонким или глухим был конеч ный согласный.
Полученные результаты приведены на рис. 3.11, где сравни ваются функции идентификации конечного согласного (сочетания
согласных) |
для |
соответствующих стимулов, синтезированных |
с «глухими» |
и |
«звонкими» конечными согласными. Как видно |
из этого рисунка, влияние признаков конца стимула оказалось значительно более слабым, чем влияние длительности предшеству ющего гласного.
Таким образом, оказывается, что длительность предшествую щего гласного при восприятии может служить для человека при знаком глухости-звонкости последующего конечного согласного, причем имеет значительный «вес».
3.5. РАЗНЫЕ ИНТЕРПРЕТАЦИИ ПОНЯТИЯ «ФОНЕТИЧЕСКИЙ ЭЛЕМЕНТ»
Приведенные в главе данные заставляют считать, что человек действительно каким-то образом выделяет в речевом сигнале отрезки гласных звуков. Можно с достаточной вероят ностью полагать, что гласная фонема является характеристикой выделенного отрезка, т. е. распознавание гласных фонем основы вается на измерении ряда признаков именно этого отрезка. Сле довательно, для гласных выдерживаются требования, предъявля емые ранее к фонетическому элементу: элемент есть отрезок рече вого потока, фонема является обозначением класса, в который по ряду своих физических свойств попадает данный отрезок. Характеристиками элемента, кроме фонемного символа, могут быть длительность, интенсивность (громкость) и, вероятно, ка кие-то признаки основной частоты голоса.
В отношении согласных дело обстоит сложнее. Удобно предпо ложить, что для записи согласного (группы согласных) исполь зуется отдельная ячейка памяти, и в зтом смысле согласные как бы «приписываются» отрезку сигнала между концом предыдущего
и началом следующего гласного. Однако акустические признаки, на основе которых производится идентификация согласных, на ходятся не только на этом отрезке, но и на соседних отрезках гласных.
Если определить фонетический элемент как отрезок сигнала, характеристикой которого является фонема, то для согласной фонемы фонетическим элементом оказывается слог. При этом выясняется еще одна трудность: полезная информация о согласном в сочетании ГСГ содержится на отрезках обоих гласных.
Тот факт, что человек «собирает» информацию о согласном, заключенную на переходе от гласного к смычке (щели) согласного и на переходе от согласного к гласному, отчетливо был проде монстрирован в экспериментах по текущей имитации звукосочетаний типа ГСГ [159]. Оказалось, что, начав имитировать согласный
Рис. 3.12. Количество ошибок в соглас ных при имитации, заключающихся в неправильном воспроизведении места образования согласного (л), звон кости или глухости (зв), щелевого или
смычного характера согласного |
(щ), |
назальности или неназальности |
(к). |
По [15э]. |
|
Остальные обозначения см. в тексте. |
|
раньше, чем диктор успевал полностью произнести его, испытуе мый в ряде случаев начинал имитацию с неправильных движений, которые могли быть им исправлены после того как он слышал конец согласного. Этот факт отражен в диаграмме на рис. 3.12, где всей высотой столбика показано количество ошибок (по разным признакам), наблюдавшихся в начальный момент имитации со гласных; двойной штриховкой показано количество ошибок, сохранившихся до конца произнесения согласного. Из диаграммы следует, что в большинстве случаев по мере накопления информа ции происходит исправление артикуляции.
Следовательно, допустив, что фонетические элементы (слоги) представляют собой соседние ненерекрывающиеся отрезки рече вого потока, мы неизбежно потеряем часть информации о соглас ной фонеме. Это произойдет вне зависимости от того, примем ли мы открытые или закрытые слоги, т. е. будем ли мы считать гра ницей слога начало или конец отрезка гласного.
Казалось бы заманчивым предположить, что блок фонетичес кой интерпретации использует в качестве единиц анализа рече вого потока как интервалы между началами соседних отрезков
69
гласных, так и интервалы между их концами, т. е. последовательно рассматривает то закрытый, то открытый слог. Такой метод пере крывающихся единиц анализа позволил бы обеспечить полное извлечение информации. Экспериментальные данные в пользу того, что такая процедура применяется человеком при решении вопроса о том, является ли рассматриваемый отрезок слогом, приводятся в главе 6.
Итак, вопрос о природе фонетического элемента оказался до статочно сложным. Вероятно, имеет смысл раздельно рассматри вать, с одной стороны, систему промежуточных понятий относи тельно речевого потока, используемых блоком фонетической интерпретации при преобразовании речевого сигнала в последо вательность выходных данных, и, с другой стороны, принципы организации (объединения в группы) самих выходных данных.
В отношении речевого потока, очевидно, нужно допустить такие понятия, как отрезок гласного и интервалы между началами и между концами соседних отрезков гласных. Если эти понятия введены, то понятие фонетического элемента может стать излиш ним.
В отношении выходной информации приходится предполагать, что должны быть выделены группы сведений об отрезках гласных. Каждая такая группа должна включать, кроме указания гласной фонемы, ряд просодических характеристик. Вопрос о том, можно ли все просодические характеристики включить в такую группу и что, кроме последовательности фонем, должна включать группа сведений относительно согласных, пока остается открытым. Обсуждение этих вопросов содержится в главе 5. Можно видеть, что и для описания организации выходной информации нужны более дифференцированные понятия, чем понятие фонетического элемента. Из этого, естественно, не следует, что термином «фоне тический элемент» нельзя пользоваться в описательных целях.
Заметим, что необходимость уточнения понятий никак не влияет на существо исходных лингвистических представлений о том, что речевой сигнал описывается в «сознании» слушающего после довательностью дискретных элементов.
Главный для настоящей главы вывод о выделении в речевом потоке отрезков гласных влечет за собой по крайней мере два важных следствия. Во-первых, появляется возможность ожидать, что полезными признаками фонем служат признаки отрезков; это расширяет область поисков этих признаков при исследовании восприятия речи и при разработке устройств для автоматического распознавания речи. Во-вторых, появляется самостоятельная и достаточно сложная задача изучения способов обработки си гнала, обеспечивающих выделение отрезков гласных.
1