бесплатно рефераты
 

Машины, которые говорят и слушают

надежность распознавания по чужим дикторам не превышает 80% (на словаре

из 100 слов);

- при кооперативном обучении средняя надежность распознавания для

четырех членов кооператива составляем 98^, что вполне приемлемо для

практического использования;

- кооперативное обучение способствует существенному превышению

надежности распознавания речи лиц, не участвовавших в получении обучающей

выборки (для двух новых дикторов средняя надежность распознавания 97 и

92%).

S 1.3. Развитие систем распознавания/понимания слитной речи

Задача общения человека и ЭВМ с помощью естественной,слитной речи

оказалась гораздо более сложной, чем построение систем распознавания

изолированных слов. Одной из первых практических систем распознавания

последовательности слитных словосочетаний (пять слов исходного словаря)

явилась система фирмы KdC .описанная ранее.

В дальнейшем будем различать системы распознавания *и системы

понимания слитной речи. В первых, как правило, рассматриваются фразы,

составленные из последовательности слов, между которыми синтаксическая и

семантическая связь либо отсутствует,либо слишком жесткая (используется

автономная грамматика).Системы понимания, в отличие от систем

распознавания, при декодировании входного высказывания используют высшие

лингвистические уровни языков, близкие к естественным, работая с

фразами, в которых допустимы стилистические ошибки, бессмысленные

звуковые сочетания, произвольные паузы и междометия.

При построении систем понимания речи необходимо в большей степени,

чем при создании систем распознавания слитной речи, использовать опыт

специалистов по искусственному интеллекту, а также привлекать

специальные знания о синтаксисе, семантике и прагматике языка общения.

В то же время отметим, что деление на системы автоматического распознавания

и понимания является 20

достаточно условным и фактически определяется коэффициентом ветвления,

который показывает, сколько возможных слов допускается после каждого слова

высказывания. В современных системах распознавания слитной речи средний

коэффициент не превышает,как правило, 30 (в системе Nac-ISQ), а в

системах понимания этот коэффициент достигает 200-300 (бессмысленные

звукосочетания типа цмм ... , эээ ... и т.д., а также паузы и

междометия можно рассматривать в СПР как возможные варианты слов).

Так как автоматическое распознавание 300 - 300 слов в непрерывном

речевом потоке - сложная задача, веди использовать обычные математические

методы распознавания, то для ее решения и привлекаются высшие уровни

знания о языке (синтаксис, сематика и прагматика), а также другие

способы, обеспечивающие сужение числа альтернатив на каждом шаге

принятия решения о слове, используемые обычно в задачах искусственного

интеллекта (ИИ). В связи с этим в системах понимания говорят о

семантической точности распознавания смысла фразы, когда не все

составляющие (слова) могут быть распознаны правильно.

Перейдем к рассмотрению систем распознавания слитной речи. Как

правило, такие системы работают по принципу фонемного распознавания, от

точности которого зависит общая надежность работы системы. Одной из

наиболее интересных отечественных систем с обучением на конкретного

диктора и словарь является система, построенная в Институте кибернетики

АН УССР им. В.М.Гяуи-кова [l9,20] , развитием которой стала кооперативная

система распознавания рвчи[213.

В основу этой системы положена математическая модель речевого сигнала,

в которой каждой фонеме соответствует полученный алгоритмически (на

основе анализа текущей автокорреляции сигнала, параметров линейного

предсказания и текущего энергетического спектра) определенный набор

бинарных признаков ( двоичный код). Модель учитывает коартикуляционныв

эффекты, изменение длительности фонем и динамику интенсивности сигнала.

Модель автоматического распознавания Института кибернетики АН СССР

использует анализ сигнала посредством синтеза.

Некоторый процеср порождает из элементарных эталонных сигналов по

определенным правилам эталонную слитную речь (общий для всех слов алфавит

эталонных элементов содержит около 80 элементов кодов). Распознавание

слитной рччи сводится к необходимости нахождения наиболее правдоподобного

эталонного сигнала слитной речи.

21

В этой модели автоматически находятся границы отдельных фонем, паузы,

тип и общее количество фонем в распознаваемой последовательности о

учетом априорной вероятности частоты встречаемости фонем. Эталонный сигнал

слитной речи формируется из эталонных сигналов отдельных слов путем

нелинейного преобразования исходных словесных эталонов. При этом

эталонные сигналы слов складывались в эталонную слитную речь так, что

паузы между словами имели различную длительность (в том чис/ie и

нулевую),а длительность элементов фразы изменялась плавно. Параметрами

грамматики, порождающей эталонные фразы, являлись: алфавит эталонных

элементов, акустике-фонетические транскрипции слов, правила стыковки слов

во фразе, правила нелинейной деформации сигналов вдоль оси времени и

некоторые другие параметры.

Для экспериментов по распознаванию слитной речи ( словарь включал 200

слов) были получены 1000 реализации этих слов, произнесенных одним

диктором (обучающая выборка). При испытаниях система дала 0,5% ошибок и 3%

отказов при распознавании слов в слитном потоке. Расширение словаря до 300

слов увеличило количество ошибок до 1%, причем отказов было 3,5%. При

экспериментах со словарем из 100 слов удалось получить время

распознавания (на ЭВМ БЭСМ-6), равное I с на I слово [193 • Отметим,

что близкий к этому метод используется в системах распознавания слитной

речи (СРСР), разработанных в Отделе вычислительной науки

исследовательского центра фирмы 1УЫ. В связи с тем, что данная фирна

(так же, как и фирма Sperry Univac ) активно занимается

исследованиями по распознаванию слитной речи после завершения проекта

arpa , рассмотрим эти работы более подробно.

В С39] описана СРСР, в основе которой лежит модель акустического

канала, обеспечивающая автоматическое порождение всех возможных

поверхностных форм предполагаемого высказывания совместно с

вероятностями их порождения. Это порождение осуществляется с помощью

акустико-фонологических правил (АФП).приложенных к базовой цепочке

высказывания. АФП учитывают в слитной речи такие фонологические явления,

как пропуски, вставки и замены отдельных фонем внутри слов, повышенный тон

речи, диалектные особенности, изменения на стыках слов и т.д.

Удобной структурой для выражения поверхностных форд высказывания

явился направленный граф, дуги которого помечены возможными звуками.

Каждому узлу графа соответствует распределение вероятностей, указанных на

выходящих дугах. Дуги на концах графа, соответствующего совокупности всех

поверхностных форм произнесен-

22

ного слова, имеют связанные с начальными и конечными состояни-яни условия

соединения, определяемые фонологическими явлениями на стыках слов.

Язык системы определяется автоматной грамматикой, представленной графом

и включающей 250 слов. Для распознавания использовался лингвистический

декодер-алгоритм последовательного декодирования, обеспечивающий

нахождение предложения о максимальной апостериорной вероятностью по

последовательности цепочки фонем, поступающих с выхода специального

акустического процессора. Точность декодирования высказываний на

контрольной выборке составила (по данным на август 1977 г.) 95% при 6%

ошибочной интерпретации, которые были вызваны 0,6% ошибок неправильного

распознавания слов. Следует отметить, что рассматриваемая система

была сияьно модифицирована за последние три года: упрощен акустический

процессор, с которого быви сняты функции фонемной сегментации и

маркировки. Сказалось возможным, используя алфавит из 33 фонем,

маркировать ими десятимиллисвкундные отрезки речевого сигнала

непосредственно по акустическим данным.Преимущество такого представления

авторы работы [Ю5Д видят в том, что, во-первых, информация о

звуке,распределенная по длине фонем, оказывается более полезной для

распознавания, так как при этом возрастает количество информации,

поступающей от акустического процессора к лингвистическоу декодеру. Во-

вторых, сегментация и маркировка (принятие решения о звуке) разнесены

во времени, и лингвистический декодер может, основываясь на структуре

отдельных слов, во время сравнения решить, представляет ли короткая

маркированная цепочка десятимиллисекунцных сегментов истинный звук или

же это - ошибочная ложная ставка.

Дальнейшее совершенствование сантисенундного акустического процессора (

asAJ ) за счет использования 45 эталонных фонетических меток вместо 33

позволило повысить точность классификации (на языке со словарем из 250

слов) до 98,8% на контрольном материале 100 предложений [l07] . Следует

отметить, что еще более совершенный процессор ( wbap ), на котором

получены наилучшие результаты распознавания (0% ошибок), использует лишь

пять параметров, один из котррых - кратковременные изменения общей

энергии сигнала, а четыре - отражают параметры гласных и описаны ранее

в [l4l] . Этот процессор осуществляет акустическое сравнение

непосредственно, используч величины акустических параметров, а не

фонетические метки, связанные с сантисекундными отрезками. Для каждого

слова используется модель с конечным числом состояний, которая

порождается алгоритмически из отображенного

23

произношения. Число состояний модели равно длине этого произнесения в

сантисекундах. В модели обеспечиваются переходы из состояния к этому же

состоянию, к соседнему и через одно.С каждым переходом связано пятимерное

гауссовское распределение в пространстве первичных параметров. Средние

значения и дисперсии выходных распределений, а также переходные

вероятности формируются автоматически при обучении на дополнительных

реализациях слов при формировании обобщенных эталонов с помощью алгоритма

Вктер-би [39].

В процессоре wbap используемая статистика основана скорее на

особенности слов, чем на особенности звуков.

Следует отметить, что за I976-I978 гг. предпринимались попытки

увеличить объем используемого в СРСР фирмы IBh словаря до 1000 слов

(тезаурус лазерных патентов). Предварительные результаты испытаний этой

системы описаны в [106} . На тестовом множестве фраз, куда входило

486 слов, ошибка распознавания слов составила 33,1%, причем ни одна из

й0 контрольных фраз не была определена правильно - программа распознавания

делала ошибку хотя бы в одном слове каждой фразы. Развитие этой системы

[107] позволило за счет увеличения числа фонетических меток до 52

снизить ошибки в распознавании слов до 20%.

В [108,109] рассмотрены дальнейшие улучшения этой системы, позволившие

уменьшить число ошибок при распознавании слов за счет использования

более совершенного сантисекундного акустического процессора сзар-зоо,

в котором число эталонных фонетических меток было расширено до двухсот.

При распознавании 50 п"едл°жений, включающих 980 слов, неверно распознано

87 слов, в числе которых 34 слова, составившие односложные слова типа

"of", " а ", " are ","as" и др. Переход к работе этой системы с

множеством дикторов описан в [l59]. Работа с новыми дикторами

реализована за счет использования автоматической селекции акустических

эталонов, выполняющейся двумя различными способами.Один из методов, в

основе которого лежит процедура Витерби С 39], реализован с помощью

сантисекундного акустического процессора TPIVIAI [l07], а другой,

основанный на алгоритме кластеризации, использует акустический

процессор autociust. (В первом методе использовалось 85 эталонов, во втором

- 20D.) Точность распознавания слов составила при использовании первого

алгоритма 65%, а второго - 90%. В 1983 г. была публикация одной фирмы

о распознавании словаря деловой переписки общим объемом 5000 слов.

Над проблемами распознавания слитной речи продолжает работать фирма

Sperry Univas, участвовавшая в проекте АЙРА. Эта

24

фирма разработала с"стему автоматического распозньвания слов,словосочетаний

и естественных предложений {l74] . На основе спектрального анализа и

линейного предсказания в спектральной об-дасти звуки классифицировались

по способу и месту образования. Система была испытана на словаре из 31

слова двумя дикторами. Точность распознавания изолированных слов при

использовании синтаксиса задачи составила 95%. Предварительные результаты

по распознаванию слитной последовательности слов, произносимые тремя

дикторами, составили от 54 до 74% для задачи с ограничечным порядком

следования слов. Предполагалось, что в дальнейшем будут использованы

акустико-фонетичзские и фонологические правила, нормализация дикторских

произношений, просодические характеристики речи. Предполагалось также, что

будут использованы более сложные процедуры для синтаксического и

семантического анализа. В 1977 г. система работала с двумя словарями -

из 36 (алфавит-но-цифровой словарь) и 64 слов (словарь речевого

управления) [123, 153] . Для обоих словарей точность распознавания

составила 95^, а средней точности распознавания слитялс словосочетаний -

88%.Дальнейшие разработки включали расширение словарного состава системы,

числа типов предложений, использование правил фонетической и словесной

верификации.

В [l54] сообщается, что система Sperry Univac. была модернизирована

для поиска и верификации ключевых слов в потоке слитной речи. В этой

системе использовались измеряемые на деся-тимиллисекундных интервалах

параметры речевого сигнала, проведшего через телефонный канал.

Исследователями был выбран достаточно мощный набор параметров-

Непосредственно по речевой волне определилась частота основного тона.

Спектральный анализ с помощью быстрого преобраэозания Фурье (БПД) позволял

получить следующие признаки речевых отрезков: общую энергию в полосе

100 -8600 Гц, энергию сонорных (100 - 3000 Гц), высокочастотную энергию

сонорных (650 - 3000 Гц), низкочастотную энергию (JOO - 600 Гц), разность

энергий низких и высоких частот 1

кГц) диапазонах. Эти параметры выделяются в реальном масштабе времени из

сигнале, поступающего с АЦП в мини-ЭВМ, которая обладает средним

быстродействием 600 тыс. операций в I с. Параметры (число нулевых

пересечений и амплитудное значение сигнала на интервале анализа для каждого

из диапазонов) формируются программно, и их значения дают возможность грубо

классифицировать сегменты на 10 различных типов - пауэы (глухая смычка),

наличие звонкой смычки, характеризующие звонкие взрывные б, д,г, сонорный

согласный, глухой фрикативный (переднеязычный или заднеязычный), носовой,

свистящий, гласный высокого иди низкого подъема. В дальнейшем

производится пере классификация сегментов на 59 классов, некоторые из них

пересекаются в пространстве признаков.

На второй стадии к среднему участку сегментов применяют сравнение с

эталонами (этих эталонов для каждого класса сегментов может быть до 100).

При сравнении средний участок сегмента по-ступившей на вход реализации

сравнивается с множеством эталонов, которые подучены от специально

обученных дикторов. Использование сегментации I уровня позволяет, как

отмечается в [l79], ускорить общую сегментацию в пять раз по сравнению

с унифицированной, основанной .исключительно на коэффициентах линейного

предсказания.

Как уже отмечалось, ключевой проблемой систем понимания Речи является

верификация сдоврсиьк гипотез.подожданных различ-иыми источниками знаний.

Блок словесной верификации должен оце-нвдь, насколько акустические данные

входной реализации соответствуют фонетической транскрипции

гипотезируеного слова.

2S

В соответствии с оценкой, словесный верификатор отбрасывает

большее числе гипотезированных слов, сохраняя возможные пра~ вильные, чтобы

впоследствии отобрать единственное с помощью инфор~ мации высших уровней.

В Hearsay -П слова порождаются либо словесным гипотезато-ром снизу

вверх (блоком POMOW), либо преде называются сверху вниз семантико-

синтаксическим блоком sass . Блок словесной верификации wizard

обрабатывает гипотезы о словах снизу вверх, используя акустическую

информацию и результаты автоматической сегментации. Каждый сегмент

высказывания представлен вектором фонемных вероятностей (т.е. с каждым

отрезком высказывания связываются определенные звуки, которым

присваиваются некие веса), Каждое слово словаря записывается эталонным

графом возможных фонетических произнесений, учитывающим все

альтернативные варианты произнесений. Однородная модель, используемая

блоком словесной верификации, дает возможность найти оптимальное совпадение

одного из эталонов (соответствующее пути на одном из эталонных графов) и

участка входной реализации, соответствующего слову.

В системе Hearsay-П при словесной верификации стыки между словами не

рассматриваются, делается лишь их внутренняя обработка. wizard пытается

верифицировать слова, как будто они находятся в изоляции.

При верификации слова обрабатываются снизу вверх следующим образом:

предсказанные моменты начала и конца слова связываются с

соответствующими сегментами высказывания bseg и eseg. Исследуются все пути

в эталонных графах возможных слов, которые совпадают с отрезками и

входной реализацией. Сравниваются с эталонами отрезки, которые начинаются

в (baeg-I: beeg +I ) и заканчиваются в jeseg -I I eeeg +I(, т.е.

параллельно рассматриваются девять возможных участков высказывания,

что приводит к девяти оптимальным путям на эталонных графах, из

которых выбирается тот. оценки которого наибольшие, или наиболее

соответствуют рассматриваемому участку. Сдвиг на один сегмент вправо

или влево позволяет избегать ошибок при представлении входного,

высказывания (акустических данных) различными источниками знаний. В

результате блок словесной верификации может изменять время словесных

гипотез, а также их оценки. Следует отметить, что если в проектах ВШ

(Speechlis и HWIM) идет непосредственный переход от фонетического

описания к словесному, то в Hearsay-П используется еще промежуточный,

слоговый уровень между словами и звуковыми сегментами. Для поддержки

словесных гипотез используются так называемые типовые слоги, слоготипы

(syltypes).

Ццея слоготипов сводится к тому, что слоги, имеющие похожие сегменты

Страницы: 1, 2, 3, 4


ИНТЕРЕСНОЕ



© 2009 Все права защищены.