Как работает распознавание речи

Распознавание речи и статистическое моделирование

 


Ранние системы распознавания речи пытались применить к речи набор грамматических и синтаксических правил. Если произносимые слова соответствуют определенному набору правил, программа может определить, что это были за слова. Однако человеческий язык имеет множество исключений из своих правил, даже если на нем говорят постоянно. Акценты, диалекты и манеры могут значительно изменить способ произнесения определенных слов или фраз. Представьте, что кто-то из Бостона произносит слово «сарай». Он вообще не произносил «р», и это слово рифмалось со словом «Джон». Или рассмотрите предложение: «Я собираюсь увидеть океан». Большинство людей не очень внимательно произносят свои слова. Результат может быть таким: «Я собираюсь увидеть океан». Они объединяют несколько слов вместе без заметного перерыва, например " 


Современные системы распознавания речи используют мощные и сложные системы статистического моделирования . Эти системы используют вероятность и математические функции для определения наиболее вероятного результата. По словам Джона Гарофоло, менеджера речевой группы в лаборатории информационных технологий Национального института стандартов и технологий, сегодня доминируют две модели - это скрытая марковская модель и нейронные сети. Эти методы включают сложные математические функции, но, по сути, они используют информацию, известную системе, для определения информации, скрытой от нее.  
Скрытая марковская модель является наиболее распространенной, поэтому мы рассмотрим ее подробнее. В этой модели каждая фонема похожа на звено в цепочке, а завершенная цепочка - это слово. Однако цепочка разветвляется в разных направлениях, поскольку программа пытается сопоставить цифровой звук с фонемой, которая, скорее всего, появится следующей. Во время этого процесса программа присваивает каждой фонеме оценку вероятности на основе встроенного словаря и обучения пользователей. 
Для фраз и предложений этот процесс еще более сложен - система должна выяснить, где заканчивается и начинается каждое слово. Классический пример - фраза «распознавать речь», которая очень быстро звучит как «разрушить хороший пляж». Программа должна анализировать фонемы, используя фразу, которая была перед ней, чтобы понять это правильно. Вот разбивка на две фразы: 

r eh k ao g n ay z s p iy ch 

"распознавать речь" 

r eh k ay n ay s b iy ch

"разрушить хороший пляж" 

Почему это так сложно? Если в программе есть словарный запас в 60 000 слов (что является обычным для современных программ), последовательность из трех слов может быть любой из 216 триллионов возможных. Очевидно, что даже самый мощный компьютер не сможет перебрать их все без посторонней помощи. 

Эта помощь приходит в виде программного обучения. По словам Джона Гарофоло: 
Эти статистические системы нуждаются в большом количестве образцовых обучающих данных для достижения их оптимальной производительности - иногда порядка тысяч часов записанной человеком речи и сотен мегабайт текста. Эти обучающие данные используются для создания акустических моделей слов, списков слов и [...] сетей вероятностей из нескольких слов. Существует определенное искусство в том, как выбирать, компилировать и подготавливать эти обучающие данные для «усвоения» системой и как модели системы «настраиваются» на конкретное приложение. Эти детали могут отличать хорошо работающую систему от плохо работающей - даже при использовании одного и того же базового алгоритма. В то время как разработчики программного обеспечения, которые устанавливают начальный словарь системы, выполняют большую часть этого обучения, конечный пользователь также должен потратить некоторое время на его обучение. В бизнес-среде основные пользователи программы должны потратить некоторое время (иногда всего 10 минут), разговаривая с системой, чтобы обучить ее своим конкретным образцам речи. Они также должны научить систему распознавать термины и сокращения, относящиеся к компании. В специальных выпусках программ распознавания речи для медицинских или юридических служб есть термины, обычно используемые в этих областях, уже обученные им. 

 Далее мы рассмотрим некоторые слабые места и недостатки систем распознавания речи.

Комментарии

Популярные сообщения из этого блога

Светодиодный индикатор уровня сигнала

Колебание жидкости в трубке.

Распознавание речи и распознавание голоса: в чем разница?