Как работает распознавание речи

 

 Чтобы преобразовать речь в экранный текст или компьютерную команду, компьютер должен пройти несколько сложных шагов. Когда вы говорите, вы создаете вибрацию в воздухе. Аналого-цифровой преобразователь (АЦП) преобразует эту аналоговую волну в цифровые данные , которые компьютер может понять. Для этого он дискретизирует или оцифровывает звук, делая точные измерения волны через частые интервалы. Система фильтрует оцифрованный звук для удаления нежелательного шума, а иногда и для разделения его на разные полосы частот.(частота - это длина волны звуковых волн, воспринимаемых людьми как разница в высоте тона). Он также нормализует звук или регулирует его до постоянного уровня громкости. Может также потребоваться временное выравнивание. Люди не всегда говорят с одинаковой скоростью, поэтому звук необходимо отрегулировать, чтобы он соответствовал скорости шаблонных звуковых образцов, уже сохраненных в памяти системы.

 Затем сигнал делится на небольшие сегменты продолжительностью до нескольких сотых секунды или даже тысячных долей в случае взрывных согласных звуков - согласные прекращаются, создавая препятствие потоку воздуха в речевом тракте - например, «p» или «t». " Затем программа сопоставляет эти сегменты с известными фонемами на соответствующем языке. Фонема - это наименьший элемент языка - представление звуков, которые мы издаем и соединяем, чтобы сформировать значимые выражения. В английском языке около 40 фонем (разные лингвисты по-разному относятся к точному количеству), в то время как в других языках фонем больше или меньше. 

 Следующий шаг кажется простым, но на самом деле он является наиболее трудным для выполнения и является предметом большинства исследований в области распознавания речи. Программа исследует фонемы в контексте других фонем вокруг них. Он обрабатывает контекстный сюжет фонем через сложную статистическую модель и сравнивает их с большой библиотекой известных слов, фраз и предложений. Затем программа определяет, что, вероятно, говорил пользователь, и либо выводит это в виде текста, либо выдает компьютерную команду. 

Мы подробно рассмотрим, как это происходит дальше.

Следующая страница

Комментарии

Популярные сообщения из этого блога

Светодиодный индикатор уровня сигнала

Колебание жидкости в трубке.

Распознавание речи и распознавание голоса: в чем разница?