Распознавание речи и распознавание голоса: в чем разница?

Легко запутаться в различиях между распознаванием речи и распознаванием голоса. Каждый из них играет определенную роль в унифицированных коммуникациях. От Джон Арнольд, J Arnold & Associates 

 Тема распознавания речи и распознавания голоса - отличный пример двух технологических терминов, которые кажутся взаимозаменяемыми на первый взгляд, но при ближайшем рассмотрении заметно отличаются. 

Слова « речь» и « голос» могут быть абсолютно взаимозаменяемыми, не вызывая путаницы, хотя также верно, что они имеют разные значения. Речь, очевидно, является голосовым способом общения, но есть и другие способы выражения голоса, не основанные на речи, такие как смех, интонации или невербальные высказывания. 

 Все становится более тонким, когда вы добавляете узнаваемость и к речи, и к голосу. Теперь мы входим в мир автоматического распознавания речи ( ASR ) , где мы подключаемся к приложениям, специально предназначенным для извлечения определенных форм деловой ценности из устного слова. Я кратко объясню распознавание речи и распознавание голоса, чтобы проиллюстрировать различия между ними. 

Распознавание речи фокусируется на переводе сказанного Распознавание речи - это то место, где ASR обеспечивает большую ценность для бизнеса как для приложений совместной работы, так и для приложений контакт-центров . Ключевым приложением здесь будет преобразование речи в текст, где целью является точный перевод разговорной речи в письменную форму - распространенный вариант использования. В своей основной форме роль ASR состоит в том, чтобы точно передать - буквально - то, что было сказано, в текст. 

 Более продвинутые формы ASR, а именно те, которые используют понимание естественного языка и машинное обучение, используют ИИ для поддержки функций, выходящих за рамки буквальной точности. Цель здесь состоит в том, чтобы смягчить двусмысленность, которая обычно возникает в речи, чтобы приписать намерение, где контекст разговора помогает прояснить, что говорится. Без этого даже самые точные приложения для преобразования речи в текст могут легко генерировать вывод, который смехотворно отличается от того, о чем на самом деле говорит говорящий. 



Распознавание голоса определяет, кто что говорит В узком смысле, распознавание речи можно также назвать распознаванием голоса , и это описание вполне приемлемо, если ясно понимается основной смысл. Однако для тех, кто работает в кругах речевых технологий, существует важное различие между распознаванием речи и распознаванием голоса. В то время как распознавание речи относится к содержанию того, что говорится, распознавание голоса направлено на правильную идентификацию говорящих, а также на обеспечение точной атрибуции всего, что они говорят. С точки зрения совместной работы эта возможность бесценна для конференц-связи., особенно когда несколько человек говорят одновременно. Независимо от того, предназначен ли вариант использования для создания субтитров, чтобы удаленные участники могли следить за тем, кто что говорит, в режиме реального времени или для последующего просмотра стенограмм, точное распознавание голоса теперь необходимо для унифицированных коммуникаций.

Помимо совместной работы, распознавание голоса играет все более важную роль в проверке личности говорящего. Это критически важно при определении того, кто может присоединиться к конференц-связи, есть ли у них разрешение на доступ к компьютерным программам или файлам с ограниченным доступом или разрешено входить на объект или контролируемые пространства. В подобных случаях распознавание голоса не касается самой речи или содержания того, что говорится; скорее, речь идет о подтверждении личности говорящего . С этой целью было бы правильнее думать о распознавании голоса как о распознавании говорящего, поскольку это более простой способ отличить его от распознавания речи.

ОтДжон Арнольд, 

Комментарии

Популярные сообщения из этого блога

Светодиодный индикатор уровня сигнала

Колебание жидкости в трубке.