Распознавание речи и распознавание голоса: в чем разница?
Легко запутаться в различиях между распознаванием речи и распознаванием голоса. Каждый из них играет определенную роль в унифицированных коммуникациях. От Джон Арнольд, J Arnold & Associates
Тема распознавания речи и распознавания голоса - отличный пример двух технологических терминов, которые кажутся взаимозаменяемыми на первый взгляд, но при ближайшем рассмотрении заметно отличаются.
Слова « речь» и « голос» могут быть абсолютно взаимозаменяемыми, не вызывая путаницы, хотя также верно, что они имеют разные значения. Речь, очевидно, является голосовым способом общения, но есть и другие способы выражения голоса, не основанные на речи, такие как смех, интонации или невербальные высказывания.
Все становится более тонким, когда вы добавляете узнаваемость и к речи, и к голосу. Теперь мы входим в мир автоматического распознавания речи ( ASR ) , где мы подключаемся к приложениям, специально предназначенным для извлечения определенных форм деловой ценности из устного слова. Я кратко объясню распознавание речи и распознавание голоса, чтобы проиллюстрировать различия между ними.
Распознавание речи фокусируется на переводе сказанного Распознавание речи - это то место, где ASR обеспечивает большую ценность для бизнеса как для приложений совместной работы, так и для приложений контакт-центров . Ключевым приложением здесь будет преобразование речи в текст, где целью является точный перевод разговорной речи в письменную форму - распространенный вариант использования. В своей основной форме роль ASR состоит в том, чтобы точно передать - буквально - то, что было сказано, в текст.
Более продвинутые формы ASR, а именно те, которые используют понимание естественного языка и машинное обучение, используют ИИ для поддержки функций, выходящих за рамки буквальной точности. Цель здесь состоит в том, чтобы смягчить двусмысленность, которая обычно возникает в речи, чтобы приписать намерение, где контекст разговора помогает прояснить, что говорится. Без этого даже самые точные приложения для преобразования речи в текст могут легко генерировать вывод, который смехотворно отличается от того, о чем на самом деле говорит говорящий.
Распознавание голоса определяет, кто что говорит В узком смысле, распознавание речи можно также назвать распознаванием голоса , и это описание вполне приемлемо, если ясно понимается основной смысл. Однако для тех, кто работает в кругах речевых технологий, существует важное различие между распознаванием речи и распознаванием голоса. В то время как распознавание речи относится к содержанию того, что говорится, распознавание голоса направлено на правильную идентификацию говорящих, а также на обеспечение точной атрибуции всего, что они говорят. С точки зрения совместной работы эта возможность бесценна для конференц-связи., особенно когда несколько человек говорят одновременно. Независимо от того, предназначен ли вариант использования для создания субтитров, чтобы удаленные участники могли следить за тем, кто что говорит, в режиме реального времени или для последующего просмотра стенограмм, точное распознавание голоса теперь необходимо для унифицированных коммуникаций.
Помимо совместной работы, распознавание голоса играет все более важную роль в проверке личности говорящего. Это критически важно при определении того, кто может присоединиться к конференц-связи, есть ли у них разрешение на доступ к компьютерным программам или файлам с ограниченным доступом или разрешено входить на объект или контролируемые пространства. В подобных случаях распознавание голоса не касается самой речи или содержания того, что говорится; скорее, речь идет о подтверждении личности говорящего . С этой целью было бы правильнее думать о распознавании голоса как о распознавании говорящего, поскольку это более простой способ отличить его от распознавания речи.

Комментарии
Отправить комментарий