Как работает распознавание речи
Сегодня, когда мы звоним в большинство крупных компаний, люди обычно не отвечают на звонки. Вместо этого отвечает автоматическая запись голоса и предлагает вам нажимать кнопки для перемещения по меню параметров. Однако многие компании перестали требовать от вас нажатия кнопок. Часто вы можете просто произнести определенные слова (опять же, как указано в записи), чтобы получить то, что вам нужно. Система, которая делает это возможным, представляет собой разновидность программы распознавания речи - автоматизированную телефонную систему.
Вы также можете использовать программное обеспечение для распознавания речи дома и на предприятии. Ряд программных продуктов позволяет пользователям диктовать на своем компьютере и преобразовывать свои слова в текст в текстовом редакторе или документе электронной почты . Вы можете получить доступ к функциональным командам, таким как открытие файлов и доступ к меню, с помощью голосовых инструкций. Некоторые программы предназначены для определенных бизнес-настроек, например, для медицинской или юридической транскрипции.
Люди с ограниченными возможностями, которые не позволяют им печатать, также используют системы распознавания речи. Если пользователь потерял возможность пользоваться руками, или для пользователей с ослабленным зрением, когда использование клавиатуры Брайля невозможно или не удобно, системы позволяют самовыражаться с помощью диктовки, а также управлять многими компьютерными задачами. Некоторые программы сохраняют речевые данные пользователей после каждого сеанса, позволяя людям с прогрессирующим ухудшением речи продолжать диктовать свои компьютеры.
Текущие программы делятся на две категории:
Малый словарный запас / много пользователей
Эти системы идеально подходят для автоматического ответа на телефонные звонки. Пользователи могут говорить с большим разнообразием акцентов и моделей речи, и большую часть времени система будет их понимать. Однако использование ограничено небольшим количеством предопределенных команд и вводов, таких как параметры основного меню или числа.
Большой словарный запас / ограниченные пользователи
Эти системы лучше всего работают в бизнес-среде, где с программой будет работать небольшое количество пользователей. Хотя эти системы работают с хорошей степенью точности (85 процентов или выше для опытного пользователя) и имеют словари в десятки тысяч, вы должны научить их работать лучше всего с небольшим числом основных пользователей. С любым другим пользователем показатель точности резко упадет.
Системы распознавания речи, созданные более 10 лет назад, также столкнулись с выбором между дискретной и непрерывной речью. Программе намного легче понимать слова, когда мы говорим их по отдельности, с четкой паузой между ними. Однако большинство пользователей предпочитают говорить с обычной скоростью разговора. Практически все современные системы способны понимать слитную речь.
Для этой статьи мы поговорили с Джоном Гарофоло , менеджером речевой группы в лаборатории информационных технологий Национального института стандартов и технологий . Мы также хотели бы поблагодарить Джошуа Сенекаля за его помощь в написании этой статьи.
Комментарии
Отправить комментарий