Сообщения

Сообщения за 2020

Предприятия изучают технологию голосового помощника AI

Изображение
  Интеллектуальные устройства голосового помощника, столь популярные среди потребителей, начинают появляться на предприятиях, но предприятиям необходимо помнить о нескольких проблемах.   В последнее время устройства голосового помощника с искусственным интеллектом стали громкими заголовками в мире бытовой электроники, но производители все чаще обращают внимание на предприятия, чтобы увеличить долю рынка и прибыль. Несмотря на ранние обещания, некоторые проблемы могут сдерживать принятие.  Использование голосовых помощников на предприятии  У предприятий есть множество возможностей воспользоваться голосовыми помощниками , также известными как интеллектуальные колонки. Интеллектуальные голосовые помощники могут выступать в качестве дополнительных ресурсов для организаций за счет использования диалоговых технологий и облачной вычислительной мощности с поддержкой ИИ для выполнения задач, которые в противном случае были бы поручены помощникам по администрированию или...

Как технология распознавания речи может поддерживать удаленную работу?

Изображение
Сегодняшняя технология распознавания речи намного сложнее, чем унаследованные версии.  Узнайте, как распознавание речи может повысить продуктивность удаленных сотрудников. Технология распознавания речи принимает разные формы, и лица, принимающие решения в области ИТ, должны помнить о двух вещах, рассматривая возможность ее использования для удаленной работы . Во-первых, распознавание речи не является новой технологией как таковой; он использовался предприятиями на протяжении десятилетий. Таким образом, эту технологию не следует рассматривать как нечто новое или уникальное. Тем не менее, распознавание речи сегодня является кульминацией множества новых технологий, которые усиливают его возможности - возможности, которые распространяются на удаленную работу.  Во-вторых, для многих предприятий удаленная работа станет новым сценарием, и потребуются новые подходы для поддержки как домашних работников, так и ИТ. Это не означает, что унаследованные технологии не играют здесь роли, но,...

Тембр звука

Изображение
Тембр звука  Каждый звук, издаваемый различными музыкальными инструментами, голосами различных людей и т.п., имеет свои характерные особенности - своеобразную окраску или оттенок. Эти особенности звука называют тембром. показаны осциллограммы звуковых колебаний, создаваемых роялем и кларнетом для одной и той же ноты. Осциллограммы показывают, что период у обоих колебаний одинаков, но они сильно отличаются друг от друга по своей форме и, следовательно, различаются своим гармоническим составом. Оба звука состоят из одних и тех же тонов, но в каждом из них эти тоны - основной и его обертоны - представлены с разными амплитудами и фазами. Тембр (фр. timbre — «колокольчик», «метка», «отличительный знак») — (обертоновая) окраска звука; одна из специфических характеристик музыкального звука (наряду с его высотой, громкостью и длительностью). По тембру отличают звуки одинаковой высоты и громкости, но исполненные на различных инструментах, разными го...

Определитель ноты. DisplayPlayingNote

Изображение
Программа анализирует звук поступающий с микрофона, и показывает соответствующую ноту на нотном стане. В гитарной записи на 2 линии записывается нота соль малой октавы. Диапазон анализатора - от ноты МИ большой октавы(шестая струна) до ноты МИ второй октавы (первая струна на двенадцатом ладу). Скачать можно из облака - https://cloud.mail.ru/public/83pP/By4...

АРИФМЕТИКА МУЗЫКИ

Изображение
«Музыка — это бессознательное упражнение души в арифметике». Так считал немецкий философ, математик и физик Готфрид Лейбниц. Если соотнести эти слова с обилием музыки в наше время, можно смело утверждать, что мы, сами того не осознавая, упражняемся в арифметике каждый день. Я предлагаю вам хоть полчаса поупражняться сознательно. Если, конечно, вас заинтересуют загадки, которые сейчас будут загаданы. И разумеется, если вы не знаете ответов. /93/ Несколько загадок Наше ухо очень чувствительно, у нижней границы музыкального диапазона оно замечает изменение частоты колебаний всего на один герц, в середине диапазона — на два-три герца, в верхней его части — на пять герц. Другими словами, если частота возрастет, например, с 50 до 51 герца, с 800 до 803 герц, с 3000 до 3005, мы заметим, что звук стал выше. Вспомним, что границы музыкального диапазона простираются от 16 до 4700 герц. Нетрудно подсчитать, что человек в этом диапазоне может различить по высоте около полутора тысяч му...

Что не так в моих рассуждениях?

Изображение
Для частоты 110 Hz длина звуковой волны составит примерно 3.1 м. Задержка сигнала на таком расстоянии составляет 9 ms по сравнению с микрофоном расположенным в начале трубы. Сигналы с микрофонов подаем реверсивный счетчик с показаний которого чертим график показывающий как изменяется частота. При частоте 3400 гц  внутри трубы при такой частоте разместится тридцать периодов. При постоянной частоте показания счетчика будут показывать сколько периодов в данный момент находится в трубе. Записывая показания счетчика можно проследить изменения высоты звука. Каждый звук разместиться на своей полочке как в нотной грамоте.Как вам такая идея? Вполне годится для патента и получения нобелевской премии за переворот в системе распознавания речи.

Распознавание речи без библиотек

  Алгоритмов обработки сигналов великое множество. У каждого есть свои достоинства и недостатки. В распознавании звуковых сигналов приоритет отдан цифровой обработке сигналов где все построено на расчете изменений тока во времени. На заре развития электросвязи для измерения частоты использовались резонансные фильтры . Для объяснения работы органов слуха использовали резонансную теорию которая имеет много сторонников и до сих пор считается классической. Если допустить что при распознавании звуков главным является не определение спектра частот то появится возможность найти «философский камень» — алгоритмы распознавания звуковых сигналов не используя производных от времени которые бы однозначно классифицировали звуковую волну. Если считать что слуховой образ — не сумма тональностей а соотношение тональностей то не потребуется определять все частоты звуковом сигнале как делается в существующих программах распознавания звуковых сигналов.  Мы можем узнать мелодию сыгранную на любо...

Какие приложения для голосовых технологий существуют за пределами контакт-центров?

Изображение
Приложения речевой технологии не ограничиваются контакт-центрами. Наш эксперт объясняет варианты использования технологии, включая персональных цифровых помощников и управление знаниями. Джон Арнольд От Джон Арнольд, J Arnold & Associates Опубликовано: 19 дек 2018  Речевая технология, управляемая искусственным интеллектом приложения в основном используются в контакт-центрах, но это не единственный вариант использования технологии. Наиболее интересные варианты использования речевых технологий - это формы межмашинного общения. Существует множество приложений речевой технологии для обычных случаев использования, а именно, от человека к человеку, но в наши дни инновации сосредоточены в основном на коммуникации между человеком и машиной.   Речевые приложения все еще находятся в зачаточном состоянии, когда речь идет о машинах, взаимодействующих как с людьми, так и с другими машинами. Это в основном связано с тем, что технология распознавания речи только недавно достигла то...

Теория информации

Теория информации - это раздел математики, который пересекается с коммуникационной инженерией, биологией, медициной, социологией и психологией. Теория посвящена открытию и исследованию математических законов, которые управляют поведением данных при их передаче, хранении или извлечении.  В 1948 году Клод Шеннон , математик из Bell Labs, опубликовал статью под названием «Математическая теория коммуникации» . Статья сразу же привлекла внимание математиков и ученых всего мира. В результате реакции на эту статью возникло несколько дисциплин, включая теорию информации, теорию кодирования и теорию энтропии абстрактных динамических систем.   Когда данные передаются, сохраняются или извлекаются, существует ряд переменных, таких как полоса пропускания , шум , скорость передачи данных, емкость памяти, количество каналов, задержка распространения, отношение сигнал / шум , точность (или частота ошибок), внятность и надежность. В аудиосистемах дополнительные переменные включают точн...

Понимание естественного языка (NLU)

Изображение
  Понимание естественного языка (NLU) - это ветвь искусственного интеллекта ( AI ), которая использует компьютерное программное обеспечение для понимания ввода, сделанного в форме предложений в текстовом или речевом формате.  NLU напрямую обеспечивает взаимодействие человека с компьютером ( HCI ). Понимание NLU естественных человеческих языков позволяет компьютерам понимать команды без формализованного синтаксиса компьютерных языков, а компьютеры могут общаться с людьми на их собственных языках.  Область NLU является важной и сложной подмножеством обработки естественного языка (NLP).  Хотя оба понимают человеческий язык, NLU призван общаться с неподготовленными людьми и понимать их намерения, а это означает, что NLU выходит за рамки понимания слов и интерпретирует значение. NLU даже запрограммирован со способностью понимать значение, несмотря на обычные человеческие ошибки, такие как неправильное произношение или перенос букв или слов. NLU использует алгоритмы дл...

Автоматическое распознавание речи (ASR)

Изображение
 Автоматическое распознавание речи (ASR) - это технология, которая позволяет пользователям информационных систем озвучивать записи, а не набирать цифры на клавиатуре. ASR используется в основном для предоставления информации и переадресации телефонных звонков.   В последние годы ASR стала популярной в отделах обслуживания клиентов крупных корпораций. Он также используется некоторыми государственными учреждениями и другими организациями. Базовые системы ASR распознают записи из одного слова, такие как ответы «да» или «нет» и произносимые цифры. Это позволяет людям работать с автоматическими меню без необходимости вручную вводить десятки цифр, не допуская ошибок. В ситуации ручного ввода пользователь может нажать не ту клавишу после ввода 20 или 30 цифр через определенные промежутки времени в меню и отказаться, а не позвонить снова и начать все сначала. ASR практически устраняет эту проблему.  Сложные системы ASR позволяют пользователю вводить прямые запросы или ответы...