Андерсон дж распознавание речи и понимание языка кратко

Обновлено: 04.07.2024

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции YaC 2013 в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц — сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.


Рассказать неспециалисту максимально просто о работе компьютерного распознавания речи и преобразовании её в текст — задача почти непосильная. Ни один рассказ об этом не обходится без сложных формул и математических терминов. Мы попробуем максимально понятно и немного упрощённо объяснить, как ваш смартфон понимает речь, когда машины научились распознавать человеческий голос и в каких неожиданных областях используется эта технология.

Необходимое предуведомление: если вы разработчик или, тем более, математик, вы едва ли узнаете из поста что-то новое и даже посетуете на недостаточную научность материала. Наша цель — самым простым образом познакомить непосвящённых читателей с речевыми технологиями и рассказать, как и зачем Toshiba взялась за создание своего голосового ИИ.

Важные вехи в истории распознавания речи

История распознавания электронными машинами человеческой речи началась чуть раньше, чем принято думать: в большинстве случаев принято вести отсчёт с 1952 года, но на самом деле одним из первых устройств, реагировавшим на голосовые команды, был робот Televox, о котором мы уже писали. Созданный в 1927 году в США робот Герберт Телевокс представлял собой несложное устройство, в котором различные реле реагировали на звуки разной частоты. В роботе было три камертона, каждый из которых отвечал за свою тональность. В зависимости от того, какой камертон срабатывал, включалось то или иное реле.

image

Следующим ключевым изобретением, открывшим путь к настоящему распознаванию человеческой речи, стала машина Audrey, разработанная в 1952 году в кузнице инноваций Bell Labs. Огромная Audrey потребляла кучу электроэнергии и была размером с хороший шкаф, но вся её функциональность сводилась к распознаванию произнесённых цифр от нуля до девяти. Всего десять слов, да, но не будем забывать, что и Audrey была аналоговой машиной.

К сожалению, история не сохранила публичных фотографий Audrey, есть только принципиальная схема. Простая на бумаге, сложная в воплощении — по воспоминаниям современников, компоненты Audrey занимали целый шкаф. Источник: Bell Labs

Работало это так: диктор проговаривал в микрофон цифры, делая между словами интервалы не менее 350 мс, Audrey переводила услышанные звуки в электрические сигналы и сравнивала их с записанными в аналоговой памяти образцами. По результатам сравнения машина подсвечивала цифру на приборной панели.

Это был прорыв, но реальной пользы от Audrey не было и быть не могло — машина распознавала голос своего создателя с точностью до 97%, другие специально тренированные дикторы получали точность 70-80%. Посторонние люди, впервые контактирующие с Audrey, как бы ни старались, видели на табло свою цифру только в 50% случаев.

Несмотря на революционные для своего времени результаты, Audrey не нашла, да и не могла найти практического применения. Предполагалось, что систему можно приспособить вместо телефонных операторов, но всё же услуги человека оказались удобней, быстрее и гораздо надёжней, чем Audrey.

Презентация похожей на Audrey, только гораздо меньших размеров, машины — IBM Shoebox. Хорошо видна скорость работы Shoebox. Машина также могла выполнять простейшие математические операции сложения и вычитания

В начале 1960-х работы по созданию машин для распознавания речи велись в Японии, Великобритании, США и даже СССР, где изобрели очень важный алгоритм динамической трансформации временной шкалы (DTW), с помощью которого удалось построить систему, знающую около 200 слов. Но все наработки были похожи друг на друга, а общим недостатком стал принцип распознавания: слова воспринимались как целостные звуковые отпечатки, и затем их сверяли с базой образцов (словарём). Любые изменения скорости, тембра и чёткости проговаривания слов значительно влияли на качество распознавания. Перед учёными встала новая задача: научить машину слышать отдельные звуки, фонемы или слоги и затем составлять из них слова. Такой подход позволил бы нивелировать эффект смены диктора, когда в зависимости от говорящего уровень распознавания резко различался.

В 1971 году Управление перспективных исследовательских проектов Министерства обороны США (DARPA) запустило пятилетнюю программу с бюджетом $15 млн, в рамках которой была поставлена задача создать систему распознавания, знающую не менее 1000 слов. К 1976 году Университет Карнеги — Меллона представил Harpy, способную оперировать словарём из 1011 слов. Harpy не сличала целиком услышанные слова с образцами, а разделяла их на аллофоны (образец звучания фонемы в зависимости от окружающих её букв). Это был очередной успех, подтвердивший, что будущее за распознаванием отдельных фонем, а не цельных слов. Впрочем, среди недостатков Harpy был крайне низкий уровень корректного распознавания аллофонов (вариантов произношения фонем) — около 47%. При такой высокой погрешности доля ошибок росла вслед за объёмом словаря.

Описание принципа работы Harpy. Видео работы программы не сохранилось.

Опыт Harpy показал, что наращивать словари целостных звуковых отпечатков бесполезно — это лишь увеличивает время распознавания и радикально снижает точность, поэтому исследователи всего мира пошли по другому пути — распознавания фонем. В середине 1980-х машина IBM Tangora могла научиться понимать речь любого диктора с любым акцентом, диалектом и особенностями произношения, для этого лишь требовалась 20-минутная тренировка, в ходе которой накапливалась база образцов фонем и аллофонов. Применение скрытой марковской модели повысило словарный запас IBM Tangora до впечатляющих 20 000 слов — в 20 раз больше, чем было у Harpy, и уже сравнимо со словарным запасом подростка.

Все системы распознавания речи с 1950-х до середины 1990-х годов не умели считывать естественную разговорную речь человека — слова приходилось произносить отдельно, делая паузы между ними. По-настоящему революционным событием стало внедрение разработанной в 1980-х скрытой марковской модели — статистической модели, строившей точные предположения о неизвестных элементах на основе вытекающих из них известных. Упрощённо говоря, с помощью всего нескольких распознанных фонем в одном слове скрытая марковская модель очень точно подбирает недостающие фонемы, тем самым значительно повышая точность распознавания речи.

Первым универсальным движком распознавания естественной речи стала программа Dragon NaturallySpeaking 1997-го года. При работе с нею диктору (т. е. пользователю) не требовалось проходить тренировку или оперировать определённым лексиконом, как в случае с MedSpeak, — с NaturallySpeaking мог работать любой человек, даже ребёнок, программа не ставила никаких правил произношения.

image


Несмотря на уникальность Dragon NaturallySpeaking, ИТ-обозреватели не выказывали особого восторга от распознавания естественной речи. Среди недостатков отмечались ошибки распознавания и некорректная обработка команд, обращённых к самой программе. Источник: itWeek

Как услышать сказанное и додумать нерасслышанное?

В наше время лучшим средством для создания движка распознавания речи стала рекуррентная нейросеть (RNN), на которой построены все современные сервисы распознавания голоса, музыки, изображений, лиц, объектов, текста. RNN позволяет с высочайшей точностью понимать слова, а также предсказывать наиболее вероятное слово в рамках контекста, если оно не было распознано.

Нейросетевая темпоральная классификация модели (CTC) выделяет в записанном аудиопотоке (слове, фразе) отдельные фонемы и расставляет их в том порядке, в котором они были произнесены. После многократного анализа, CTC очень чётко выделяет определённые фонемы, а их текстовая запись сравнивается с базой слов нейросети и затем превращается в распознанное слово.

Как распознавание речи делает мир лучше?

Есть и иные примеры — в том числе наш собственный. Организация бизнеса Toshiba подразумевает полную инклюзию, то есть равные права и возможности для людей с различными ограничениями здоровья, в том числе для сотрудников с нарушениями слуха. У нас есть корпоративная программа Universal Design Advisor System, в рамках которой люди с различными видами инвалидности участвуют в разработке продуктов Toshiba, внося предложения для повышения их удобства людям с ограничениями здоровья — то есть мы не предполагаем, как можно сделать лучше, а оперируем реальным опытом и отзывами сотрудников.

Несколько лет назад в главном офисе Toshiba в Японии мы столкнулись с очень интересной задачей, потребовавшей разработать новую систему распознавания речи. Во время работы Universal Design Advisor System мы получили важный инсайт: сотрудники с нарушениями слуха хотят участвовать в обсуждениях на встречах и лекциях в реальном времени, а не ограничиваться чтением обработанной стенограммы часы или дни спустя. Запуск распознавания речи через смартфон в таких случаях даёт очень слабый результат, поэтому специалистам Toshiba пришлось взяться за разработку специализированной системы распознавания. И, конечно, мы сразу столкнулись с проблемами.



Так выглядит ноутбук с комплектом периферии для распознавания голоса с помощью ИИ Toshiba (слева) и приложение с результатами для конечных устройств (справа). Источник: Toshiba

Тут пригодилась LSTM, без которой точность распознавания была недостаточной для того, чтобы полученный текст можно было читать и понимать без усилий. Причём LSTM пригодилась не только для более точного предугадывания слов в контексте, но и для корректной обработки пауз в середине предложения и междометий-паразитов — для этого мы обучили нейросеть вот этим паразитам и паузам, естественным для разговорной речи.

Значит ли это, что теперь нейросеть может убирать из стенограмм междометия? Да, может, но делать этого не нужно. Дело в том, что (ещё один полученный инсайт) люди с нарушениями слуха ориентируются в том числе на движения губ говорящего. Если губы движутся, но на экране не появляется соответствующий этим движениям текст, возникает ощущение, будто система распознавания упустила часть беседы. То есть для того, кто не может слышать, важно получать максимум информации о разговоре, включая злосчастные паузы и меджометия. Поэтому движок Toshiba оставляет эти элементы в стенограмме, но в реальном времени приглушает яркость букв, давая понять, что это необязательные для понимания текста детали.

Вот так на клиентском устройстве выглядит результат распознавания на лету. В серый цвет окрашиваются не несущие смысловой нагрузки части монолога

Сейчас ИИ Toshiba работает с английской, японской и китайской речью, причём возможен даже перевод между языками на лету. Его не обязательно использовать для стенографирования на лету — ИИ может быть адаптирован для работы с голосовыми ассистентами, которые наконец научатся адекватно воспринимать междометия, паузы и запинки при произношении человеком команды. В марте 2019 года система успешно использовалась для добавления субтитров к видеотрансляции IPSJ National Convention, проводимой в Японии. В ближайших планах — превращение ИИ Toshiba в общедоступный сервис и опыты с внедрением распознавания голоса на производствах.

Чтобы понять эту статью, вы должны понимать цифровую обработку сигналов.

В любой системе автоматического распознавания речи первым шагом является извлечение функций. Другими словами, нам нужно извлечь различимые компоненты аудиосигнала, а затем выбросить другую грязную информацию, такую ​​как фоновый шум, эмоции и т. Д.


Понимание того, как создается речь, очень помогает нам понять речь. Люди производят звук через саундтрек, и форма саундтрека определяет, какой звук будет сделан. Форма саундтрека включает язык, зубы и т. Д. Если мы можем точно знать эту форму, то мы можем точно описать фонему, которая производится. Форма канала отображается в огибающей кратковременного спектра мощности речи.

MFCC - это функция, которая точно описывает этот конверт.

Китайское название MFCCs "Коэффициент Мел Кепструм (Мелкочастотные коэффициенты Cepstral) - функция, широко используемая в автоматическом распознавании речи и речи. Она была разработана Дэвисом и Мермельштейном в 1980 году. С тех пор. В области распознавания речи MFCC - это искусственные особенности Этот аспект можно охарактеризовать как выделяющийся из толпы, он уникален и никогда не был превзойден (Что касается изучения возможностей Deep Learning, то это более поздняя история).

Ну, здесь мы упомянули очень важное ключевое слово: форму канала, а затем знаем, что это очень важно, а также знаем, что оно может отображаться в огибающей кратковременного спектра мощности речи. Эй, каков спектр мощности? Что такое конверт? Что такое MFCC? Почему это эффективно? Как его получить? Давай поговорим медленно.


Мы имеем дело с речевыми сигналами, поэтому очень важно описать их. Потому что разные описания показывают разную информацию. Какое описание хорошо для нашего наблюдения и понимания? Здесь мы сначала понимаем то, что называется спектрограммой.


Здесь можно видеть, что речевой сигнал представлен серией векторов спектра. Этот голос разделен на множество кадров, и каждый кадр голоса соответствует частотному спектру (вычисленному с помощью краткосрочного БПФ). Частотный спектр представляет собой взаимосвязь между частотой и энергией. При практическом использовании существует три вида спектрограмм, а именно спектр линейной амплитуды, спектр логарифмической амплитуды и спектр собственной мощности (амплитуда каждой спектральной линии в спектре логарифмической амплитуды вычисляется логарифмически, поэтому единица ее ординаты равна дБ ( децибел).Цель этого преобразования состоит в том, чтобы сделать компоненты с более низкими амплитудами выше, чем компоненты с более высокими амплитудами, чтобы наблюдать периодический сигнал, скрытый в шуме низкой амплитуды.)。

Давайте сначала выразим частотный спектр одного кадра речи в координатах, как показано на левом рисунке выше. Теперь мы поворачиваем левый спектр на 90 градусов. Получи среднюю картинку. Затем отобразите эти амплитуды в градацию серого (также можно понимать как квантование последовательных амплитуд в 256 квантованных значений?), 0 для черного и 255 для белого. Чем больше значение амплитуды, тем темнее соответствующая область. Это дает вам самую правую картинку. Почему это так? Чтобы увеличить размерность времени, чтобы вы могли отображать спектр части речи вместо рамки речи, и вы можете интуитивно видеть статическую и динамическую информацию , Преимущества будут представлены позже.

Таким образом, мы получим спектрограмму, которая изменяется со временем, это спектрограмма спектрограммы, описывающая речевой сигнал.



На рисунке ниже представлена ​​спектрограмма раздела речи, а темные области - это пики (форманты) на спектрограмме.

Так почему же мы представляем речь на спектрограмме?

Во-первых, свойства телефонов можно лучше наблюдать здесь. Кроме того, звук можно лучше распознать, наблюдая форманты и их переходы. Скрытые марковские модели (Hidden Markov Models) неявно моделируют спектрограмму для достижения хорошего качества распознавания. Другая функция заключается в том, что он может интуитивно оценивать качество системы TTS (преобразование текста в речь) и напрямую сравнивать соответствие между синтезированной речью и спектрограммой естественной речи.

Ниже приведена диаграмма спектра речи.Пики представляют основные частотные составляющие речи, и мы называем эти пики формантами(Форманты) иФорманты - это идентификационные атрибуты, несущие звук(Это то же самое, что и личное удостоверение личности). Так что это особенно важно. Используйте его для распознавания разных звуков.



Так как это так важно, тогда мы должны извлечь его!Мы должны извлечь не только позиции формантов, но и процесс их трансформации. Итак, что мы извлекаем, это огибающая спектра (Spectral Envelope), Этот конверт представляет собой плавную кривую, соединяющую эти форманты.


Мы можем понять это так, что исходный спектр состоит из двух частей: огибающей и деталей спектра. Здесь используется логарифмический спектр, поэтому единица измерения - дБ. Теперь нам нужно разделить две части, чтобы мы могли получить конверт.

Как вы их разделяете? То есть как найти log H [k] и log E [k] на основе заданного log X [k], чтобы удовлетворить log X [k] = log H [k] + log E [k]?


Чтобы достичь этой цели, нам нужно сыграть математический трюк. Что это за уловка? Это делать БПФ по спектру. Выполнение преобразования Фурье по спектру эквивалентно обратному БПФ (IFFT). Стоит отметить, что мы имеем дело с лог-доменом спектра, который также является частью Trick. В настоящее время выполнение IFFT на логарифмическом спектре эквивалентно описанию сигнала на оси псевдочастотных координат.

Из приведенного выше рисунка мы можем видеть, что огибающая в основном состоит из низкочастотных компонентов (в это время вам нужно изменить свое мышление. В это время горизонтальную ось не следует рассматривать как частоту, мы можем рассматривать ее как время), мы думаем о ней как о Синусоидальный сигнал с 4 циклами в секунду. Таким образом, мы даем ему пик на 4 Гц выше оси псевдо-координат. Детали спектра в основном высокие частоты. Мы думаем об этом как о синусоидальном сигнале со скоростью 100 циклов в секунду. Таким образом, мы даем ему пик на 100 Гц выше псевдооси.

Сложение этих двух вместе является исходным сигналом спектра.


На практике мы уже знаем log X [k], поэтому мы можем получить x [k]. Тогда мы можем узнать из картинки, что h [k] - это низкочастотная часть x [k], тогда мы можем получить h [k], пропустив x [k] через фильтр нижних частот! Правильно, здесь мы можем разделить их и получить желаемый h [k], который является огибающей спектра.

x [k] - фактически кепстр (это вновь созданное слово. Реверсирование первых четырех букв спектрального слова - слово кепстра). H [k], о котором мы заботимся, это низкочастотная часть кепстра.h [k] описывает огибающую частотного спектра, которая широко используется для описания функций распознавания речи.

Теперь подведем итоги анализа кепстра, это на самом деле такой процесс:

  • 1) Преобразование Фурье исходного речевого сигнала для получения частотного спектра: X [k] = H [k] E [k];

Рассматривается только амплитуда: | X [k] | = | H [k] || E [k] |;

2) Мы берем логарифмы с обеих сторон: log || X [k] || = log || H [k] || + log || E [k] ||.

3) Затем возьмите обратное преобразование Фурье с обеих сторон, чтобы получить: x [k] = h [k] + e [k].

На самом деле это профессиональное имя называетсяГомоморфная обработка сигналов, Его цель - преобразовать нелинейные задачи в линейные. В соответствии с вышеизложенным, исходный речевой сигнал фактически является вьющимся сигналом (канал эквивалентен линейной не зависящей от времени системе, генерацию звука можно понимать как возбуждение через эту систему), первым шагом является его преобразование в свертку Мультипликативный сигнал (свертка во временной области эквивалентна произведению в частотной области). Второй этап преобразует мультипликативный сигнал в аддитивный сигнал путем взятия логарифма, а третий этап выполняет обратное преобразование, чтобы восстановить его в фигурный сигнал. В это время, хотя последовательность во временной области находится до и после, дискретная временная область, в которой они расположены, очевидно, отличается, поэтому последняя называется частотной областью кепстра.


Таким образом, кепстр является сигналомПреобразование Фурье спектра после логарифмической операции и затем обратное преобразование Фурье, Процесс расчета выглядит следующим образом:

Хорошо, давайте сначала посмотрим, что мы только что сделали? Выступая с речью, мы можем получить его огибающую спектра (плавная кривая, соединяющая все точки резонансных пиков). Однако эксперименты по слуховому восприятию человека показывают, что слуховое восприятие человека фокусируется только на определенных областях, а не на всей огибающей спектра.


Мел частотный анализ основан на экспериментах по слуховому восприятию человека. Экспериментальные наблюдения показали, что человеческое ухо похоже на банк фильтров и фокусируется только на определенных конкретных частотных компонентах (человеческий слух избирателен по частоте). Другими словами, он пропускает только определенные частотные сигналы и просто игнорирует определенные частотные сигналы, которые он не хочет воспринимать. Однако эти фильтры не распределены равномерно по оси частотных координат. В области низких частот имеется много фильтров, и их распределение является относительно плотным, но в области высоких частот количество фильтров становится относительно небольшим, а распределение очень редким.

Слуховая система человека представляет собой особую нелинейную систему, и ее чувствительность к разным частотам сигналов различна.В извлечении речевых характеристик человеческая слуховая система проделала очень хорошую работу: она может не только извлекать семантическую информацию, но и извлекать личные качества говорящего, которые недоступны существующим системам распознавания речи., Если характеристики обработки слухового восприятия человека могут быть смоделированы в системе распознавания речи, можно улучшить скорость распознавания речи.

Коэффициент частотного кепстра Mel (MFCC) учитывает слуховые характеристики человека.Линейный спектр сначала сопоставляется с нелинейным спектром Mel на основе слухового восприятия, а затем преобразуется в кепстр.。

Формула для преобразования обычной частоты в частоту Mel:

Как видно из рисунка ниже, он может преобразовывать неоднородные частоты в однородные частоты, то есть в унифицированные банки фильтров.

В частотной области Mel восприятие тона человеком линейно. Например, если частоты Mel двух голосов различаются в два раза, человеческое ухо звучит так, что высота этих двух также отличается в два раза.

Мы пропускаем спектр через набор фильтров Mel, чтобы получить спектр Mel. Формула выглядит следующим образом: log X [k] = log (Mel-Spectrum). В настоящее время мы выполняем анализ кепстра на log X [k]:

1) Возьмите логарифм: log X [k] = log H [k] + log E [k].

2) Выполните обратное преобразование: x [k] = h [k] + e [k].


Полученный по спектру Mel кепстральный коэффициент h [k] называется кепстральным коэффициентом частоты Mel, или для краткости MFCC.

Теперь давайте подведем итоги процесса извлечения функций MFCC: (В Интернете слишком много конкретных математических процессов, поэтому я не хочу публиковать их здесь)

1) Проведите речь первымПредварительный акцент, кадрирование и управление окнами;

2) Для каждого окна краткосрочного анализаПолучить соответствующий частотный спектр по БПФ;

3) Поставь вышеуказанный спектрСпектр Mel через банк фильтров Mel;

4) По спектру МелАнализ кепстра(Возьмите логарифм и выполните обратное преобразование. Фактическое обратное преобразование обычно реализуется с помощью дискретного косинусного преобразования DCT, и коэффициенты со второго по 13-й после DCT используются в качестве коэффициентов MFCC), чтобы получить коэффициент кепстра MEL частоты MFCC.Особенности этой рамки речи;


В настоящее времяРечь может быть описана серией векторов кепстра, каждый вектор является вектором признаков MFCC каждого кадра。

Таким образом, классификатор речи может быть обучен и распознан через эти векторы кепстра.

1773: Первые попытки научить машины говорить

Говорящая машина Кемпелена, экспонат Deutsches Museum, Мюнхен

В XX веке на смену механическим машинам пришли электрические. В 1922 году появилась схема английского физика Джона Стюарта: она издавала несколько гласных звуков с помощью резонаторов — подобно радиоприёмнику. А в 1938 году представили синтезатор на электронных осцилляторах и фильтрах, способный произносить любые слова. Машина Voder, напоминавшая фортепиано, даже умела петь. Её разработала компания Bell Laboratories, которая сейчас называется Nokia Bell Labs.

1952: Audrey от Bell Labs — машина, которая понимает речь

Поняв физику электронного синтеза речи, ученые начали описывать ее формантами — наборами резонансных частот звуков, которые создают связки, язык и губы. Эти описания стали основой технологии распознавания: в 1952 году машина Audrey от Bell Laboratories понимала, когда человек называет цифры от 0 до 9. Audrey воспринимала форманты говорящего и сравнивала их с образцами. Устройство работало точнее, когда слова произносил человек, чьи записи использовались как эталонные. Так возникла задача, которую будут решать в течение следующих десятилетий: научить машины распознавать форманты одних и тех же слов у разных людей.

Графические описания формант слов, обозначающих цифры

1962: IBM Shoebox — появление голосового управления

Работу Shoebox демонстрировали по телевидению и на Всемирной выставке 1962 года в Сиэтле. Фото из архива IBM

1971: Harpy — государственный проект и новый алгоритм

1986: IBM Tangora — пишущая машинка с большим словарным запасом

В Tangora работал статистический алгоритм на основе скрытой модели Маркова: компьютер рассчитывал вероятности того, что воспринимаемый звук будет частью какого-то слова. Изобретение позволило серьёзно расширить словарный запас: Tangora понимала 20 тысяч слов и несколько предложений. Машинка обучалась под работу с новым пользователем в течение 20 минут. Исследователи начали применять её в своей работе: рабочие станции Tangora на основе компьютеров IBM помогали создавать текстовые документы голосом.

1987: Джули — умная кукла

До 1980-х разработчики в основном занимались методами преобразования звуковых волн в текст. После появления массовых устройств исследователи начали изучать пользовательский опыт. Выяснилось, что с машинами люди говорят так же, как друг с другом: с упрощённым синтаксисом и искажением литературного языка. Для корректного диалога устройствам не хватало словарного запаса и способности понимать нестандартные речевые конструкции. Ограничения были связаны прежде всего с низкой производительностью процессоров.

1990–1997: Dragon NaturallySpeaking — непрерывный распознаватель речи

С распространением интернета и персональных компьютеров технологии распознавания голоса начали развивать как программное обеспечение — так в 1990 году появилась Dragon Dictate. Супруги Джеймс и Джанет Бейкеры разрабатывали подобные программы с 1977 года, но для полноценной работы компьютерам не хватало мощности процессоров и оперативной памяти. Dragon Dictate работала на операционной системе DOS и распознавала 30 тысяч слов естественного языка. Слова приходилось чётко выговаривать и диктовать по одному.

В 1997 году систему улучшили — появилась Dragon NaturallySpeaking (DNS). Первые версии уже распознавали непрерывную речь — до 100 слов в минуту. Для корректной работы пользователь тренировал программу в течение 45 минут. DNS стала коммерчески успешной — и совершенствуется до сих пор.

2008–2011: Голосовые помощники Google, Apple и другие

Эпоха смартфонов дала голосовому управлению полноценное применение. Появились настоящие виртуальные ассистенты, помогающие использовать разные функции смартфона через речевые команды.

Позднее Google стал использовать своего голосового помощника на Android. Компания Apple разработала собственную технологию, в 2011 году представив Siri — первого помощника с узнаваемым голосом. На английском языке Siri говорит голосом Сьюзан Беннетт — актрисы озвучивания рекламных роликов. Спустя несколько лет голосовыми помощниками обзавелись и другие IT-гиганты: в 2014 году Microsoft представил Cortana, а Amazon — Alexa. Позднее технологией заинтересовались и российские компании — появились голосовые помощники Алиса, Маруся и Олег.

Рынок устройств с технологиями распознавания речи растёт: их используют не только в качестве голосовых помощников в гаджетах, но и для управления беспилотными автомобилями и даже в автоматизации производств. По прогнозам экспертов, к 2025 году размер мирового рынка технологий распознавания голоса составит $27,16 млрд. Для сравнения: в 2019 году он был почти в три раза меньше — $10,7 млрд.

А голосовые ассистенты, которые раньше могли выполнять ограниченный круг задач, становятся умнее с каждым днём. Благодаря прорыву в синтезе речи их голоса сегодня звучат естественнее, а из программ, способных только ставить будильник и совершать звонки, они превратились в полноценных помощников.

Мы в SberDevices развиваем целое семейство виртуальных ассистентов с тремя персонажами — это Сбер, Джой и Афина. Сейчас технологии позволяют наделять ассистентов характерами, чтобы дать пользователям возможность выбрать близкого по духу персонажа. Способы взаимодействия тоже изменились: если первые голосовые помощники могли понимать только речь (и то не всегда хорошо), то с современными ассистентами можно общаться ещё и жестами. Для этого, разумеется, нужна камера — о том, как это работает у нас, мы уже рассказывали. И, конечно, виртуальные ассистенты сегодня умеют гораздо больше, чем их предшественники: они живут в банковских приложениях и помогают управлять финансами, а ещё — умеют заказывать еду, рекомендовать подходящий контент и многое другое.


Технический прогресс привел к появлению машин, которые могут понимать, что говорит человек и, более того, в состоянии поддерживать диалог. Некоторые системы говорят так хорошо, что человек в первые пару минут общения с машиной может и не понять, кто его собеседник. Технологии распознавания и синтеза речи — не игрушка и не научный эксперимент. Это инструмент бизнеса, который внедряется все более активно.

Немного истории

Ровно через полвека, в 1976 году была разработана полноценная система распознавания, которая понимала уже около 1000 слов. Но и это только отдельные слова, а не полноценный разговор.

https://youtu.be/32KKg3aP3Vw

Лишь в 1996 году появилась первая программа, способная различать непрерывную речь человека, а не команды. Создателем этой технологии стала компания IBM.

Достигнуть таких результатов удалось при помощи нейросетей — специализированных ИИ-систем, принцип работы которых похож на принцип работы мозга человека. Нейросети также умеют обучаться. Конечно, это не полноценный искусственный интеллект, но все же самообучающаяся система.

Как работает распознавание речи?

Нейросеть анализирует аудиопоток речи человека, разделяя его на отдельные фрагменты. Они называются фонемами. Каждый фрагмент анализируется путем сверки с базой эталонных звуков обученной нейросети и сопоставляется букве, слогу или целому слову. После многократного анализа фонем они расшифровываются в текст. Получившаяся текстовая запись затем снова сравнивается с базой слов нейросети. После выполнения всех действий нейросеть выдает готовый текст.

Чем дольше обучать систему, тем точнее она сможет различать отдельные фонемы, правильнее расшифровывая речь человека. Пол или возраст говорящего, кстати, не имеет особого значения. Для каждого языка приходится обучать отдельную нейросеть: так, система, научившись распознавать английский, не будет понимать французский.

Кроме речи, роботы уже способны распознавать и эмоции человека — по голосу или в тексте. Проще всего распознавать три базовые эмоции: позитивная, нейтральная, негативная — чем их больше, тем сложнее различать. Например, робот почти не видит разницу между обеспокоенностью и раздражением, поэтому вероятность ошибки высокая. Точность распознавания 3-х эмоций составляет около 93%.

В настоящее время уже довольно точно определяется пол человека по голосу — примерно со 2 секунды разговора робот практически на 100% знает, что общается с мужчиной или женщиной.

Как работает синтез речи?

Науке, бизнесу и медицине интересны роботы и машины, которые не просто озвучивают текстовые фрагменты, но и синтезируют собственные кусочки текста. С этим, хотя и не очень хорошо, справляются даже электронные книги. Речь идет о полноценном общении, когда человек что-то спрашивает у машины, та понимает и дает адекватный ответ. И здесь все еще сложнее, чем в случае с распознаванием речи.

Зачем нам распознавать или синтезировать речь?

Бизнесу распознавание речи тоже необходимо для разных целей, но одна из главных — это коммуникация с клиентами при помощи телефонных роботов, ботов. Это очень востребованная технология, которая позволяет сэкономить деньги, используя для выполнения рутинных задач машины, а не людей.

Как роботы (не) заменяют операторов колл-центров

Однако операторы колл-центров могут не переживать о том, что их работу отнимут голосовые боты. Как и сказано выше — просто потому, что у людей и роботов разные функции. Показательный пример — сотрудничество с колл-центром компании-партнера TWIN. Проект стартовал, когда в колл-центре работало 500 человек. Сейчас, спустя два года, в нем же работает уже 600 сотрудников. При этом также расширился и спектр задач, выполняемых голосовым роботом. Этот кейс может служить доказательством того, что в ближайшие 7-10 лет роботы окажут самое незначительное влияние на рынок труда операторов колл-центра.

Пример использования робота № 1. С 2016 кода TWIN активно сотрудничает с финтех-компаниями в России. Роботы помогают отвечать на однотипные вопросы, заданные клиентами. Кроме того, если возникает нестандартная ситуация, то робот способен оперативно переключить звонящего на оператора-человека. Например, мужчина заказал у транспортной компании вазу для своей жены на 8 марта. Ваза по какой-то причине не доставлена, и недовольный клиент звонит в компанию. Робот сразу же определяет эмоциональное состояние человека и не задает обычные вопросы, а переводит на оператора, который и решает возникшую проблему.

И в первом, и во втором случае голосовые боты могут одновременно разговаривать с сотнями и тысячами абонентов. Это значительно превышает возможности оператора-человека и повышает эффективность компании. Но и задачи здесь, как видим, относительно простые, так что операторы-люди включаются в дело тогда, когда у робота возникает проблема.

В целом технологии как распознавания, так и синтеза речи совершенствуются, становятся все более функциональными. Отличить в простом диалоге по телефону робота от человека бывает крайне сложно. Вероятно, в недалеком будущем голосовые боты полностью возьмут на себя рутинные задачи колл-центров. Кроме того, сейчас активно развивается и направление электронных помощников — через лет пять они станут гораздо более функциональными, чем Siri, Алиса или Маруся. Роботы, способные понимать человеческую речь, различать эмоции и адекватно отрабатывать любые эмоциональные состояния человека, сделают жизнь людей проще, а бизнес — эффективнее.

Читайте также: