Технологии распознавания голоса кратко

Обновлено: 05.07.2024

Вы знали, что технологии распознавания голоса существуют уже 50 лет? Полвека эту задачу решают ученые и только в последние несколько десятилетий к ее решению подключились IT-компании. Результатом последнего года работы стал новый уровень точности распознавания и массовое использование технологии в повседневной и профессиональной жизни.

Технология в жизни

Каждый день мы пользуемся поисковыми системами. Мы ищем, где пообедать, как добраться до нужного места или пытаемся найти значение неизвестного термина. Технология распознавания голоса, которую используют, например, Google или Яндекс.Навигатор помогает нам тратить на поиск минимум времени. Это просто и удобно.

В профессиональной среде технология помогает упростить работу в несколько раз. Например, в медицине речь врача преобразуется в текст истории болезни и рецепт сразу на приеме. Это экономит время на занесение информации о пациенте в документы. Встроенная в бортовой компьютер автомобиля система реагирует на запросы водителя, например, помогает найти ближайшую заправку. Для людей с ограниченными возможностями актуально внедрение систем в программное обеспечение бытовых приборов для управления ими с помощью голоса.

Развитие систем распознавания голоса

Идея распознавания речи выглядела многообещающе во все времена. Но уже на этапе распознавания чисел и самых простых слов исследователи столкнулись с проблемой. Суть распознавания сводилась к построению акустической модели, когда речь представлялась как статистическая модель, которая сравнивалась с готовыми шаблонами. Если модель соответствовала шаблону, то система принимала решение о том, что команда или число распознано. Рост словарей, которые могла распознать система, требовал увеличения мощностей вычислительных систем.

Сегодня алгоритмы распознавания дополнились языковыми моделями, которые описывают структуру языка, например, типичную последовательность слов. Обучение системы происходит на реальном речевом материале.

Новым этапом в развитии технологии стало применение нейронных сетей. Система распознавания устроена таким образом, что каждое новое распознавание влияет на точность распознавания в будущем. Система становится обучаемой.

Качество систем распознавания голоса

Положение дел в развитии технологии сегодня выражается целью: от распознавания речи к пониманию. Для этой цели выбран и ключевой показатель – процент ошибок в распознавании. Стоит сказать, что такой показатель применяется и в распознавании речи одного человека другим. Мы пропускаем часть слов, принимая во внимания другие факторы, например, контекст. Это позволяет нам понимать речь даже без понимания значений отдельных слов. Для человека показатель ошибки распознавания равен 5,1%.

Другими сложностями в обучении системы распознавания речи пониманию языка будут эмоции, неожиданная смена темы разговора, использование сленга и индивидуальные особенности говорящего: темп речи, тембр, произношение звуков.

Мировые игроки рынка

Голосовой поиск в России недавно запустил Яндекс. Учитывая число пользователей, можно рассчитывать, что в скором времени точность распознавания будет высока.

Платформу для применения в профессиональных областях разрабатывает американская компания Nuance. Среди областей применения: медицина, юриспруденция, финансы, журналистика, строительство, безопасность, автомобильная сфера.

В России Центр речевых технологий – крупнейший производитель профессиональных средств распознавания голоса и синтезирования речи. Решения компании внедрены в 67 странах мира. Основные направления работы: голосовая биометрия – идентификация по голосу; речевые системы самообслуживания – IVR, применяемые в колл-центрах; синтезаторы речи. В США российская компания работает под брендом SpeechPro и проводит исследования по распознаванию англоязычной речи. Результаты распознавания входят в ТОП-5 результатов по величине ошибки.

Ценность распознавания голоса в маркетинге

Цель маркетинга – изучение потребностей рынка и организация бизнеса в соответствии с ними для увеличения прибыльности и эффективности. Голос интересует маркетологов в двух случаях: если говорит клиент и если говорит сотрудник. Поэтому объект изучения для маркетологов и сфера применения технологии – телефонные звонки.

Сегодня аналитика телефонных переговоров развита плохо. Звонки не только нужно записывать, но и прослушивать, оценивать и только потом анализировать. Если организовать запись несложно – это может любая виртуальная АТС или сервис коллтрекинга, – то организовать прослушивание звонков сложнее. Эту задачу решает или отдельный человек в компании, или руководитель колл-центра. Прослушивание звонков также отдают на аутсорсинг. В любом случае погрешность в оценке звонков – проблема, которая ставит под сомнение результаты аналитики и принятые на их основе решения.

С помощью технологии распознавания голоса звонки будут анализироваться автоматически, и это откроет двери для массового использования.

Основные возможности эффективных решений для распознавания речи

На сегодняшний день доступно множество приложений и устройств для распознавания речи, при этом в более передовых решениях применяются технологии искусственного интеллекта и машинного обучения. Для понимания и обработки человеческой речи они объединяют грамматику, синтаксис, структуру и состав звуковых и речевых сигналов. Идеальное решение способно самообучаться с каждым новым взаимодействием.

Лучшие экземпляры таких систем позволяют организациям настраивать и адаптировать технологию с учетом конкретных требований — от языка и нюансов речи до распознавания бренда. Например:

Весовые коэффициенты для языка: использование весовых коэффициентов для наиболее часто употребляемых слов (например, названий продуктов или профессиональных терминов, отсутствующих в основном словаре) позволяет повысить точность распознавания.
Маркировка источника речи: создание расшифровки с обозначением реплик каждого участника разговора.
Адаптация к акустической обстановке: отслеживание акустических сигналов. Систему можно научить адаптироваться к изменениям акустических условий (например, уровня шума в контактном центре) и стиля речи (например, тона голоса, громкости и скорости речи).
Фильтрация ненормативной лексики: с помощью фильтров можно обнаруживать определенные слова или фразы с целью их исключения из результатов обработки речи.

Тем временем технологии распознавания речи продолжают развиваться. IBM и другие компании ведут успешные разработки сразу по нескольким направлениям с целью повышения эффективности взаимодействия между человеком и компьютером.

Алгоритмы распознавания речи

Случайности и неточности, характерные для человеческой речи, усложняют задачу разработки. Эта область компьютерных наук сочетает в себе лингвистику, математику и статистику и по праву считается одной из самых сложных. Системы распознавания речи состоят из нескольких компонентов, таких как устройство речевого ввода, функции выделения признаков, векторы признаков, модули расшифровки и представления результатов в виде слов. Модуль расшифровки использует акустические модели, словарь произношения и языковые модели для определения результата.

Для оценки качества технологии распознавания речи применяются такие показатели, как степень точности, т. е. процент неправильно распознанных слов (WER), и скорость. На точность распознавания влияет множество факторов, включая произношение, акцент, тон, громкость и фоновые помехи. Главная цель систем распознавания речи — обеспечить такой коэффициент ошибок, который соответствовал бы разговору двух людей. В исследовании Lippmann (внешняя ссылка, PDF, 344 КБ) приводится показатель WER на уровне 4%, однако воспроизвести результаты, описанные в данной публикации, довольно сложно.

Подробнеео достижениях IBM в области распознавания речи можно узнать здесь.

Для преобразования речи в текст и повышения точности результатов применяются разнообразные алгоритмы и вычислительные методы. Ниже приводится краткое описание наиболее популярных методов:

В блоге Watson вы сможете узнать, как IBM использует модели разделения дикторов в своих услугах преобразования речи в текст.

Практическое применение технологии распознавания речи

Технология распознавания речи широко применяется в различных отраслях, экономя время и даже спасая жизни. Ниже приведены некоторые примеры практического использования.

Автомобильная промышленность: средства распознавания речи повышают безопасность вождения с помощью голосовых систем навигации и функций поиска в автомобильных радиостанциях.

Здравоохранение: врачи и медсестры используют приложения с функциями диктовки для сбора и обработки информации о диагнозах пациентов и схемах лечения.

Продажи: технология распознавания речи имеет широкое применение в сфере продаж. С ее помощью контактные центры могут обрабатывать тысячи телефонных звонков клиентов для выявления общих закономерностей и проблем. Кроме того, когнитивные чатботы могут общаться с посетителями веб-сайта, отвечать на общие вопросы и обрабатывать базовые запросы, не дожидаясь освобождения сотрудника контактного центра. В каждой из этих ситуаций системы распознавания речи помогают сократить время устранения проблем, возникающих у потребителей.

Безопасность: по мере внедрения технологий в повседневную жизнь людей протоколы безопасности становятся все более актуальными. Аутентификация по голосу является эффективным способом обеспечения безопасности.

Узнайте, каким образом компании используют программное обеспечение для распознавания речи, чтобы в режиме реального времени индексировать аудиоданные, транслируемые радиостанциями. Ознакомьтесь с примером внедрения в Audioburst здесь.

Распознавание речи и IBM

Компания IBM стояла у истоков разработки инструментов и услуг в области распознавания речи. Наши решения позволяют организациям автоматизировать сложные бизнес-процессы, обеспечивая при этом анализ важной информации.

— это облачное решение, использующее алгоритмы глубокого обучения на основе ИИ для создания настраиваемых процессов преобразования речи в текст, опираясь на знания в области грамматики, структуры языка и состава звуковых/голосовых сигналов. преобразует письменный текст в естественную речь с целью повышения качества обслуживания и степени вовлеченности клиентов, тем самым улучшая доступность для пользователей, говорящих на разных языках, за счет разнообразных вариантов взаимодействия.

Более подробная информация о том, как приступить к использованию технологии распознавания речи, приведена на страницах IBM Watson Speech to Text и IBM Watson Text to Speech.

В основе голосового управления лежит технология распознавания речи. В ней задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов. На конференции YaC 2013 в начале октября Яндекс представил свою технологию распознавания речи, и сегодня мы хотели бы рассказать о том, как она работает.

Акустическая модель

Когда вы произносите голосовой запрос, например, в Яндекс.Навигаторе, смартфон записывает его и отправляет на сервер Яндекса. На сервере запись разделяется на много маленьких фрагментов (фреймов) длиной 25 миллисекунд, внахлёст, с шагом 10 миллисекунд. То есть из одной секунды вашей речи получается сто фреймов.

Точность результатов напрямую зависит от того, насколько хорошо система определяет произнесённые звуки. Для этого достаточно точным и полным должен быть фонетический алфавит, с которым она работает.

Фонетический алфавит Яндекса

Чтобы точнее смоделировать произношение фонемы, мы, во-первых, делим каждую фонему на три части: условные начало, середину и конец. Во-вторых, мы разработали свой фонетический алфавит, который учитывает позицию и контекст фонем. Брать в работу все возможные варианты контекстно-зависимых фонем было бы неблагоразумно, так как многие из них не встречаются в реальной жизни. Поэтому мы научили нашу программу рассматривать похожие звуки вместе. В результате мы получили набор из 4000 элементарных единиц — сенонов. Это и есть фонетический алфавит Яндекса, с которым работает наша технология распознавания речи.

Вероятности

В идеальном мире программа безошибочно определяет, какая фонема соответствует каждому фрагменту голосового запроса. Но даже человек иногда может не понять или не расслышать все звуки и достраивает слово исходя из контекста. И если человек опирается на собственный речевой опыт, то наша система оперирует вероятностями.

Сейчас наша технология распознавания речи правильно определяет 94% слов в Навигаторе и мобильных Картах и 84% слов в мобильном Браузере. При этом на распознавание уходит около секунды. Это уже весьма достойный результат, и мы активно работаем над его улучшением. Мы верим, что через несколько лет голосовой интерфейс ввода не будет уступать классическим способам.

Сегодня речь пойдёт о системах распознавания голоса. Не так давно наш сервис запустил в тестовом режиме услугу распознавания речи, которая стала альтернативой классическому IVR-меню. О том, как она работает читайте в конце статьи. А пока мы попросили нашего технологического эксперта провести обзор систем распознавания, доступных сегодня на рынке. Вот что из этого вышло.

Google

Небезызвестная IT-корпорация предлагает протестировать свой продукт Google Cloud Platform в режиме онлайн. Опробовать работу сервиса может бесплатно любой желающий. Сам продукт удобен и понятен в работе.

Плюсы:

поддержка более чем 80 языков;
быстрая обработка имен;
качественное распознавание в условиях плохой связи и при наличии посторонних звуков.

Минусы:

Yandex

Но будем объективными. Нас, в первую очередь, интересует не разнообразие возможностей использования, а качество распознавания речи. Поэтому, мы воспользовались пробной версией SpeechKit.

при потоковой обработке некоторые слова могут определяться некорректно.

Azure

Система Azure разработана компанией Microsoft. На фоне аналогов она сильно выделяется за счёт цены. Но, будьте готовы столкнуться с некоторыми трудностями. Инструкция, представленная на официальном сайте то ли неполная, то ли устаревшая. Адекватно запустить сервис нам так и не удалось, поэтому пришлось воспользоваться сторонним окном запуска. Однако, даже здесь для тестирования вам понадобится ключ от сервиса Azure.

система очень чувствительна к акценту, с трудом распознает речь не от носителей языка;
система работает только на английском языке.

Итоги обзора:

Взвесив все плюсы и минусы мы остановились на Яндексе. SpeechKit дороже чем Azure, но дешевле чем Google Cloud Platform. В программе от Google было замечено постоянное улучшение качества и точности распознавания. Сервис самосовершенствуется за счет технологий машинного обучения. Однако, распознавание русскоязычных слов и фраз у Яндекса на уровень выше.

Как использовать распознавание голоса в бизнесе?

Вариантов использования распознавания масса, но мы остановим ваше внимание на том, который, в первую очередь, повлияет на продажи вашей компании. Для наглядности разберём процесс работы распознавания на реальном примере.

Не так давно, нашим клиентом стал один, известный всем SaaS сервис (по просьбе компании, имя сервиса не разглашается). С помощью F1Golos они записали два аудиоролика, один из которых был нацелен на продление жизни тёплых клиентов, другой – на обработку запросов клиентов.

Как продлить жизнь клиентов с помощью распознавания голоса?

Звонки пользователей, которые произнесли кодовые слова: ДА, ПРОДЛИТЬ, ХОЧУ, ПОДРОБНЕЕ; были автоматически переведены на операторов компании. Так, порядка 18% пользователей продлили регистрацию благодаря лишь одному звонку.

Как упростить систему обработки данных с помощью распознавание речи?

Если вам интересны другие способы использования распознавания голоса, или вы хотите узнать подробнее о голосовых рассылках, переходите по ссылке. На F1Golos вы сможете оформить первую рассылку бесплатно и узнать на себе, как работают новые технологии распознавания.

Читайте также: