Что такое речевой интерфейс кратко

Обновлено: 02.07.2024

Зачем нужен речевой интерфейс?

Из понимания областей применения следует и набор требований к РИ:

Безошибочность (количество ошибок на сотню слов, WER). Причем для промышленных и бытовых применений WER нужно считать при различных окружающих шумах (соотношение сигнал/шум SNR).
Количество различаемых команд в один момент времени. Чем сложнее объект управления и чем меньше времени мы хотим учить пользователя, тем больше должен быть этот параметр.
Антропоморфность. Это интегральный показатель, который отвечает за то, насколько интерфейс схож с человеческим общением. Очень широкая тема, но очевидно, что чем выше этот показатель, тем легче происходит обучение этому интерфейсу. Не следует путать с интуитивностью, которая лишь характеризует привычность и похожесть на уже известные пользователю интерфейсные системы.

Компания — официальный поставщик Intel, имеет совместный грант Microsoft и Сколково, победитель конкурса инновационных проектов МО РФ, обладатель нескольких Best Software Award of the Year. С 2011 г. — резидент Сколково.

Универсальный речевой пульт Speaky

Что делает решение Speereo?

Как это работает?

При минимальных требованиях по нагрузке вычислительной системы РИ Speereo работает с задержкой от конца фразы до выдачи результата не более 1,5 с. При этом мы добились очень высокого уровня по главным требованиям (табл. 1). Для сравнения приведем редчайшую таблицу (табл. 2).

Как видим, даже сравнивать систему РИ Speereo и системы диктовки, получившие широкое распространение, не стоит. Разница на один-два порядка.

Министр обороны РФ Сергей Шойгу посетил стенд Сколково на Неделе инноваций Министерства обороны в Алабино в августе 2014 г.
Фото пресс-службы Сколково

Системы диктовки имеют ограниченный несколькими сотнями тысяч (до 2 млн) слов мгновенный словарь. Он же — общий словарь. Добавлять новые слова может только разработчик системы.

Если еще учесть, что наша система дикторонезависима, устойчива к акценту, манере и темпу речи, не требует делать паузы между словами, то можно утверждать, что по параметру антропоморфности она находится на самом высоком современном уровне.

Прототип Speereo на Неделе инноваций Министерства обороны

Немного о планах

Голосовой интерфейс – это программный продукт, который при помощи голосовой или речевой платформы позволяет взаимодействовать пользователю и компьютеру, запуская автоматизированные процессы. Задача таких интерфейсов – распознать и генерировать голос человека.

Голосовой интерфейс – это программный продукт, который при помощи голосовой или речевой платформы позволяет взаимодействовать пользователю и компьютеру, запуская автоматизированные процессы. Задача таких интерфейсов – распознать и генерировать голос человека.

Голосовые интерфейсы удобны, когда вводить текст сложно или неудобно. Например, во время вождения автомобиля пользователь может проговорить свой запрос, продиктовать нужный адрес, проверить пробки в приложении навигатора. Или же если пользователь выполняет слишком много задач и не может сконцентрироваться на одной.

естественный язык,
диалог,
неограниченный словарный запас и грамматика.

Именно поэтому цифровые технологии стараются слушать команды, которые человек говорит, определять эмоции по лицу, тем самым использовать натуральный способ взаимодействия с пользователями. Например, компания Google в октябре 2017 года презентовала беспроводные наушники Pixel Buds, которые переводят речь с иностранного языка в режиме реального времени.

В настоящее время большое внимание уделяется созданию доступной среды для людей с инвалидностью и ограниченными возможностями здоровья. Важным средством обеспечения доступности и улучшения качества жизни, социального взаимодействия, интеграции в общество для людей с инвалидностью являются средства вычислительной техники и специализированные информационные системы. Анализ литературы показал, что на сегодняшний день ведутся различные разработки для облегчения взаимодействия человека и компьютера, в том числе в направлении разработки голосовых интерфейсов управления вычислительной системой. Однако, данные разработки ориентируются на создание дикторонезависимых систем, обучаемых на больших данных и не учитывающих особенности произношения команд компьютеру людьми с различными нарушениями речевых функций.

Целью научно-исследовательской работы является проектирование дикторозависимого голосового интерфейса управления вычислительной системой на основе методов машинного обучения.

Задачи, решаемые в работе:

Провести обзор голосовых интерфейсов и способы их применения для управления вычислительными системами;
Изучить подходы к персонализации голосового управления вычислительной системой;
Разработать математическую модель голосового интерфейса управления вычислительной системой;
Разработать алгоритм программной реализации.

Голосовой интерфейс как способ управления вычислительной системой

Создание систем распознавания речи представляет собой чрезвычайно сложную задачу. Особенно трудно распознать русский язык, имеющий множество особенностей. Все системы распознавания речи можно разделить на два класса:

Системы, зависимые от диктора — настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.

Системы, независимые от диктора — работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.

Изначально на рынке появились системы первого вида. В них звуковой образ команды хранился в виде целостного эталона. Для сравнения неизвестного произнесения и эталона команды использовались методы динамического программирования. Эти системы хорошо работали при распознавании небольших наборов из 10-30 команд и понимали только одного диктора. Для работы с другим диктором эти системы требовали полной перенастройки.
Для того чтобы понимать слитную речь, необходимо было перейти к словарям гораздо больших размеров, от нескольких десятков до сотен тысяч слов. Методы, использовавшиеся в системах первого вида, не подходили для решения этой задачи, так как просто невозможно создать эталоны для такого количества слов.

Для того чтобы понимать слитную речь, необходимо было перейти к словарям гораздо больших размеров, от нескольких десятков до сотен тысяч слов. Методы, использовавшиеся в системах первого вида, не подходили для решения этой задачи, так как просто невозможно создать эталоны для такого количества слов.

Кроме этого, существовало желание сделать систему, не зависящую от диктора. Это весьма сложная задача, поскольку у каждого человека индивидуальная манера произнесения: темп речи, тембр голоса, особенности произношения. Такие различия называются вариативностью речи. Чтобы ее учесть, были предложены новые статистические методы, опирающиеся в основном на математические аппараты Скрытых Марковских Моделей (СММ) или Искусственных Нейронных сетей. Наилучшие результаты достигнуты при комбинировании этих двух методов. Вместо создания эталонов для каждого слова, создаются эталоны отдельных звуков, из которых состоят слова, так называемые акустические модели. Акустические модели формируются путём статистической обработки больших речевых баз данных, содержащих записи речи сотен людей. В существующих системах распознавания речи используются два принципиально разных подхода:

Распознавание голосовых меток — распознавание фрагментов речи по заранее записанному образцу. Этот подход широко используется в относительно простых системах, предназначенных для исполнения заранее записанных речевых команд.

Распознавание лексических элементов — выделение из речи простейших лексических элементов, таких как фонемы и аллофоны. Этот подход пригоден для создания систем диктовки текста, в которых происходит полное преобразование произнесенных звуков в текст.

Обзор различных интернет-источников позволяет выделить следующие программные продукты, решающие задачи распознавания речи и их основные характеристики:

Горыныч ПРОФ 3.0 — это простая в использовании программа, для распознавания устной речи и набора текста путем диктовки с поддержкой русского языка. В ее основе лежат российские разработки в области распознавания устной речи.

дикторонезависимость;
устойчивость к окружающим шумам и помехам в телефонном канале;
распознавание русской речи работает с надежностью 97% (словарь 100 слов).

дикторонезависимость;
языконезависимость;
точность распознавания достигает 95-98%;
распознавание речи в виде выражений и небольших предложений;
нет возможности обучения.

поддержка русского языка;
возможность встраивать распознавание речи на веб-ресурсы;
голосовые команды, словосочетания;
для работы необходимо постоянное подключение к сети internet.

отсутствует поддержка русского языка;
точность распознавания до 99%.

точность распознавания достигает 95-98%;
дикторонезависимость;
словарь системы ограничен набором специфических терминов.

дикторонезависимость;
распознавание слитной речи;
обучаемость;
наличие версии для встраиваемых систем — Pocket Sphinx.

Математический аппарат распознавания состояния диктора и его особенностей

Для решения задачи, поставленной в работе, проанализируем требования к системе.

Система должна быть:

дикторозависимой;
обучаться под особенности произношения конкретного пользователя;
распознавать определенное количество голосовых меток и переводить их в управляющие команды.

Голосовые команды являются звуковой волной. Звуковую волну можно представить в виде спектра входящих в нее частот. Цифровой звук – это способ представления электрического сигнала посредством дискретных численных значений его амплитуды. В качестве входной информации для работы голосового интерфейса выступает звуковой файл в оперативной памяти, в результате подачи файла на нейронную сеть программа выдает соответствующий результат.

Оцифровка – это фиксация амплитуды сигнала через определенные промежутки времени и регистрация полученных значений амплитуды в виде округленных цифровых значений. Оцифровка сигнала включает в себя два процесса — процесс дискретизации и процесс квантования.

Процесс дискретизации – это процесс получения значений сигнала, который преобразуется с определенным временным шагом, такой шаг называется шагом дискретизации. Количество измерений величины сигнала, выполняемых в одну секунду, называют частотой дискретизации или частотой выборки, или частотой семплирования. Чем меньше шаг дискретизации, тем выше частота дискретизации и тем более точное представление о сигнале нами будет получено.

Квантование – это процесс замены реальных значений амплитуды сигнала приближенными с некоторой точностью значениями. Каждый из 2N возможных уровней называется уровнем квантования, а расстояние между двумя ближайшими уровнями квантования называется шагом квантования. Если амплитудная шкала разбита на уровни линейно, квантование называют линейным или однородным.

Записанные значения амплитуды сигнала называются отсчетами. Чем выше частота дискретизации и чем больше уровней квантования, тем более точное представление сигнала в цифровой форме.

В качестве математического аппарата решения задачи выделения характеризующих признаков целесообразно использовать нейронную сеть, которая сможет обучиться и автоматически выделить необходимые признаки. Это позволит обучать систему под особенности произношения речевых команд конкретного пользователя. Сравнивая механизмы различных нейронных сетей, нами выбраны две наиболее подходящие. Это сеть Коско и Кохокена.

Самоорганизующаяся карта Кохонена — нейронная сеть с обучением без учителя, выполняющая задачу визуализации и кластеризации. Является методом проецирования многомерного пространства в пространство с более низкой размерностью (чаще всего, двумерное), применяется также для решения задач моделирования, прогнозирования, выявление наборов независимых признаков, поиска закономерностей в больших массивах данных, разработке компьютерных игр. Является одной из версий нейронных сетей Кохонена.

Сеть Кохонена является подходящей сетью, так как данная сеть может провести автоматическое разбиение обучающих примеров на кластеры, где количество кластеров задается пользователем. После обучения сети можно рассчитать к какому кластеру относится входной пример, и вывести соответствующий результат.

Нейронная сеть Коско или двунаправленная ассоциативная память (ДАП) — однослойная нейронная сеть с обратными связями, базируется на двух идеях: адаптивной резонансной теории Стефана Гросберга и автоассоциативной памяти Хопфилда. ДАП является гетероассоциативной: входной вектор поступает на один набор нейронов, а соответствующий выходной вектор вырабатывается на другом наборе нейронов. Как и сеть Хопфилда, ДАП способна к обобщению, вырабатывая правильные реакции, несмотря на искаженные входы. Кроме того, могут быть реализованы адаптивные версии ДАП, выделяющие эталонный образ из зашумленных экземпляров. Эти возможности сильно напоминают процесс мышления человека и позволяют искусственным нейронным сетям сделать шаг в направлении моделирования мозга.

Преимущество этой сети является в том, что основе дискретных нейронных сетей адаптивной резонансной теории разработана новая двунаправленная ассоциативная память, способная запоминать новую информацию без переобучения нейронной сети. Это позволяет пользователю пополнять запас голосовых меток в случае необходимости.

Проектирование

Концепция программной реализации содержит три этапа, которые реализуются в одном программном продукте, имеющем эргономичный графический интерфейс.

Сбор обучающих примеров.

Для обучения нейросети пользователю предлагается произнести несколько раз заготовленные голосовые метки. Так как записываемые фразы состоят из одного слова, то размер файла не имеет значения. И для дальнейшей обработки звук записывается в формат WAV. Это PCM формат записи без потерь. Он является стандартом для дальнейшей обработки звука с помощью библиотеки python_speech_features языка Python. К аудиофайлу должно прилагаться его “значение”, необходимое для дальнейшего обучения нейросети (соответствующие команды).

Обучение нейронной сети.

Программа считывает аудиофайлы, и производит генерацию новых аудиофайлов путем изменения длины звуковой дорожки, а также изменение высоты, громкости и тембра речи. Это необходимо для увеличения количества примеров для обучающей выборки, что позволит увеличить качество распознавания нейронной сетью. В программе пользователю будет предложено обучить сеть на записанных ранее голосовых метках. Пользователь может также дополнять базу обучающими голосовыми метками, и дообучить нейронную сеть позднее.

После обучения программы на заданных словах, пользователь может приступить к работе или добавить на обучение новые голосовые метки. Обученная нейронная сеть может распознать подаваемые звуковые файлы.

Заключение

Таким образом, в научно-исследовательской работе проведен обзор современного рынка голосовых интерфейсов и сфер их использования. Показано, что данный вид программного обеспечения ориентирован на использование в системах дикторонезависимого голосового управления и не учитывает индивидуальных особенностей пользователя, что особенно актуально для людей с ограниченными возможностями здоровья и имеющих речевые нарушения.

Определены требования к голосовому интерфейсу управления вычислительной системой для помощи людям с нарушениями речи.

Описан математический аппарат, подходящий для реализации концепции. Составлен алгоритм программной реализации голосового интерфейса.

Дальнейшее развитие предполагает разработку программы с удобным графическим интерфейсом для реализации прототипа голосового интерфейса управления, который может быть использован для различных задач, таких как управление бытовыми приборами, компьютером, роботизированной техникой (экзоскелетами) людьми с инвалидностью.

Информатика

Развитие информационных технологий открыло перед человеком двери в новый цифровой мир, где можно не только общаться, но и работать, передавать и хранить информацию. Представить себе современную жизнь без компьютера практически нереально, но для того чтобы работать с разными программами, необходимо усвоить основы. На информатике в 7 классе классификация пользовательского интерфейса изучается детально, благодаря чему процесс становится лёгким и интересным.

Краткая характеристика

Пользовательским интерфейсом является совокупность правил и действий, благодаря которым человек может управлять компьютером и выполнять разные действия. Устройства, на которых операции выполнялись с помощью кодов, прописанных вручную, назывались компьютерами с командным интерфейсом. За таким принципом работали первые модели: человек набирал последовательность символов в строку, после этого устройство сопоставляло полученный код с уже имеющимися в памяти и производило требуемое от него действие.

В процессе эволюции интерфейс менялся, информатики сопоставляют его развитие с вычислительной техникой: чем современнее модели появлялись, тем проще было управлять компьютером. На основе способа коммуникации специалисты выделяют следующие типы:

командный;
графический;
речевой;
интерфейс на основе биометрической технологии.

Развитие машин не стоит на месте. Уже сейчас человечество переходит на новый уровень параллельной реальности, благодаря которому будет возможно не только выполнять основные действия в компьютере, но и чувствовать их. Информационные технологии изучаются с 5 класса, благодаря чему ученики могут не только научиться основам использования, но и активно работать в интернете и изучать необходимую информацию. За типом взаимодействия выделяют такие разновидности программ:

Аппаратный — элемент позволяет создавать малую сеть и объединять там разные устройства. Это упрощает процесс работы и заметно ускоряет передачу и обработку данных.
Программный — пользователь может быстро настроить обеспечение и установить необходимые драйвера без прописывания кодов и создания новых команд.
Аппаратно-программный — может обеспечивать взаимодействие двух основных систем одновременно.
Пользовательский — включает в себя взаимодействие человека и устройства на операционном уровне программы.

Благодаря изучению работы программных средств современный пользователь может выполнять большой спектр действий в компьютере. Это возможность реализовать ключевые запросы и не только обрабатывать информацию, но и работать, отдыхать и играть в виртуальном мире.

Графический интерфейс

Этот вариант программы появился в XX веке. Первые варианты были довольно примитивные, но выделяли в цвет нужный участок на мониторе, позволяли использовать манипуляторы для доступа к любому участку экрана, менять назначение клавиш в зависимости от требований используемой программы. Благодаря этому изобретению практическая работа за компьютером стала намного проще, но всё ещё требовала специального обучения для выполнения всех действий.

Уже позже были разработаны разные окна, усовершенствовался интерфейс программ и появились дополнительные элементы управления доступными панелями. В таблице видов пользовательских интерфейсов этот тип называют объектно-ориентированным благодаря следующим особенностям:

Объекты представлены в виде значков и ярлыков. Это существенно ускоряет процесс работы и позволяет использовать разные программы практически одновременно, без ввода стартовых команд. Для активации значка достаточно щёлкнуть на нём манипулятором.
Операции происходят в специальных окнах. Это очерченные рамки, которые отображаются на экране. Одновременно можно открывать несколько групп окон. На уроках информатики изучаются примеры диалоговых и программных окон.
Аппаратное управление выполняется с помощью манипуляторов: мышки, тачпада, трекбола или сенсорной панели.

Основа интерфейса — меню, именно на нём строится выполнение всех задач. Здесь сохраняется вся функциональность программы и описываются возможности. Все компьютерные объекты имеют своё имя, технические характеристики и месторасположения. Благодаря этому любую программу можно найти в папке или переместить в нужное место.

Элементы управления и речь

В учебнике за 7 класс пользовательский интерфейс делится на несколько категорий, каждая из которых отличается набором функций. Современный интерфейс предлагает готовые графические объекты, выполнение команд над которыми упрощено. Отличительной чертой от классического командного интерфейса в графическом можно называть элементы управления. Их определение зависит от типа программы. К базовым специалисты относят:

Большие списки могут отображаться не полностью, часть скрывается под дополнительной кнопкой. Что касается речевого интерфейса, то это современный вариант подачи информации или выполнения команд с помощью проговаривания специальных слов. Примером этого является бортовая система современных автомобилей, различающая голосовые команды водителя. Это облегчает доступ к меню и позволяет быстрее выполнять процессы, увеличивая при этом эффективность работы.

Современные технологии

При изучении интерфейса нужно знать о новинках, которые могут в будущем заменить стандартные компьютеры. Внедрение речевой мимики в интерфейс программ позволяет не только управлять гаджетами и устанавливать новые суперэффективные пароли, но и в режиме реального времени создавать онлайн-конференции или общаться по телефону через видеосвязь.

Биометрическая технология используется в качестве ещё одной ступени безопасности, позволяющей защитить данные и идентифицировать человека в аэропортах, на пунктах пропуска. В некоторых банках также предлагается система идентификации для постоянных клиентов, что заменяет стандартную верификацию и позволяет ускорить процесс.

В качестве объекта идентификации могут выступать отпечатки пальцев, речь, мимика или радужка глаза. Стандартным типом, позволяющим идентифицировать человека, является его подпись или почерк. Кодовые названия или фразы уже давно используются ведущими банками мира в качестве дополнительного ключа для хранения важных документов или материальных ценностей.

Интерфейс программ постоянно обновляется, включая в себя новые команды и возможности. Для лучшего управления существует техническая поддержка, благодаря которой происходит обновление и защита данных.

Технологии современного мира направлены на максимальное облегчение в процессе использования и естественность. Человек может включать все компьютерные процессы в формат реальной жизни и при этом не ощущать дисбаланса. Общаться, работать, слушать музыку, смотреть фильмы или передавать информацию стало намного проще и легче благодаря постоянному обновлению элементов интерфейса и созданию новых программ.

Если сравнивать первые командные варианты интерфейса с современными возможностями человека, то это создание виртуальной реальности и возможность быстро и качественно работать в интернете. Изучение технологий проходит в формате онлайн-курсов, с выдачей сертификатов, гарантирующих дальнейшее трудоустройство. Для начинающих пользователей интересным будет краткий курс Семакина, в котором рассказывается об основных элементах интерфейса и объясняются базовые действия с пошаговым выполнением.

На уроках информатики даются основные знания и вместо учебников используются компьютерные программы, закладывающие основу знаний для детей. Благодаря современным программам и интерфейсу работать и получать нужную информацию достаточно легко.

Читайте также: