Системы распознавания речи реферат

Обновлено: 05.07.2024

Современные системы распознавания речи

В настоящее время речевое распознавание находит все новые и новые области применения, начиная от приложений, осуществляющих преобразование речевой информации в текст и заканчивая бортовыми устройствами управления автомобилем. Все многообразие существующих систем распознавания речи можно условно разделить на следующие группы:

1. Программные ядра для аппаратных реализаций систем распознавания речи;

2. Наборы библиотек, утилит для разработки приложений, использующих речевое распознавание;

3. Независимые пользовательские приложения, осуществляющие речевое управление и/или преобразование речи в текст;

4. Специализированные приложения, использующие распознавание речи;

5. Устройства, выполняющие распознавание на аппаратном уровне;

6. Теоретические исследования и разработки.

Рассмотрим каждую из этих групп подробнее.

1. Программные ядра для аппаратных реализаций

Существует несколько крупных производителей, занимающихся созданием ASR ядер и среди них такие компании, как SPIRIT, Advanced Recognition Technologies, IBM.

Компания SPIRIT занимается созданием программных средств для цифровой телефонии, сжатия речи, идентификации говорящего, для технологий VoIP и GPS [2]. ASR engine от SPIRIT разработан для распознавания речевых команд и применяется в различных приложениях, таких как голосовое управление устройствами, голосовой набор в hands-free устройствах, ввод персональных идентификационных кодов (PIN) в системах безопасности. Данное ядро встраивается в любые DSP или RISC платформы и поставляется в виде объектного кода.

Корпорация IBM уже более 30 лет занимается вопросами автоматического распознавания речи и достигла в этой области больших успехов. Так компания ProVox Technologies на основе программного ядра ViaVoice® от IBM [3]создала систему для диктовки отчетов врачей-радиологов VoxReports [4]. По результатам тестирований, данная система с точностью 95-98% распознает слитную речь нормального темпа (до 180 слов в минуту) в независимости от диктора. Однако словарь системы ограничен набором специфических медицинских терминов.

Opera Software договорилась с IBM об интеграции в браузеры Opera технологии распознавания речи Embedded ViaVoice [5]. Использование Embedded ViaVoice позволит пользователям управлять браузером не только с помощью мыши и клавиатуры, но и голосом.

Технология распознавания речи все больше применяется в средствах подвижной связи. Так компания Advanced Recognition Technologies создала систему smARTspeak NG, встраиваемую в мобильные телефоны [6]. Сейчас система smARTspeak NG применяется в бесклавиатурных телефонах от Siemens [7], телефонах Panasonic стандарта TDMA в США и других.

2. Наборы библиотек для разработки приложений

В настоящее время рынок программных распознавателей речи представлен множеством приложений. Рассмотрим наиболее известные из них.

Dragon NaturallySpeaking Preferred фирмы Dragon Systems [15]– единственная программа, приблизившаяся к тому, чтобы соответствовать заявленным характеристикам. В целом он очень близко подходит к достижению заявленной безошибочности распознавания - 95%. Хотя пакет Dragon и уступает некоторым из конкурентов в том, что касается перемещения по экрану, правки и форматирования, он превосходит всех в главном - способности с первого раза правильно записывать произнесенные слова. Изначально данный пакет не работает с русским языком.

3. Независимые пользовательские приложения

В настоящее время рынок программных распознавателей речи представлен множеством приложений. Рассмотрим наиболее известные из них.

Dragon NaturallySpeaking Preferred фирмы Dragon Systems [15]– единственная программа, приблизившаяся к тому, чтобы соответствовать заявленным характеристикам. В целом он очень близко подходит к достижению заявленной безошибочности распознавания - 95%. Хотя пакет Dragon и уступает некоторым из конкурентов в том, что касается перемещения по экрану, правки и форматирования, он превосходит всех в главном - способности с первого раза правильно записывать произнесенные слова. Изначально данный пакет не работает с русским языком.

4. Специализированные приложения

Германский институт DFKI, занимающийся разработками в области искусственного интеллекта, разработал систему, названную Verbmobil, способную переводить разговорную речь с немецкого на английский или японский и обратно, непосредственно произнесенную в микрофон [19].

Система выполнена в виде независимого сервера Verbmobil Server. Благодаря этому, Verbmobil удалось связать с сетью мобильных телефонов стандарта GSM. Теперь разноязычные абоненты, подключившись к Verbmobil Server могут общаться друг с другом непосредственно, принимая уже переведенную речь, при этом Verbmobil автоматически настраивается на язык говорящего. По данным экспериментов, точность переводов составляет 90%, что было проверено на 25000 тестовых фразах.

5. Устройства, выполняющие распознавание на аппаратном уровне

Для использования функций речевого распознавания в различных устройствах, роботах, игрушках, разрабатываются аппаратные методы решения данной проблемы. Так американская компания Sensory Inc. разработала интегральную схему Voice Direct™ 364 осуществляющую дикторозависимое распознавание небольшого числа команд (около 60) после предварительного обучения [20]. Перед началом эксплуатации модуль необходимо обучить всем командам, используемым в работе. Команды сохраняются во внешнюю память в виде образов размером 128 байт. Во время работы, образ очередной команды сравнивается с эталонными из памяти в нейросетевом модуле и принимается решение о совпадении.

Тайваньская технологическая корпорация Primestar Technology Corporation разработала собственный чип VP-2025, предназначенный для речевого распознавания [21]. Данное устройство осуществляет распознавание с помощью нейросетевого метода.

Кроме того, американскими учеными принято решение создать специализированный микропроцессор для распознавания речи. Исследования в данном направлении будут проводиться сотрудниками Университета Карнеги-Меллон в Питсбурге (Пенсильвания) и Калифорнийского университета в Беркли. Ожидается, что новый микропроцессор появится в течение ближайших двух-трех лет. Причем эффективность распознавания речи таким чипом должна будет в 100-1000 раз превысить аналогичный показатель применяемых сегодня программно-аппаратных комплексов [22].

6. Теоретические исследования и разработки

Разработкой теоретической базы в области речевых технологий занимаются множество исследовательских групп по всему миру. В первую очередь это такие крупные корпорации как IBM, Intel, Microsoft, AT&T. Эти компании занимаются теорией распознавания уже не один десяток лет и являются законодателями в этой области.

Из всего разнообразия научных разработок подробно рассмотрим работы отечественных исследовательских групп.

В лаборатории автоматизированных систем массового обслуживания Института проблем управления РАН более 30 лет ведутся исследования в области речевого распознавания. Главным научным и практическим направлением деятельности лаборатории в настоящее время является применение компьютерного распознавания слитной речи в системах обслуживания населения с возможностью использования русского и других языков [23]. Разработаны математические модели для описания процессов в системах распознавания речи.

Перспективы разработки систем распознавания речи


Рис.1 Классификация систем распознавания речи

Важнейшим этапом обработки речи в процессе распознавания, является выделение информативных признаков, однозначно характеризующих речевой сигнал. Существует некоторое число математических методов, анализирующих речевой спектр. Здесь самым широко используемым является преобразование Фурье, известное из теории цифровой обработки сигналов. Данный математический аппарат хорошо себя зарекомендовал в данной области, имеется множество методик обработки сигналов, использующих в своей основе преобразование Фурье. Не смотря на это, постоянно ведутся работы по поиску иных путей параметризации речи. Одним из таких новых направлений, является вейвлет анализ, который стал применяться для исследования речевых сигналов сравнительно недавно. Теория данного метода сейчас развивается учеными всего мира, и многие исследователи возлагают большие надежды на использование инструмента вейвлет анализа для распознавания речи.

Если рассмотреть речевые распознаватели с позиции классификации по механизму функционирования, то подавляющая их часть относится к системам с вероятностно-сетевыми методами принятия решения о соответствии входного сигнала эталонному – это метод скрытого Марковского моделирования (СММ), метод динамического программирования и нейросетевой метод (рис. 1). Например, нейронные сети могут быть использованы для классификации характеристик речевого сигнала и принятия решения о принадлежности к той или иной группе эталонов [27]. Нейросеть обладает способностью к статистическому усреднению, т.е. решается проблема с вариативностью речи. Многие нейросетевые алгоритмы осуществляют параллельную обработку информации, т.е. одновременно работают все нейроны. Тем самым решается проблема со скоростью распознавания – обычно время работы нейросети составляет несколько итераций. Сейчас многие разработчики используют аппарат нейронных сетей для построения распознавателей [19, 24, 27].

Список литературы

1. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. – М.: Мир, 1983. – Кн. 1. 328 с., ил.

10. Шварц Э. Авторские права на пути Voice XML. // Computerworld, №36, 2001 г.

27. J.P. Hosom, R. Cole, and M. Fanty. Speech Recognition Using Neural Networks at the Center for Spoken Language Understanding. //Center for Spoken Language Understanding, Oregon Graduate Institute of Science and Technology, July 1999.

28. Чекмарев А. Речевые технологии – проблемы и перспективы. // Компьютерра, №49 с. 26-43, 1997 г.

Общая характеристика, классификация и структура систем распознавания речи. Принципы предварительной обработки сигнала. Определение помехоустойчивости в распознавании речи, динамическая подстройка параметров. Место акустической и языковой модели в системе.

Рубрика Коммуникации, связь, цифровые приборы и радиоэлектроника
Вид курсовая работа
Язык русский
Дата добавления 11.01.2013
Размер файла 720,9 K

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Изучением человеческой речи занимаются давно. В середине ХХ века возникает проблема автоматического распознавания речи вычислительными машинами. За полвека ученым удалось накопить огромное количество знаний о предмете исследований. Стало понятным, что распознавание речи - очень непростая задача.

Основной техникой для многих систем распознавания речи является статистический метод, называемый скрытым Марковским моделированием (HMM). Такие системы разрабатываются во многих центрах и способны на хорошее распознавание слов речи. Вероятность распознавания слов достигает 80 - 90 %.

Области применения систем автоматического распознавания речи самые разнообразные. Например, с начала девяностых годов в нескольких американских и канадских компаниях по заказу министерства обороны США ведется разработка систем распознавания, предназначенных для перехвата телефонных переговоров. В последнее время системы распознавания применяются в компьютерных курсах обучения иностранному языку, системах подготовки текстовых документов. Перспективными направлениями являются разработка систем помощи людям с ограниченными возможностями и совершенствование человеко-машинного интерфейса [11].

Факторами, сдерживающими широкое внедрение систем автоматического распознавания речи, являются:

- сложность реализации в малогабаритной мобильной аппаратуре из-за высоких вычислительных расходов и их значительной неравномерности, а так же необходимость хранения в памяти большого словаря (набора моделей распознаваемых речевых единиц);

- значительное ухудшение параметров качества в условиях помех.

В данной работе представлены основные принципы построения систем распознавания речи, предварительной обработки исходного сигнала, построения акустических и языковых моделей, рассмотрен современный подход к помехоустойчивости систем распознавания. Рассматриваются способы оценки качества распознающих систем.

Уделяется так же внимание проблемам разработки, перспективам развития и непрерывного совершенствования распознающих систем.

1. СИСТЕМЫ РАСПОЗНАВАНИЯ РЕЧИ

Распознавание речи - процесс преобразования акустического сигнала, преобразованного в электрический, в последовательность слов. Распознанные слова могут быть конечным результатом, если целью системы является управление, ввод данных или подготовка документа. Они могут также быть основой для последующей лингвистической обработки для достижения понимания речи [8, 11].

Современные системы распознавания речи

В настоящее время речевое распознавание находит все новые и новые области применения, начиная от приложений, осуществляющих преобразование речевой информации в текст и заканчивая бортовыми устройствами управления автомобилем. Все многообразие существующих систем распознавания речи можно условно разделить на следующие группы:

1. Программные ядра для аппаратных реализаций систем распознавания речи;

2. Наборы библиотек, утилит для разработки приложений, использующих речевое распознавание;

3. Независимые пользовательские приложения, осуществляющие речевое управление и/или преобразование речи в текст;

4. Специализированные приложения, использующие распознавание речи;

5. Устройства, выполняющие распознавание на аппаратном уровне;

6. Теоретические исследования и разработки.

Рассмотрим каждую из этих групп подробнее.

1. Программные ядра для аппаратных реализаций

Существует несколько крупных производителей, занимающихся созданием ASR ядер и среди них такие компании, как SPIRIT, Advanced Recognition Technologies, IBM.

Компания SPIRIT занимается созданием программных средств для цифровой телефонии, сжатия речи, идентификации говорящего, для технологий VoIP и GPS [2]. ASR engine от SPIRIT разработан для распознавания речевых команд и применяется в различных приложениях, таких как голосовое управление устройствами, голосовой набор в hands-free устройствах, ввод персональных идентификационных кодов (PIN) в системах безопасности. Данное ядро встраивается в любые DSP или RISC платформы и поставляется в виде объектного кода.

Корпорация IBM уже более 30 лет занимается вопросами автоматического распознавания речи и достигла в этой области больших успехов. Так компания ProVox Technologies на основе программного ядра ViaVoice® от IBM [3]создала систему для диктовки отчетов врачей-радиологов VoxReports [4]. По результатам тестирований, данная система с точностью 95-98% распознает слитную речь нормального темпа (до 180 слов в минуту) в независимости от диктора. Однако словарь системы ограничен набором специфических медицинских терминов.

Opera Software договорилась с IBM об интеграции в браузеры Opera технологии распознавания речи Embedded ViaVoice [5]. Использование Embedded ViaVoice позволит пользователям управлять браузером не только с помощью мыши и клавиатуры, но и голосом.

Технология распознавания речи все больше применяется в средствах подвижной связи. Так компания Advanced Recognition Technologies создала систему smARTspeak NG, встраиваемую в мобильные телефоны [6]. Сейчас система smARTspeak NG применяется в бесклавиатурных телефонах от Siemens [7], телефонах Panasonic стандарта TDMA в США и других.

2. Наборы библиотек для разработки приложений

В настоящее время рынок программных распознавателей речи представлен множеством приложений. Рассмотрим наиболее известные из них.

Dragon NaturallySpeaking Preferred фирмы Dragon Systems [15]– единственная программа, приблизившаяся к тому, чтобы соответствовать заявленным характеристикам. В целом он очень близко подходит к достижению заявленной безошибочности распознавания - 95%. Хотя пакет Dragon и уступает некоторым из конкурентов в том, что касается перемещения по экрану, правки и форматирования, он превосходит всех в главном - способности с первого раза правильно записывать произнесенные слова. Изначально данный пакет не работает с русским языком.

3. Независимые пользовательские приложения

В настоящее время рынок программных распознавателей речи представлен множеством приложений. Рассмотрим наиболее известные из них.

Dragon NaturallySpeaking Preferred фирмы Dragon Systems [15]– единственная программа, приблизившаяся к тому, чтобы соответствовать заявленным характеристикам. В целом он очень близко подходит к достижению заявленной безошибочности распознавания - 95%. Хотя пакет Dragon и уступает некоторым из конкурентов в том, что касается перемещения по экрану, правки и форматирования, он превосходит всех в главном - способности с первого раза правильно записывать произнесенные слова. Изначально данный пакет не работает с русским языком.

4. Специализированные приложения

Германский институт DFKI, занимающийся разработками в области искусственного интеллекта, разработал систему, названную Verbmobil, способную переводить разговорную речь с немецкого на английский или японский и обратно, непосредственно произнесенную в микрофон [19].

Система выполнена в виде независимого сервера Verbmobil Server. Благодаря этому, Verbmobil удалось связать с сетью мобильных телефонов стандарта GSM. Теперь разноязычные абоненты, подключившись к Verbmobil Server могут общаться друг с другом непосредственно, принимая уже переведенную речь, при этом Verbmobil автоматически настраивается на язык говорящего. По данным экспериментов, точность переводов составляет 90%, что было проверено на 25000 тестовых фразах.

5. Устройства, выполняющие распознавание на аппаратном уровне

Для использования функций речевого распознавания в различных устройствах, роботах, игрушках, разрабатываются аппаратные методы решения данной проблемы. Так американская компания Sensory Inc. разработала интегральную схему Voice Direct™ 364 осуществляющую дикторозависимое распознавание небольшого числа команд (около 60) после предварительного обучения [20]. Перед началом эксплуатации модуль необходимо обучить всем командам, используемым в работе. Команды сохраняются во внешнюю память в виде образов размером 128 байт. Во время работы, образ очередной команды сравнивается с эталонными из памяти в нейросетевом модуле и принимается решение о совпадении.

Тайваньская технологическая корпорация Primestar Technology Corporation разработала собственный чип VP-2025, предназначенный для речевого распознавания [21]. Данное устройство осуществляет распознавание с помощью нейросетевого метода.

Кроме того, американскими учеными принято решение создать специализированный микропроцессор для распознавания речи. Исследования в данном направлении будут проводиться сотрудниками Университета Карнеги-Меллон в Питсбурге (Пенсильвания) и Калифорнийского университета в Беркли. Ожидается, что новый микропроцессор появится в течение ближайших двух-трех лет. Причем эффективность распознавания речи таким чипом должна будет в 100-1000 раз превысить аналогичный показатель применяемых сегодня программно-аппаратных комплексов [22].

6. Теоретические исследования и разработки

Разработкой теоретической базы в области речевых технологий занимаются множество исследовательских групп по всему миру. В первую очередь это такие крупные корпорации как IBM, Intel, Microsoft, AT&T. Эти компании занимаются теорией распознавания уже не один десяток лет и являются законодателями в этой области.

Из всего разнообразия научных разработок подробно рассмотрим работы отечественных исследовательских групп.

В лаборатории автоматизированных систем массового обслуживания Института проблем управления РАН более 30 лет ведутся исследования в области речевого распознавания. Главным научным и практическим направлением деятельности лаборатории в настоящее время является применение компьютерного распознавания слитной речи в системах обслуживания населения с возможностью использования русского и других языков [23]. Разработаны математические модели для описания процессов в системах распознавания речи.

Перспективы разработки систем распознавания речи


Рис.1 Классификация систем распознавания речи

Важнейшим этапом обработки речи в процессе распознавания, является выделение информативных признаков, однозначно характеризующих речевой сигнал. Существует некоторое число математических методов, анализирующих речевой спектр. Здесь самым широко используемым является преобразование Фурье, известное из теории цифровой обработки сигналов. Данный математический аппарат хорошо себя зарекомендовал в данной области, имеется множество методик обработки сигналов, использующих в своей основе преобразование Фурье. Не смотря на это, постоянно ведутся работы по поиску иных путей параметризации речи. Одним из таких новых направлений, является вейвлет анализ, который стал применяться для исследования речевых сигналов сравнительно недавно. Теория данного метода сейчас развивается учеными всего мира, и многие исследователи возлагают большие надежды на использование инструмента вейвлет анализа для распознавания речи.

Если рассмотреть речевые распознаватели с позиции классификации по механизму функционирования, то подавляющая их часть относится к системам с вероятностно-сетевыми методами принятия решения о соответствии входного сигнала эталонному – это метод скрытого Марковского моделирования (СММ), метод динамического программирования и нейросетевой метод (рис. 1). Например, нейронные сети могут быть использованы для классификации характеристик речевого сигнала и принятия решения о принадлежности к той или иной группе эталонов [27]. Нейросеть обладает способностью к статистическому усреднению, т.е. решается проблема с вариативностью речи. Многие нейросетевые алгоритмы осуществляют параллельную обработку информации, т.е. одновременно работают все нейроны. Тем самым решается проблема со скоростью распознавания – обычно время работы нейросети составляет несколько итераций. Сейчас многие разработчики используют аппарат нейронных сетей для построения распознавателей [19, 24, 27].

1. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. – М.: Мир, 1983. – Кн. 1. 328 с., ил.

10. Шварц Э. Авторские права на пути Voice XML. // Computerworld, №36, 2001 г.

27. J.P. Hosom, R. Cole, and M. Fanty. Speech Recognition Using Neural Networks at the Center for Spoken Language Understanding. //Center for Spoken Language Understanding, Oregon Graduate Institute of Science and Technology, July 1999.

28. Чекмарев А. Речевые технологии – проблемы и перспективы. // Компьютерра, №49 с. 26-43, 1997 г.

Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию (напр., текстовые данные). Обратной задачей является синтез речи.

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры.[1] В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

2. Алгоритм разработки системы для распознавания речи

Существующие технологии распознавания речи не имеют пока достаточных возможностей для их широкого использования, но на данном этапе исследований проводится интенсивный поиск возможностей употребления коротких многозначных слов (процедур) для облегчения понимания. Распознавание речи в настоящее время нашло реальное применение в жизни, пожалуй, только в тех случаях, когда используемый словарь сокращен до 10 знаков, например при обработке номеров кредитных карт и прочих кодов доступа в базирующихся на компьютерах системах, обрабатывающих передаваемые по телефону данные. Так что насущная задача - распознавание по крайней мере 20 тысяч слов естественного языка - остается пока недостижимой. Эти возможности пока недоступны для широкого коммерческого использования. Однако ряд компаний своими силами пытается использовать уже существующие в данной области науки знания.


  • обработку словаря (фонемный состав),

  • обработку синтаксиса,

  • сокращение речи (включая возможное использование жестких сценариев),

  • выбор диктора (включая возраст, пол, родной язык и диалект),

  • тренировку дикторов,

  • выбор особенного вида микрофона (принимая во внимание направленность и местоположение микрофона),

  • условия работы системы и получения результата с указанием ошибок.

  • различия человеческих голосов;

  • уровень речи говорящего;

  • вариации в произношении;

  • нормальное варьирование движения артикуляторов (языка, губ, челюсти, нёба).

Очевидно, что спектральное представление речи позволяет характеризовать особенности голосового тракта человека и способ использования его говорящим. Самый обычный способ моделирования специфических эффектов "модель-источник" - использование фильтров. Речевой аппарат моделируется с использованием источников, вызывающих резонанс, ведущий к пиковым точкам интенсивности звука в соседстве с отдельными частотами, называемыми формантами. При произнесении звуков вибрация голосовых связок является источником возбуждения, и эти короткие импульсы вызывают резонанс между голосовыми связками и губами. Так как язык, челюсть, губы, зубы и альвеолярный аппарат двигаются, размер и место этих резонансов меняются, давая возможность воспроизведения особых параметров звуков.

Возможно построить очень точную модель, также прямо смоделировать движения артикуляторов физиологически реальным путем. Использование этих моделей привели к пониманию пути, в котором происходит речевой сигнал. Но так как наблюдение над артикуляторами затруднено, остаются недостатки. Хотя природа вокального тракта очень сильно влияет на выходной сигнал речи, это не единственное ограничение, которое необходимо принимать во внимание, так как контроль над мускулами звукового тракта обусловлен сигналами моторного кортэкса мозга. Возможно все аспекты влияния акустической структуры контролируют сигналы и форму звукового выхода речи (хотя это не может быть доказано с систематической точки зрения).


  • природу сегментов индивидуального звука (гласные/согласные),

  • структуру слога,

  • структуру морфем (приставки, корни, суффиксы),

  • лексикон,

  • уровень синтаксиса фраз и предложений и

  • долгосрочные ограничения речи (long-term discourse constraints) .

Что касается уровня артикуляторного контроля, первым уровнем является индивидуальный фонетический сегмент, иначе говоря, - фонема. Во многих естественных языках их примерно 40. Но их набор существенно различатется. Поэтому, например, английские гласные могут быть носовыми, даже ненамеренно, в то время как во французском носализация гласных является фонетическим контрастом, и поэтому влияют на значение произносимого. Во французском языке носовая коартикуляция доминирует в гласных и существенно влияет на восприятие фонем и следовательно на главный смысл значения. Хотя все говорящие имеют одинаковый голосовой аппарат, использование его разное. Так например, использование кончика языка или прищелкивание, как в некоторых африканских языках. Ясно, что природа артикуляционных движений имеет сильное влияние на метод воспроизведения речи. Эти ограничения всегда активно используются в практических системах.

На следующем уровне лингвистической структуры фонетические сегменты сгруппированы в согласные/гласные, а следовательно и в слоги. Далее, в зависимости от роли фонетического сегмента внутри этих слогов их реализация может быть сильно изменена. Так например, начальный согласный в слоге может быть реализован как абсолютно отличный от конечной позиции. Согласные очень крепко связываются между собой, что опять же влияет на последующие ограничения. Например, в английском если начальная группа согласных состоит из трех фонем, первая фонема должна быть /s/, следующей фонемой должен быть непроизносимый согласный, третьей или /r/ или /l/, как например, в слове /scrape/ или /split/. Говорящие на родном языке избегают этих ограничений или могут активно их использовать во время процесса восприятия. Из выше приведенных примеров очевидно, что хотя и существуют сильные ограничения, влияющие на слушателя, но их сила не является решающей во время произнесения речи. То есть любое моделирование процесса восприятия может быть активным и может оказать большую помощь в понимании главного смысла.

Другой пример, показывающий необходимость применения сфокусированного поиска, может быть представлен в восприятии конечного согласного. Среди многих ключевых слов для распознавания конечного согласного существует спектральная природа шума, воспроизводимого при освобождении конечной перемычки и перехода резонанса второй форманты в гласный, следующий за этой перемычкой. Многие исследователи изучали эти влияния, и результаты их исследований показали, что ограничивающее влияние обоих вышеописанных характеристик на восприятие варьируется природой следующего гласного, и следовательно, мощная стратегия распознавания должна иметь некоторые знания о твердой позиции гласного перед конечным согласным перед тем, как будет сделано само распознавание конечного согласного. Конечные согласные дают яркий пример весьма интересного комплекса фонетики, используемого для лингвистической окраски. Например, при рассмотрении слов rapid и rabid обнаруживается 16 фонетический различий.

Кроме сегментного и слогового уровней существуют ограниченные влияния из-за структуры морфем, которые являются минимальными синтаксическими единицами языка. Они включают в себя приставки, корни, суффиксы. Можно себе представить, что это синтаксис на слоговом и на морфемном уровнях, также как и нормально распознанный синтаксис, характеризующийся способом, в котором английские слова объединяются во фразы и предложения. Возможно представить данные ограничения как последствия рассмотрения грамматики вне контекста. В этом виде ограничений много “шумных” вариаций сегментов речи, которые так же относятся и к иерархическим синтаксическим ограничениям.

Дополнительные ограничения на природе входа новой лексики в язык могут являться уровнем слова. Многие исследования обнаружили, что характеристика слов при введении разбиения на 5 жестких классов фонетических сегментов может быть сокращена до минимума, часто имея единственное в своем роде распознавание. Далее слишком усиливается эффект порядка двух букв и фонетических сегментов с тех пор как в изучении английских и французских словарей было обнаружено, что более 90% слов имели единственное значение и только 0,5% имели 2 и больше альтернатив. На фонемном уровне было обнаружено, что все слова в английском словаре из 20 тысяч слов имели одно значение из-за беспорядочных фонемных пар. Этот пример помогает показать, что все еще существует ограничивающее влияние на лексическом уровне, которое еще не определено в современных системах распознавания речи. Естественно, что исследования в этой области продолжаются.

Кроме уровня слов синтаксис имеет дополнительное ограничительное влияние. Его влияние на последовательный порядок слов часто характеризуется в системах фактором, который в свою очередь характеризует количество возможных слов, которые могут следовать за предыдущим словом в процессе произнесения. Синтаксис также имеет ограничительные влияния на просодические элементы, такие как ударение, например в случае, когда ударение слов в incline и survey варьируется в зависимости от части речи. Возможно для того, чтобы охарактеризовать ударение в слове, нужно принять во внимание не только индивидуальное слово, но вышеприведенные дополнительные ограничения синтаксиса.

Далее, кроме синтаксического уровня ограничения доминируют над семантикой, прагматикой и речью, что плохо осознается людьми, однако имеет очень важное значение для процесса распознавания.

Несмотря на сложность описания характеристик источников различных ограничений, немаловажную роль играют современные системы влияния, которые представлены всеми возможными вариантами произнесения звуков. Например, система HARPI университета Сarnegie-Mellon University является системой, в которой звуковоспроизведение описывается как путь через комплексную сеть. В этом способе ограничения структуры слога, слова и синтаксиса связаны одной структурой. Структура контроля, используемая для поиска, является адаптацией динамичной программной техники. Более сильный подход был предложен моделями использования цепей Маркова. Эти модели использовались как единая структура, где возможности могут быть точно изучены экспериментальным путем. Закодированные представления спектральной трансформации воспроизводства речи используются для нахождения самого правильного пути через сеть, и недавно были получены очень хорошие результаты. Очень важно подчеркнуть использование такого формально- структурного подхода, который способствует автоматичному определению классов символов через структурирование и параметризацию.

При другом подходе базы данных и связанные с ними процессы обработки используются структурой контроля. Этот подход был изучен системой HEARSAJ 2, которая была разработана в институте Сarnegie-Mellon University, и системой HWIM (hear what I mean). В этих системах комплексная структура данных, которая содержит всю информацию о воспроизведении звуков, изучается с точки зрения конкретных ограничений. Но как выше указано, каждое из этих ограничений имеет особую внутреннюю модель, и полный анализ не может быть произведен. Для проведения анализа в целом структура данных должна иметь взаимодействие между разными процессами, а также средства для интеграции. Несмотря на то, что структура включает в себя несколько весьма различных источников знаний и ее вклад в понимание речи очень общий, она также имеет большое количество степеней свободы, которые могут быть использованы для тщательного системного воспроизведения. В отличие от этого, техника, основанная на цепях Маркова, имеет математическую поддержку. Чтобы иметь возможность сфокусированного исследования ограничений взаимодействия и интеграции в контексте, необходимо применять обе системы. Те системы, которые описывают ограничение взаимодействия, сфокусированы во многом на воспроизведении знаний, и они относительно слабо контролируемы, а системам с математической поддержкой, которые в свою очередь имеют великолепную технику для установления параметров и оптимизации изучения, не достает использования комплексной структуры данных, необходимых для характеристики ограничений высокого уровня, таких как синтаксис. Оба направления в настоящий момент находятся в процессе развития.

3. Виды систем

Однако, есть системы работы на клиенте (Speereo), разработанные специально для маломощных устройств и жесткий интерфейс которых может обновляться путем загрузки динамических команд с сервера на устройство. Так обеспечивается а) гибкость интерфейса и б) минимальное потребление интернет-траффика, т.к. состав команд передается в виде txt файла.

Сейчас применяется также технология SIND (без привязки к голосу конкретного человека).

Внедрение жестких речевых интерфейсов не приветствуется пользователем, т.к. предустановленный набор команд приходится запоминать наизусть, что неудобно и неестественно. Цель сегодняшних систем распознавания речи - гибкость, естественность языковых команд. Иными словами - пользователь желает отдавать команды устройствам "своими словами", не задумываясь над построением фраз.

Такую гибкость могут обеспечить либо системы типа client-server (Google, Siri) за счет накопления всевозможных произнесений фраз, либо те системы, что дают пользователям возможность создавать собственные команды из привычных им фраз, предложений, словечек (Speereo Software).

4. Применение систем

Основным преимуществом голосовых систем является дружественность к пользователю. Речевые команды избавляют конечного пользователя от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно произнести, чего желает пользователь, и голосовая система автоматически откроет нужный пункт меню.

5. Вывод

В заключение следует сделать акцент на влияние производственной технологии на системы распознавания речи. Технология интеграции не является большой проблемой для систем распознавания речи, наоборот, это является архитектурой этих систем, включая способ представления ограничений. Необходимо провести грандиозные эксперименты и найти новые способы, которые необходимы для ограничительного влияния взаимодействия.

Во многих способах распознавание речи имеет типичный пример стремительно развивающегося класса высоко интегрированных комплексных систем, которые должны использовать лучшую компьютерную технику и самые последние достижения современного математического обеспечения.


2
Содержание
Введение
Основная часть
1. Понятие речи и речеобразование
2. Преобразование речи
3. Обработка речевого сигнала
4. Передача сигналов по сверхузкополсному каналу
5. Системы распознования голоса и их применение
6. Недостатки систем распознования речи
Заключение
Библиографический список


3
Введение
Ни для кого не секрет, что в современном мире немалую р оль в жизни человека играет искусственный интеллект, в моем реферате речь пойдет о динамично развивающемся и широко востребованном направлении в области искуственного интлеекста - системах распознования речи.
Системы распознавания речи в современных реалях являются востребованными, так как, в той или иной мере способны облегчить, или даже полностью заменить работу человека, как в определенных видах деятельности так и в повседневной жизни.
Прежде всего данные системы нашли обширное применение в телекоммуникациях и телефонии, что позволило существенно облегчить работу человека, так, например появились call-центры, которые повысили уровень сервиса. Появилось множество технологий, чтобы управлять которыми, человеку достаточно дать голосовую команду: самый бытовой тому пример - умные голосовые помощники в наших смартфонах ("siri" в устройствах компании Apple, и, условно, "Алиса" на устройствах с операционной системой android) которые способны распознавать естественную речь, в последствии дать ответ на вопрос, решить ту или иную задачу и даже имитировать с человеком живой диалог.


4
1. Понятие речи и речеобразование
Речь представляет собой форму общения людей посредством языковых конструкций. Процесс речи предполагает, с одной стороны, формирование и формулирование мыслей языковыми (речевыми) средствами, а с другой стороны - восприятие языковых конструкций и их понимание. Речь прнято считать вербальной коммуникацией, с физической точки зрения она состоит из последовательности звуков речи с паузами между их группами. Один и тот же звук речи разные люди произносят по-разному, каждому человеку свойственна своя манера произнесения звуков речи. Однако при всем многообразии в их произношении они являются физическими реализациями ограниченного числа обобщенных звуков речи, которые принято называть фонемами. Фонема – это то, что человек хочет произнести, а звук речи – это то, что человек произносит по факту. Фонема по отношению к звуку речи играет ту же роль, что и образцовая буква по отношению к ее рукописной форме в конкретном написании. В русском языке насчитывается 42 основные и 3 неопределенные фонемы. Звуки речи принято делять на звонкие и глухие.
Звонкие звуки в свою очередь образуются с участием голосовых связок, в этом случае находящихся в напряженном состоянии. Под напором воздуха, идущего из легких, они периодически раздвигаются, в результате чего создается прерывистый поток воздуха. Импульсы потока воздуха, создаваемые голосовыми связками, с достаточной точностью могут считаться периодическими. При произнесении звуков речи язык, губы, зубы, нижняя челюсть, голосовые связки должны находиться для каждой фонемы в строго определенном положении или движении. Эти движения называют артикуляцией органов речи. При этом в речеобразующем тракте создаются резонансные полости, определенные для данной фонемы, а для слитного звучания фонем в речи — и определенные переходы от одной формы тракта к другой.
С другой стороны речь представляет собой звуковые колебания воздуха в диапазоне частот от 70−100 Гц до нескольких килогерц. Для того чтобы в выходящем воздушном потоке возникли колебания с такими частотами, необходимо наличие источника звука на пути воздушного потока. Изменение частоты основного тона называется интонацией. У каждого человека свой диапазон изменения основного тона и своя интонация. Последняя имеет большое значение для узнаваемости говорящего. Импульсы основного тона имеют пилообразную форму, и поэтому при их периодическом повторении получается дискретный спектр с большим числом гармоник частоты которых кратны частоте основного тона. Огибающая спектра основного тона имеет спад в сторону высоких частот с крутизной около 6 дБ/октаву, поэтому для


5 мужского голоса уровень составляющих около 3000 Гц ниже их уровня около
100 Гц примерно на 30 дБ.
При произнесении звуков речи через речевой тракт проходит или тональный импульсный сигнал, или шумовой, или тот и другой вместе. Речевой тракт представляет собой сложный акустический фильтр с рядом резонансов, создаваемых полостями рта, носа и носоглотки, т. е. с помощью артикуляционных органов речи. Вследствие этого равномерный тональный или шумовой спектр превращается в спектр с рядом максимумов и минимумов. Максимумы спектра называют формантами, а нулевые провалы
- антиформантами. Для каждой фонемы огибающая спектра имеет индивидуальную и вполне определенную форму. При произнесении речи громкость ее непрерывно изменяется. Динамический диапазон уровней речи находится в пределах 35…45 дБ. Гласные звуки речи имеют в среднем длительность около 0,15 с, согласные – около 0,08 с.
Так же стоит ответить, что вуки речи неодинаково информативны. Так, гласные звуки содержат малую информацию о смысле речи, а глухие согласные наиболее информативны. Поэтому разборчивость речи снижается при действии шумов, в первую очередь из-за маскировки глухих звуков.
2. Преобразование речи
Распознавание речи является автоматическим процессом преобразования речевого сигнала в цифровую информацию. Существует несколько подходов к преобразованию речевых сигналов:
1.кодирование формы волны речевого сигнала
2.кодирование параметров речевого тракта человека и источника возбуждения
3.кодирование символьной информации (фонем)
4.кодирование лингвистической информации (слов, фраз и т.п.)
Если считать, что спектр речевого сигнала лежит в диапазоне от 100 до 4000
Гц. Динамический диапазон изменения амплитуды, достаточный для описания речевых сигналов, составляет 12 двоичных разрядов.
Импульсно-кодовая модуляция ИКМ (pulsecodemodulation, PCM). Первым шагом, обеспечивающим сжатие речевого сигнала, является попытка обеспечения равномерной относительной точности измерения значения амплитуды сигнала. Для этого 14-12-ти разрядный динамический диапазон


8
Длительность анализируемых фрагментов речи обычно составляет 10-20 мс, в пределах которых считается, что речь стационарна.
Для автоматизации формантного анализа используется кепстральный анализ и линейное предсказание.
Кепстральный анализ дает много информации, не относящейся к фор - мантам, и эту лишнюю информацию надо удалять путем алгоритмов вынесения решения. Первичные оценки формантных частот и ширин полос формантных областей определяются вычислением корней полинома, либо расчета интерполированной частотной характеристики обратного фильтра.
Кепстр - обратное преобразование Фурье логарифма спектра мощности сигнала. Кепстр можно рассматривать как гармонический анализ спектра сигнала. В этом случае, если в сигнале присутствуют гармоники, в спектре они будут показаны отсчетами с равномерным шагом по частоте, а кепстр покажет один отсчет, т.е. еще более компактное представление сигнала.
(Кепстр – спектр логарифма спектра сигнала). Логарифмирование уменьшит остроту пиков, т.е. сгладит спектр, и кепстр станет более информативным.
Но в любом случае необходимо тщательный анализ кепстра, что бы получить результат, имеющий физическую интерпретацию. Кепстр синусоидального входного сигнала будет равен нулю, поскольку после ДПФ мы получим одно значение, и кепстр не выявит никаких периодичностсей.
При линейном предсказании полиномы предсказателя позволяют оценить форманты (центральную частоту и ширину полосы). Сами полиномы могут быть определены путем минимизации разницы между предсказанными значениями сигнала и фактическими его значениями. Тем самым по речи мы восстанавливаем речевой канал (линейную систему). Особенностью линейной системы является то, что она может быть представлена полюсной функцией. Порядок полинома pвыбирается заранее.
Линейное предсказание позволяет определить первых три формантных частоты для 85-98% времени. При распознавании речи широко используются коэффициенты линейного предсказания (LinearPredictiveCoding, LRC). Этот метод позиционируется как наиболее эффективный метод анализа речевого сигнала (основной тон, форманты, спектр). Метод хорошо разделяет источник и вокальный тракт. Идея метода в том, что сигнал в данный момент времени может быть представлен как линейная комбинация предыдущих значений. А подбор коэффициентов осуществляется, таким образом, чтобы свойства цифрового фильтра совпадали со свойствами данного участка звуковой волны в пределах данного окна наблюдений. Используется


11 т.п., до суперсложных систем распознавания естественно звучащей речи и ее синтеза для использования.
Являясь основной составляющей любого дружественного интерфейса между машиной и человеком, система распознования голоса может быть встроена в различные приложения, например в системы голосового контроля, голосового доступа к информационным ресурсам, обучения языку с помощью компьютера, помощи недееспособным, доступа к чему-либо через системы голосовой верификации/идентификации. система распознования голоса весьма полезна как средство поиска и сортировки записанных аудио- и видеоданных. Распознавание речи также используется при вводе информации, что особенно удобно, когда глаза или руки человека заняты.
Система распознования голоса позволяет людям, работающим в напряженной обстановке (врачи в больницах, рабочие на производстве, водители), применять компьютер для получения или ввода необходимой информации.
Обычно системы распознования голоса используется в таких системах, как телефонные приложения, встроенные системы (системы набора номера, работа с карманным компьютером, управление автомобилем и т.д. и т.п.), мультимедийные приложения (например, системы обучения языку).
6. Недостатки систем распознования голоса
На данном этапе развития рассмотренные нами системы, несмотря на свою практичность и широкое применение, имеют ряд существенных недостатков:
Несмотря на технический прогресс в сфере распознавания голоса, шумы продолжает оставаться одной из основных проблем на мировом рынке распознавания голоса. Кроме того, голосовая биометрия отличается особенной чувствительностью по сравнению с другими видами биометрии.
Приложения распознавания голоса, голосовой биометрии и распознавания речи оказываются очень чувствительными к шуму окружающей среды. В результате, любое шумовое нарушение препятствует точности распознавания. Также нарушается автоматизированный ответ на голосовую команду. Неспособность подавить окружающий шум является единственным фактором, который не дает системам распознавания голоса достичь высоких результатов и занять высокий процент доли на мировом рынке биометрических технологий.


12
Одной из основных проблем, препятствующих развитию технологий распознавания речи, является потребность в больших инвестиционных вложениях, требуемых для разработки и реализации. Крупномасштабное развертывание технологии распознавания голоса на предприятии является трудоемким процессом и требует огромных инвестиций. Экономия на бюджете приводит к ограничению тестирования технологии, следовательно, любой сбой может привести к большим потерям на предприятии. Поэтому альтернативные распознаванию голоса варианты, такие как swipe card и keypad по-прежнему активно используются во многих компаниях, особенно среди малого и среднего бизнеса, в силу их экономической эффективности.
Таким образом, приложения распознавания голоса требуют больших материальных вложений, включая стоимость интеграционной системы, дополнительного оборудования и другие затраты.
На мировом рынке распознавания голоса единой проблемой является невысокие показатели точности распознавания, не смотря на то, что в настоящее время системы распознавания голоса способны распознавать различные языки и определять подлинность голоса. Так как система включает в себя сложный процесс согласования баз данных с произносимыми командами и интегрированной технологией распознавания речи и голосовой верификации, даже незначительная ошибка в любой часть процесса может привести к неверному результату. Погрешность в распознавании речи является одним из основных ограничений в приложениях распознавания голоса. Однако некоторые производители начали разработку систем с очень низким уровнем погрешности в распознавании голоса. Они разработали системы с менее чем 4% неточных результатов (например, измерения голосовой биометрии неверно идентифицируют и отвергают голос человека, у которого есть доступ).
Высокий уровень неточности в верификации диктора приводит к низкому уровню безопасности. В настоящее время системы распознавания голоса имеют высокий процент неточного результата. Чем выше скорость принятия неправильных решений, тем выше вероятность того, что, например, разрешение на въезд получит посторонний человек. Поскольку системы распознавания голоса очень чувствительны, они улавливают все, включая проблемы с горлом, кашель, простуду, изменение голоса в связи с болезнью, то существует высокая вероятность того, что посторонний человек сможет получить доступ к закрытой территории, причиной этому является низкий уровень безопасности в распознавании человека на основе голоса.


13
Заключение
Касательно систем распознования речи и их использовании в телекоммуникации мы можем сделать следующие выводы: как было сказано мной во вступлении, и было подтверждено по ходу реферата - системы автоматического распознавания речи являются актуальной и ещё только развивающейся отрастью искусственного инетелекта, которая активно находит приминение в современной жизни и деятельности человека. В настоящее время речевые компьютерные технологии уже достаточно широко распространены и развиваются в нескольких направлениях: компьютерная телефония, системы защиты информации, системы искусственного интеллекта, компьютерная лингвистика, мультимедийные системы.
Данные системы, как выяснилось, имеют ряд определенных недостатков, которые должны быть усовершенствованы по ходу развития прогресса.

Читайте также: