Технологии обработки звуковой информации кратко

Обновлено: 30.06.2024

Первые персональные компьютеры отличались от калькуляторов и больших ЭВМ тем, что могли издавать звуки с помощью маленького динамика, установленного в их корпусе. И хотя акустические возможности этих компьютеров были более чем скромными, уже на заре компьютерной эры появились музыкальные редакторы, с помощью которых можно было создать звуковой файл для подключения к той или иной программе, написанной пользователем.

С появлением в 1989 году звуковых карт перед пользователями открылись новые возможности. На порядок улучшилось качество звука. Появилась звуковая подсистема – комплекс программно-аппаратных средств, предназначенный для:

записи звуковых сигналов, поступающих от внешних источников (микрофона или магнитофона);

воспроизведения записанных ранее звуковых данных с помощью внешней акустической системы или головных телефонов (наушников);

микширования (смешивание) при записи или воспроизведении сигналов от внешних источников;

одновременной записи и воспроизведения звуковых сигналов;

обработки звуковых сигналов: редактирования, объединения или разъединения фрагментов сигнала, фильтрации, изменения уровня и т.п.;

управления панорамой стереофонического звукового сигнала и уровнем сигнала в каждом канале при записи и воспроизведении;

обработки звукового сигнала в соответствии с алгоритмами объемного звучания;

генерирования с помощью синтезатора звучания музыкальных инструментов через специальный интерфейс MIDI;

воспроизведения звуковых компакт-дисков;

управления компьютером и ввода текста с помощью микрофона.

Звуковая система компьютера обычно выполняется в виде самостоятельных звуковых карт, устанавливаемых на материнской плате, но может быть размещена и на другой карте расширения. Отдельные функциональные модули звуковой системы могут выполняться в виде дочерних плат, устанавливаемых в соответствующие разъемы звуковой карты. Дочерняя плата обычно расширяет базовые возможности звуковой системы.

К аппаратным средствам обработки звуковой информации относятся:

модуль записи и воспроизведения звука, который осуществляет аналого-цифровое и цифроаналоговое преобразование звуковых данных;

модуль интерфейсов, обеспечивающий взаимодействие программных и аппаратных средств;

модуль микшера, который позволяет осуществить смешивание сигналов от разных источников;

акустическая система (микрофон, наушники, колонки и т.п.).

Первые четыре модуля, как правило, устанавливаются на звуковой карте. Каждый из модулей может быть выполнен в виде отдельной микросхемы или входить в состав многофункциональной микросхемы.

Программные средства обработки звуковой информации включают в себя:

системы автоматического распознавания речи;

программы для улучшения качества фонограмм.

Создание (синтез) звука в основном преследует две цели:

имитацию различных естественных звуков (шум ветра и дождя, звук шагов, пение птиц и т. п.), а также акустических музыкальных инструментов;

получение принципиально новых звуков, не встречающихся в природе.

Обработка звука обычно направлена на получение новых звуков из уже существующих (например, голос робота), либо придание им дополнительных качеств или устранение существующих (например, добавление эффекта хора, удаление шума или щелчков).

Так же, как создание всевозможных анимационных эффектов и эффектов трехмерной графики базируется на использовании разнообразных математических методов, каждый из методов синтеза и обработки звука имеет свою математическую и алгоритмическую модель.

К основным программам обработки цифрового звука относят Cool Editor, Sound Forge, Samplitude, Software Audio Workshop дают возможность прослушивать выбранные участки, делать вырезки и вставки, амплитудные и частотные преобразования, звуковые эффекты, наложение других оцифровок, изменение частоты оцифровки, генерировать различные виды шумов, синтезировать звук.

Для обработки звука используются следующие основные методы 1, с. 392.

Монтаж. Состоит в вырезании из записи одних участков, вставке других, их замене, размножении и т. п. Называется также редактированием. Практически каждый музыкальный редактор имеет такие возможности редактирования. Все современные звуко- и видеозаписи в той или иной мере подвергаются монтажу.

Амплитудные преобразования заключаются в усилении или ослаблении звука.

Частотные (спектральные) преобразования – усиление или ослабление определенных полос частот.

Фазовые преобразования. Слуховой аппарат человека использует фазу для определения направления от источника звука. Фазовые преобразования стереозвука позволяют получить эффекты вращающегося звука, движущегося источника звука и им подобные.

Временные преобразования. Заключаются в добавлении к основному сигналу его копий, сдвинутых во времени на различные величины. При небольших сдвигах (порядка менее 20 мс) это дает эффект размножения источника звука (эффект хора), при больших – эффект эха.

Формантные преобразования оперируют с формантами – характерными полосами частот, встречающимися в звуках, произносимых человеком. Каждому звуку соответствует свое соотношение амплитуд и частот нескольких формант, которое определяет тембр и разборчивость голоса. Изменяя параметры формант, можно подчеркивать или затушевывать отдельные звуки, менять одну гласную на другую, сдвигать регистр голоса и т. п.

Обработка речевой информации включает в себя синтез речи и автоматическое распознавание речи.

В настоящее время сфера применения синтезаторов речи непрерывно расширяется – используются различные автоматизированные информационно-справочные системы, системы автоматизированного контроля, способные голосом предупредить человека о состоянии контролируемого объекта, и другие системы.

Разработаны устройства, позволяющие преобразовать письменный текст в соответствующее ему фонемное представление, что дает возможность воспроизводить в виде речи произвольный текст, хранящийся в памяти компьютера.

Немало усилий было положено на то, чтобы снабдить программы и операционные системы графическим интерфейсом пользователя. Сейчас развивается новое направление – речевой интерфейс пользователя. Различные голосовые навигаторы управляют программами, в какой-то мере заменяя клавиатуру и мышь.

Существующие системы распознавания речи ориентированы или на слитную, или на дискретную речь. Слитная (непрерывная) речь – это нормальная плавная человеческая речь. Если система рассчитана на дискретную речь, то говорить надо с паузами между словами.

Сегодня анализ звука и речи применяется во многих областях человеческой деятельности. Это биометрия, судебная экспертиза, медицина, обучение, конструкторская деятельность, научные исследования и другие. Голос человека можно использовать как пропуск в системах с ограничением доступа. При производстве судебной экспертизы материалов звукозаписи часто нужно провести идентификацию личности, то есть ответить на вопрос – принадлежит ли голос на двух фонограммах одному и тому же человеку? Можно определять эмоциональное состояние человека (уровень стресса) по параметрам устной речи. Этот способ имеет то преимущество, что человеку не нужно подсоединять датчики. Речевое сопровождение обучающих программ позволяет сделать процесс восприятия учебного материала более полным.

Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:

1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.

4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.

Аналоговый и дискретный способы представления звука

Информация, в том числе графическая и звуковая, может быть представлена в аналоговой или дискретной форме.

При аналоговом представлении физическая величина принимает бесконечное множество значений, причем ее значения изменяются непрерывно.

При дискретном представлении физическая величина принимает конечное множество значений, причем ее величина изменяется скачкообразно.


Примером аналогового хранения звуковой информации является виниловая пластин­ка (звуковая дорожка изменяет свою форму непрерывно), а дискретного — аудиокомпакт-диск (звуковая дорожка которого содержит участки с различной отражающей способностью).

Восприятие звука человеком

Звуковые волны улавливаются слуховым органом и вызывают в нем раздражение, которое передается по нервной системе в головной мозг, создавая ощущение звука.

Колебания барабанной перепонки в свою очередь передаются во внутреннее ухо и раздражают слуховой нерв. Так образом человек воспринимает звук.

В аналоговой форме звук представляет собой волну, которая характеризуется:

  • Высота звука определяется частотой колебаний вибрирующего тела.
  • Г ромкость звука определяется энергией колебательных движений, то есть амплитудой колебаний.
  • Длительность звука - продолжительность колебаний.
  • Тембром звука называется окраска звука.

Герц (Гц или Hz) — единица измерения частоты колебаний. 1 Гц= 1/с

Человеческое ухо может воспринимать звук с частотой от 20 колебаний в секунду (20 Герц, низкий звук) до 20 000 колебаний в секунду (20 КГц, высокий звук).



Кодирование звуковой информации

Для того чтобы комп ьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц).


  • В процессе кодирования непрерывного звукового сигнала производится его временная дискретизация. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, причем для каждого такого участка устанавливается определенная величина амплитуды.
  • Таким образом, при двоичном кодировании непрерывного звукового сигнала он заменяется последовательностью дискретных уровней сигнала.

Качество кодирования звуковой информации зависит от :

1)частотой дискретизации, т.е. количества измерений уровня сигнала в единицу времени. Чем большее количество измерений производится за 1 секунду (чем больше частота дискретизации), тем точнее процедура двоичного кодирования.

2)глубиной кодирования, т.е. количества уровней сигнала.

Современные звуковые карты обеспечивают 16-битную глубину кодирования звука. Количество различных уровней сигнала (состояний при данном кодировании) можно рассчитать по формуле: N = 2 i = 2 16 = 65536, где i — глубина звука.

Таким образом, современные звуковые карты могут обеспечить кодирование 65536 уровней сигнала. Каждому значению амплитуды звукового сигнала присваивается 16-битный код.

Количество измерений в секунду может лежать в диапазоне от 8000 до 48 000, то есть частота дискретизации аналогового звукового сигнала может принимать значения от 8 до 48 кГц. При частоте 8 кГц качество дискретизированного звукового сигнала соответствует качеству радиотрансляции, а при частоте 48 кГц — качеству звучания аудио-С D . Следует также учитывать, что возможны как моно-, так и стерео-режимы.

РСМ. РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.

WAV. Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали - это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.

RIFF. Resource Interchange File Format. Уникальная система хранения любых структурированных данных.

IFF. Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga - одна из первых, в которой стали задумываться о программно-сэмплернойэмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.

MOD. Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.

AIF или AIFF. Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.

МР3. Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для "обычных немузыкальных" людей потери не ощутимы явно.

VQF. Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF - процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.

RA. Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.

2. Звук - волновой процесс, который создается вибрацией (голосовых связок или диффузора динамика). Звук распространяется как области повышенн

Звук - волновой процесс, который создается
вибрацией (голосовых связок или диффузора
динамика).
Звук распространяется как области
повышенного и пониженного давления воздуха
возле источников вибрации.

3. Основные параметры звука

4. Диапазоны частоты звука

• от 16-20 Гц до 15-20 кГц – слышимый звук
• от 300 до 3400 Гц - голосовые частоты в
телефонии
• от 85 до 155 Гц – фундаментальные частоты
мужского голоса
• от 165 до 255 Гц – фундаментальные
частоты женского голоса
• 1 ГГц – гиперзвук

5. Основные подходы к обработке звука на компютере

• MIDI (Musical Instruments Digital Interface) –
цифровой интерфейс музыкальных инструментов.
Представляет собой набор команд, позволяющий
электронным музыкальным инструментам
взаимодействовать с компьютерами.
• Цифровой звук (digital audio) является
представлением волновой формы звука в виде
чисел.

6. Схема обработки звука в компьютере

8. Аппаратное обеспечение

10. Звуковые интерфейсы

11. Кодеки на материнских платах

12. MIDI синтезаторы

13. Микрофоны

14. Дискретизация звука

15. Наиболее часто употребляемые значения частоты дискретизации:

• 11025 Гц – низкое качество АМ-радиовещания/
речевого сигнала;
• 22050 Гц – качество близкое к FM-радиовещанию;
• 32000 Гц – качество выше, чем качество FMрадиовещания, может применяться для звуковых
дорожек при съемке miniDV-камерами;
• 44100 Гц – качество компакт-дисков Audio CD;
• 48000 Гц – качество цифровой аудиокассеты
DAT, высокое качество при съемке miniDV;
• 96000/192000 Гц – качество цифровых DVDдисков, профессиональное редактирование.

16. Стандартные значения разрядности звука:

• 8 бит (256 уровней громкости) – низкое
качество, достаточное только для речи;
• 16 бит (65536 уровней громкости) – высокое
качество компакт-дисков Audio CD;
• 24/32 бита – качество цифровых DVD-дисков;
• 32/64 бита в формате с плавающей точкой –
применяются в профессиональной обработке
звука.

17. Форматы аудиофайлов

• Windows Media Audio (расширение *.wma, *.asf).
Windows Media Audio разработан фирмой Microsoft
как ответ на mp3 и также является форматом сжатия
с потерями
• AAC – Advanced Audio Coding (расширение *.aac) является одним из самых современных средств
сжатия звука с потерями и позволяет значительно
уменьшить битрейт относительно mp3 с сохранением
качества.
• RealMedia (расширение файлов *.rm). Формат
файлов позволяет создавать потоковые аудио- и
видеофайлы для передачи через Интернет.

• FLAC – Free Lossless Audio Codec (расширение *.flac)—
популярный свободный кодек, предназначенный для
сжатия аудиоданных без потерь. В отличие от аудиокодеков, обеспечивающих сжатие с потерями (MP3, AAC,
WMA, Ogg Vorbis) FLAC, как и любой другой losslessкодек, не удаляет никакой информации из аудиопотока и
подходит как для прослушивания музыки на
высококачественной звуковоспроизводящей аппаратуре,
так и для архивирования аудиоколлекции.
• Monkey’s Audio — популярный формат кодирования
цифрового звука без потерь. Кодек распространяется в
виде бесплатного одноимённого ПО, а также плагинов к
популярным медиаплеерам. Файлы Monkey’s Audio
используют следующие расширения: .ape для хранения
аудио и .apl для хранения метаданных. Кодек
распространяется бесплатно вместе с исходным кодом,
но не является свободным, лицензия накладывает
значительные ограничения на использование.

20. Программы обработки звука

• Однодорожечные редакторы Acoustica, Audacity, GoldWave, Nero
WaveEditor, Sony Sound Forge
• Многодорожечные профессиональные
редакторы - Adobe Audition, Cakewalk
Sonar, Magix Sequoia, Steinberg
WaveLab

21. Основные возможности аудиоредакторов:

• Открытие и сохранение файлов различных форматов
(wav, mp3, wma и др.)
• Работа с выделениями фрагментов и буфером обмена
(копирование, удаление, вырезание, вставка, вставка с
микшированием).
• Процессинг звука (запись с аналоговых входов,
изменение громкости, панорамирование, эквализация,
изменение параметров (частота семплирования,
разрядность, количество каналов), удаление шума).
• Наложение эффектов (эхо, задержка, хорус, флэнжер,
изменение высоты тона и длительности, размытие,
искажение, реверберация).
• Сведение звука с нескольких дорожек в одну
композицию.

22. Sony (Magix) Sound Forge

23. Adobe Audition

25. Работа с выделениями

26. Обработка голоса

27. Сведение звука

28. Использование звука в обучении

• Звуковое сопровождение учебного
процесса
• Выступления и массовые мероприятия
• Аудиокниги
• Обучающие видеокурсы

Вы можете изучить и скачать доклад-презентацию на тему Технология обработки звуковой информации. Презентация на заданную тему содержит 28 слайдов. Для просмотра воспользуйтесь проигрывателем, если материал оказался полезным для Вас - поделитесь им с друзьями с помощью социальных кнопок и добавьте наш сайт презентаций в закладки!

500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500
500

Звук - волновой процесс, который создается вибрацией (голосовых связок или диффузора динамика). Звук распространяется как области повышенного и пониженного давления воздуха возле источников вибрации.

Диапазоны частоты звука от 16-20 Гц до 15-20 кГц – слышимый звук от 300 до 3400 Гц - голосовые частоты в телефонии от 85 до 155 Гц – фундаментальные частоты мужского голоса от 165 до 255 Гц – фундаментальные частоты женского голоса 1 ГГц – гиперзвук

Основные подходы к обработке звука на компютере MIDI (Musical Instruments Digital Interface) – цифровой интерфейс музыкальных инструментов. Представляет собой набор команд, позволяющий электронным музыкальным инструментам взаимодействовать с компьютерами. Цифровой звук (digital audio) является представлением волновой формы звука в виде чисел.

Дискретизация звука По времени – частота дискретизации По громкости – разрядность (битность) По количеству каналов

Наиболее часто употребляемые значения частоты дискретизации: 11025 Гц – низкое качество АМ-радиовещания/ речевого сигнала; 22050 Гц – качество близкое к FM-радиовещанию; 32000 Гц – качество выше, чем качество FM-радиовещания, может применяться для звуковых дорожек при съемке miniDV-камерами; 44100 Гц – качество компакт-дисков Audio CD; 48000 Гц – качество цифровой аудиокассеты DAT, высокое качество при съемке miniDV; 96000/192000 Гц – качество цифровых DVD-дисков, профессиональное редактирование.

Стандартные значения разрядности звука: 8 бит (256 уровней громкости) – низкое качество, достаточное только для речи; 16 бит (65536 уровней громкости) – высокое качество компакт-дисков Audio CD; 24/32 бита – качество цифровых DVD-дисков; 32/64 бита в формате с плавающей точкой – применяются в профессиональной обработке звука.

Windows Media Audio (расширение *.wma, *.asf). Windows Media Audio разработан фирмой Microsoft как ответ на mp3 и также является форматом сжатия с потерями Windows Media Audio (расширение *.wma, *.asf). Windows Media Audio разработан фирмой Microsoft как ответ на mp3 и также является форматом сжатия с потерями AAC – Advanced Audio Coding (расширение *.aac) - является одним из самых современных средств сжатия звука с потерями и позволяет значительно уменьшить битрейт относительно mp3 с сохранением качества. RealMedia (расширение файлов *.rm). Формат файлов позволяет создавать потоковые аудио- и видеофайлы для передачи через Интернет.

FLAC – Free Lossless Audio Codec (расширение *.flac)— популярный свободный кодек, предназначенный для сжатия аудиоданных без потерь. В отличие от аудио-кодеков, обеспечивающих сжатие с потерями (MP3, AAC, WMA, Ogg Vorbis) FLAC, как и любой другой lossless-кодек, не удаляет никакой информации из аудиопотока и подходит как для прослушивания музыки на высококачественной звуковоспроизводящей аппаратуре, так и для архивирования аудиоколлекции. FLAC – Free Lossless Audio Codec (расширение *.flac)— популярный свободный кодек, предназначенный для сжатия аудиоданных без потерь. В отличие от аудио-кодеков, обеспечивающих сжатие с потерями (MP3, AAC, WMA, Ogg Vorbis) FLAC, как и любой другой lossless-кодек, не удаляет никакой информации из аудиопотока и подходит как для прослушивания музыки на высококачественной звуковоспроизводящей аппаратуре, так и для архивирования аудиоколлекции. Monkey’s Audio — популярный формат кодирования цифрового звука без потерь. Кодек распространяется в виде бесплатного одноимённого ПО, а также плагинов к популярным медиаплеерам. Файлы Monkey’s Audio используют следующие расширения: .ape для хранения аудио и .apl для хранения метаданных. Кодек распространяется бесплатно вместе с исходным кодом, но не является свободным, лицензия накладывает значительные ограничения на использование.

Программы обработки звука Однодорожечные редакторы - Acoustica, Audacity, GoldWave, Nero WaveEditor, Sony Sound Forge Многодорожечные профессиональные редакторы - Adobe Audition, Cakewalk Sonar, Magix Sequoia, Steinberg WaveLab

Основные возможности аудиоредакторов: Открытие и сохранение файлов различных форматов (wav, mp3, wma и др.) Работа с выделениями фрагментов и буфером обмена (копирование, удаление, вырезание, вставка, вставка с микшированием). Процессинг звука (запись с аналоговых входов, изменение громкости, панорамирование, эквализация, изменение параметров (частота семплирования, разрядность, количество каналов), удаление шума). Наложение эффектов (эхо, задержка, хорус, флэнжер, изменение высоты тона и длительности, размытие, искажение, реверберация). Сведение звука с нескольких дорожек в одну композицию.

Читайте также: