Опишите процесс преобразование аналогово звука в цифровой кратко

Обновлено: 28.06.2024

Темы аналого-цифрового и цифро-аналогового преобразований являются достаточно важными в курсе электроники, поскольку большинство устройств, взаимодействующих с компьютером, имеют аналоговый вход/выход, а компьютер умеет обрабатывать исключительно цифровые сигналы. В этой статье я хочу поделиться с вами самыми основами таких преобразований.

Аналого-цифровое преобразование

Преобразование аналогового звукового сигнала в цифровой включает в себя несколько этапов. Сначала аналоговый звуковой сигнал подается на аналоговый фильтр, который ограничивает полосу частот сигнала и устраняет помехи и шумы. Затем из аналогового сигнала с помощью схемы выборки / хранения выделяются отсчеты: с определенной периодичностью осуществляется запоминание мгновенного уровня аналогового сигнала. Далее отсчеты поступают в аналого-цифровой преобразователь (АЦП), который преобразует мгновенное значение каждого отсчета в цифровой код или числа. Полученная последовательность бит цифрового кода, собственно, и является звуковым сигналом в цифровой форме. В результате преобразования непрерывный аналоговый звуковой сигнал превращается в цифровой - дискретный как по времени, так и по величине. Для примера на рисунке показана структурная схема канала цифровой записи звука.

Главную роль в процессе преобразования сигнала из аналоговой формы в цифровую играет АЦП (Analog/Digital Converter - ADC). Обратный процесс преобразование цифрового звукового сигнала в аналоговый реализуется с помощью цифро-аналогового преобразователя - ЦАП (Digital/Analog Converter - DAC).

Дискретизация

По определению, дискретизация - это процесс взятия отсчетов непрерывного во времени сигнала в равноотстоящих друг от друга по времени точках. Иными словами, в процессе дискретизации измеряется и запоминается уровень аналогового сигнала. Через заданный интервал времени, который называется интервалом дискретизации, процедура повторяется. Для качественного преобразования аналогового сигнала в цифровой необходимо производить достаточно большое количество отсчетов даже в течение одного периода изменения аналогового сигнала, другими словами, значение частоты дискретизации не может быть произвольным.

И действительно, значение частоты дискретизации фактически определяет ширину полосы частот сигнала, который может быть записан с помощью используемой цифровой системы. Ширина этой полосы не может быть больше половины значения частоты дискретизации, как определяет теорема отсчетов (Котельникова-Найквиста). Эта теорема имеет важнейшее значение в технике записи и передачи звука в цифровой форме. Теорема гласит: сигнал, спектр частот которого занимает область от Fмин до Fмакс (низкочастотный звуковой сигнал), может быть полностью представлен своими дискретными отсчетами с интервалом Тд, если Тд не превышает 1/2Fмакс. Другими словами, частота дискретизации FД = 1/ТД в процессе преобразования должна быть, как минимум, вдвое больше наивысшей частоты звукового сигнала Fмакс.

Почему же именно в два раза? Да потому, что спектр сигнала, преобразованного с помощью АЦП в цифровую форму, имеет периодический характер.

В соответствии с теоремой Фурье сигнал любой формы может быть представлен в виде суммы простейших синусоидальных колебаний разной частоты и амплитуды. По окончании аналого-цифрового преобразования звуковой сигнал, представленный в цифровой форме, содержит, кроме низкочастотных, соответствующих исходному аналоговому сигналу, еще и высокочастотные компоненты. Эти компоненты есть повторение низкочастотного спектра сигнала в виде боковых полос с центрами в точках, кратных частоте дискретизации (fд, 2fд 3fд 4fд и т.д.).

Если уменьшить частоту дискретизации, то произойдет наложение (перекрытие) низкочастотной части спектра и боковой полосы с центром в точке. Наложение спектров приведет к появлению новых спектральных составляющих в сигнале и, следовательно, к невозможности его правильного восстановления.

Классическим примером наложения спектров является случай, когда при просмотре кинофильма кажется, что колесо движущейся кареты крутится со скоростью, не соответствующей скорости движения кареты, или даже в обратную сторону. Возникновение этого эффекта обусловлено тем, что скорость смены кадров (частота дискретизации изображения) мала по сравнению с угловой скоростью вращения колеса.

Чтобы при записи звукового сигнала избежать наложения спектров, перед АЦП устанавливается фильтр низких частот (ФНЧ), подавляющий все частоты, лежащие выше частоты дискретизации. При этом желательно, чтобы фронты АЧХ этого фильтра были как можно круче.

Если учесть, что человек способен слышать звуковые колебания, частота которых находится в диапазоне от 16-20 Гц до 20 кГц, и с позиций теоремы отсчетов взглянуть на требования к частотным характеристикам высококачественной звукотехники (например, проигрывателей аудиокомпакт-дисков), становится ясно, что частота дискретизации исходного звукового сигнала должна составлять не менее 40 кГц. Реально для подобных систем частота дискретизации выбирается не менее 44,1 кГц. Стандартное значение частоты дискретизации большинства звуковых карт составляет 44,1 и 48,0 кГц.

Итак, результатом дискретизации является дискретный во времени сигнал, представляющий собой последовательность отсчетов - мгновенных значений уровня аналогового сигнала. Чем выше частота дискретизации, тем более точно будет восстановлен звуковой сигнал.

Процедура дискретизации технически реализуется с помощью устройства выборки / хранения. В качестве запоминающего элемента обычно используют конденсатор, заряжающийся до уровня напряжения входного сигнала. При этом потенциал заряда конденсатора соответствует мгновенному значению напряжения сигнала. Напряжение на конденсаторе сохраняется неизменным в течение некоторого отрезка времени, называемого временем хранения. В идеальном случае взятие отсчета должно происходить мгновенно, реально же длительность этого процесса составляет приблизительно 1 мкс.

Квантование

После дискретизации происходит второй этап аналого-цифрового преобразования - квантование отсчетов. В процессе квантования производится измерение мгновенных значений уровня сигнала, полученных в каждом отсчете, причем осуществляется оно с точностью, которая напрямую зависит от количества разрядов, используемых для записи значения уровня.

Шумы квантования. Преобразование сигнала из аналоговой формы в цифровую можно произвести только с какой-то степенью точности, при этом, чем выше частота дискретизации и разрядность АЦП, тем точнее происходит преобразование.

Искажения сигнала, возникающие в процессе квантования отсчетов, влекут за собой потерю информации, которую при обратном цифро-аналоговом преобразовании в ходе воспроизведения записанного звукового сигнала ликвидировать или уменьшить практически невозможно.

Например, если преобразовать линейно нарастающий по напряжению аналоговый сигнал, то дискретный и восстановленный сигналы будут различаться на величину напряжения ошибки Uош. При записи звука зависимость ошибки от времени гораздо сложнее, а ее спектр подобен спектру белого шума и занимает частотный диапазон от нуля до частоты дискретизации. Появление ошибок квантования при записи звукового сигнала в цифровой форме эквивалентно добавлению к восстановленному сигналу некоторого шума. Поэтому ошибки квантования называются шумом квантования. Шум квантования можно рассматривать и как специфические искажения сигнала, особенно заметные при малых его уровнях. Уровень шума квантования обычно измеряется в присутствии сигнала как уровень (в децибелах) относительно максимального значения сигнала. Чем меньше этот уровень, тем выше качество звука. Достижимый уровень шума определяется разрядностью квантования и частотой дискретизации.

Затраты памяти на запись звука в цифровой форме

Зная разрядность АЦП, а точнее, количество разрядов, используемых для записи звукового сигнала в цифровой форме, можно получить некоторые интересные цифры.

Например, если умножить число разрядов кодового слова на частоту дискретизации сигнала, выраженную в герцах, то получим скорость передачи данных, которую должен обеспечивать цифровой канал записи / воспроизведения звука. Если полученную скорость передачи данных умножить на общую длительность звукового сигнала в секундах, получим объем памяти на магнитном носителе, например, на жестком диске, который потребуется для хранения звуковых данных. В случае записи стереосигнала, когда запись идет по двум (левому и правому) стереоканалам, скорость передачи данных и необходимый объем памяти удваиваются.

Передискретизация (оверсэмплинг)

Для того чтобы осуществить аналого-цифровое преобразование с высоким качеством, необходимо выполнить ряд условий.

Прежде всего, при оцифровке звукового сигнала следует использовать как можно более высокую частоту дискретизации: чем выше будет частота дискретизации, тем более качественно будет восстановлен исходный сигнал. К сожалению, пропорционально увеличению частоты дискретизации возрастает поток цифровых данных в канале звукозаписи, а также объем памяти, необходимой для хранения звукового сигнала в цифровой форме.

Другое условие аналого-цифрового преобразования заключается в том, что перед дискретизацией необходимо ограничить спектр входного сигнала с помощью фильтра низкой частоты (ФНЧ). Он должен удалить все гармоники с частотами, лежащими выше частоты дискретизации, и тем самым предотвратить наложение спектров.

В современных АЦП проблема фильтрации с целью устранения высокочастотных компонент спектра решается с помощью передискретизации - дискретизации на повышенной частоте. Термину передискретизация в зарубежной технической литературе соответствует термин оверсэмплинг, который в дальнейшем и будем использовать.

При оверсэмплинге диапазон частот входного аналогового звукового сигнала ограничивается с помощью ФНЧ низкого порядка (обычно 3-5-го), имеющего линейную фазовую характеристику и практически не искажающего импульсный сигнал. Частота среза фильтра выбирается значительно выше частоты полезного сигнала и составляет 25-30 кГц. В результате исключаются фазовые искажения, характерные для аналоговых фильтров высокого порядка, и подавление полезных сигналов высших частот. Отфильтрованный сигнал, имеющий ограниченный по частоте спектр, подвергается дискретизации на повышенной частоте, что исключает наложение и искажение спектра.

Далее дискретные отсчеты сигнала преобразуются в последовательность чисел с помощью АЦП, причем поток цифровых данных включает и нежелательные высокочастотные компоненты спектра.

Полученные цифровые данные подвергаются цифровой фильтрации. Цифровой фильтр высокого порядка с крутым срезом частотной характеристики изготовить гораздо проще. Причем, благодаря линейности фазовой характеристики цифрового фильтра, фазовые искажения сигнала будут отсутствовать. После цифрового фильтра сигнал будет иметь спектр, корректно ограниченный по частоте.

В результате овэрсемплинга нежелательные высокочастотные составляющие будут ликвидированы, в то время как высокочастотные составляющие исходного звукового сигнала будут сохранены.

В электронике сигналы делят на: аналоговые, дискретные и цифровые. Начнем с того, что все, что мы чувствуем, видим, слышим в большинстве своем является аналоговым сигналом, а то, что видит процессор компьютера – это цифровой сигнал. Звучит не совсем понятно, поэтому давайте разбираться с этими определениями и с тем как один вид сигналов преобразовывается в другой.

Типы сигналов

Отсюда следует, что у аналогового сигнала две особенности:

1. Непрерывность во времени.

2. Число величин сигнала стремится к бесконечности, т.е. аналоговый сигнал нельзя точно поделить на части или проградуировать, разбив шкалу на конкретные участки. Способы измерения – основаны на единице измерений, и их точность зависит лишь от цены деления шкалы, чем она меньше, тем точнее измерение.

Дискретные сигналы – это сигналы, которые представляют собой последовательность отчетов или измерений какой-либо величины. Измерения таких сигналов не непрерывны, а периодичны.

Попытаюсь объяснить. Если вы установили термометр где-нибудь он измеряет аналоговую величину – это следует из вышеописанного. Но вы, фактически следя за его показаниями, получаете дискретную информацию. Дискретный – значит отдельный.

Например, вы проснулись и узнали, сколько градусов на термометре, в следующий раз вы на него посмотрели на градусник в полдень, и третий раз вечером. Вы не знаете, с какой скоростью изменялась температура, равномерно, или резким скачком, вы знаете только данные в тот момент времени, который наблюдали.

Бит – это минимальная величина представления информации в цифровом виде, в нём может храниться только два типа значений 1 (логическая единица, высокий уровень), или 0 (логический ноль, низкий уровень).

В электронике бит информации представляется в виде низкого уровня напряжения (близкое к 0) и высокого уровня напряжения (зависит от конкретного устройства, часто совпадает с напряжением питания данного цифрового узла, типовые значения – 1.7, 3.3. 5В, 15В).

Все промежуточные значения между принятыми низким и высоким уровнем являются переходной областью и могут не обладать конкретным значением, в зависимости от схемотехники, как устройства в целом, так и внутренней схемы микроконтроллера (или любого другого цифрового устройства) могут иметь разный переходный уровень, например для 5-тивольтовой логики за ноль могут приниматься значения напряжения от 0 до 0.8В, а за единицу от 2В до 5В, при этом промежуток между 0.8 и 2В – это неопределенная зона, фактически с ее помощью отделяется ноль от единицы.

Чем более точные и ёмкие значения нужно хранить, тем больше нужно бит, приведем таблицу-пример с отображением в цифровом виде четырёх значений времени суток:


Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).



Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).



Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).



Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).



Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).



Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).



Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)



Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).



Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ()

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).



Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.





Аудиопример 1: 8bit/44.1kHz, ~50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.



Аудиопример 2: 4bit/48kHz, ~25dB SNR



Аудиопример 3: 1bit/48kHz, ~8dB SNR



Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то

Теорема Котельникова гласит:

Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.



Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от ~100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.



Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг



Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

Несжатый (RAW) формат данных

содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).



Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.


Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).



Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).



Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).



Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).



Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).



Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).



Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)



Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).



Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ( )

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).



Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.





Аудиопример 1: 8bit/44.1kHz, ~50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.



Аудиопример 2: 4bit/48kHz, ~25dB SNR



Аудиопример 3: 1bit/48kHz, ~8dB SNR



Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то

Теорема Котельникова гласит:

Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.



Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от ~100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.



Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг



Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

Несжатый (RAW) формат данных

содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).



Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.

Читайте также: