Объясните почему при оцифровке звука происходит потеря информации кратко

Обновлено: 28.06.2024

Начинаем рассказывать, как работают привычные технологии: компьютерный звук, видео, MP3, вещание и стриминги, всевозможные алгоритмы и всё подобное.

👍 У этой статьи нет никакой практической ценности, она просто для удовольствия. Иногда можно себя побаловать 🙂

Немного школьной физики

Звук — это колебания воздуха. Как волны на воде, только в воздухе. Воздух давит нам на уши, а в ушах есть чувствительные части, которые тонко чувствуют колебания воздуха. Эти колебания люди воспринимают как звук. В открытом космосе звуков нет, потому что там нет воздуха. И людей.

Частота. Чем быстрее колебания, тем тоньше воспринимаемый нами звук. Человек воспринимает колебания от 20 раз в секунду до примерно 20 тысяч раз в секунду. По-другому это называется частотой колебаний: герцами. То есть диапазон, который мы слышим — от 20 герц до 20 килогерц.

Для сравнения, собаки слышат от 40 герц до 60 килогерц, поэтому собачий свисток не воспринимается людьми, но очень хорошо слышен собакам. Собачий свисток как раз звучит в диапазоне 23–54 КГц.

Амплитуда. Чем сильнее колебания — тем громче, и наоборот. Можно представить, что это высота волн на поверхности пруда: может быть мелкая рябь (тихий звук), а могут быть большие мощные волны.

Делим звук на отрезки

Давайте увеличим наш график и посмотрим, что происходит, например, за одну секунду (опять же, очень примерно и упрощённо!):

Упрощённо!

А теперь сделаем вот что: разделим секунду на 4 части, и для каждой найдём значение амплитуды:

Мы за секунду четыре раза измерили состояние волны. Это называется дискретизацией

Мы измерили значение амплитуды в каждой из четырёх точек, получили, условно говоря, четыре числа: +30, −50, −50 и −60. Теоретически, если взять ток и подать эти четыре напряжения на динамик, у нас получится воспроизвести тот же звук. Но есть несколько проблем:

Из-за того, что мы замерили волну только в четырёх местах, мы пропустили целое колебание. Оно было настолько быстрым, что уместилось между нашими ключевыми точками.
Опять же, из-за больших отрезков мы получим очень грубый звук по сравнению с оригиналом. Это то же самое, как взять картину с тысячей разных оттенков и нарисовать её тремя цветами, не смешивая их.

Дискретизация с частотой 4 (сколько значений мы измеряем в секунду) — это слишком мало для звука. Чтобы получить более или менее разборчивую речь, нужно секунду делить на 8 тысяч отрезков, а для музыки обычно хватает 41 тысячи.

Увеличим частоту дискретизации: нарежем звук на более мелкие кусочки за ту же единицу времени:

Теперь измерения будут намного точнее, а получившийся звук — естественнее

Переводим в цифру

После того как мы разбили звук на мелкие отрезки и измерили значение амплитуды для каждого из них, мы можем записать это в виде таблички:

Время	Амплитуда
0.01 сек.	5
0.02 сек.	7
0,03 сек	10
.	.
1 сек	−21

Если мы весь звук разбиваем на одинаковые отрезки, то время можно не писать, потому что мы знаем, как оно меняется, достаточно записать в строчку только значения амплитуды:

Чтобы компьютер понимал эти числа, переведём эти числа в двоичную систему счисления. Для простоты будем считать, что одно число занимает ровно один байт памяти, но на самом деле чем больше байт выделяется на число, тем точнее будет измерение и качество звука. После перевода получим такое:

Последнее большое число получилось оттого, что нам нужно хранить и отрицательные значения, поэтому первая единица в байте означает, что это отрицательное число и его нужно считать немного иначе.

Вот эту последовательность компьютер уже может понять и воспроизвести в виде звука.

Как теперь воспроизвести звук

Чтобы что-то зазвучало, нужно сделать следующие шаги:

Процессор отправляет цифры из звукового файла в ЦАП.
ЦАП получает числа и выдаёт меняющееся электричество по этим цифрам.
Электричество попадает в колонку, передаётся на динамик.
Динамик из-за электричества начинает двигать конус колонки.
Конус начинает толкать воздух перед собой, создавая звуковые волны.
Волны долетают до наших ушей, и мы воспринимаем их как звук.

Что дальше

У такого способа есть одна проблема: файл получается слишком большим, чтобы им было удобно пользоваться. Представьте: 44 тысячи чисел за одну секунду!

Чтобы уменьшить размер файла, придумали два решения: сжатие с потерями и без них. Каждое разберём отдельно, несмотря на то, что у них много общего.

Да ладно! А по мне так аудио СD звучат гораздо лучше, чем виниловая пластинка. На аппаратуре одинакового уровня, разумеется.

Потому что при оцифровке кодируемый звук вы приближаете звуком из заданного алгоритмом конечного множества звуков.

Ресурсы аппаратуры-то ограничены, поэтому и множество звуков, которые можно закодировать без потерь (при ограничении сверху на размер получаемого файла), конечно.
Понятно, что мощность этого множества достаточно велика - при вычислении информации/энтропии вы логарифмируете, но оно всё равно конечно.

Сайт учителя информатики. Технологические карты уроков, Подготовка к ОГЭ и ЕГЭ, полезный материал и многое другое.

Информатика. 10 класса. Босова Л.Л. Оглавление

§ 16. Кодирование звуковой информации

16.1. Звук и его характеристики

Звук — это распространяющиеся в воздухе, воде или другой среде волны с непрерывно меняющейся амплитудой и частотой (рис. 3.12).

Рис. 3.12. Звуковая волна

Амплитуду звуковых колебаний называют звуковым давлением или силой звука. Эта величина характеризует воспринимаемую громкость звука. Абсолютную величину звукового давления измеряют в единицах давления — паскалях (Па). Самые слабые, едва различимые звуки имеют амплитуду около 20 мкПа (2 • 10 -5 Па, так называемый порог слышимости). Самые сильные звуки, не выводящие слуховые органы из строя, могут иметь амплитуду до 200 Па (так называемый болевой порог).

На практике вместо абсолютной используют относительную силу (уровень) звука, измеряемую в децибелах (дБ). Вот некоторые значения уровня звука:

Частота определяется как количество колебаний в секунду и выражается в герцах (Гц). Чем больше частота, тем выше звук, и наоборот. Человек способен слышать звук в широком частотном диапазоне, но важное для жизни значение имеют только звуки от 125 до 8000 Гц.

Например, звуковые волны в диапазоне 500-4000 Гц соответствуют человеческому голосу. Звучание детского голоса, пение птиц, шёпот относятся к высоким частотам. Звук контрабаса, рычание зверей, раскаты грома — к низким.

16.2. Понятие звукозаписи

Звукозапись — это процесс сохранения информации о параметрах звуковых волн.

Аналоговый способ записи звука

Цифровой способ записи звука

16.3. Оцифровка звука

Чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму. Для этого его подвергают временной дискретизации и квантованию: параметры звукового сигнала измеряются не непрерывно, а через определённые промежутки времени (временная дискретизация); результаты измерений записываются в цифровом виде с ограниченной точностью (квантование).

Вообще говоря, в компьютер приходит не сам звук, а электрический сигнал, снимаемый с какого-либо устройства: например, микрофон преобразует звуковое давление в электрические колебания, которые в дальнейшем и обрабатываются.

Если записывается стереозвук (ведётся двухканальная запись), то оцифровке подвергается не один электрический сигнал, а сразу два и, следовательно, количество сохраняемой цифровой информации удваивается.

Сущность временной дискретизации заключается в том, что аналоговый звуковой сигнал разбивается на отдельные маленькие временные участки и для каждого такого участка устанавливается определённая величина интенсивности звука (рис. 3.13). Другими словами, через какие-то промежутки времени мы измеряем уровень аналогового сигнала. Количество таких измерений за одну секунду называется частотой дискретизации.

Частота дискретизации — это количество измерений громкости звука за одну секунду.

Рис. 3.13. Временная дискретизация звукового сигнала (А(t) — амплитуда, t — время)

Частота дискретизации измеряется в герцах (Гц) и килогерцах (кГц). 1 кГц = 1000 Гц. Частота дискретизации, равная 100 Гц, означает, что за одну секунду проводилось 100 измерений громкости звука.

Качество звукозаписи зависит не только от частоты дискретизации, но также и от глубины кодирования звука.

Глубина кодирования звука или разрешение — это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Пусть под запись одного результата измерения громкости в памяти компьютера отведено n бит. Вы знаете, что это позволяет закодировать ровно 2 n разных результатов измерений. Так, при n = 8 можно закодировать 256 разных результатов измерений громкости звука. Поэтому весь диапазон, в котором могут находиться результаты измерений громкости звука, можно разбить на 256 разных поддиапазонов — уровней громкости звука, каждому из которых присвоить свой уникальный код. После этого каждый имеющийся результат измерений громкости звука можно соотнести с некоторым поддиапазоном, в который он попадает, и кодировать его номером (кодом) соответствующего уровня громкости.

В зависимости от ситуации на практике используются разные значения частоты дискретизации и глубины кодирования (табл. 3.13).

Таблица 3.13

Примеры параметров оцифровки звука

Пример. Оценим объём звукового стереоаудиофайла с глубиной кодирования 16 бит и частотой дискретизации 44,1 кГц, который хранит звуковой фрагмент длительностью звучания 15 секунд.

Объём такого звукового фрагмента равен:

2 (канала) • 16 бит • 44 100 Гц • 15 с = 2 646 000 байт ? 2 584 Кбайта.

Увеличивая частоту дискретизации и глубину кодирования, можно более точно сохранить и впоследствии восстановить форму звукового сигнала. При этом объём сохраняемых данных будет увеличиваться.

Важно понимать, каких параметров оцифровки достаточно, чтобы сохраняемый звук был достаточно близок к исходному, а содержащий его файл имел минимально возможный объём. В начале 30-х годов прошлого века было установлено, что это возможно, если частота временной дискретизации будет в два раза выше максимальной частоты измеряемого сигнала.

В 1928 году американский учёный Гарри Найквист высказал утверждение, что частота дискретизации должна быть в два или более раза выше максимальной частоты измеряемого сигнала. В 1933 году наш соотечественник В. А. Котельников и независимо от него американец Клод Шеннон в 1949 году сформулировали и доказали теорему, более сильную чем утверждение Найквиста, о том, при каких условиях и как по дискретным значениям можно восстановить форму непрерывного сигнала.

САМОЕ ГЛАВНОЕ

Звук — это распространяющиеся в воздухе, воде или другой среде волны с непрерывно меняющейся амплитудой и частотой.

Таким образом, при оцифровке звука искажение сохраняемого сигнала происходит дважды: во-первых, при дискретизации теряется информация об истинном изменении звука между измерениями, а во-вторых, при квантовании сохраняются не точные, а близкие к ним дискретные значения.

Объём оцифрованного звукового фрагмента в битах находится как произведение частоты дискретизации в Гц, глубины кодирования звука в битах, длительности звучания записи в секундах и количества каналов.

Вопросы и задания

1. Каким образом происходит преобразование непрерывного звукового сигнала в дискретный цифровой код?

2. Как частота дискретизации и глубина кодирования влияют на качество цифрового звука?

3. Производится четырёхканальная (квадро) звукозапись с частотой дискретизации 32 кГц и 32-битным разрешением. Запись длится 4 минуты, её результаты заносятся в файл, сжатие данных не производится. Определите приблизительно размер полученного файла (в мегабайтах). В качестве ответа укажите ближайшее к размеру файла целое число, кратное 10.

4. Музыкальный фрагмент был записан в формате моно, оцифрован и сохранён в виде файла без использования сжатия данных. Размер полученного файла — 49 Мбайт. Затем тот же музыкальный фрагмент был записан повторно в формате стерео (двухканальная запись) и оцифрован с разрешением в 4 раза выше и частотой дискретизации в 3,5 раза меньше, чем в первый раз. Сжатие данных не производилось. Укажите в мегабайтах размер файла, полученного при повторной записи.

5. Музыкальный фрагмент был оцифрован и записан в виде файла без использования сжатия данных. Получившийся файл был передан в город А по каналу связи за 32 секунды. Затем тот же музыкальный фрагмент был оцифрован повторно с разрешением в 3 раза выше и частотой дискретизации в 3 раза выше, чем в первый раз. Сжатие данных не производилось. Полученный файл был передан в город Б. Пропускная способность канала связи с городом Б в 2 раза выше, чем канала связи с городом А. Сколько секунд длилась передача файла в город Б?

6. Музыкальный фрагмент был оцифрован и записан в виде файла без использования сжатия данных. Получившийся файл был передан в город А по каналу связи за 96 секунд. Затем тот же музыкальный фрагмент был оцифрован повторно с разрешением в 4 раза выше и частотой дискретизации в 3 раза ниже, чем в первый раз. Сжатие данных не производилось. Полученный файл был передан в город Б за 16 секунд. Во сколько раз пропускная способность канала связи с городом Б больше пропускной способности канала связи с городом А?

7. В сети Интернет найдите информацию о записи музыкальных произведений в формате MIDI. Почему запись звука в этом формате считают аналогичной векторному методу кодирования графических изображений?

Дополнительные материалы к главе смотрите в авторской мастерской.

Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).

Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).

Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).

Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).

Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).

Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).

Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)

Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).

Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ()

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).

Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.

Аудиопример 1: 8bit/44.1kHz, ~50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.

Аудиопример 2: 4bit/48kHz, ~25dB SNR

Аудиопример 3: 1bit/48kHz, ~8dB SNR

Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то

Теорема Котельникова гласит:

Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.

Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от ~100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.

Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг

Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

Несжатый (RAW) формат данных

содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).

Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.

Читайте также: