Как качество цифрового звука зависит от частоты дискретизации и разрядности дискретизации кратко

Обновлено: 08.07.2024

При описании цифровых записывающих устройств используют два фундаментальных понятия: частота дискретизации и разрядность. В этой статье мы рассмотрим, что это такое.

Частота дискретизации

Частота дискретизации — это частота, с которой записывающим устройством фиксируются отсчеты входного сигнала. При записи звука в цифровом виде фактически записываются отдельные отсчеты или, иными словами, значения интенсивности звука в отдельные моменты времени.

Частота дискретизации для записывающих устройств имеет обычно следующие стандартные значения: 44,1 кГц; 48 кГц и 96 кГц. Чем большая величина частоты дискретизации, тем большее количество отсчетов делается за 1 секунду и тем лучше качество цифрового звука мы имеет в результате.

Каково значение этих чисел? Они подразумевают количество раз снятия за секунду записывающим устройством значения интенсивности звука входного сигнала. Для измерения частоты дискретизации используются килогерцы (кГц), 1 кГц = 1 000 отсчетам в секунду.

К примеру, если запись осуществляется с частотой дискретизации 48 кГц, то это означает, что значение интенсивности звука звукозаписывающее устройство измеряет и фиксирует 48 000 раз в секунду.

Такое количество может показаться невообразимо огромным, но здесь стоит вспомнить о явлении, называемом частотой Никвиста. Частота Никвиста названа так в честь человека, который первым ее обнаружил. Она определяет наивысшую частоту звука, которую возможно записать при данной частоте дискретизации.

Если говорить вкратце, то максимальное значение высоты звука, которое может быть подано в цифровом виде, равно примерно половине частоты дискретизации.

Поэтому, при проведении записи с частотой дискретизации 48 кГц максимальная частота звука, которая может быть записана, равна 24 кГц. Этого вполне достаточно, если учесть, что человеческое ухо слышит частоты в среднем от 20 Гц до 20 кГц.

Разрядность

Чем большая величина этого числа, тем точнее можно записать значение каждого отсчета и тем более высокое качество звука можно получить в итоге.

Не стоит думать, что чем больше количество бит, то есть чем выше величина разрядности, тем большее значение интенсивности можно зафиксировать. Здесь имеется в виду именно точность представления.

В современных записывающих устройствах обычно реализована разрядность 24 бита. Стоит учитывать, что запись с большой разрядностью занимает много места на устройстве хранения, но это не так уж важно, ибо современные носители отличаются огромными объемами и постоянно стают более и более доступными в финансовом плане.

Звуковая информация. Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну с непрерывно меняющейся интенсивностью и частотой.

Человек воспринимает звуковые волны (колебания воздуха) с помощью слуха в форме звука различных громкости и тона. Чем больше интенсивность звуковой волны, тем громче звук, чем больше частота волны, тем выше тон звука (рис. 1.1).

Рис. 1.1. Зависимость громкости и высоты тона звука от интенсивности и частоты звуковой волны

Человеческое ухо воспринимает звук с частотой от 20 колебаний в секунду (низкий звук) до 20 000 колебаний в секунду (высокий звук).

Человек может воспринимать звук в огромном диапазоне интенсивностей, в котором максимальная интенсивность больше минимальной в 10 14 раз (в сто тысяч миллиардов раз). Для измерения громкости звука применяется специальная единица "децибел" (дбл) (табл. 5.1). Уменьшение или увеличение громкости звука на 10 дбл соответствует уменьшению или увеличению интенсивности звука в 10 раз.

Таблица 5.1. Громкость звука

Временная дискретизация звука. Для того чтобы компьютер мог обрабатывать звук, непрерывный звуковой сигнал должен быть преобразован в цифровую дискретную форму с помощью временной дискретизации. Непрерывная звуковая волна разбивается на отдельные маленькие временные участки, для каждого такого участка устанавливается определенная величина интенсивности звука.

Таким образом, непрерывная зависимость громкости звука от времени A(t) заменяется на дискретную последовательность уровней громкости. На графике это выглядит как замена гладкой кривой на последовательность "ступенек" (рис. 1.2).

Рис. 1.2. Временная дискретизация звука

Частота дискретизации. Для записи аналогового звука и г го преобразования в цифровую форму используется микрофон, подключенный к звуковой плате. Качество полученного цифрового звука зависит от количества измерений уровня громкости звука в единицу времени, т. е. частоты дискретизации. Чем большее количество измерений производится за I секунду (чем больше частота дискретизации), тем точнее "лесенка" цифрового звукового сигнала повторяет кривую диалогового сигнала.

Частота дискретизации звука - это количество измерений громкости звука за одну секунду.

Частота дискретизации звука может лежать в диапазоне от 8000 до 48 000 измерений громкости звука за одну секунду.

Глубина кодирования звука. Каждой "ступеньке" присваивается определенное значение уровня громкости звука. Уровни громкости звука можно рассматривать как набор возможных состояний N, для кодирования которых необходимо определенное количество информации I, которое называется глубиной кодирования звука.

Глубина кодирования звука - это количество информации, которое необходимо для кодирования дискретных уровней громкости цифрового звука.

Если известна глубина кодирования, то количество уровней громкости цифрового звука можно рассчитать по формуле N = 2 I . Пусть глубина кодирования звука составляет 16 битов, тогда количество уровней громкости звука равно:

N = 2 I = 2 16 = 65 536.

В процессе кодирования каждому уровню громкости звука присваивается свой 16-битовый двоичный код, наименьшему уровню звука будет соответствовать код 0000000000000000, а наибольшему - 1111111111111111.

Качество оцифрованного звука. Чем больше частота и глубина дискретизации звука, тем более качественным будет звучание оцифрованного звука. Самое низкое качество оцифрованного звука, соответствующее качеству телефонной связи, получается при частоте дискретизации 8000 раз в секунду, глубине дискретизации 8 битов и записи одной звуковой дорожки (режим "моно"). Самое высокое качество оцифрованного звука, соответствующее качеству аудио-CD, достигается при частоте дискретизации 48 000 раз в секунду, глубине дискретизации 16 битов и записи двух звуковых дорожек (режим "стерео").

Необходимо помнить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла. Можно оценить информационный объем цифрового стереозвукового файла длительностью звучания 1 секунда при среднем качестве звука (16 битов, 24 000 измерений в секунду). Для этого глубину кодирования необходимо умножить на количество измерений в 1 секунду й умножить на 2 (стереозвук):

16 бит × 24 000 × 2 = 768 000 бит = 96 000 байт = 93,75 Кбайт.

Звуковые редакторы. Звуковые редакторы позволяют не только записывать и воспроизводить звук, но и редактировать его. Оцифрованный звук представляется в звуковых редакторах в наглядной форме, поэтому операции копирования, перемещения и удаления частей звуковой дорожки можно легко осуществлять с помощью мыши. Кроме того, можно накладывать звуковые дорожки друг на друга (микшировать звуки) и применять различные акустические эффекты (эхо, воспроизведение в обратном направлении и др.).

Звуковые редакторы позволяют изменять качество цифрового звука и объем звукового файла путем изменения частоты дискретизации и глубины кодирования. Оцифрованный звук можно сохранять без сжатия в звуковых файлах в универсальном формате WAV или в формате со сжатием МР3.

При сохранении звука в форматах со сжатием отбрасываются "избыточные" для человеческого восприятия звуковые частоты с малой интенсивностью, совпадающие по времени со звуковыми частотами с большой интенсивностью. Применение такого формата позволяет сжимать звуковые файлы в десятки раз, однако приводит к необратимой потере информации (файлы не могут быть восстановлены в первоначальном виде).

Контрольные вопросы

1. Как частота дискретизации и глубина кодирования влияют на качество цифрового звука?

Задания для самостоятельного выполнения

1. Задание с выборочным ответом. Звуковая плата производит двоичное кодирование аналогового звукового сигнала. Какое количество информации необходимо для кодирования каждого из 65 536 возможных уровней интенсивности сигнала?

1) 16 битов; 2) 256 битов; 3) 1 бит; 4) 8 битов.

2. Задание с развернутым ответом. Оценить информационный объем цифровых звуковых файлов длительностью 10 секунд при глубине кодирования и частоте дискретизации звукового сигнала, обеспечивающих минимальное и максимальное качество звука:

а) моно, 8 битов, 8000 измерений в секунду;

б) стерео, 16 битов, 48 000 измерений в секунду.

3. Задание с развернутым ответом. Определить длительность звукового файла, который уместится на дискете 3,5" (учтите, что для хранения данных на такой дискете выделяется 2847 секторов объемом 512 байтов каждый):

а) при низком качестве звука: моно, 8 битов, 8000 измерений в секунду;

б) при высоком качестве звука: стерео, 16 битов, 48 000 измерений в секунду.

Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).

Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).

Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).

Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).

Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).

Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).

Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)

Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).

Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ()

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).

Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.

Аудиопример 1: 8bit/44.1kHz, ~50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.

Аудиопример 2: 4bit/48kHz, ~25dB SNR

Аудиопример 3: 1bit/48kHz, ~8dB SNR

Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то

Теорема Котельникова гласит:

Если аналоговый сигнал имеет финитный (ограниченной по ширине) спектр, то он может быть восстановлен однозначно и без потерь по своим дискретным отсчетам, взятым с частотой, строго большей удвоенной верхней частоты.

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.

Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от ~100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.

Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг

Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

Несжатый (RAW) формат данных

содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).

Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.

МУЗЫКА ПОД ПРЕССОМ

ЗАПИСЫВАТЬ МУЗЫКУ ЛЮДИ НАУЧИЛИСЬ ОЧЕНЬ ДАВНО. ИЗ-ЗА ОТСТАЛОСТИ АНТИЧНОЙ ТЕХНИКИ ДРЕВНИЕ ЭЛЛИНЫ ВЫНУЖДЕНЫ БЫЛИ ДЕЛАТЬ ЭТО С ПОМОЩЬЮ ОСОБОГО НОТНОГО ПИСЬМА, ПРИЧЕМ ВЫСОТА ЗВУКОВ ОБОЗНАЧАЛАСЬ С ПОМОЩЬЮ БУКВ, А ДЛИТЕЛЬНОСТЬ ЗАДАВАТЬ ТО ЛИ НЕ УМЕЛИ, ТО ЛИ НЕ СЧИТАЛИ НУЖНЫМ.

Тем не менее этот способ записи дожил аж до XI в. нашей эры, когда было создано нечто похожее на современную нотную грамоту. Но до настоящей звукозаписи было еще далеко. Для того чтобы воспроизвести музыку, нужно было, во-первых, уметь играть на музыкальных инструментах, а во-вторых, читать ноты.

Эра механической записи звука началась в 1877 году, когда Томас Алва Эдисон изобрел фонограф. По сути дела, граммофоны, патефоны и даже современные проигрыватели винила являются усовершенствованными фонографами - ведь принцип записи звука на канавку, расположенную на носителе по спирали, остался неизменным.

В 1900 году датский инженер В. Паульсен на Парижской Всемирной выставке продемонстрировал действующую модель аппарата магнитной записи, созданного как альтернатива изобретению Эдисона. Впервые в истории человечества в магнитной записи прозвучал голос человека - удивленные парижане услышали пробивающийся через хрип помех голос императора Австро-Венгрии Франца-Иосифа. Вот с этого момента, пожалуй, и началась подлинная история звукозаписи, теория которой была создана в 30-х годах ХХ века.

Звук - это аналоговый сигнал сложной формы. Для анализа таких сигналов используют прием, широко применяемый в радиоэлектронике. С помощью преобразования Фурье сложный сигнал переводят в гармонический ряд, состоящий из синусоид с различными частотами и амплитудами. Но на практике сигнал, с которым мы имеем дело, конечно, сильно отличается от синусоидального.

Первую гармонику такого спектра музыканты называют основным тоном, а гармоники с более высокими частотами - обертонами. Основной тон определяет высоту звука, а обертона-гармоники придают ему определенную окраску, создавая тембр голоса или музыкального инструмента.

Для исследования спектров звуковых сигналов используют сложные и дорогостоящие приборы - анализаторы спектра.

С помощью таких приборов можно установить, что некоторые музыкальные инструменты, например скрипка, имеют относительно равномерный спектр, а у некоторых духовых спектры с ярко выраженными максимумами и минимумами, называемыми формантами.

Попытки использовать цифровые методы обработки информации применительно к записи звука предпринимались многократно, но первых серьезных результатов удалось добиться в начале 80-х годов XX века, и совпали они с бурным развитием компьютеров и успехами микроминиатюризации радиокомпонентов. Применение цифровых методов обработки звука открыло новые и очень интересные возможности.

Для того чтобы обрабатывать звук на компьютере, его необходимо предварительно преобразовать в цифровую форму - закодировать. Кодирование аналогового сигнала осуществляется с помощью устройств, называемых аналого-цифровыми преобразователями (АЦП). Основным методом кодирования аналогового сигнала является импульсно-кодовая модуляция, которая состоит из трех операций: дискретизация, квантование и кодирование.

Сейчас мы не будем вдаваться в теорию кодирования, тем более что она довольно сложна и требует знания высшей математики. Для нас важно понимать, что качество оцифрованного звука и размер полученного файла зависят от частоты дискретизации и разрядности.

Частота дискретизации - это частота измерения характеристик звукового сигнала. Из теоремы отсчетов Котельникова следует, что для получения неискаженного цифрового сигнала частота дискретизации должна быть как минимум вдвое больше наивысшей частоты кодируемого сигнала. Таким образом, при кодировании звукового сигнала частота дискретизации должна быть не менее 40 кГц. В системах цифровой связи принята частота дискретизации 32 кГц, в лазерных проигрывателях CD и в бытовых цифровых магнитофонах - 44,1 кГц. В студийной цифровой аппаратуре частота дискретизации еще выше - 48 кГц.

Разрядность записанного звука - это количество битов памяти, которые выделяются для записи каждого значения амплитуды звукового сигнала в момент его измерения. Современные звуковые платы используют 8 или 16 бит памяти на одно измерение, существуют и более высококачественные - 32-разрядные платы. Чем больше разрядность, тем выше качество оцифрованного звука.

Как уже говорилось, размер звукового файла зависит от частоты дискретизации и от разрядности звука. Так, при частоте дискретизации 44 кГц и разрядности звука 16 бит одна минута звучания требует файла размером в 5,3 Мб, а при частоте дискретизации 11 кГц и разрядности 8 бит - 660 Кб.

Понятно, что такое неэкономное расходование дискового пространства оказалось неприемлемым, и были созданы специальные алгоритмы и форматы для более экономного хранения аудиофайлов.

Битрейт - это параметр, обозначающий, какой объем дискового пространства уходит на хранение 1 секунды музыки. Например, битрейт 128 Кбит/с означает, что трехминутная композиция будет занимать около 2,8 Мб.

В принципе, все программы для кодирования звука (их еще называют кодерами) используют алгоритмы двух видов: для сжатия звука без потерь качества и для сжатия с потерями качества.

Маскировка по частоте означает, что если рядом с тихим звуком в частотном диапазоне будет находиться громкий звук, то тихий можно отбросить, так как человеческое ухо его все равно не услышит.

Маскировка по времени основана на том, что если сразу за громким звуком последует тихий, то его можно отбросить, ибо изменение порога слышимости человеческого уха происходит не мгновенно.

Все методы кодирования звука с потерей качества работают по одной схеме. Вначале звук разбивается на кадры, из которых удаляются маскируемые компоненты, после чего кадры кодируются методом Хоффмана, в соответствии с которым наиболее часто встречающиеся кодовые слова получают минимальную длительность, а наименее частые, наоборот, максимальную. Разница между методами заключается в способе анализа звука и удаления замаскированных компонентов.

Алгоритмов сжатия аудиофайлов и, соответственно, форматов этих файлов существует великое множество. Например, форматы записи звука в компьютерных играх, в аудиоплеерах и для загрузки через Интернет различаются. Общее правило заключается в том, что файлы с высоким битрейтом имеют относительно высокое качество звука и большой объем, а файлы с малым битрейтом компактны, но музыкой их можно назвать только из вежливости.

Кроме того, различные форматы аудиофайлов создавались для различных компьютерных платформ, таких как PC, Macintosh, Amiga и другие.

Рассмотрим основные форматы аудиофайлов.

Неудачная и негибкая политика патентовладельцев привела к тому, что в компьютерном мире резко повысился интерес к другим форматам кодирования звука, и первым среди них, безусловно, является WMA (Windows Media Audio), созданный фирмой Microsoft. В его основе лежит очень удачная технология Voxware Audio Codec 4, изначально предназначенная для кодирования речи: файлы Voxware 4 сохраняли 90-процентную разборчивость при битрейте в 64 Кбит/с - в два раза лучше, чем у конкурентов.

OGG - открытый и бесплатный формат. Его кодек поддерживает частоту дискретизации до 48 кГц, скорость потока до 512 Кбит/с, до 255 каналов, позволяет хранить в файле вместе с композицией текстовую и графическую информацию, а звук кодируется с переменной скоростью. Поскольку стереоканалы кодируются вместе, а не по отдельности, музыку, звучащую в обоих каналах одинаково, записывают не два раза, а один, отчего файл получается весьма компактным, его сжатие на 20 - 50% лучше, чем у mp3, а субъективное качество звука выше. Проблема Ogg Vorbis в том, что китам компьютерного бизнеса сильный конкурент не нужен и его поддержку в популярные операционные системы не включают.

ААС. Полное название - MPEG-2 ААС (Advanced Audio Coding - передовое кодирование звука). Разработан институтом Фраунгофера и несколькими коммерческими фирмами. В его основе лежит все тот же mp3. В ААС изначально заложена поддержка частоты дискретизации до 96 кГц, а максимальное количество каналов увеличено с 2 до 48 в расчете на будущие многоканальные форматы вроде нынешнего Dolby Digital. Благодаря использованию более сложных алгоритмов его кодеры работают значительно медленнее, чем в случае mp3, а проигрыватели также требуют большей мощности процессора. Лучшие варианты кодеров ААС при скорости 96 Кбит/с дают качество не хуже, а иногда и лучше, чем mp3 при скорости 128 Кбит/с. Объем файла при этом получается на четверть меньше.

Формат ААС позволяет с использованием приемов стеганографии встраивать в записываемый поток так называемые водяные знаки (watermarks) - имена авторов/исполнителей, сведения об авторских правах и прочее. Впоследствии соавторы формата самостоятельно создали несколько его версий, самой известной из которых является Liquid Audio.

Liquid Audio до недавнего времени считался самым лучшим по качеству воспроизведения и мог бы претендовать на роль преемника mp3, но создатель формата, компания Liquid Audio, повела неудачную политику по его внедрению.

VQF - метод и формат, разработанный японской фирмой NTT и продвигаемый в основном японской же Yamaha под названием SoundVQ. Поддерживает частоты дискретизации до 48 кГц, но количество каналов ограничено двумя. Поддерживает также индивидуальную скорость для каждого стереоканала, однако реальный эффект от этого невелик. Используемый алгоритм, как и в случае с ААС, заметно сложнее mp3, отчего кодер и проигрыватель сильнее загружают процессор. Сегодня формат не поддерживается большинством плееров и постепенно вымирает.

РСМ используется для кодирования несжатых аудиоданных. Существует множество вариантов этого формата, разработанных различными компаниями, например Microsoft.

RealMedia позволяет создавать потоковые аудио- и видеофайлы для передачи через Интернет. Он предлагает сложные собственные функции сжатия, дающие возможность передавать аудио- и видеоданные через Интернет (даже через медленные телефонные линии) в режиме реального времени.

Video for Windows. Формат AVI (Audio Video Interleaved - чередование видео и аудио) представляет собой специальный цифровой формат файлов, подготовленный для работы с видео на компьютерах под управлением Windows. Файлы AVI поддерживают многодорожечный звук.

Читайте также: