Особенности кодирования звука кратко

Обновлено: 02.07.2024

Звук – это звуковая волна, у которой непрерывно меняется амплитуда и частота. При этом амплитуда определяет громкость звука, а частота — его тон. Чем больше амплитуда звуковых колебаний, тем он громче. А частота писка комара больше частоты сигнала автомобиля. Частоту измеряют в Герцах. 1Гц — это одно колебание в секунду.

Кодирование звука.

Компьютер является мощнейшим устройством для обработки различных типов информации, в том числе и звуковой. Но аналоговый звук непригоден для обработки на компьютере, его необходимо преобразовать в цифровой. Для этого используются специальные устройства — аналого-цифровые преобразователи или АЦП. В компьютере роль АЦП выполняет звуковая карта. Каким же образом АЦП преобразует сигнал из аналогового в цифровой вид? Давайте разберемся.

Пусть у нас есть источник звука с частотой 440Гц, пусть это будет гитара. Сначала звук нужно превратить в электрический сигнал. Для этого используем микрофон. На выходе микрофона мы получим электрический сигнал с частотой 440Гц. Графически он выглядит таким образом:


Следующая задача — преобразовать этот сигнал в цифровой вид, то есть в последовательность цифр. Для этого используется временная дискретизация — аналоговый звуковой сигнал разбивается на отдельные маленькие временные участки и для каждого такого участка устанавливается определенная величина интенсивности звука, которая зависит от амплитуды. Другими словами через какие-то промежутки времени мы измеряем уровень аналогового сигнала. Количество таких измерений за одну секунду называется частотой дискретизации. Частота дискретизации измеряется в Герцах. Соответственно, если мы будет измерять наш сигнал 100 раз в секунду, то частота дискретизации будет равна 100Гц.

Вот примеры некоторых используемых частот дискретизации звука:

  • 8 000 Гц — телефон, достаточно для речи;
  • 11 025 Гц;
  • 16 000 Гц;
  • 22 050 Гц — радио;
  • 32 000 Гц;
  • 44 100 Гц — используется в Audio CD;
  • 48 000 Гц — DVD, DAT;
  • 96 000 Гц — DVD-Audio (MLP 5.1);
  • 192 000 Гц — DVD-Audio (MLP 2.0);
  • 2 822 400 Гц — SACD, процесс однобитной дельта-сигма модуляции, известный как DSD — Direct Stream Digital, совместно разработан компаниями Sony и Philips;
  • 5,644,800 Гц — DSD с удвоенной частотой дискретизации, однобитный Direct Stream Digital с частотой дискретизации вдвое больше, чем у SACD. Используется в некоторых профессиональных устройствах записи DSD.

В итоге наш аналоговый сигнал превратится в цифровой, а график станет уже не гладким, а ступенчатым, дискретным:


Глубина кодирования звука — это количество возможных уровней сигнала. Другими словами глубина кодирования это точность измерения сигнала. Глубина кодирования измеряется в битах. Например, если количество возможных уровней сигнала равно 255, то глубина кодирования такого звука 8 бит. 16-битный звук уже позволяет работать с 65536 уровнями сигнала. Современные звуковые карты обеспечивают глубину кодирования в 16 и даже 24 бита, а это возможность кодирования 65536 и 16 777 216 различных уровней громкости соответственно.

Зная глубину кодирования, можно легко узнать количество уровней сигнала цифрового звука. Для этого используем формулу:

где N — количество уровней сигнала, а i — глубина кодирования.

Например, мы знаем, что глубина кодирования звука 16 бит. Значит количество уровней цифрового сигнала равно 2 16 =65536.

Чтобы определить глубину кодирования если известно количество возможных уровней применяют эту же формулу. Например, если известно, что сигнал имеет 256 уровней сигнала, то глубина кодирования составит 8 бит, так как 2 8 =256.

Как понятно из данного вышеприведенного рисунка, чем чаще мы будем измерять уровень сигнала, т.е. чем выше частота дискретизации и чем точнее мы будем его измерять, тем более график цифрового сигнала будет похож на аналоговый график, соответственно, тем выше качество цифрового звука мы получим. И тем больший объем будет иметь файл.

Кроме того, мы рассматривали монофонический (одноканальный) звук, если же звук стереофонический, то размер файла увеличивается в 2 раза, так как он содержит 2 канала.

Рассмотрим пример задачи.

Какой объем будет иметь звуковой монофонический файл содержащий звук, если длительность звука 1 минута, глубина кодирования 8 бит, а частота дискретизации 22050Гц?

Зная частоту дискретизации и длительность звука легко установить количество измерений уровня сигнала за все время. Если частота дискретизации 22050Гц — значит за 1 секунду происходит 22050 измерений, а за минуту таких измерений будет 22050*60=1 323 000.

На одно измерение требуется 8 бит памяти, следовательно на 1 323 000 измерений потребуется 1 323 000*8 = 10 584 000 бит памяти. Разделив полученное число на 8 получим объем файла в байтах — 10584000/8=1 323 000 байт. Далее, разделив полученное число на 1024 получим объем файла в килобайтах — 1 291,9921875 Кбайт. А разделив полученное число еще раз на 1024 и округлив до сотых получим размер файла в мегабайтах — 1 291,9921875/1024=1,26Мбайт.

Звук представляет собой непрерывный сигнал, а именно звуковую волну с меняющейся амплитудой и частотой. Чем выше амплитуда сигнала, тем он громче воспринимается человеком. Чем больше частота сигнала, тем выше его тон.

Амплитуда колебаний звуковых волн

Рисунок 1. Амплитуда колебаний звуковых волн

Частота звуковой волны определяется количеством колебаний в одну секунду. Данная величина измеряется в герцах (Гц, Hz).

Ухо человека воспринимает звуки в диапазоне от $20$ Гц до $20$ кГц, данный диапазон называют звуковым. Количество бит, которое при этом отводится на один звуковой сигнал, называют глубиной кодирования звука. В современных звуковых картах обеспечивается $16-$, $32-$ или $64-$битная глубина кодирования звука. В процессе кодирования звуковой информации непрерывный сигнал заменяется дискретным, то есть преобразуется в последовательность электрических импульсов, состоящих из двоичных нулей и единиц.

Частота дискретизации звука

Одной из важных характеристик процесса кодирования звука является частота дискретизации, которая представляет собой количество измерений уровня сигнала за $1$ секунду:

  • одно измерение в одну секунду соответствует частоте $1$ гигагерц (ГГц);
  • $1000$ измерений в одну секунду соответствует частоте $1$ килогерц (кГц) .

Частота дискретизации звука — это количество измерений громкости звука за одну секунду.

Количество измерений может находиться в диапазоне от $8$ кГц до $48$ кГц, причем первая величина соответствует частоте радиотрансляции, а вторая - качеству звучания музыкальных носителей.

Готовые работы на аналогичную тему

Информационный объем звукового файла

Следует отметить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла.

Оценим информационный объём моноаудиофайла ($V$), это можно сделать, используя формулу:

$V = N \cdot f \cdot k$,

где $N$ — общая длительность звучания, выражаемая в секундах,

$f$ — частота дискретизации (Гц),

$k$ — глубина кодирования (бит).

Например, если длительность звучания равна $1$ минуте и имеем среднее качество звука, при котором частота дискретизации $24$ кГц, а глубина кодирования $16$ бит, то:

$V=60 \cdot 24000 \cdot 16 \ бит=23040000 \ бит=2880000 \ байт = 2812,5 \ Кбайт=2,75 \ Мбайт.$

При кодировании стереозвука процесс дискретизации производится отдельно и независимо для левого и правого каналов, что, соответственно, увеличивает объём звукового файла в два раза по сравнению с монозвуком.

Например, оценим информационный объём цифрового стереозвукового файла, у котрого длительность звучания равна $1$ секунде при среднем качестве звука ($16$ битов, $24000$ измерений в секунду). Для этого глубину кодирования умножим на количество измерений в $1$ секунду и умножить на $2$ (стереозвук):

$V=16 \ бит \cdot 24000 \cdot 2 = 768000 \ бит = 96000 \ байт = 93,75 \ Кбайт.$

Основные методы кодирования звуковой информации

Существуют различные методы кодирования звуковой информации двоичным кодом, среди которых выделяют два основных направления: метод FM и метод Wave-Table.

Преобразование звукового сигнала в дискретный сигнал

Рисунок 2. Преобразование звукового сигнала в дискретный сигнал

На рисунке 2а изображен звуковой сигнал на входе АЦП, а на рисунке 2б изображен уже преобразованный дискретный сигнал на выходе АЦП.

Для обратного преобразования при воспроизведении звука, который представлен в виде числового кода, используют цифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука изображен на рис. 3. Данный метод кодирования не даёт хорошего качества звучания, но обеспечивает компактный код.

Преобразование дискретного сигнала в звуковой сигнал

Рисунок 3. Преобразование дискретного сигнала в звуковой сигнал

На рисунке 3а представлен дискретный сигнал, который мы имеем на входе ЦАП, а на рисунке 3б представлен звуковой сигнал на выходе ЦАП.

Примеры форматов звуковых файлов

Звуковые файлы имеют несколько форматов. Наиболее популярные из них MIDI, WAV, МРЗ.

Формат MIDI (Musical Instrument Digital Interface) изначально был предназначен для управления музыкальными инструментами. В настоящее время используется в области электронных музыкальных инструментов и компьютерных модулей синтеза.

Формат аудиофайла WAV (waveform) представляет произвольный звук в виде цифрового представления исходного звукового колебания или звуковой волны. Все стандартные звуки Windows имеют расширение WAV.

Формат МРЗ (MPEG-1 Audio Layer 3) — один из цифровых форматов хранения звуковой информации. Он обеспечивает более высокое качество кодирования.

Из курса физики известно, что звук представляет собой механическую волну с непрерывно меняющимися амплитудой и частотой (рис. 19а). Чем выше амплитуда, тем громче звук, чем меньше частота, тем ниже тон.

Для представления звуковой информации в памяти компьютера непрерывный звуковой сигнал должен быть преобразован в последовательность электрических импульсов (нулей и единиц). Принцип кодирования звука можно описать следующим образом.

Координатная плоскость, на которой графически представлена звуковая волна, разбивается на горизонтальные и вертикальные линии. Горизонтальные линии отмечают уровни громкости, а вертикальные – количество измерений уровней громкости в секунду. Количество измерений в секунду называют частотой измерений, или частотой дискретизации. Частота дискретизации измеряется в герцах (1Гц соответствует одному измерению в секунду). Для графика, изображённого на рисунке 19б, частота дискретизации составляет 20 Гц.



Рис. 19. Способ кодирования звука путем определения значения амлитуды звуковой волны через определенные промежутки времени

Такой способ разбиения позволяет заменить непрерывную зависимость на дискретную последовательность уровней громкости, каждому из которых может быть присвоено значение в двоичном коде.

Количество уровней громкости, значения которых могут фиксироваться при дискретизации, определяет качество записанного звука. Для записи номеров уровней градации звука (аналогично уровням градации серого при кодировании цвета) используется двоичный код.

На рисунке 19б диапазон колебаний звуковой волны представлен 16-ю уровнями градации интенсивности (амплитуды) звука. Для записи номера каждого из этих уровней (от 0 до 15) в двоичном коде потребовалось 4 ячейки или 4 бита памяти (16 = 2 4 ).

Количество бит информации, кодирующих уровень интенсивности звуковой волны в каждый момент времени (соответствующий моменту дискретизации), называют глубиной звука.

Таким образом, глубина звука в данном примере 4 бита.

Чем больше количество уровней (оттенков звука) и частота дискретизации, тем более точно фиксируются данные о колебаниях звуковой волны, то есть более точно описывается звук.

Параметр глубины звука можно сравнить с глубиной цвета при кодировании изображения, а частоту дискретизации с разрешением.

Качественное звучание обеспечивается при параметрах кодирования глубины звука 16 бит и частоте дискретизации 44,1 Гц. Приемлемое качество цифрового звука для передачи речи – 8 бит, 8 кГц.

Контрольные вопросы

1. Что означают понятия: мультимедиа, презентация? Дайте определение мультимедийной презентации. Расскажите о структуре и содержании презентации.

2. Расскажите о целях подготовки и проведения рекламных презентаций. Каковы основные достоинства мультимедийных презентаций (предоставляемые возможности)?

3. Назовите области применения электронных презентаций.

4. Расскажите о видах электронных презентаций, электронных носителях мультимедийных презентаций.

5. Какие программные и технические средства используют для подготовки и проведения мультимедийных презентаций?

6. Дайте определения понятий: анимация, кадр, частота кадров. Расскажите о видах анимации.

7. Что представляет собой цифровое видео? Какие существуют общепринятые значения размеров кадра, частоты смены кадров цифрового видео?

8. Расскажите о способах сжатия видеоданных. Что представляют собой кодеки?

9. Объясните принцип кодирования звуковой информации. Дайте определения понятий: глубина звука, частота дискретизации.

Из курса физики известно, что звук представляет собой механическую волну с непрерывно меняющимися амплитудой и частотой (рис. 19а). Чем выше амплитуда, тем громче звук, чем меньше частота, тем ниже тон.

Для представления звуковой информации в памяти компьютера непрерывный звуковой сигнал должен быть преобразован в последовательность электрических импульсов (нулей и единиц). Принцип кодирования звука можно описать следующим образом.

Координатная плоскость, на которой графически представлена звуковая волна, разбивается на горизонтальные и вертикальные линии. Горизонтальные линии отмечают уровни громкости, а вертикальные – количество измерений уровней громкости в секунду. Количество измерений в секунду называют частотой измерений, или частотой дискретизации. Частота дискретизации измеряется в герцах (1Гц соответствует одному измерению в секунду). Для графика, изображённого на рисунке 19б, частота дискретизации составляет 20 Гц.






Рис. 19. Способ кодирования звука путем определения значения амлитуды звуковой волны через определенные промежутки времени

Такой способ разбиения позволяет заменить непрерывную зависимость на дискретную последовательность уровней громкости, каждому из которых может быть присвоено значение в двоичном коде.

Количество уровней громкости, значения которых могут фиксироваться при дискретизации, определяет качество записанного звука. Для записи номеров уровней градации звука (аналогично уровням градации серого при кодировании цвета) используется двоичный код.

На рисунке 19б диапазон колебаний звуковой волны представлен 16-ю уровнями градации интенсивности (амплитуды) звука. Для записи номера каждого из этих уровней (от 0 до 15) в двоичном коде потребовалось 4 ячейки или 4 бита памяти (16 = 2 4 ).

Количество бит информации, кодирующих уровень интенсивности звуковой волны в каждый момент времени (соответствующий моменту дискретизации), называют глубиной звука.

Таким образом, глубина звука в данном примере 4 бита.

Чем больше количество уровней (оттенков звука) и частота дискретизации, тем более точно фиксируются данные о колебаниях звуковой волны, то есть более точно описывается звук.

Параметр глубины звука можно сравнить с глубиной цвета при кодировании изображения, а частоту дискретизации с разрешением.

Качественное звучание обеспечивается при параметрах кодирования глубины звука 16 бит и частоте дискретизации 44,1 Гц. Приемлемое качество цифрового звука для передачи речи – 8 бит, 8 кГц.

Контрольные вопросы

1. Что означают понятия: мультимедиа, презентация? Дайте определение мультимедийной презентации. Расскажите о структуре и содержании презентации.

2. Расскажите о целях подготовки и проведения рекламных презентаций. Каковы основные достоинства мультимедийных презентаций (предоставляемые возможности)?

3. Назовите области применения электронных презентаций.

4. Расскажите о видах электронных презентаций, электронных носителях мультимедийных презентаций.

5. Какие программные и технические средства используют для подготовки и проведения мультимедийных презентаций?

6. Дайте определения понятий: анимация, кадр, частота кадров. Расскажите о видах анимации.

7. Что представляет собой цифровое видео? Какие существуют общепринятые значения размеров кадра, частоты смены кадров цифрового видео?

8. Расскажите о способах сжатия видеоданных. Что представляют собой кодеки?

9. Объясните принцип кодирования звуковой информации. Дайте определения понятий: глубина звука, частота дискретизации.


Звук являет собой волну, имеющую изменяющуюся со временем частоту и амплитуду колебаний. Иными словами, это непрерывный сигнал. Чем тише звук, который слышит человеческое ухо, тем ниже его амплитуда, а чем ниже его тон, тем меньше частота звукового сигнала.

Чтобы обозначить частоту колебаний, используют единицу измерения частоты - герц, сокращенно Гц или Hz. ГЦ обозначает количество колебаний звуковой волны в секунду.

Звуковой волновой диапазон составляет 20 - 20000 Гц, это тот диапазон, который может слышать наше ухо.

На сегодняшний день для производства звуковых карт используется глубина кодирования звуковой волны величиной 64, 32 и 16 бит. Для удобства использования непрерывность звукового колебания при кодировании заменяют на последовательные отдельные сигналы, являющие собой последовательный ряд электрических импульсов, записанных с помощью нулей и единиц системы двоичного исчисления.

Не нашли что искали?

Просто напиши и мы поможем

Частота дискретизации звуковой волны

Это один из важнейших параметров, применяемых в процессе кодирования звуковых колебаний. Проще говоря, частотой дискретизации звуковой волны есть число замеров громкости звука в секунду. Так вот, например, 1 замер за 1 секунду равен частоте 1 ГГЦ (гигагерц), 1000 замеров за 1 секунду - 1 кГц (килогерц).

Оцифрованный звук может быть самого разного качества, диапазоне его частоты дискретизации представлен в пределах от 8000 до 48000 Гц. Чем ниже частота дискретизации, тем ниже качество звука.

Так же на качество влияет глубина дискретизации, и чем она меньше, тем качество звука хуже. Примером самого низкого качества звука может быть передача радиоволны или звук во время телефонного разговора, при этом глубина дискретизации равна 8 бит, а ее частота - 8000 Гц за секунду, что представляет собой режим моно, то есть запись одной аудио дорожи. Примером самого высокого качества оцифрованной звуковой волны является аудио запись на звуковых музыкальных носителях, например, СD-дисках, с глубиной дискретизации 16 бит и ее частотой 48000 Гц в секунду, что представляет собой режим стерео, то есть запись двух аудио дорожек.

Объем звуковой информации

Чем больше по объему аудио файл, тем лучше будет качество его воспроизведения. Объем более качественного файла всегда меньше объема файла с низким качеством, при равной их продолжительности.

Для расчета объема информации, занимаемого аудио файлом с одной звуковой дорожкой, используют нижеприведенную формулу:

где \(N \) - общее время звучания аудио файла, сек,

\(f\) - частота дискретизации аудио файла, Гц,

\(k\) - глубина кодирования аудио файла, бит.

Рассмотрим пример, когда время звучания аудио файла 5 минут с высоким качеством воспроизведения с частотой дискретизации 48000 Гц и глубиной кодирования 64 бит, то объем такого файла будет составлять:

\(V = 5 * 60 * 48000 * 64 = 921600000 бит,\)

что составляет 115200000 байт, или 115200 Кбайт, или 115,2 Мбайт.

Для стереозвука расчет объема производится по той же формуле, лишь только с той разницей, что нужно еще умножить на два, так как файл со стереозвуком обычно занимает в два раза больше места из-за того, что процесс дискретизации во время кодирования стереозвука проводится для каждой дорожки отдельно.

Самые распространенные методы аудио кодирования

Аудио информация кодируется обычно с применением методов двоичного кода, из них самыми популярными являются таблично-волновой метод (Wave-Table) и метод модуляции частоты (FM).

Сложно разобраться самому?

Попробуй обратиться за помощью к преподавателям

Таблично-волновой метод (англ. Wave-Table) базируется на использовании предварительно разработанной таблицы, которая состоит из ячеек, содержащих все возможные звуки окружающей среды (птиц, животных, природы, музыкальных инструментов и так далее). Они представлены в виде цифровых кодов, каждый из них имеет свою определенную частоту, высоту, глубину, длительность и другие звуковые параметры. Благодаря тому, что образцы представляют собой реальные существующие звуки, воспроизводимый звук будет достаточно высококачественным, и сильно напоминать звуки живых инструментов.

Метод модуляции частоты (англ. Frequency Modulation - FM), базируется на разложении сложных звуковых волн на последовательные ряды более простых разно частотных гармонических сигналов, при чем каждый из них будет описываться законом правильной синусоиды, что означает возможность его записи с помощью кода. Для процесса разложения сложных аудио сигналов и их трансформации в ряд дискретных оцифрованных сигналов используют особое устройство, именуемое АЦП - аналогово-цифровой преобразователь. Для процесса обратной трансформации, а именно для трансформации звука из цифровых сигналов, применяется устройство, именуемое ЦАП – цифро-аналоговый преобразователь. Хотя этот метод не позволяет получить качественный звук при воспроизведении, но преимуществом его использования является компактность цифрового кода.

Распространенные форматы аудио файлов

Аудио файлы бывают различных форматов. Рассмотрим самые распространенные из них:

Читайте также: