Реферат форматы звуковых файлов

Обновлено: 18.05.2024

В мире музыки существует огромное количество музыкальных форматов их модификаций и версий, созданных гигантами музыкальной индустрии и небольшими компаниями, получившими общественное признание в электронном мире.
Для этих целей были разработаны различные физические методы хранения аудиоданных, например: виниловые пластинки, магнитная лента, компакт-диски, DAT, MD (минидиск), DVD или преобразование нот в музыкальных форматах (MIDI), точно таким же образом появилось множество различных компьютерных методов хранения аудиоданных - digital: OGG, Mp3, Flac, Wav форматов.
Невозможно рассмотреть и обсудить все звуковые форматы, кодеки их достоинства и недостатки, по этому в своей статье мы постараемся рассказать о наиболее популярных расширениях audio files, с которыми Вам, возможно, придется работать.

Вложенные файлы: 1 файл

виды форматов аудио.docx

Музыкальные audio форматы.


В мире музыки существует огромное количество музыкальных форматов их модификаций и версий, созданных гигантами музыкальной индустрии и небольшими компаниями, получившими общественное признание в электронном мире.
Для этих целей были разработаны различные физические методы хранения аудиоданных, например: виниловые пластинки, магнитная лента, компакт-диски, DAT, MD (минидиск), DVD или преобразование нот в музыкальных форматах (MIDI), точно таким же образом появилось множество различных компьютерных методов хранения аудиоданных - digital: OGG, Mp3, Flac, Wav форматов.
Невозможно рассмотреть и обсудить все звуковые форматы, кодеки их достоинства и недостатки, по этому в своей статье мы постараемся рассказать о наиболее популярных расширениях audio files, с которыми Вам, возможно, придется работать.


Почему мы не можем использовать какой ни будь один универсальный формат кодирования аудио-файлов?

Потому, что для реализации различных функций необходим свой формат. Например: для воспроизведения CD в дисководе компакт-дисков, для записи музыки или звуковых эффектов в видеоиграх, для записи дорожки фильма или видеоклипа, для проигрывания в мобильных телефонах или передачи файлов через Интернет, кроме того, существует ряд операционных систем получивших наибольшее распространение в мире. В их число входят: Amiga, Macintosh, NEXT и персональные компьютеры с операционной системой Windows. Кроме того работа dj, звукорежиссера, cj, видеоинженера или простого любителя музыки - достаточно сильно отличаются по своей сути. Для этого может потребоваться, чтобы Ваши аудиоданные были сохранены своим способом. Например, звук для компакт-диска должен быть сохранен с использованием разрядности 16 бит и частоты сэмплирования 44,1 кГц. Однако для загрузки звука через Интернет нам лучше использовать другую разрядность и частоту сэмплирования, поскольку каждая минута 16-битного, 44-килогерцевого звука занимает примерно 10 Мбайт, т.е. средний трэк продолжительностью 5 минут составит 50 "метров" - это слишком большой объем данных для среднестатистического пользователя. В этой статье представлена краткая информация о самых популярных музыкальных форматах.

AA (Audible Audio Book File)

AA (Audible Audio Book File) - формат является закрытым, разработан компанией Audible. Применяется, для записи аудиокниг, которые продаются через сервисы Audible и iTunes. Существует возможность замедлять или ускорять скорость прослушивания файлов - digital pitch, возможность оставлять закладки при прослушивании аудио книг, защита файлов, при доставке звуковых записей посредством internet.

AAC (Advanced Audio Coding)

AAC (Advanced Audio Coding) - формат аудио-файла с меньшей потерей качества при кодировании, чем Mp3 при одинаковых размерах. Кодирование музыки без потерь качества оригинала с помощью профиля ALAC. AAC - семейство алгоритмов аудио кодирования MPEG4. В отличие от гибридного набора фильтров mp3, AAC использует MDST технологию (модифицированное косинусное преобразование) - это значит, что слушатель получает более лучшее качество звука, чем при MP3 кодировании с таким же или меньшим битрейтом. Возможные расширения AAC файлов: .m4a . m4b .m4p.

AIFF - Это формат аудиоданных для платформы Apple Macintosh. Формат .aiff поддерживает 8бит и16-битные mono и stereo. Если файлы этого формата содержат заголовок Mac-Binary (тексты, фото, информацию о правообладателе, единый номер и т.п.), в этом случае файл будет иметь расширение .snd. Аудиофайл с расширением .snd можно прослушать с помощью программы Sound Forge. "Форж" конечно откроет такой файл, но распознает его, как формат Macintosh Resource, на качестве звучания - это не отразится.

APE (Monkey's Audio)

APE - (Monkey's Audio), разработчик Мэтью Т. Эшланд - формат цифрового звука без потерь качества (lossless). Кодек Monkey's Audio выпускается только для платформы Microsoft Windows, хотя существует ряд неофициальных кодеков для MacOS, Linux, BeOS. Файлы Monkey's Audio используют следующие расширения: .ape - для хранения аудио и .apl - для хранения метаданных. Данный формат не является свободным, т.к. лицензия на него серьезно ограничивает распространение .ape files.

DTS - Digital Theater System , по сути - это Dolby Digital, а точнее его конкурент. Формат DTS использует минимальный уровень сжатия, чем Dolby, так что фактически он звучит лучше, что доказывают на практике DVD диски, на которых записаны дорожки в DTS или в DD формате. DTS в домашних кинотеатрах используется максимальный битрейт 1,536 kbps (full bitrate), такой звук более качественный, чем AC-3 format от Dolby Digital. DTS - использует 6 свободных аудио дорожек и поддерживает систему распределения звука 7.1, при таком битрэйте DTS 4.0 - будет звучать также объемно, как и "Долби" 5.1.

FLAC - (Free Lossless Audio Codec ). В отличие от кодеков с потерями - Mp3, Ogg и AAC, не удаляет никакой информации из аудиопотока и предназначен для прослушивания музыки на высококачественной Hi-Fi, Hi-End аппаратуре и для архивирования профессиональной аудио-коллекции. В настоящее время формат FLAC поддерживается многими аудио плейерами и музыкальными приложениями. Чтобы хранить основные типы метаданных, базовый декодер использует теги ID3v1 и ID3v2, поэтому их можно свободно добавлять и редактировать.

MIDI - (Musical Instrument Digital Interface ), в отличие от других форматов, MIDI хранит не цифровой звук, а наборы команд: проигрываемые ноты, ссылки на инструменты, параметры звука. Удобство формата MIDI, заключается в использовании устройства, производящего аранжировку по обозначенным аккордам. Миди файлы, как правило, имеют на несколько порядков меньший размер, чем оцифрованный звук такого же качества. Формат MIDI - универсален и разработан так, чтобы любой секвенсор мог читать и записывать данные без потерь. При этом, непонятная другим программным приложениям информация MIDI - не приводит к недоразумениям, а просто игнорируется. Мидюшный формат минусовки позволяет сохранять информацию об используемом инструменте, темпе, обозначении размера, информацию о музыкальных ключах, названии трека и паттернов и их количестве.

MP3 - (MPEG Layer версия 3) На данный момент, MP3 является самым популярным форматом цифрового кодирования музыки. MP3 является форматом сжатия с потерями, то есть часть звуковой информации, согласно психоакустической модели, ухо человека воспринять практически не может удаляется из исходного файла - безвозвратно. До сих пор не утихают споры по поводу качества Mp3…Во-первых, качество полученного MP3 зависит не только от битрейта сжатого файла, но и от версии используемой кодирующей программы - кодека. Многие музыкальные гурманы, предпочитают сжимать музыку с "максимальным качеством" - 320kbps, либо переходить на другие форматы, например FLAC, где битрейт в среднем ~1000 kbps. На данный момент MP3 является лидером по общепризнанности, но при этом не является профессиональным, по техническим параметрам, форматом. Профессиональные музыканты и dj уже давно не используют треки с битрейтом менее 320kbps.

MOD - формат разработан для платформы Amiga. Каждый файл MOD содержит оцифрованные записи real звучания инструментов, так называемые сэмплы, чем-то похож на структуру MIDI. Cj или композитор, пишущий в формате MOD, применяет программу, называемую трэкером, в которой указывает, какой именно инструмент, в какое время, какой нотой и октавой должен прозвучать - эта последовательность нот записывается в список - трек, а несколько параллельно звучащих треков образуют блок, называемый паттерном. Совокупность паттернов образует модуль - файл в формате MOD, с расширением .mod. Одна линейка трекера соответствует одному реальному каналу, в котором cj может проиграть или отредактировать пронумерованные ноты. Нотам могут назначаться различные "орнаментами" - например: тремоло, глиссандо и т.д..

OGG - Vorbis был разработан в 2002 г. коллективом Xiphophorus, как альтернатива всем платным лицензионным аудио форматам. Ogg Vorbis совместим со всеми популярными платформами. Формат не ограничивает пользователя только двумя аудиоканалами (левый и правый), он поддерживает до 255 отдельных каналов с частотой дискретизации до 192 кГц и разрядностью до 32 бит, поэтому Vorbis великолепно подходит для кодирования 6-канального звука DVD-Audio для домашнего кинотеатра.

TTA - True Audio - бесплатный, аудио кодек, осуществляющий сжатие музыкальных файлов без потерь в режиме реального времени. Кодек основан на адаптивных предсказывающих фильтрах и обладает всеми улучшенными характеристиками, как и большинство современных кодеров. Сжатый размер файлов будет на 30 % - 70 % меньше, чем original music file. TTA формат поддерживает тэги ID3v1 и ID3v2. Используя True Audio кодек, можно разместить до 20 audio CD на одном DVD-R диске.

VQF - (Interleave Vector Quanization) - разработан в Японии и основывается на технологии TwinVQ. Если сравнить VQF и MP3, то первый формат на 30-50% будет "компактнее", при одинаковом качестве звука. Это дает VQF - значительное преимущество перед MP3 форматом. Но процесс при кодировании, декодировании (decoder) VQF, занимает примерно на 30% больше ресурсов процессора PC, чем Mp3 аудио.

WAV - (Microsoft Wave) - не менее популярен чем MP3, но wave файлы не имеют сжатия. Звук сохраняется в моно или стерео с частотой дискретизации 44,1 КГц, 8 или 16 бит.

WMA - (Windows Media Audio) разработанный компанией Microsoft, как альтернатива mp3. Многие меломаны недолюбливают формат WMA за большое количество ошибок различного рода, формат WMA постоянно развивается и улучшается. Например, в новых версиях этого расширения добавлены сложные алгоритмы кодирования звука без потерь (lossless), многоканальное кодирование объемного звука - это очень перспективное свойство, для WMA т.к. файлы могут содержать еще и видео данные. Файлы обозначены расширением .wma и .asf.

Формат файла, определяющий структуру представления звуковых данных при хранении на запоминающем устройстве компьютера. Изменение длины аудиофайла при переходе от стереофонической записи к монофонической. Цифровой аналог записи на магнитофонную ленту.

Рубрика Программирование, компьютеры и кибернетика
Вид доклад
Язык русский
Дата добавления 20.02.2014
Размер файла 11,3 K

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Формат файла определяет структуру и особенности представления звуковых данных при хранении на запоминающем устройстве ПК. Выделяют три группы звуковых форматов файлов:

- аудиоформаты без сжатия, такие как (WAV, AIFF);

- аудиоформаты со сжатием без потерь ( FLAC) метод сжатия данных при использовании которого закодированные данные могут быть восстановлены с точностью до бита;

- аудиоформаты, с применением сжатия с потерями (mp3, ogg) метод сжатия (компрессии) данных, при использовании которого распакованные данные отличаются от исходных, но степень отличия не является существенной с точки зрения их дальнейшего использования.

WAV-файлы - это полный аналог записи на магнитофонную ленту, только значения амплитуды сигнала записывается не в аналоговом виде, а в виде последовательности цифровых кодов, соответствующих значению амплитуды звукового согнала в каждый момент времени сигнала.

Файлы с расширением .WAV, к сожалению, довольно громоздки - занимают сотни Кбайт на каждую минуту записи. Так, например, знакомый всем звук аккорда, который проигрывается при завершении загрузки ОС WINDOWS 95 и звучит 6,12 секунды, занимает 135 876 байт.

Информация при записи WAVE-файлов сжимается как аппаратными входящими в состав звуковой платы, так и программными, входящими в состав операционной системы, средствами для уменьшения размеров файла.

Размер файлов зависит, прежде всего, от частоты квантования, задающей число выборок (отсчетов) звукового сигнала в единицу времени. Именно эти выборки представляются АЦП в виде двоичных чисел, несущих информацию о мгновенном значении сигнала в моменты выборок. Звуковые компакт-диски, к примеру, имеют частоту квантования 44.1 кГц. Частота квантования должна быть вдвое выше высшей частоты спектра звуковых сигналов. Практически частота квантования в 44.1 кГц позволяет записывать (и затем воспроизводить) весь частотный диапазон звуковых сигналов - от 20 до 20 000 Гц.

Однако для записей умеренного качества достаточен более узкий диапазон частот - например, для разборчивой речи от примерно 400 до 3 500 Гц. Поэтому при записи WAVE-файлов предусматривается ряд частот квантования, чаще всего от 5 Кгц. до 44-45 Кгц., а точность измерения уровня сигнала может быть выбрана 8 или 16 разрядов. Чем ниже частоты квантования, чем меньше точность измерения, тем меньше (пропорционально) размер WAVE-файлов и хуже качество воспроизведения звука.

Переход от двухканальной (стереофонической) записи с одноканальной (монофонической) уменьшает длину звуковых файлов вдвое. Проигрыватели WAVE-файлов обычно автоматически распознают тип записи и частоту квантования.

AIFF наряду с WAV, является одним из форматов используемых в профессиональных аудио и видео приложениях, так как в отличие от более популярного формата mp3 в нём звук не имеет потерь в качестве. Как и любые несжатые файлы, файлы AIFF занимают намного больше дискового пространства, чем их сжатые аналоги: одна минута стерео звука с частотой дискретизации 44,1 кГц и размером выборки 16 бит занимает около 10МБ.

FLAC популярный свободный кодек, предназначенный для сжатия аудиоданных без потерь.

В отличие от аудио-кодеков, обеспечивающих сжатие с потерями, и FLAC не удаляет никакой информации из аудиопотока и подходит как для прослушивания музыки на высококачественной звуковоспроизводящей аппаратуре, так и для архивирования аудиоколлекции.

Сегодня формат FLAC поддерживается множеством аудиоприложений и портативных аудиоплееров, а также имеет большое количество аппаратных реализаций. По состоянию на 10.03.2010 в libflac-1.2.1 определены следующие типы блоков: StreamInfo, Padding, Application, SeekTable, VorbisComment, CueSheet, Picture, Unknown. Блоки метаданных могут быть любого размера, новые блоки могут быть легко добавлены. Декодер пропускает неизвестные ему блоки метаданных.

Блок STREAMINFO является обязательным. В нём содержатся данные, позволяющие декодеру настроить буферы, частоту дискретизации, количество каналов, количество бит на семпл и количество семплов. Также в блок записывается подпись MD5 несжатых аудиоданных. Это полезно для проверки всего потока после его передачи.

Другие блоки предназначены для резервирования места, хранения таблиц точек поиска, тегов, список разметки аудиодисков, а также данных для конкретных приложений. Опции для добавления блоков PADDING или точек поиска приведены ниже. FLAC не нуждается в точках поиска, однако они позволяют значительно увеличить скорость доступа, а также могут быть использованы для расстановки меток в аудио редакторах.

Существует четыре версии алгоритма сжатия файлов MPEG, которые обозначаются как MPEG-1 - MPEG-4. В Internet наиболее часто используется версия MPEG-1, хотя по мере развития коммуникационных технологий будут внедряться и остальные варианты. Стандарт MPEG-1 определяет три уровня, каждому из которых соответствует свой собственный формат. Усложненные алгоритмы более высокого уровня требуют более длительного времени работы, однако обеспечивают более высокие степени сжатия при сохранении практически точного соответствия оригиналу. Уровень I обеспечивает самую высокую скорость кодирования, а уровень III дает наибольшую степень сжатия при сопоставимом качестве звука. Для звуковых файлов наиболее часто используется MPEG-1 уровня III (расширения файлов .МР3) Все уровни основаны на психоакустических моделях, которые обосновывают выбор частотных составляющих сигнала, которые могут быть отброшены без ущерба для субъективного восприятия качества звучания. Файлы MPEG-1 уровня III сохраняют практически неотличимое от несжатого оригинала качество звучания при степени сжатия до 12:1.

Эта система кодирования звуковых файлов, чрезвычайно широко распространенной в Internet. Существуют специальные музыкальные сервера или отдельные музыкальные страницы, на которых имеются ссылки на музыкальные произведения.

Преимущества данной технологии в том, что информация передается клиенту непосредственно с транслирующего сервера без предварительной загрузки и сохранения на жестком диске компьютера. Однако, качество воспроизведения сильно зависит от скорости канала и качества связи по нему. На линии 14.4 кб/сек - нормальное воспроизведение монофонной программы, на 28.8 кб/сек - стереопрограммы с качеством близким к УКВ приему, на ISDN линиях качество близко к компакт-диску.

Ogg Vorbis - это относительно новый универсальный формат аудио компрессии, официально вышедший летом 2002 года. Он принадлежит к тому же типу форматов, что и МР3, то есть к форматам компрессии с потерями. Психоаккустическая модель, используемая в Ogg Vorbis, по принципам действия близка к МР3, но и только - математическая обработка и практическая реализация этой модели в корне отличаются, что позволяет авторам объявить свой формат совершенно независимым от всех предшественников. звуковой цифровой стереофонический аудиофайл

Главное неоспоримое преимущество формата Ogg Vorbis - это его полная открытость и свободность. Более того, в нем использована новейшая и наиболее качественная психоаккустическая модель, из-за чего соотношение битрейт/качество значительно ниже, чем у других форматов. Как результат - качество звука лучше, но размер файла меньше.

В формате имеется большое количество достоинств. Например, формат Ogg Vorbis не ограничивает пользователя только двумя аудио каналами (стерео - левый и правый). Он поддерживает до 225 отдельных каналов с частотой дискретизации до 192kHz и разрядностью до 32bit (чего не позволяет ни один формат сжатия с потерями), поэтому Ogg Vorbis великолепно подходит для кодирования 6-ти канального звука DVD-Audio. К тому же, формат OGG Vorbis - sample accurate. Это гарантирует, что звуковые данные перед кодированием и после декодирования не будут иметь смещений или дополнительных/потерянных сэмплов относительно друг друга. Это легко оценить, когда вы кодируете non-stop музыку (когда один трек постепенно входит в другой) - в итоге сохранится целостность звука.

MIDI-файлы не являются непосредственной записью звуков, а представляют собой набор команд, какой музыкальный инструмент, какую ноту, какой длительности (и некоторые другие характеристики) использовать. Реальной звуковой информации такие файлы не несут. Они просто указывают, когда и в какой момент должен звучать тот или иной музыкальный инструмент. По какому каналу, с какой громкостью и какими иными звуковыми параметрами. Словом, MIDI-файлы являются набором инструкций для синтезатора музыкальных звуков. Можно сказать, что они подобны нотам, по которым исполняется музыкальное произведение - не случайно есть программы, которые по таким файлам действительно воссоздают нотные записи музыки!

Однако, как и сами ноты это не музыка и для получения ее нужен исполнитель и музыкальный инструмент, так и MIDI-файлы требуют для получения музыки своего инструмента - синтезатора музыки - в простом случае это звуковая плата компьютера. Принцип синтеза здесь следующий - в памяти звуковой платы записываются образцы звучания всех нот нескольких инструментов, от трех до двадцати инструментов. В соответствии с командами из файла, извлекается тот или иной эталон, возможно, модифицируется - изменяется тембр, громкость, высота и преобразуется в аналоговый сигнал и подается на выходной усилитель.

Эти файлы используются для записи и воспроизведения инструментальной музыки и генерации музыкального сопровождения и аранжировки музыкальных произведений.

Такой подход приводит к тому, что MIDI-файлы имеют значительно меньший размер, чем файлы с информацией о реальных звуках. С частотным диапазоном и частотами квантования размеры MIDI-файлов никоим образом не связаны. В результате запись даже довольно длинного музыкального произведения занимает обычно десятки Кбайт (редко до 150-200 Кбайт). Если преобразовать MIDI- файл размером в 20 кб. В WAV-файл, то последний будет около 3 Мб. MIDI-файлы поддерживают работу как обычных музыкальных синтезаторов, использующих частотную модуляцию FM (Frequense Modulation), так и более новых волновых синтезаторов WS.

Подобные документы

Формат звукового файла wav, способ его кодирования. Реализация возможностей воспроизведения звука в среде программирования MATLAB. Составление функциональной схемы программы. Апробирование информационной технологии воспроизведения звуковых файлов.

курсовая работа [1,2 M], добавлен 13.02.2016

Векторный способ записи графических данных. Tехнология сжатия файлов изображений Djvu. Скорость кодирования и размеры сжатых файлов. Сетевые графические форматы. Особенности работы в программе Djvu Solo в упрощенном виде. Разновидности стандарта jpeg.

реферат [23,5 K], добавлен 01.04.2010

Генерирование и сохранение мелодии в виде звукового файла формата wav. Проведение частотного анализа полученного сигнала. Зависимость объема wav-файлов от разрядности кодирования сигнала. Спектр нот записанного wav-файла с заданной разрядностью.

лабораторная работа [191,0 K], добавлен 30.03.2015

Восприятие звуковых раздражений. Частота, амплитуда, фаза как характеристики звука. Представление и способы передачи цифровой информации. Особенности дискретизации звука. Способы записи информации: бит в бит; сжатие; структура болванки CD-R; запись CD-R.

реферат [23,4 K], добавлен 10.11.2009

Работа с файлами на языке Pascal. Типы файлов: типизированные, текстовые, нетипизированные. Сущность процедуры и функции. Использование процедуры Read и Write для операций чтения и записи в типизированном файле. Листинг программы и экранные формы.

В настоящее время звуковая информация является неотъемлемой частью любой мультимедиа системы. В связи с этим возникает проблема хранения звуковых данных. До появления цифровой техники звук хранился в виде, наиболее близком к природному: в виде аналоговых колебаний, записанных на магнитный носитель или виниловый диск. Однако, несмотря на то, что этот способ хранения наиболее точно передает все свойства звука, проблемы хранения и передачи делают невозможным использование этого способа в мультимедиа системах. Возникает необходимость хранения звуковой информации в цифровом виде.

При работе со звуком важно знать не только основные возможности программ, используемых при создании звуковых мультимедиа компонентов, но и основные форматы и параметры цифрового звука. Немаловажную роль при работе со звуком играет понимание процессов преобразования аналогового звука в цифровую форму.

Звуковая информация представляет собой совокупность колебаний звуковой частоты – от 20Гц до 20кГц


Рис.1. Звуковая информация

Наиболее очевидным способом хранения звука в цифровой форме является дискретизация по времени и амплитуде. При этом непрерывный сигнал представляется как последовательность отсчетов, идущих через фиксированные интервалы времени (рис. 2).


Рис.2. Дискретизация по времени и амплитуде

Такое представление называется также импульсно-кодовая модуляция (PulseCodeModulation, PCM). На качество преобразованного звука влияют два параметра: частота дискретизации (samplingrate), и разрядность дискретизации (samplesize). Частота дискретизации показывает, как часто измеряется амплитуда сигнала, а разрядность дискретизации – число битов, используемых для хранения каждого отсчета. Чем выше эти два параметра, тем ближе оцифрованный сигнал будет к исходному аналоговому, в то же время, будет увеличиваться объем данных, кодирующих этот сигнал, и, соответственно, требуемая пропускная способность канала связи. Возникает задача сжатия оцифрованного звука.

- стандарт CD-audio: 44,1 кГц, 16 бит;

- стандарт DVD: 96 кГц, 24 бит.

Форматы цифрового звука

Формат аудиофайла представляет собой спецификацию, описывающую структуру, в которой аудиоданные хранятся в файле. Существование множества звуковых форматов обусловлено множеством областей применения звуковых данных, например, для воспроизведения в CD-приводе, для хранения музыки или звуковых эффектов в видео играх, для записи саундтреков к видеоклипам или для загрузки через Internet.

Рассмотрим некоторые форматы для хранения аудиоданных.

Формат Microsoft Wave

Формат Windows Media Audio

Это специальный формат, позволяющий создавать потоковые аудиофайлы для передачи через Internet, поддерживает видеоданные. Является форматом для операционной системы Windows. Формат WindowsMediaAudio содержит собственные сложные функции сжатия, позволяющие передавать аудиоданные через Internet в режиме реального времени. Файлы WindowsMedia имеют расширения wma и asf.

Формат MPEG Audio ( MP 3)

Формат MPEGAudio использует математические и акустические алгоритмы компрессирования звука, что позволяет во много раз уменьшить количество памяти, занимаемое аудиофайлом, с некоторой потерей качества. Поддерживается практически всеми операционными системами при наличии специализированных программных проигрывателей. Файлы в формате MPEGAudio имеют расширение mp3.

2. Проведение записи

Качество сжатого аудио во многом определяется тем, насколько качественно была осуществлена первичная запись дикторского голоса и как записывалось музыкальное сопровождение.

Общая характеристика программно-аппаратного комплекса записи звука Degidesign Session 8

Благодаря наличию стандартного WAV драйвера Session 8 работает и с другими программными продуктами, включая Cakewalk, Cubase, Sound Froge, Cool Edit и т.п.

3. Обработка

Для компьютерной обработки аудиоинформации существует множество программ и различных программных фильтров, качество обработки определяется профессионализмом персонала и стоимостью программно-аппаратных комплексов.

Описание типового технологического процесса производства звуковых компонентов.

Можно выделить несколько основных этапов технологической цепочки подготовки звукового мультимедиа компонента:

- обработка записанного материала:

a) удаление шумов;

b) монтаж фонограммы в соответствии с техническим заданием.

Монтаж фонограммы предполагает удаление избыточных пауз, сборку речевой фонограммы из нескольких дублей, корректировку оговорок диктора или удаление ненужных музыкальных тем, а также иные действия, предусмотренные техническим заданием;

c) частотная обработка, применение эффектов;

d) выравнивание уровня громкости.

- контрольное прослушивание и сохранение аудиофайла в формате, указанном в техническом задании.

Контрольное прослушивание производится с целью выявления технического брака, ошибок монтажа и проверки соответствия параметров фонограммы техническому заданию.

При создании синхронного саундтрека к видеоряду технологическая цепочка выглядит иначе:

- подготовка исходных материалов:

a) запись и обработка фонограммы дикторского текста;

b) подбор музыкальных фрагментов для фонового сопровождения;

c) подбор звуковых эффектов.

a) предварительное синхронное озвучивание эффектами;

b) монтаж фонограммы дикторского текста;

c) компилирование музыкального саундтрека;

d) мастеринг – сведение фонограмм звуковых эффектов, с записью дикторского текста и музыкального саундтрека.

- контрольное прослушивание и сохранение данных:

a) Контрольное прослушивание (просмотр);

b) сохранение саундтрека в студийном формате (MicrosoftWAVE, PCM (Uncompressed), 16 bit, 44.1 kHz, mono/stereo);

c) сохранение видеофайла в требуемом формате.

Техническое задание

Пример выполнения записи и обработки звукового сопровождения для видеоролика

Озвучить видео ролик, представленный файлом lions.mpg.

Формат фонограммы: MPEG, 16 bit, 44.1 kHz, mono.

Саундтрек должен содержать звуки природы, совпадающие с событиями в сюжете; закадровый дикторский текст. В фонограмме дикторского текста должны быть удалены избыточные паузы между словами.

Параметры фонограммы дикторского текста: пиковый уровень громкости 0 dB, GraphicEQ срез НЧ ниже 160 Hz, DynamicsGraphicCompressorSoftkneecompressor/gate (-24 dBthreshold).

Параметры фонограммы звуковых эффектов: средний уровень громкости –28 dB.

3.1Запись дикторского текста на оборудовании Session 8

После запуска программы сконфигурируем сессию.

Сессия – это проектный файл программы Session 8, в котором хранятся сведения о коммутации каналов, список файлов, записанных в этой сессии.

Необходимо подключить микрофон к микрофонному входу аудио интерфейса Session 8. Затем нужно запустить программную оболочку Session 8 и в ней назначить программный канал, соответствующий входу, куда подключен микрофон. Назначение каналов приведено на рисунке 3.1.


Затем необходимо настроить оборудование, т.е. найти такое положение микрофона, в котором микрофон улавливает минимум электрических и прочих шумов. Также необходимо установить уровень чувствительности канала. Эти настройки влияют на уровень громкости записи.

Управление записью в Session 8 можно осуществлять в окне Edit и в окне Mix:

EditWindow – это встроенный звуковой редактор. Здесь записанный материал представляется в графической форме, редактор позволяет проводить линейный монтаж нескольких аудио треков (не более 8). Также EditWindow позволяет производить запись.

MixWindow – представляет собой виртуальную микшерную консоль. На каждый канал предусмотрены графические регуляторы: уровня громкости, баланса, также есть возможность управления шестью аппаратными эквалайзерами.

- окно Edit удобно использовать, когда все технические параметры записи уже выставлены. При этом планируется запись нескольких дублей, поскольку в этом окне можно видеть имена всех записанных ранее файлов. Также в этом окне удобно работать при многоканальной записи. Диалоговое окно режима приведено на рисунке 3.2.


- окно Mix обычно используется для выставления технических параметров записи. Есть возможность установления программного уровня громкости (не влияет на уровень записи). Здесь назначаются каналы, в которых будет производиться запись. Удобный графический индикатор позволяет в реальном времени контролировать уровень записи и отслеживать перегрузку по амплитуде (Clipping). Диалоговое окно режима приведено на рисунке 3.3.


Для удобства пользователей, управляющие кнопки аналогичны кнопкам воспроизведения/записи на магнитофонах. Session 8 не сможет произвести запись, если ни один из каналов не открыт для записи. Для того чтобы разрешить запись в канале, необходимо предварительно сделать активной кнопку Record-Enable в том канале, в который должна быть произведена запись. Также невозможно производить запись, когда заполнен жесткий диск Session 8. В EditWindow отображается либо свободное место в мегабайтах, либо оставшееся время записи в зависимости от числа открытых для записи каналов. После предварительных настроек, для начала записи необходимо нажать кнопку Record и затем нажать кнопку Play (или клавишу Space на клавиатуре). Остановка записи осуществляется путем нажатия кнопки Stop.

Session 8 осуществляет запись непосредственно на свой жесткий диск (Direct-to-Hard). В отказе программы Session 8, вся несохраненная пользователем информация остается на диске.

По окончании записи необходимо сохранить записанный материал. Для этого нужно воспользоваться пунктом меню File-SaveTakes. После этого запись будет сохранена на жесткий диск компьютера с указанным именем в формате WAVE.

Хотя программная часть комплекса DigidesignSession 8 и предоставляет некоторые возможности по монтажу и обработке записанного звука, лучше воспользоваться более мощным звуковым редактором для достижения более высокого качества звукового файла.

Фонограмма с записью дикторского текста (до монтажа) представлена в Приложении 1, пример 1 (CD-ROM:\Record\BIO_01.wav).

3.2Монтаж и обработка звуковых файлов в SoundForge 6.0

Удаление шумов

Как правило, в записи присутствуют шумы, не редко сравнимые по амплитуде с полезным сигналом. Первый этап обработки звукового файла – это удаление шумов из фонограммы. Окно NoiseReduction приведено на рисунке 3.4.


Удаление квазипостоянного широкополосного шума производится с помощью плагина NoiseReduction. В основе работы этой функции лежит частотное разделение спектра сигнала на 64 полосы. К каждой полосе применяется свой Gate, который подавляет сигнал ниже заданного уровня и пропускает, если уровень выше установленного. Разделение спектра всего сигнала на полосы способствует более точному разделению шума и полезного сигнала. Функция позволяет не только освободить сигнал от шума, но и сохранит шум в отдельном файле, если это необходимо. NoiseReduction можно использовать не только для шумоподавления, но и для удаления любых нежелательных звуков из фонограммы (например, сирены автосигнализации в интервью).

После удаления шума осуществляется монтаж фонограмм в соответствии с требованиями технического задания. Монтаж фонограммы во многом похож на процесс редактирования текста. Отдельно взятые фрагменты речевых фонограмм собираются в единое целое в соответствии с монтажным листом. Музыкальные фонограммы корректируются по длительности, скорости и тональности звучания.

Монтажный лист представляет собой таблицу, в которой указывается имя файла, дикторский текст (для речевых фонограмм) или название музыкального фрагмента, хронометраж файла. В отдельных случаях приводится тайм-код на каждую фразу или музыкальную тему.

SoundForge позволяет использовать буфер обмена данных, производить выделение произвольных областей файла, удалять фрагменты из фонограмм (например, паузы в речи), добавлять фрагменты в фонограмму, корректировать скорость звучания, в том числе без изменения высоты тона и т.д.

При удалении пауз из фонограммы используется автоматизированное средство AutoTrim/Crop в меню Process. Диалоговое окно AutoTrim/Crop представлено на рисунке 3.5.

В этом окне можно задать минимальное расстояние между фразами (Minimuminter-phrasesilence). Все участки тишины, короче заданного значения вырезаны не будут.

Также присутствуют настройки порога атаки (attackthreshold) и порога отпускания (releasethreshold). Порог атаки задает тот уровень громкости, который программа будет считать началом новой фразы, а порог отпускания – это уровень громкости, который программа будет считать концом фразы и начала паузы.


Частотная обработка

Для частотной обработки обычно применяется эквалайзер. Эквалайзер – это устройство или программное средство, позволяющее раздельно управлять громкостью частот в различных диапазонах сигнала. В SoundForge эквалайзер представлен в трех вариантах: графический, параграфический и параметрический.

На рисунке 3.6 показано окно графического эквалайзера. Усиливать или ослаблять частоты можно с помощью смещения точек на кривой выше уровня нуля или ниже. Также графический эквалайзер обладает вкладками 10 Band и 20 Band, которые имитируют аппаратные эквалайзеры.


Параметрический эквалайзер является более мощным и гибким, чем графический эквалайзер. Окно параметрического эквалайзера приведено на рисунке 3.7.


Основное отличие этого эквалайзера от графического – возможность более точного задания частоты и уровня громкости сигнала этой частоты.

Параграфический эквалайзер, в отличии от графического и параметрического, позволяет получить более сложный – нелинейный график коррекции звука. Окно параграфического эквалайзера приведено на рисунке 3.8.


В распоряжении пользователя находятся четыре частотных диапазона, у каждого из которых своя регулировка уровня (четыре вертикальных движка в середине окна под графиком).

Для каждого диапазона можно указать, где он расположен на шкале частот. Эта операция производится с помощью горизонтальных движков Centerfrequency (частота середины диапазона). Также можно регулировать ширину диапазона.

Для работ, связанных с частотной обработкой фонограммы дикторского текста наиболее удобно использовать графический эквалайзер. Параметрический и параграфический эквалайзеры используются для проведения более сложных работ, связанных с частотной обработкой.

Выравнивание уровня громкости

Также как и частотную обработку, выравнивание уровня громкости необходимо производить при издании нескольких фонограмм в рамках одного мультимедиа продукта. Это необходимо для комфортного прослушивания.

В качестве функции для выравнивания уровня громкости удобно использовать Normalize. Эта функция увеличивает громкость звука следующим образом: сначала исследует файл на предмет самого высокого уровня сигнала, а потом вычитает этот уровень из максимально возможного, который равен 100% (или установленному значению). Функция Normalize использует получившуюся разность при увеличении громкости звуковых данных. Самый высокий уровень сигнала в данном файле доводится до 100% (или до установленного значения), а более низкие уровни пропорционально увеличиваются.

Контрольное прослушивание и сохранение аудио файла

Перед сохранением окончательной версии фонограммы, ее необходимо прослушать. В случае выявления дефектов или несоответствия требованиям технического задания, выявленные недостатки необходимо устранить. После устранения брака, производится повторное контрольное прослушивание.

Если фонограмма соответствует требованиям технического задания, выполняется последний этап обработки – сохранение файла. Для возможности изменения обработки полученного файла в будущем, необходимо сохранить его не только в выходном формате (формат, указанный в техническом задании), но и без компрессии (MicrosoftWAVE, PCM (Uncompressed), 16 bit, 44.1 kHz, mono/stereo).

Таблица основных уровней качества звуковых файлов, создаваемых для использования в каналах связи.

В мире музыки существует огромное количество музыкальных форматов их модификаций и версий, созданных гигантами музыкальной индустрии и небольшими компаниями, получившими общественное признание в электронном мире.
Для этих целей были разработаны различные физические методы хранения аудиоданных, например: виниловые пластинки, магнитная лента, компакт-диски, DAT, MD (минидиск), DVD или преобразование нот в музыкальных форматах (MIDI), точно таким же образом появилось множество различных компьютерных методов хранения аудиоданных - digital: OGG, Mp3, Flac, Wav форматов.
Невозможно рассмотреть и обсудить все звуковые форматы, кодеки их достоинства и недостатки, по этому в своей статье мы постараемся рассказать о наиболее популярных расширениях audio files, с которыми Вам, возможно, придется работать.

Вложенные файлы: 1 файл

виды форматов аудио.docx

Музыкальные audio форматы.


В мире музыки существует огромное количество музыкальных форматов их модификаций и версий, созданных гигантами музыкальной индустрии и небольшими компаниями, получившими общественное признание в электронном мире.
Для этих целей были разработаны различные физические методы хранения аудиоданных, например: виниловые пластинки, магнитная лента, компакт-диски, DAT, MD (минидиск), DVD или преобразование нот в музыкальных форматах (MIDI), точно таким же образом появилось множество различных компьютерных методов хранения аудиоданных - digital: OGG, Mp3, Flac, Wav форматов.
Невозможно рассмотреть и обсудить все звуковые форматы, кодеки их достоинства и недостатки, по этому в своей статье мы постараемся рассказать о наиболее популярных расширениях audio files, с которыми Вам, возможно, придется работать.


Почему мы не можем использовать какой ни будь один универсальный формат кодирования аудио-файлов?

Потому, что для реализации различных функций необходим свой формат. Например: для воспроизведения CD в дисководе компакт-дисков, для записи музыки или звуковых эффектов в видеоиграх, для записи дорожки фильма или видеоклипа, для проигрывания в мобильных телефонах или передачи файлов через Интернет, кроме того, существует ряд операционных систем получивших наибольшее распространение в мире. В их число входят: Amiga, Macintosh, NEXT и персональные компьютеры с операционной системой Windows. Кроме того работа dj, звукорежиссера, cj, видеоинженера или простого любителя музыки - достаточно сильно отличаются по своей сути. Для этого может потребоваться, чтобы Ваши аудиоданные были сохранены своим способом. Например, звук для компакт-диска должен быть сохранен с использованием разрядности 16 бит и частоты сэмплирования 44,1 кГц. Однако для загрузки звука через Интернет нам лучше использовать другую разрядность и частоту сэмплирования, поскольку каждая минута 16-битного, 44-килогерцевого звука занимает примерно 10 Мбайт, т.е. средний трэк продолжительностью 5 минут составит 50 "метров" - это слишком большой объем данных для среднестатистического пользователя. В этой статье представлена краткая информация о самых популярных музыкальных форматах.

AA (Audible Audio Book File)

AA (Audible Audio Book File) - формат является закрытым, разработан компанией Audible. Применяется, для записи аудиокниг, которые продаются через сервисы Audible и iTunes. Существует возможность замедлять или ускорять скорость прослушивания файлов - digital pitch, возможность оставлять закладки при прослушивании аудио книг, защита файлов, при доставке звуковых записей посредством internet.

AAC (Advanced Audio Coding)

AAC (Advanced Audio Coding) - формат аудио-файла с меньшей потерей качества при кодировании, чем Mp3 при одинаковых размерах. Кодирование музыки без потерь качества оригинала с помощью профиля ALAC. AAC - семейство алгоритмов аудио кодирования MPEG4. В отличие от гибридного набора фильтров mp3, AAC использует MDST технологию (модифицированное косинусное преобразование) - это значит, что слушатель получает более лучшее качество звука, чем при MP3 кодировании с таким же или меньшим битрейтом. Возможные расширения AAC файлов: .m4a . m4b .m4p.

AIFF - Это формат аудиоданных для платформы Apple Macintosh. Формат .aiff поддерживает 8бит и16-битные mono и stereo. Если файлы этого формата содержат заголовок Mac-Binary (тексты, фото, информацию о правообладателе, единый номер и т.п.), в этом случае файл будет иметь расширение .snd. Аудиофайл с расширением .snd можно прослушать с помощью программы Sound Forge. "Форж" конечно откроет такой файл, но распознает его, как формат Macintosh Resource, на качестве звучания - это не отразится.

APE (Monkey's Audio)

APE - (Monkey's Audio), разработчик Мэтью Т. Эшланд - формат цифрового звука без потерь качества (lossless). Кодек Monkey's Audio выпускается только для платформы Microsoft Windows, хотя существует ряд неофициальных кодеков для MacOS, Linux, BeOS. Файлы Monkey's Audio используют следующие расширения: .ape - для хранения аудио и .apl - для хранения метаданных. Данный формат не является свободным, т.к. лицензия на него серьезно ограничивает распространение .ape files.

DTS - Digital Theater System , по сути - это Dolby Digital, а точнее его конкурент. Формат DTS использует минимальный уровень сжатия, чем Dolby, так что фактически он звучит лучше, что доказывают на практике DVD диски, на которых записаны дорожки в DTS или в DD формате. DTS в домашних кинотеатрах используется максимальный битрейт 1,536 kbps (full bitrate), такой звук более качественный, чем AC-3 format от Dolby Digital. DTS - использует 6 свободных аудио дорожек и поддерживает систему распределения звука 7.1, при таком битрэйте DTS 4.0 - будет звучать также объемно, как и "Долби" 5.1.

FLAC - (Free Lossless Audio Codec ). В отличие от кодеков с потерями - Mp3, Ogg и AAC, не удаляет никакой информации из аудиопотока и предназначен для прослушивания музыки на высококачественной Hi-Fi, Hi-End аппаратуре и для архивирования профессиональной аудио-коллекции. В настоящее время формат FLAC поддерживается многими аудио плейерами и музыкальными приложениями. Чтобы хранить основные типы метаданных, базовый декодер использует теги ID3v1 и ID3v2, поэтому их можно свободно добавлять и редактировать.

MIDI - (Musical Instrument Digital Interface ), в отличие от других форматов, MIDI хранит не цифровой звук, а наборы команд: проигрываемые ноты, ссылки на инструменты, параметры звука. Удобство формата MIDI, заключается в использовании устройства, производящего аранжировку по обозначенным аккордам. Миди файлы, как правило, имеют на несколько порядков меньший размер, чем оцифрованный звук такого же качества. Формат MIDI - универсален и разработан так, чтобы любой секвенсор мог читать и записывать данные без потерь. При этом, непонятная другим программным приложениям информация MIDI - не приводит к недоразумениям, а просто игнорируется. Мидюшный формат минусовки позволяет сохранять информацию об используемом инструменте, темпе, обозначении размера, информацию о музыкальных ключах, названии трека и паттернов и их количестве.

MP3 - (MPEG Layer версия 3) На данный момент, MP3 является самым популярным форматом цифрового кодирования музыки. MP3 является форматом сжатия с потерями, то есть часть звуковой информации, согласно психоакустической модели, ухо человека воспринять практически не может удаляется из исходного файла - безвозвратно. До сих пор не утихают споры по поводу качества Mp3…Во-первых, качество полученного MP3 зависит не только от битрейта сжатого файла, но и от версии используемой кодирующей программы - кодека. Многие музыкальные гурманы, предпочитают сжимать музыку с "максимальным качеством" - 320kbps, либо переходить на другие форматы, например FLAC, где битрейт в среднем ~1000 kbps. На данный момент MP3 является лидером по общепризнанности, но при этом не является профессиональным, по техническим параметрам, форматом. Профессиональные музыканты и dj уже давно не используют треки с битрейтом менее 320kbps.

MOD - формат разработан для платформы Amiga. Каждый файл MOD содержит оцифрованные записи real звучания инструментов, так называемые сэмплы, чем-то похож на структуру MIDI. Cj или композитор, пишущий в формате MOD, применяет программу, называемую трэкером, в которой указывает, какой именно инструмент, в какое время, какой нотой и октавой должен прозвучать - эта последовательность нот записывается в список - трек, а несколько параллельно звучащих треков образуют блок, называемый паттерном. Совокупность паттернов образует модуль - файл в формате MOD, с расширением .mod. Одна линейка трекера соответствует одному реальному каналу, в котором cj может проиграть или отредактировать пронумерованные ноты. Нотам могут назначаться различные "орнаментами" - например: тремоло, глиссандо и т.д..

OGG - Vorbis был разработан в 2002 г. коллективом Xiphophorus, как альтернатива всем платным лицензионным аудио форматам. Ogg Vorbis совместим со всеми популярными платформами. Формат не ограничивает пользователя только двумя аудиоканалами (левый и правый), он поддерживает до 255 отдельных каналов с частотой дискретизации до 192 кГц и разрядностью до 32 бит, поэтому Vorbis великолепно подходит для кодирования 6-канального звука DVD-Audio для домашнего кинотеатра.

TTA - True Audio - бесплатный, аудио кодек, осуществляющий сжатие музыкальных файлов без потерь в режиме реального времени. Кодек основан на адаптивных предсказывающих фильтрах и обладает всеми улучшенными характеристиками, как и большинство современных кодеров. Сжатый размер файлов будет на 30 % - 70 % меньше, чем original music file. TTA формат поддерживает тэги ID3v1 и ID3v2. Используя True Audio кодек, можно разместить до 20 audio CD на одном DVD-R диске.

VQF - (Interleave Vector Quanization) - разработан в Японии и основывается на технологии TwinVQ. Если сравнить VQF и MP3, то первый формат на 30-50% будет "компактнее", при одинаковом качестве звука. Это дает VQF - значительное преимущество перед MP3 форматом. Но процесс при кодировании, декодировании (decoder) VQF, занимает примерно на 30% больше ресурсов процессора PC, чем Mp3 аудио.

WAV - (Microsoft Wave) - не менее популярен чем MP3, но wave файлы не имеют сжатия. Звук сохраняется в моно или стерео с частотой дискретизации 44,1 КГц, 8 или 16 бит.

WMA - (Windows Media Audio) разработанный компанией Microsoft, как альтернатива mp3. Многие меломаны недолюбливают формат WMA за большое количество ошибок различного рода, формат WMA постоянно развивается и улучшается. Например, в новых версиях этого расширения добавлены сложные алгоритмы кодирования звука без потерь (lossless), многоканальное кодирование объемного звука - это очень перспективное свойство, для WMA т.к. файлы могут содержать еще и видео данные. Файлы обозначены расширением .wma и .asf.

Читайте также: