Доклад на тему формат mp3

Обновлено: 28.06.2024

MP3 (формально MPEG-1 Audio Layer III или MPEG-2 Audio Layer III) - это формат аудиокодирования для цифрового звука. Первоначально определяемый как третий аудиоформат стандарта MPEG-1, он сохранялся и расширялся, определяя дополнительные скорости передачи битов и поддерживая большее количество аудиоканалов - в качестве третьего аудиоформата следующего стандарта MPEG-2. Третья версия, известная как MPEG 2.5, расширенная для лучшей поддержки более низких скоростей передачи, обычно реализуется, но не является признанным стандартом.

MP3 (или mp3) в качестве формата файла обычно обозначает файлы, содержащие элементарный поток данных MPEG-1 для аудио и видео, без других сложностей стандарта MP3.

Сжатие MP3 работает, уменьшая (или приближая) точность некоторых компонентов звука, которые, как считается, превосходят возможности слуха большинства людей. Этот метод обычно называют перцепционным кодированием или психоакустическим моделированием. Затем оставшаяся аудиоинформация записывается экономически эффективным способом. По сравнению с цифровым аудио качеством CD, компрессия MP3 обычно может достигать сокращения на 75-95%. Например, MP3, закодированный с постоянным битрейтом 128 кбит / с, привел бы к файлу примерно на 9% от размера исходного аудио CD.

Кроме того, разработанный в виде потокового формата, сегменты передачи могут быть потеряны без ущерба для способности декодировать более поздние сегменты.

Содержание

История

Разработка

Алгоритм сжатия аудиоданных MP3 использует преимущество перцепционного ограничения человеческого слуха, называемого слуховой маскировкой. В 1894 году американский физик Альфред М. Майер сообщил, что тон может быть не слышен другим тоном более низкой частоты. В 1959 году Ричард Эмер описал полный набор слуховых кривых относительно этого явления. Эрнст Терхардт и др. создал алгоритм, описывающий слуховую маскировку с высокой точностью. Эта работа была дополнена множеством отчетов от авторов, относящихся к Флетчеру, и к работе, которая изначально определяла критические отношения и критические полосы пропускания.

Психоакустический маскирующий кодек был впервые предложен в 1979 году, по-видимому, независимо, Манфредом Р. Шредером и др. из Bell Telephone Laboratories, Inc. в Мюррей-Хилл, Нью-Джерси и М. А. Краснера, как в Соединенных Штатах. Краснер первым опубликовал и выпустил аппаратное обеспечение для речи (не используемое как сжатие битов музыки), но публикация его результатов как относительно неясного Технического отчета лаборатории Линкольна не сразу повлияла на основное направление развития психоакустического кодека. Манфред Шредер уже был известной и почитаемой фигурой во всемирном сообществе акустических и электротехнических инженеров, но его статья была мало заметна, поскольку она описала отрицательные результаты из-за специфики речи и коэффициента линейного предсказательного кодирования (LPC) присутствовать в речи.

Генезис технологии MP3 полностью описан в статье профессора Ханса Мусмана, который в течение нескольких лет возглавлял группу ISO Audio Audio. В декабре 1988 года MPEG назвал стандарт звукового кодирования. В июне 1989 года было представлено 14 алгоритмов кодирования звука. Из-за некоторого сходства между этими предложениями кодирования они были объединены в четыре группы развития. Первой группой была MUSICAM, Matsushita, CCETT, ITT и Philips. Вторая группа - ASPEC, AT & T, France Telecom, Fraunhofer Gesellschaft, Deutsche и Thomson-Brandt. Третьей группой был ATAC, Fujitsu, JVC, NEC и Sony. И четвертая группа была SB-ADPCM, NTT и BTRL.

Еще один предшественник формата и технологии MP3 можно найти в перцепционном кодеке MUSICAM на основе целочисленного набора фильтров из 32 поддиапазонов, управляемых психоакустической моделью. Он был в основном предназначен для цифрового аудиовещания (цифрового радио) и цифрового телевидения, а его основные принципы были раскрыты научным сообществом CCETT (Франция) и IRT (Германия) в Атланте во время конференции IEEE-ICASSP в 1991 году после работая над MUSICAM с Matsushita и Philips с 1989 года.

Этот кодек, встроенный в систему вещания с использованием модуляции COFDM, был продемонстрирован в эфире и на поле вместе с Radio Canada и CRC Canada во время шоу NAB (Лас-Вегас) в 1991 году. Реализация аудиочасти этой радиовещательной системы была основанный на кодере с двумя чипами (один для преобразования поддиапазонов, один для психоакустической модели, разработанный группой G. Stoll (IRT Germany), позже известной как психоакустическая модель I), и декодер реального времени с использованием одного чипа DSP от Motorola 56001 целочисленное программное обеспечение для арифметики, разработанное YF Команда Дери (CCETT, Франция). Простота соответствующего декодера вместе с высоким качеством звука этого кодека, использующим в первый раз частоту дискретизации 48 кГц, формат ввода 20 бит / выборка (самый высокий доступный стандарт выборки в 1991 году, совместимый с профессиональным цифровым AES / EBU входной студийный стандарт) были основными причинами, по которым позже были приняты характеристики MUSICAM в качестве основных функций для усовершенствованного кодека сжатия цифровой музыки.

Во время разработки программного обеспечения для кодирования MUSICAM команда Stoll и Dehery тщательно использовала набор высококачественных аудиоматериалов для оценки звука, выбранных группой профессионалов в области звукозаписи из Европейского вещательного союза, а затем использовалась в качестве справочной информации для оценки музыкальных компрессионных кодеков. Было обнаружено, что метод кодирования поддиапазона эффективен не только для перцептивного кодирования высококачественных звуковых материалов, но особенно для кодирования критических ударных материалов (барабанов, треугольников, . ) из-за специфического временного маскирующего эффекта MUSICAM (это преимущество является специфической особенностью коротких преобразований).

Стандартизация

В 1991 году было представлено два предложения, которые были оценены для стандарта аудио MPEG: MUSICAM (адаптированное к маскам универсальное универсальное кодирование и мультиплексирование поддиапазонов) и ASPEC (адаптивное спектральное восприятие энтропийного кодирования). Как предложено голландской корпорацией Philips, французским научно-исследовательским институтом CCETT и немецким институтом стандартов Broadcast Technology, технология MUSICAM была выбрана благодаря своей простоте и надежности ошибок, а также ее высокому уровню вычислительной эффективности Формат MUSICAM, основанный на кодировании поддиапазонов, стал основой формата сжатия MPEG Audio, включающего, например, его структуру кадра, формат заголовка, частоту дискретизации и т. Д.

Хотя большая часть технологий и идей MUSICAM была включена в определение MPEG Audio Layer I и Layer II, только банк фильтров и структура данных, основанная на 1152 выборках кадров (формат файла и байт-ориентированный поток) MUSICAM, остались на Уровне III ( MP3), как часть вычислительно неэффективного гибридного банка фильтров. Под председательством профессора Мусмана из Ганноверского университета редактирование стандарта было передано голландцам Леон ван де Керхоф, немецкому Герхарду Столлу, французу Ив-Франсуа Дери, работающему на Уровне I и Уровне II. ASPEC было совместным предложением AT & T Bell Laboratories, Thomson Consumer Electronics, Общества Фраунгофера и CNET. Это обеспечило максимальную эффективность кодирования.

Рабочая группа, состоящая из ван де Керхофа, Столла, итальянца Леонардо Чиарильоне (CSELT VP for Media), француза Ив-Франсуа Дери, немецкого Карлхайнца Бранденбурга и американского Джеймса Д. Джонстона (США), взяла идеи от ASPEC, объединила банк фильтров от Layer II, добавили некоторые из своих собственных идей, таких как совместное стерео кодирование MUSICAM и создали формат MP3, который был разработан для достижения такого же качества со скоростью 128 кбит / с, как MP2 со скоростью 192 кбит / с.

Алгоритмы для MPEG-1 Audio Layer I, II и III были одобрены в 1991 году и завершены в 1992 году как часть MPEG-1, первого стандартного набора MPEG, что привело к международному стандарту ISO / IEC 11172-3 (также известный как MPEG-1 Audio или MPEG-1 Part 3), опубликованный в 1993 году. Файлы или потоки данных, соответствующие этому стандарту, должны обрабатывать частоты дискретизации 48k, 44100 и 32k и продолжать поддерживаться текущими MP3-плеерами и декодерами. Таким образом, первое поколение MP3 определило 14 * 3 = 42 интерпретации структур данных фрейма MP3 и макетов размера.

MPEG-2,5 не был разработан MPEG и никогда не был утвержден в качестве международного стандарта. Таким образом, MPEG-2.5 является неофициальным или проприетарным расширением формата MP3. Это, тем не менее, повсеместно и особенно выгодно для человеческих речевых приложений с низкой битовой скоростью. [Источник 2]

Релиз

Реализация программного обеспечения эталонного моделирования, написанная на языке C, а позже известная как ISO 11172-5, была разработана (в 1991-1996 годах) членами комитета ISO Audio Audio для создания совместимых с битами файлов аудио MPEG (Layer 1, Уровень 2, уровень 3). Он был утвержден в качестве технического проекта технического документа ИСО / МЭК в марте 1994 года и напечатан в качестве документа CD 11172-5 в апреле 1994 года. Он был утвержден в качестве проекта технического доклада (DTR / DIS) в ноябре 1994 года, который был завершен в 1996 году и опубликован в качестве международного стандарта ISO / IEC TR 11172-5: 1998 в 1998 году. Справочное программное обеспечение на языке C позднее было опубликовано как свободно доступный стандарт ISO. Работая в не-реальном времени в ряде операционных систем, он смог продемонстрировать первое аппаратное декодирование в реальном времени (на основе DSP) сжатого аудио. Некоторая другая реализация MPEG-кодов и декодеров MPEG в режиме реального времени была доступна для цифрового вещания (радио DAB, телевизионный DVB) для потребительских приемников и телевизионных пристав.

Интернет реализация

Во второй половине 1990-х годов файлы MP3 начали распространяться в Интернете, часто через подземные пиратские сети. Первый известный эксперимент в области распространения Интернета был организован в начале 1990-х годов Интернет-архивом подземной музыки, более известным под аббревиатурой IUMA. После некоторых экспериментов с использованием несжатых аудиофайлов этот архив начал поставлять на родной во всем мире низкоскоростной Интернет несколько сжатых аудиофайлов MPEG, используя формат MP2 (Layer II), а затем использованные MP3-файлы, когда стандарт был полностью завершен. Популярность MP3 начала быстро расти с появлением аудиоплеера Nullsoft Winamp, выпущенного в 1997 году. В 1998 году был выпущен первый портативный твердотельный цифровой аудиоплеер MPMan, разработанный SaeHan Information Systems со штаб-квартирой в Сеуле, Южная Корея и Rio PMP300 был продан впоследствии в 1998 году, несмотря на попытки юридического подавления RIAA.

Файловая структура

Совместный стереофонический режим выполняется только на основе кадр-кадр.

Кодирование и декодирование

Стандарт MPEG-1 не содержит точной спецификации для MP3-кодировщика, но предоставляет примерные психоакустические модели, петлю скорости и т. П. В ненормативной части исходного стандарта. MPEG-2 удваивает количество поддерживаемых частот дискретизации, а MPEG-2.5 добавляет еще 3. Когда это было написано, предлагаемые реализации были весьма устаревшими. Разработчики стандарта должны были разработать свои собственные алгоритмы, подходящие для удаления части информации с аудиовхода. В результате стало доступно множество различных кодеров MP3, каждый из которых создает файлы различного качества. Сравнения были широко доступны, поэтому потенциальному пользователю кодера было легко исследовать лучший выбор. Некоторые кодировщики, которые умели кодировать при более высоких скоростях передачи (например, LAME), не всегда были хорошими при более низких скоростях передачи. Со временем LAME эволюционировала на веб-сайте SourceForge, пока не стала де-факто кодировщиком CBR MP3. Позднее был добавлен режим ABR. Работа продвигалась по истинной переменной скорости передачи данных с использованием цели качества между 0 и 10. В конечном счете номера (например, -V 9.600) могут генерировать отличное качество кодирования с низким битрейтом с частотой всего 41 кбит / с с использованием расширений MPEG-2.5.

Во время кодирования берутся 576 выборок во временной области и преобразуются в 576 выборок частотной области. Если есть переходный процесс, вместо 576 берутся 192 выборки. Это делается для ограничения временного распространения шума квантования, сопровождающего переходный процесс. Частотное разрешение ограничено небольшим размером окна большого блока, что снижает эффективность кодирования. Временное разрешение может быть слишком низким для высокопрерывных сигналов и может вызвать смазывание ударных звуков.

Качество

При выполнении кодирования с потерями звука, например, при создании потока данных MP3, существует компромисс между объемом данных и качеством звука результатов. Человек, генерирующий MP3, выбирает скорость передачи битов, которая определяет, сколько килобит в секунду требуется для аудио. Чем выше скорость передачи данных, тем больше будет поток данных MP3, и, как правило, чем ближе он будет звучать до первоначальной записи. При слишком низкой битовой скорости артефакты сжатия (т. Е. Звуки, отсутствующие в исходной записи) могут быть слышны при воспроизведении. Некоторый звук трудно сжимать из-за его случайности и резких атак. Когда этот тип аудио сжимается, обычно слышны артефакты, такие как звон или предварительное эхо. Хорошие примеры артефактов сжатия - образец аплодисментов или инструмента треугольника с относительно низкой скоростью передачи. Большинство субъективных тестов восприятия кодеков, как правило, избегают использования этих типов звуковых материалов, однако артефакты, создаваемые ударными звуками, едва заметны из-за специфической временной маскировочной функции 32 поддиапазонного набора фильтров уровня II, на котором основан формат ,

Помимо битовой скорости кодированного фрагмента звука качество звука в формате MP3 также зависит от качества алгоритма кодирования, а также от сложности кодируемого сигнала. Поскольку стандарт MP3 позволяет довольно немного свободы с помощью алгоритмов кодирования, разные кодировщики имеют отличное качество даже при одинаковых скоростях передачи. Например, в публичном тестовом тестировании с двумя ранними кодировщиками MP3, установленными со скоростью около 128 кбит / с, один 3,66 в масштабе 1-5, а другой набрал только 2,22. Качество зависит от выбора параметров кодировщика и кодирования.

Метаданные

Программное обеспечение для воспроизведения и редактирования часто содержит функции редактирования тегов, но есть также приложения для редактирования тегов, предназначенные для этой цели. Помимо метаданных, относящихся к аудиосодержанию, теги могут также использоваться для DRM. ReplayGain - это стандарт для измерения и хранения громкости файла MP3 (нормализация звука) в теге метаданных, позволяющий проигрывателю, совместимому с ReplayGain, автоматически настраивать общий объем воспроизведения для каждого файла. MP3Gain может использоваться для обратимого изменения файлов на основе измерений ReplayGain, так что скорректированное воспроизведение может быть достигнуто на проигрывателях без возможности воспроизведения ReplayGain.

Лицензия

Основная технология декодирования и кодирования MP3 не распространяется на патенты в Европейском союзе, и все патенты истекли к ней не позднее 2012 года. В Соединенных Штатах технология 16 февраля 2017 года стала практически не имеющей патентов. Большинство патентов на MP3 истекло в США в период с 2007 по 2015 год. В прошлом многие организации заявляли о праве собственности на патенты, связанные с декодированием или кодированием MP3. Эти претензии привели к ряду юридических угроз и действий из самых разных источников. В результате неопределенность в отношении того, какие патенты должны быть лицензированы для создания продуктов MP3 без нарушения патентных прав в странах, которые разрешают патенты на программное обеспечение, является общей чертой ранних этапов принятия технологии.

Первоначальный почти полный стандарт MPEG-1 (части 1, 2 и 3) был общедоступным 6 декабря 1991 года как ISO CD 11172. В большинстве стран патенты не могут быть поданы после того, как предыдущий уровень был обнародован, а патенты истекают через 20 лет после первоначальной даты подачи заявки, которая может быть до 12 месяцев позже для подачи заявок в других странах. В результате патенты, необходимые для внедрения MP3, истекли в большинстве стран к декабрю 2012 года, через 21 год после публикации ISO CD 11172.

Исключением являются Соединенные Штаты, где действующие патенты, поданные до 8 июня 1995 года, истекают после более позднего 17 лет с даты выпуска или 20 лет с даты приоритета. Длительный процесс патентного преследования может привести к выдаче патента намного позже, чем обычно ожидалось. Различные патенты, связанные с MP3, истекли в период с 2007 по 2017 год в Соединенных Штатах. Патенты на что-либо, раскрытые в ISO CD 11172, поданные через год или более после публикации, сомнительны. Если рассматривать только известные патенты на MP3, поданные к декабрю 1992 года, то декодирование MP3 было патентованным в США с 22 сентября 2015 года, когда истек патент США № 5,812,672, в котором была подана заявка РСТ в октябре 1992 года. Если в качестве меры принимается самый длинный патент, упомянутый в вышеупомянутых ссылках, тогда технология MP3 перестала быть свободной от патентов в Соединенных Штатах 16 апреля 2017 года, когда в патенте США 6 009 399, проведенном и управляемом Technicolor истек. В результате многие бесплатные программные проекты с открытым исходным кодом, такие как операционная система Fedora, решили начать загрузку поддержки MP3 по умолчанию, и пользователям больше не придется прибегать к установке неофициальных пакетов, поддерживаемых сторонними репозиториями программного обеспечения для MP3 воспроизведения или кодирования.

Юридические ограничения. Патентом на MP3 владеет компания Alcatel-Lucent, которая требовала лицензирования некоторых способов использования формата (срок действия связанных с MP3 патентов истёк 23 апреля 2017). В США изобретения, публично раскрытые более года, не могут быть запатентованы; однако для патентов, оформленных до 8 июня 1995 года (почти полный стандарт появился в открытом доступе 6 декабря 1991), существовала возможность увеличить их сроки действия. Известные патенты, касающиеся расшифровки MP3, прекратили действие в США к декабрю 2012; по другим данным, если учитывать только патенты, заявка на которые была подана до декабря 1992 года, этого не произошло в сентябре 2015 года.

История MP3: как создавался популярный аудиоформат

23 апреля 2017 года создатель и правообладатель аудиоформата MP3 заявил об истечении всех патентов на технологию. То есть Институт интегральных схем общества Фраунгофера больше не поддерживает и не развивает MP3, таким образом отдав формат общественности. У этого самого популярного способа хранения музыки довольно интересная и насыщенная судьба. Историю создания MP3 читайте на Трешбоксе.

Содержание

Как все начиналось

История MP3: как создавался популярный аудиоформат


Карлхейнц Бранденбург

История MP3: как создавался популярный аудиоформат


Команда ученых Института общества Фраунгофера


Официальный логотип MPEG Layer III

Одним из главных направлений в MPEG был перенос видео на CD-диски. Для каждого формата были расписаны главные направления использования. Работавшие над аудио-кодированием люди разделились на несколько групп, которые работали над разными версиями стандарта — так называемыми слоями: Layer I, Layer II, Layer III. Самым сложным и крутым в плане возможностей кодирования был третий слой.

Песня, которая помогла создать MP3

В 1988 году разработчики уже были уверены, что MPEG Audio Layer III завершен и технология полностью готова для утверждения в ISO. Однако так считалось до тех пор, пока Бранденбург не послушал акапельную версию песни Tom's Diner певицы Сюзанны Вега. Песня была записана на выступлении с небольшой аудиторией и без инструментов. Это был худший вариант для MPEG Audio Layer III — звучала песня просто ужасно. Голос Сюзанны был сильно искажен. Тогда ученые принялись дорабатывать технологию.

Бранденбург и компания привлекли Джима Джонстона (Jim Johnston) из AT&T для улучшения звучания песни в кодировании MPEG Audio Layer III. В результате сам Бранденбург прослушал Tom's Diner примерно 1 000 раз. И после этого ему все еще нравится песня. Ученые добились нормального звучания. После этого Карлхейнц посетил концерт Сюзанны Вега, где его поразил голос певицы — он был такой же, как и на CD. Настолько хорошо работала система кодирования MPEG. Таким образом Suzanne Vega − Tom's Diner — первая переконвертированная в MP3 песня.

После еще четырех лет доработок, в 1992 году организация ISO наконец-то утвердила технологию MPEG для цифрового кодирования аудио. Однако на старте стандарт не получил большого распространения. Некоторые звукозаписывающие компании начали использовать MPEG, но только Layer II, так как считали третий слой слишком сложным в обращении.

Коммерческое использование и бум в интернете

С 1993 по 1994 год технология MPEG Audio Layer III не стала популярной даже среди коммерческих клиентов. Среди первых компаний, которые попробовали систему кодирования, была американская Telos Systems. Эти ребята отправляли звукозаписи по ISDN в свои студии. Таким образом, MPEG выполнял свою оригинальную задачу.

В 1994 году ученые из группы MPEG собрались в немецком городе Эрланген, где они посовещались и решили сделать свою технологию стандартом для передачи аудио в интернете. И тут началось.

История MP3: как создавался популярный аудиоформат


Тот самый Winamp, открывший MP3 пользователям Windows

Не зря 1995-й считают годом рождения MP3. Именно 14 июля 1995 года в Эрлангене было решено, что разрешением для формата музыки в интернете будет .mp3. Примечательно, что 10 лет спустя, 14 июля 2005 года создатели формата провели вечеринку в честь Дня рождения MP3. У многих инженеров и ученых до сих пор хранится то самое электронное письмо, которое команда MPEG разослала по Институту общества Фраунгофера, чтобы рассказать о наименовании формата .mp3.

Интернет стал настоящим домом для MP3. Ученые выбрали простую бизнес-модель для формата: инструменты кодирования MPEG были очень дорогими и предназначались для больших звукозаписывающих студий, а вот инструменты декодирования MPEG Audio Layer III для воспроизведения настоящих звуков из файлов должны быть дешевыми и доступными. Программа Winamp стала одним из самых первых плееров MP3. Именно она широко распространила декодирование MPEG Layer III. Создатели программы платили патентные отчисления Институту общества Фраунгофера.

История MP3: как создавался популярный аудиоформат


Пиратская программа от Compress ‘Da Audio’s

По итогам 1997 года казалось, что эту лавину уже не остановить. В интернете тут и там нелегально распространяли музыку в формате MP3. Звукозаписывающие компании были в шоке и не знали что делать. Карлхейнц Бранденбург и его друзья-инженеры встречались с представителями крупных компаний и пришли к выводу, что им придется адаптироваться к сложившейся ситуации.

Создание Napster и полная победа пиратства

В 1999 году на основе P2P-сетей был создан сервис Napster. В нем любой человек мог обмениваться MP3-музыкой с другими пользователями. Хотя уже в 2000-м сервис закрылся из-за судебного иска группы Metallica, он оставил большой отпечаток на общей интернет-культуре обмена музыки. Тогда же была созвана очередная коллегия по вопросам безопасного и легального обмена музыки в интернете.

История MP3: как создавался популярный аудиоформат


Интерфейс Napster, напоминающего современные торрент-клиенты

На этом мероприятии Карлхейнц Бранденбург выдвинул идею по созданию подобия современной DRM-системы — защищенной версии MP3 для всех грядущих сервисов и устройств. Таким образом, пиратская музыка просто бы не воспроизводилась в этих продуктах. Однако идея так и не получила воплощения, по крайней мере в рамках всего формата MP3. Все пришли к выводу, что единство и простота использования все же важнее.

Наследие MP3

Сейчас музыкальное пиратство — это неотъемлемая часть интернета. Все привыкли, что музыку можно скачать бесплатно в формате, который поддерживается любой программой, портативным плеером и телефоном. Тем не менее, MP3 сыграл большую роль в развитии интернета. Благодаря нему появились многие стриминговые сервисы и сайты. Плееры iPod обязаны своей популярностью именно распространенному и универсальному аудиоформату.

История MP3: как создавался популярный аудиоформат

Так же, как и дни плееров iPod подошли к концу, сейчас заканчивается эпоха MP3. Большинство платных и даже бесплатных стриминговых сервисов перешли на AAC или какую-то его версию. Сами создатели считают, что будущее за семейством форматов MPEG-H.

Умер или возродился?

Однако у так называемой смерти MP3 есть обратная сторона медали — формат стал полностью свободным. Настолько свободным, каким он еще никогда не был. Теперь MP3 может использовать каждый человек и даже в коммерческих продуктах. Напомним, одним из недостатков Linux-дистрибутивов был тот факт, что они не поставлялись с MP3-декодером из коробки. Грубо говоря, установив какую-нибудь Ubuntu без дополнительных пакетов, нельзя было банально послушать музыку в распространенном формате. Эта ситуация должна измениться, ведь разработчики дистрибутивов имеют полное право включать поддержку MPEG Layer III в свои продукты. Компания Red Hat будет одной из первых.

История MP3: как создавался популярный аудиоформат


Опциональная установка мультимедиа-кодеков в Ubuntu (только по интернету)

Разработчики плееров и различных мультимедиа-приложений не должны платить отчисления за покупку патентов на MP3. Все это наверняка даст второе дыхание для казалось бы устаревшего формата. Но как будет на самом деле — узнаем только когда пройдет время.

Презентация на тему: " Описание формата МР 3 MP3 – это наиболее популярный формат хранения и передачи информации в цифровой." — Транскрипт:

1 Выполнил студент 11 ИБ группы Шарафутдинов Ш.И.

2 Описание формата МР3 MP3 – это наиболее популярный формат хранения и передачи информации в цифровой форме, использующий компрессию сигнала. Разработан немецкой компанией Fraunhofer IIS и позднее, при поддержке фирмы THOMSON, внедрён как часть видеоформатов MPEG1 и MPEG2. Обеспечивает высокое качество звука при сравнительно небольших размерах файла.

3 Технические сведения о формате МР3 Высокая степень сжатия в MP3 достигается за счёт достаточно сложного алгоритма кодирования. Используются как математические методы компрессии, так и особенности человеческого слуха (психоакустическая модель): эффект маскировки слабого звука одной частоты более громким звуком такой же или соседней частоты, понижение чувствительности уха к тихому звуку сразу после громкого, невосприимчивость к звукам ниже определённого уровня громкости.

4 Поток звука при кодировании разбивается на равные по участки (фреймы). Каждый из фреймов кодируется отдельно со своими параметрами и содержит заголовок, в котором эти параметры указаны. Сжатие может быть выполнено с разным качеством и соответственно размером конечного файла. Степень сжатия характеризуется битрейтом (bitrate) количество передаваемой за единицу времени информации. Файлы MP3 обычно закодированы с битрейтом от 64 до 320 килобит в секунду (kbps или kb/s), а также с переменным битрейтом (VBR) когда для каждого фрейма используется свой, оптимальный для данного участка, битрейт.

5 Сильные стороны формата МР3: Высокая степень сжатия при приемлемом качестве звука. Степень сжатия и качество может регулироваться пользователем. Фреймовая структура удобна для передаче по сети, позволяет переход к любому месту файла. Широкое распространение аппаратуры и программ.

6 Особенности применения МР3 Несмотря на то, что кодирование в MP3 осуществляется с утерей части исходной информации, при битрейтах 256 и 320 kbps практически невозможно отличить на слух сжатый сигнал от оригинала, особенно при прослушивании на распространённой аудио аппаратуре. При этом размер файла в самом худшем случае будет в 4 раза меньше, чем в формате CD audio. Для использования в компактных плеерах и других устройствах с невысоким качеством акустики можно вполне использовать битрейт не ниже 192 kbps. Битрейты ниже 192 kbps рекомендуется использовать для сжатия сигнала с ограниченным частотным диапазоном или невысокими требованиями к достоверности (например, разговор или телепередача).

8 Битрейт и его значение Одной из важнейших характеристик MP3-файла является битрейт скорость потока обрабатываемых данных, или общее количество информации, передаваемой в единицу времени. Эта величина не зависит от того, содержит этот поток моно- или стереозвук. Чем выше битрейт, тем больше места на диске потребуется для сохранения конечного MP3-файла, но и, как правило, тем выше будет качество закодированного сигнала. В целом же каждое значение битрейта имеет свою область применения.

9 Долгое время кодеры поддерживали лишь постоянный битрейт (CBR Constant BitRate), т. е. пользователь задавал определенную скорость потока данных, а программа обеспечивала при этом максимально возможное качество кодирования. Но очевидно, что плотность потока значимой информации от фрейма к фрейму различна. (Зачем, к примеру, кодировать паузы?) Вот разработчики кодеров и решили использовать для компрессии каждого фрейма свой битрейт, т. е. поставили задачу минимизировать скорость потока данных, сохранив тот же уровень качества. Так родилась идея переменного битрейта VBR (Variable BitRate).

Появление этого формата на свет уместнее всего назвать тихой революцией. Революцией – потому что до MP3 ни один формат звуковых файлов не мог обеспечить такое качество при таком относительно небольшом размере. Единственный на тот момент сетевой формат .RA (real audio) иначе чем издевательством над слухом не назовешь. MPEG Layer3 задумывался именно как "убийца" этого убогого монополиста, великана на глиняных ногах. MP3 – это формат, разработанный специально для сети Internet, для быстрой пересылки качественного звука куда угодно. Именно поэтому MP3 является потоковым форматом, что это значит будет рассмотрено в дальнейшем. Способность этого алгоритма сжатия уменьшать размер звуковых файлов практически без потери качества, выглядела по тем временам совершенно фантастически. Ведь даже при кодировании с максимальной шириной потока (bitrate) равной 320 kbs (килобит в секунду), а это качество звука практически неотличимое от оригинального, размер исходного WAV файла уменьшается в четыре раза!

Да, это была революция, но очень странная революция. Ведь этот уникальный алгоритм в начале своего существования висел буквально на волоске. Полное отсутствие рекламы, никаких проигрывателей музыки данного формата, кроме фирменного от Fraunhofer IIS, который отличался крайней убогостью дизайна, жутким управлением и непомерными системными требованиями. Прибавьте еще и колоссальные аппетиты самих разработчиков, которые хотели за свои кодеки (CODEC – COder/DECoder) довольно немалые суммы (схожая ситуация сейчас с некоторыми форматами семейства AAC) и отсутствие музыки как таковой, в отличие от солидных залежей музыки в формате RA. Эти факторы вполне могли загубить новорожденного сразу же после родов. И все любители хорошей музыки должны сказать огромное спасибо тем известным и безымянным разработчикам freeware MP3 CODEC, которые не дали создателю этого формата фирме Fraunhofer IIS из-за своей маркетинговой глупости и жадности погубить гениальное творение.

МР3 изнутри: психофизиология звука

Данный формат использует крайне сложный алгоритм кодирования. В отличие от обычных архиваторов, которым нужно ухитрится сжать информацию таким образом, чтобы после извлечения из архива в ней не изменилось ни одного бита, MP3 преследует несколько иные цели. Помимо математических алгоритмов сжатия, в этом формате присутствует так же сложнейший алгоритм удаления ненужной звуковой информации, основанный на психолого-физиологических особенностях организма человека. Попытаюсь остановится на данном моменте несколько подробнее.

Как уже говорилось, MP3 является потоковым форматом. Это означает, что звуковая информация при кодировании разбивается на равные по продолжительности участки, которые называются фреймами. Все фреймы взаимно независимы. Каждый из этих фреймов кодируется отдельно со своими параметрами и имеет заголовок, в котором эти параметры описаны. При воспроизведении последовательность декодированных фреймов и порождает непрерывное звучание записанного звука.
Какие преимущества дает данный подход? Во-первых, возможность перемотки, так как возможен легкий переход к произвольному фрейму, и воспроизведение звука именно с этого места. Во-вторых, именно эта структурная особенность и делает MP3 по настоящему сетевым форматом. Загрузив первые несколько фреймов в оперативную память или дисковый кэш, проигрыватель начинает их воспроизводить, при этом одновременно подгружая новые фреймы, чем достигается непрерывность воспроизведения. И наконец, если вы не смогли целиком скачать MP3 файл из сети Internet, то ничего страшного, музыку все равно можно будет слушать, просто проигрыватель дойдет до того места, на котором оборвалась связь и остановится.

Так вот вернемся к нашим фреймам. При высоком качестве MP3, а это bitrate ~ 320 кbs, для кодирования фреймов применяются только математические алгоритмы сжатия. Качество при этом совершенно не страдает, но и размер уменьшается всего в четыре раза, то есть коэффициент сжатия такой, какой бы дал обычный архиватор; именно поэтому файлы формата МР3 практически не ужимаются обычными архиваторами. При уменьшении полосы пропускания (bitrate) до 256 kbs и ниже, в дело вступают те самые алгоритмы удаления "ненужных" звуков, которые основаны на особенностях восприятия звука человеческим ухом, так называемая "психоакустическая модель". Процессы удаления "ненужных" звуков называются квантованием. Чем меньше bitrate, тем жестче идет квантование.

По каким же критериям оценивается "нужность" и "ненужность" звуков? Подавляющее число кодеков выбрасывает звуки, которые считаются выходящими за порог слышимости человека. При этом за значение порога, так сказать de fakto, принимается величина равная 16kHz. Несмотря на то, что этот порог признан азбучной величиной и вписан во все учебники по физике, этот подход неверен. Люди весьма разнообразны по своим физиологическим особенностям. Кроме того, нужно учитывать, что у молодежи слуховой порог гораздо выше, чем у пожилых людей, и запросто может превышать эту среднестатистическую величину. Так же многое зависит от интенсивности сигнала. Следовательно, удаление частот выше 16kHz абсолютно неприемлемо для высоких битрейтов претендующих на CD качество, но вполне уместно для низких битрейтов, где качество приносится в жертву размеру.

Другим критерием, по которому оценивается "ненужность" звука, является условие основанное на такой особенности человеческого слуха, как неспособность большинства людей различать сигналы, по мощности лежащие ниже определенного уровня, причем этот уровень различен для разных частотных диапазонов. При использовании психоакустической модели кодирования MP3 CODEC автоматически выбрасывает маломощные, неслышимые частоты. К сожалению, опять таки, люди не одинаковы и те, кто в состоянии различить именно эти частоты, часто жалуются на потерю качества звучания при кодировании, тогда как среднестатистическое большинство этого не замечает.

Но самой главной особенностью психоакустической модели кодирования MP3 является так называемый эффект маскирования. Именно благодаря этому эффекту удается так сильно сжимать исходные аудиоданные. Суть этого эффекта в том, что слабый сигнал одного диапазона частот зачастую маскируется более мощным сигналом соседнего диапазона, если он присутствует в аудиозаписи, или мощным сигналом, предыдущего фрейма. Этот сильный сигнал вызывает временное понижение чувствительности уха к сигналу текущего фрейма. По сути, имеет место явление "временного оглушения". Для каждого звукового диапазона определяется величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма. Если маскирующий сигнал превышает мощность сигнала текущего диапазона, то данный диапазон сигнала не кодируется, что позволяет психоакустической модели удалить часть данных из этого фрейма. Для оставшихся данных каждого диапазона определяется, сколькими битами на фрейм мы можем пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта. Несомненно, все отмечали, что звук, кодированный при низких битрейтах, отличается крайней нечеткостью и глухостью. Это происходит из-за того, что при потере одного бита информации в общее звучания вносится шум квантования величиной порядка 6 dB.

Все эти ухищрения суммарно называются адаптивным кодированием. Используя тот факт, что подавляющее большинство людей не обладают идеальным слухом, технология адаптивного кодирования позволяет существенно уменьшить размер кодируемого файла выбросив наименее значимые с точки зрения слухового восприятия детали звучания.

Надо заметить, что в случае низких битрейтов кодирование начинается с адаптивного кодирования. После дополнительного квантования формируется итоговый поток, который затем и сжимается по алгоритму Хаффмана (аналогично алгоритму RAR).

Чем замечателен этот формат, так это тем, что степень сжатия, то есть, соотношение размер/качество полностью во власти пользователя. Ширина потока (bitrate) способна изменяться от наибольшего значения в 320kbs, до 64 kbs и ниже, соответственно варьируется и размер.

Качество требует жертв

Очевидно, что различные битрейты даже одного и того же CODECa дают далеко неодинаковое качество. Причем разные люди совершенно по-разному оценивают качество приемлемости одних и тех же битрейтов, высказывая свое собственное сугубо субъективное мнение. При оценке качественности звучания зачастую возникает путаница, так как многие путают факт наличия низкого или высокого уровня шумов с высоким или низким качеством сигнала. Такой дуболомный подход в принципе неверен, так как это характеристика обычной, некомпьютерной аппаратуры, которую некоторые лихо по аналогии переносят на цифровое аудио, забывая, что для компьютера это всего лишь характеристика конкретного программного MP3 плеера. Отсюда следует, что в некоторых случаях, сменив плеер можно существенно улучшить качество воспроизведения.

Так же, почему-то многие пользователи считают, что мнение профессионалов, так сказать "дегустаторов" от звука, обладающих хорошо развитым слухом и чувством фальши, не является авторитетным, а важно мнение середнячков со слухом отравленным дешевой аудиоаппаратурой уровня ESS. Это мнение может повлиять только на звание которое дают тому или иному CODECу – например "массовый", "народный", "популярный", но при оценке качественности кодировщика оно абсолютно неуместно.

При разработке формата MP3 его разработчики наняли команду профессиональных звуковых "дегустаторов", которые прослушали определенный набор тестовых композиций закодированных с разными битрейтами. Профессионалы единогласно указали, что битрейт 256kbs в большинстве случаев сохраняет качество звучания, которое практически не отличается от исходного. И так же единодушно указали, что уже битрейт 192kbs довольно ощутимо отличается от оригинала и не может претендовать на непогрешимость.

Но вы должны обратить внимание на оговорку "в большинстве случаев" которую эксперты сделали для битрейта 256kbs. В некоторых случаях, особенно при кодировании классической музыки этот битрейт проявляет себя не лучшим образом.

Если вы хотите точного соответствия сжатого файла оригиналу, пользуйтесь максимальный для кодирования CD Audio битрейтом - 320kbs. Коэффициент сжатия 4:1, для битрейта 256 kbs – 6:1. Размер несколько больше, зато качество смело можно считать непогрешимым.

Многие пользователи-меломаны уже создали себе обширные фонотеки на CDR или просто на винте, используя MP3 256kbs и 320kbs. Кстати, именно в этой связи повсеместно приобрели огромную популярность домашние компьютеры, оснащенные приводами CD-RW (пишущий CD-ROM).

Читайте также: