Как кодируются звук и видео кратко

Обновлено: 02.07.2024

Чтобы хранить и обрабатывать видео на компьютере, необходимо закодировать его особым образом. При этом кодирование звукового сопровождения ничем не отличается от кодирования звука, описанного в предыдущей теме. Изображение в видео состоит из отдельных кадров, которые меняются с определенной частотой. Кадр кодируется как обычное растровое изображение, то есть разбивается на множество пикселей. Закодировав отдельные кадры и собрав их вместе, мы сможем описать все видео.

Видеоданные характеризуются частотой кадров и экранным разрешением. Скорость воспроизведения видеосигнала составляет 30 или 25 кадров в секунду, в зависимости от телевизионного стандарта. Наиболее известными из таких стандартов являются: SECAM , принятый в России и Франции, PAL , используемый в Европе, и NTSC , распространенный в Северной Америке и Японии. Разрешение для стандарта NTSC составляет 768 на 484 точек, а для PAL и SECAM – 768 на 576 точек. Не все пиксели используются для хранения видеоинформации. Так, при стандартном разрешении 768 на 576 пикселей, на экране телевизора отображается всего 704 на 540 пикселей. Поэтому для хранения видеоинформации в компьютере или цифровой видеокамере, размер кадра может отличаться от телевизионного. Например, в формате Digital Video или, как его еще называют DV , размер кадра составляет 720 на 576 пикселей. Такое же разрешение имеет кадр стандарта DVD Video . Размер кадра формата Video - CD составляет 352 на 288 пикселей.

В основе кодирования цветного видео лежит известная модель RGB . В телевидении же используется другая модель представления цвета изображения, а именно модель YUV . В такой модели цвет кодируется с помощью яркости Y и двух цветоразностных компонент U и V , определяющих цветность. Цветоразностная компонента образуется путем вычитания из яркостной компоненты красного и зеленого цвета. Обычно используется один байт для каждой компоненты цвета, то есть всего для обозначения цвета используется три байта информации. При этом яркость и сигналы цветности имеют равное число независимых значений. Такая модель имеет обозначение 4:4:4.

Опытным путем установлено, что человеческий глаз менее чувствителен к цветовым изменениям, чем к яркостным. Без видимой потери качества изображения можно уменьшить количество цветовых оттенков в два раза. Такая модель обозначается как 4:2:2 и принята в телевидении. Для бытового видео допускается еще большее уменьшении размерности цветовых составляющих, до 4:2:0.

Если представить каждый кадр изображения как отдельный рисунок указанного выше размера, то видеоизображение будет занимать очень большой объем, например, одна секунда записи в системе PAL будет занимать 25 Мбайт, а одна минута – уже 1,5 Гбайт. Поэтому на практике используются различные алгоритмы сжатия для уменьшения скорости и объема потока видеоинформации.

Если использовать сжатие без потерь, то самые эффективные алгоритмы позволяют уменьшить поток информации не более чем в два раза. Для более существенного снижения объемов видеоинформации используют сжатие с потерями.

Среди алгоритмов с потерями одним из наиболее известных является MotionJPEG или MJPEG . Приставка Motion говорит, что алгоритм JPEG используется для сжатия не одного, а нескольких кадров. При кодировании видео принято, что качеству VHS соответствует кодирование MJPEG с потоком около 2 Мбит/с, S - VHS – 4 Мбит/ с .

Свое развитие алгоритм MJPEG получил в алгоритме DV , который обеспечивает лучшее качество при таком же потоке данных. Это объясняется тем, что алгоритм DV использует более гибкую схему компрессии, основанную на адаптивном подборе коэффициента сжатия для различных кадров видео и различных частей одного кадра. Для малоинформативных частей кадра, например, краев изображения, сжатие увеличивается, а для блоков с большим количеством мелких деталей уменьшается.

Еще одним методом сжатия видеосигнала является MPEG . Поскольку видеосигнал транслируется в реальном времени, то нет возможности обработать все кадры одновременно. В алгоритме MPEG запоминается несколько кадров. Основной принцип состоит в предположении того, что соседние кадры мало отличаются друг от друга. Поэтому можно сохранить один кадр, который называют исходным, а затем сохраняются только изменения от исходного кадра, называемые предсказуемыми кадрами. Считается, что за 10-15 кадров картинка изменится настолько, что необходим новый исходный кадр. В результате при использовании MPEG можно добиться уменьшения объема информации более чем в двести раз, хотя это и приводит к некоторой потере качества. В настоящее время используются алгоритм сжатия MPEG -1, разработанный для хранения видео на компакт-дисках с качеством VHS , MPEG -2, используемый в цифровом, спутниковом телевидении и DVD , а также алгоритм MPEG -4, разработанный для передачи информации по компьютерным сетям и широко используемый в цифровых видеокамерах и для домашнего хранения видеофильмов.

Звук представляет собой волну с меняющейся интенсивностью и частотой (громкостью и его тональностью соответственно). Чем больше амплитуда, тем громче звук. Чем больше частота, тем больше тон.

Хранение и передача аналогового звукового сигнала осуществляется за счёт представления его в виде электрического сигнала с помощью модуляции.

Модуляция – процесс изменения одного или нескольких параметров (амплитуды, частоты или фазы) высокочастотного колебания по закону низкочастотного сигнала (несущей частоты).

Существуют разные виды модуляции:

Амплитудная (АМ, amplitude modulation ) – изменение высокочастотных колебаний с частотой, равной частоте звукового сигнала. Например, несущей частотой может быть питание сети – 50 Гц. Или радиоволна СВ (MW) диапазона от 300 кГц до 3 МГц.

Частотная (FM, frequency modulation) – модуляция при которой информационный сигнал управляет несущей частотой. По сравнению с амплитудной модуляцией здесь амплитуда остаётся постоянной.

Цифровой сигнал

Для того чтобы аналоговый (непрерывный) сигнал представить последовательностью чисел определённой разрядности, его необходимо превратить в дискретный (прерывистый) сигнал, а затем подвергнуть квантованию.

На современном ПК карта всегда интегрирована в материнской плате, и имеет разрядность не ниже 24 бит.

Оцифровка звука – дискретизация и квантование аналогового сигнала.

1-й этап: Дискретизация сигнала по времени

Допустим, Вы, с помощью микрофона записали свой голос длительностью 5 сек. Этот фрагмент можно разбить на равные малые временный отрезки, которые в сумме дают нам 5 сек. Получаем частоту дискретизации (f, Гц), которая является обратной величиной времени: t сек. При частоте дискретизации 8 кГц=8 000 Гц, из формулы получаем отрезок, равный 0,000125 сек. или 125 миллисекунд.

2-й этап: Квантование сигнала по уровню

Чем больше уровней будет доступно для кодирования временных отрезков, тем ближе к аналогу будет закодированный файл, но при этом объём файла увеличится.

Например, возьмём 8 уровней, чтобы их закодировать в двоичный код нам достаточно 3 бита, что мы получаем из формулы Хартли:

2³=8 – комбинаций двоичного ряда чисел от 000 до 111.

Параметр (i) – называется глубина кодирования. 8 бит – 256 уровней, 16 бит – 65 536 уровней, 24 бита – более 16 млн. уровней.

3 этап: Определяем скорость потока звука

Частота дискретизации – 22 кГц, глубина кодирования – 16 бит. Произведение этих двух величин дает нам скорость потока 352 кбит/сек.

Именно такой канал передачи данных потребуется для воспроизведения звукового файла в режиме он-лайн.

Расчёт количество звуковой информации

Для определения информационного объёма звуковой информации, нам необходимы следующие параметры:

Задача 1:

Одна минута записи цифрового аудиофайла занимает 1,3 МБ, разрядность звуковой платы — 8 бит. С какой частотой дискретизации записан звук?

Воспользуемся формулой: I=f∙t∙i∙n , из формулы видно что для нахождения частоты дискретизации формула примет вид: f=I/t∙i∙n.

1,3 МБ = 13,31,2 КБ = 1 363 148,8 Байт. Принимая во внимание что 8 бит = 1 Байту, делим 1 363 148,8 на 60, канал у нас записан 1, поэтому n=1.

Ответ: 22719,1 Гц или 22 050 Гц, см. основные настройки параметров звукового файла в программе Audacity

Задача 2:

Две минуты записи цифрового аудиофайла занимают на диске 5,1 МБ. Частота дискретизации — 22 050 Гц. Какова разрядность аудиоадаптера?

Решение: 5,1 МБ = 5 347 737,6 Байт, делим по формуле: i = I / f∙ t ∙ n.

5 347 737,6 / 22 050 ∙ 120 = 2,02 Байт.

Ответ: 16 бит.

Кодирование видео

Информация хранится на различных носителях в виде файлов. Файл занимает память и может быть измерен в единицах измерения информации: бит, Байт, КБ и т.д.

Стремительное развитие интернета резко увеличило обмен информацией между людьми, для оптимизации хранения данных люди стали использовать специальные алгоритмы сжатия.

В основе цифрового видео лежит графический и звуковой файлы. Если рассчитать объём видеофайла без сжатия, нам необходимо учитывать тот факт, что человек начинает воспринимать смену кадров (картинок), как непрерывное плавное движение, если за 1 сек. будет мелькать 24 кадра.

Основы ТВ

Для приёма телевизионного сигнала используется антенна и приёмник. Приёмник – это электронная схема, которая преобразует сигнал в изображение на экране. В этом процессе участвует генератор кадровой развёртки и строчной.

Кадровая развёртка формируется на частоте, близкой к частоте переменного тока в бытовых электросетях – 50 Гц.

Кадровая развёртка, в сочетании со строчной служит для преобразования плоского двумерного изображения в одномерную последовательность, то есть, видеосигнал, а в телевизоре или мониторе компьютера для преобразования видеосигнала обратно в изображение на экране.

Для создания такой последовательности, используются специальные стандарты разложения:

480i, 525/60 — стандарт разложения, принятый в США, число активных строк составляет 480.

Существует также прогрессивная (p) кадровая развёртка, где все строки каждого кадра отображаются последовательно. Прогрессивная развертка стала широко распространена с появлением персональных компьютеров. Для комфортного чтения мелкого текста с экрана монитора, чересстрочная развертка стала малопригодна, так как мерцание строк вызывало быстрое утомление глаз.

Помимо развёртки существует ещё и соотношение сторон: аналоговое ТВ – 4:3, цифровое ТВ – 16:9, широкоформатное.

Форматы со сжатием

Давайте для начала посчитает объём видеофайла без сжатия, длительность 1 час 30 мин., 576i, 16:9. Звук записан с частотой дискретизации – 44 100 Гц, глубина кодирования 24 бит.

Решение:

Видео: I = 576 ∙ 1024 ∙ 25 ∙ 5400 ∙ 24 = 1 911 029 760 000 бит = 222,5 ГБ

Звук: I = 44 100 ∙ 5400 ∙ 24 = 5 715 360 000 бит = 681,3 МБ = 0,665 ГБ

Ответ: 223,2 ГБ.

Графический формат JPEG

Алгоритм JPEG (от англ. Joint Photographic Experts Group) в большей степени пригоден для реалистичных изображений с плавными переходами яркости и цвета, таковыми являются фотографии.

В основу алгоритма заложен переход от цветового пространства RGB к цветовому пространству YCbCr. Y – компонент яркости, Cb и Cr – синий и красный цветоразностные компоненты. Суть сжатия состоит в том что для каждого блока пикселей 2х2 записывается не 12 значений, а 6, за счёт использования усреднённого компонента цвета.

Видео и аудио форматы MPEG

Алгоритм MPEG (англ. Moving Picture Experts Group) – стандарты сжатия и передачи цифровой видео и аудио информации. Базовым объектом кодирования в стандарте MPEG является кадр телевизионного изображения. Поскольку в большинстве фрагментов фон изображения остается достаточно стабильным, а действие происходит только на переднем плане, сжатие начинается с создания исходного кадра.

При сжатии аудио используются хорошо разработанные психоакустические модели, чтобы выбросить звуки, которые не слышны человеческому уху.

Современные цифровые стандарты

Современные дисплеи и мониторы уже давно вышли за рамки старых добрых стандартов.

Как и все виды информации, изображения в компьютере закодированы в виде двоичных последовательностей. Используют два принципиально разных метода кодирования, каждый из которых имеет свои достоинства и недостатки.

И линия, и область состоят из бесконечного числа точек. Цвет каждой из этих точек нам нужно закодировать. Техника формирования изображений из мелких точек является наиболее распространенной и называется растровой.

Представим себе, что на изображение наложена сетка, которая разбивает его на квадратики. Такая сетка называется растром. Теперь для каждого квадратика определим цвет.

У нас получился так называемый растровый рисунок, состоящий из квадратиков-пикселей.

Пиксель (англ. pixel = picture element, элемент рисунка) – это наименьший элемент рисунка, для которого можно задать свой цвет.

Чтобы уменьшить потери информации, нужно уменьшать размер пикселя, то есть увеличивать разрешение.

Разрешение – это количество пикселей, приходящихся на дюйм размера изображения.

Готовые работы на аналогичную тему

Векторные изображения создаются только при помощи компьютера и формируются не из пикселей, а из графических примитивов (линий, многоугольников, окружностей и др.).

Например, чтобы записать на запоминающем устройстве векторное изображение круга, компьютеру достаточно в двоичный код закодировать тип объекта (окружность), координаты его центра на холсте, длину радиуса, толщину и цвет линии, цвет заливки.

В растровой системе пришлось бы кодировать цвет каждого пикселя. И если размер изображения большой, для его хранения понадобилось бы значительно больше места на запоминающем устройстве.

Тем не менее, векторный способ кодирования не позволяет записывать в двоичном коде реалистичные фото. Поэтому все фотокамеры работают только по принципу растровой графики. Рядовому пользователю иметь дело с векторной графикой в повседневной жизни приходится не часто.

Кодирование звуковой информации

Любой звук, слышимый человеком, является колебанием воздуха, которое характеризируется двумя основными показателями: частотой и амплитудой. Амплитуда колебаний - это степень отклонения состояния воздуха от начального при каждом колебании. Она воспринимается нами как громкость звука. Частота колебаний - это количество отклонений состояний воздуха от начального за единицу времени. Она воспринимается как высота звука.

Так, тихий комариный писк - это звук с высокой частотой, но с небольшой амплитудой. Звук грозы наоборот имеет большую амплитуду, но низкую частоту.

Схему работы компьютера со звуком в общих чертах можно описать так. Микрофон превращает колебания воздуха в аналогичные по характеристикам электрических колебаний.

Звуковая карта компьютера преобразовывает электрические колебания в двоичный код, который записывается на запоминающем устройстве. При воспроизведении такой записи происходит обратный процесс (декодирование) - двоичный код преобразуется в электрические колебания, которые поступают в аудиосистему или наушники.

Динамики акустической системы или наушников имеют противоположное микрофону действие. Они превращают электрические колебания в колебания воздуха.

Принцип разделения звуковой волны на мелкие участки лежит в основе двоичного кодирования звука. Аудиокарта компьютера разделяет звук на очень мелкие временные участки и кодирует степень интенсивности каждого из них в двоичный код. Такое дробление звука на части называется дискретизацией.

Одной из важных характеристик процесса кодирования звука является частота дискретизации, которая представляет собой количество измерений уровня сигнала за $1$ секунду. Чем выше частота дискретизации, тем точнее фиксируется геометрия звуковой волны и тем качественней получается запись.

В процессе кодирования звуковой информации непрерывный сигнал заменяется дискретным, то есть преобразуется в последовательность электрических импульсов, состоящих из двоичных нулей и единиц.

Качество записи зависит также от количества битов, используемых компьютером для кодирования каждого участка звука, полученного в результате дискретизации. Количество битов, используемых для кодирования каждого участка звука, полученного при дискретизации, называется глубиной звука.

Кодирование видеозаписи

Поскольку видеоинформация состоит из звуковой и графической компоненты, то и для обработки видеоматериалов требуется очень мощный персональный компьютер. Под обработкой видеоматериалов понимается процесс оцифровки, то есть кодирования видеоинформации.

Представим, что в нашем распоряжении есть какая-либо видеоинформация. Любую видеоинформацию можно дифференцировать, то есть разложить на две ключевые составляющие: звуковую и графическую. Следовательно, операция кодирования видеоинформации будет заключаться в сочетании операций кодирования звуковой информации и кодирования графической информации.

Кодирование звуковой дорожки видеофайла в двоичный код осуществляется по тем же алгоритмам, что и кодирование обычных звуковых данных. Принципы кодирования видеоизображения схожи с кодированием растровой графики, хотя и имеют некоторые особенности.

Как известно, видеозапись - это последовательность быстро меняющихся статических изображений (кадров). Одна секунда видео может состоять из $25$ и больше картинок. При этом, каждый следующий кадр лишь незначительно отличается от предыдущего.

Учитывая эту особенность, алгоритмы кодирования видео, как правило, предусматривают запись лишь первого (базового) кадра. Каждый же последующий кадр формируются путем записи его отличий от предыдущего.

После проведения операции цифрования звука и изображений на выходе получается бинарный, двоичный код, который будет понятен процессору персонального компьютера. Именно в формате двоичного кода наша видеоинформация и будет храниться на электронных носителях.

Если мы захотим проиграть видеоконтент на нашем персональном компьютере или другом устройстве, то нам придется провести операцию восстановления информации, то есть осуществить преобразование информации, записанной в двоичном коде в формат понятный человеку.

Чтобы добиться синхронного исполнения звука и смены графических изображений, процессор персонального компьютера выполняет эти операции в различных потоках. За счет этого происходит запараллеливание двух сигналов: звукового и графического, которые в совокупности образуют видеопоток.

Большую часть информации человек получает с помощью зрения и слуха. Важность этих органов чувств обусловлена развитием человека как биологического вида, поэтому человеческий мозг с большой скоростью способен обрабатывать огромное количество графической и звуковой информации.

С появлением компьютеров возникла огромная потребность научить их обрабатывать такую информацию. Как же такую информацию может обработать компьютер?

Итак, кодирование графической информации осуществляется двумя различными способами: векторным и растровым

Программы, работающие с векторной графикой, хранят информацию об объектах, составляющих изображение в виде графических примитивов: прямых линий, дуг окружностей, прямоугольников, закрасок и т.д.

Достоинства векторной графики:

— Преобразования без искажений.

— Маленький графический файл.

— Рисовать быстро и просто.

— Независимое редактирование частей рисунка.

— Высокая точность прорисовки.

— Редактор быстро выполняет операции.

Недостатки векторной графики:

— Векторные изображения выглядят искусственно.

— Ограниченность в живописных средствах.

Программы растровой графики работают с точками экрана (пикселями). Это называется пространственной дискретизацией.

КОДИРОВАНИЕ РАСТРОВОЙ ГРАФИКИ

Давайте более подробно рассмотрим растровое кодирование информации.

Компьютер запоминает цвет каждой точки, а пользователь из таких точек собирает рисунок.

При этом зная количество пикселей по вертикале и горизонтали, мы сможем найти — разрешающую способность изображения.

Разрешающая способность находится по формуле:

где n, m — количество пикселей в изображении по вертикали и горизонтали.

В процессе дискретизации каждый пиксель может принимать различные цвета из палитры цветов. При этом зная количество цветов, которые можно использовать в палитре и воспользовавшись формулой Хартли, мы сможем найти количество информации, которое используется для кодирования цвета точки, что мы будем называть глубиной цвета.

где N — количество цветов в палитре;

i — глубина цвета.

Таким образом, чтобы найти вес изображения достаточно перемножить разрешающую способность изображения на глубину цвета: L=P*i.

Каким именно образом возможно закодировать пиксель? Для этого используются кодировочные палитры.

КОДИРОВОЧНАЯ ПАЛИТРА RGB

Когда художник рисует картину, цвета он выбирает по своему вкусу. Но цвет в компьютере надо стандартизировать, чтобы его можно было распознать. Поэтому надо определить, что такое каждый цвет.

В экспериментах по производству цветных стекол М. В. Ломоносов показал, что получить любой цвет возможно, используя три различных цвета.

Этот факт был обобщен Германом Грассманом в виде законов аддитивного синтеза цвета.

Давайте рассмотрим два из этих законов:

— Закон трехмерности. С помощью трех независимых цветов можно, смешивая их в однозначно определенной пропорции, выразить любой цвет.

— Закон непрерывности. При непрерывном изменении пропорции, в которой взяты компоненты цветовой смеси, получаемый цвет также меняется непрерывно.

Из биологии вы знаете, что рецепторы человеческого глаза делятся на две группы: палочки и колбочки. Палочки более чувствительны к интенсивности поступаемого света, а колбочки — к длине волны.

Поэтому такие цвета были взяты основными для построения цветовой модели, которая получила название RGB (Red, Green, Blue). То есть задавая количество любого из этих трех цветов, можно получить любой другой. Для кодирования каждого цвета было выделено 8 бит (режим True-Color). Таким образом, количество каждого цвета может изменяться от 0 до 255, часто это количество выражается в шестнадцатеричной системе счисления (от 0 до FF).

Так как описание цвета происходит определением трех величин, то это наводит на мысль считать их координатами точки в пространстве. Получается, что координаты цветов заполняют куб.

При этом яркость цвета определяется тем насколько близка к максимальному значению хотя бы одна координата из трех.

Поскольку именно модель RGB соответствовала основному механизму формирования цветного изображения на экране, большинство графических файлов хранят изображение именно в этой кодировке. Если же используется другая модель, например в JPEG , то приходится при выводе информации на экран преобразовывать данные.

КОДИРОВАНИЕ ЗВУКОВОЙ ИНФОРМАЦИИ

Давайте перейдем к кодированию звуковой информации.

Из курса физики вам всем известно, что звук — это непрерывная волна с изменяющейся амплитудой и частотой.

Для того, чтобы компьютер мог обрабатывать непрерывный звуковой сигнал, он должен быть дискретизирован, т. е. превращен в последовательность электрических импульсов (двоичных нулей и единиц).

Для этого звуковая волна разбивается на отдельные временные участки.

При этом на каждое измерение выделяется одинаковое количество бит. Такая характеристика называется — глубина кодирования.

Таким образом, чтобы подсчитать вес звуковой волны достаточно перемножить частоту дискретизации, глубины кодирования и времени звучания такого звука. При этом, рассматривая современное звучание, количество звуковых волн может быть различное, например, для стереозвука — это 2, а для квадрозвука — 4.

Читайте также: