Как мы воспринимаем звук кратко

Обновлено: 07.07.2024

СЛУХ, способность воспринимать звуки. Слух зависит от: 1) уха – наружного, среднего и внутреннего, – которое воспринимает звуковые колебания; 2) слухового нерва, передающего полученные от уха сигналы; 3) определенных отделов головного мозга (слуховых центров), в которых импульсы, переданные слуховыми нервами, вызывают осознание исходных звуковых сигналов.

Любой источник звука – струна скрипки, по которой провели смычком, столб воздуха, движущийся в органной трубе, или голосовые связки говорящего человека – вызывает колебания окружающего воздуха: сначала мгновенное сжатие, потом мгновенное разрежение. Другими словами, из каждого источника звука исходят серии чередующихся волн повышенного и пониженного давления, которые быстро распространяются в воздухе. Этот движущийся поток волн и образует звук, воспринимаемый органами слуха.

Большинство звуков, с которыми мы сталкиваемся каждый день, довольно сложны. Они порождаются сложными колебательным движениями источника звука, создающими целый комплекс звуковых волн. В экспериментах по исследованию слуха стараются выбрать как можно более простые звуковые сигналы, чтобы легче было оценить результаты. Много усилий тратится на то, чтобы обеспечить простые периодические колебания источника звука (по типу маятника). Получающийся в результате поток звуковых волн одной частоты называется чистым тоном; он представляет собой регулярную, плавную смену высокого и низкого давления.

Границы слухового восприятия.

Чувствительность уха к звуковым колебаниям различных частот неодинакова. Оно особенно тонко реагирует на колебания средних частот (от 1000 до 4000 Гц). Здесь чувствительность так велика, что сколько-нибудь существенное ее увеличение оказалось бы неблагоприятным: одновременно воспринимался бы постоянный фоновый шум беспорядочного движения молекул воздуха. По мере уменьшения или увеличения частоты относительно среднего диапазона острота слуха постепенно снижается. По краям воспринимаемого диапазона частот звук, чтобы быть услышанным, должен быть очень сильным, настолько сильным, что иногда ощущается физически прежде, чем слышится.

Звук и его восприятие.

Чистый тон имеет две независимых характеристики: 1) частоту и 2) силу, или интенсивность. Частота измеряется в герцах, т.е. определяется количеством полных колебательных циклов в секунду. Интенсивность измеряется величиной пульсирующего давления звуковых волн на любую встречную поверхность и обычно выражается в относительных, логарифмических единицах – децибелах (дБ). Необходимо помнить, что понятия частоты и интенсивности применимы только к звуку как внешнему физическому раздражителю; это т.н. акустические характеристики звука. Когда мы говорим о восприятии, т.е. о физиологическом процессе, звук оценивается как высокий или низкий, а его сила воспринимается как громкость. В целом, высота – субъективная характеристика звука – тесно связана с его частотой; звуки высокой частоты воспринимаются как высокие. Также, обобщая, можно сказать, что воспринимаемая громкость зависит от силы звука: более интенсивные звуки мы слышим как более громкие. Эти соотношения, однако, не являются неизменными и абсолютными, как часто считается. На восприятие высоты звука в некоторой степени влияет его сила, а на воспринимаемую громкость – частота. Таким образом, изменив частоту звука, можно избежать изменения воспринимаемой высоты, соответствующим образом варьируя его силу.

И с практической, и с теоретической точки зрения определение минимальной улавливаемой ухом разницы в частоте и силе звука – весьма важная проблема. Как надо изменить частоту и силу звуковых сигналов, чтобы слушающий это заметил? Выяснилось, что минимальная заметная разница определяется скорее относительным изменением характеристик звука, нежели абсолютными изменениями. Это касается и частоты, и силы звука.

Необходимое для различения относительное изменение частоты различно как для звуков разных частот, так и для звуков одной частоты, но разной силы. Можно сказать, однако, что приблизительно оно равно 0,5% в широком диапазоне частот от 1000 до 12 000 Гц. Этот процент (т.н. порог различения) несколько выше в области более высоких частот и значительно выше при более низких. Следовательно, ухо менее чувствительно к изменению частоты по краям диапазона частот, чем при средних значениях, и это часто замечают все, кто играет на рояле; интервал между двумя очень высокими или очень низкими нотами кажется меньше, чем у нот в среднем диапазоне.

Минимальная заметная разница в том, что касается силы звука, несколько другая. Для различения требуется довольно большое, около 10%, изменение давления звуковых волн (т.е. около 1 дБ), и эта величина относительно постоянна для звуков почти любой частоты и интенсивности. Однако, когда интенсивность раздражителя низка, минимальная заметная разница значительно увеличивается, особенно для тонов низких частот.

Обертоны в ухе.

Характерное свойство почти любого источника звука – то, что он не только производит простые периодические колебания (чистый тон), но совершает и сложные колебательные движения, которые дают несколько чистых тонов одновременно. Обычно такой сложный тон состоит из гармонических рядов (гармоник), т.е. из самой низкой, основной, частоты плюс обертоны, частоты которых превосходят основную в целое число раз (2, 3, 4 и т.д.). Таким образом, объект, колеблющийся с основной частотой 500 Гц, может также производить обертоны 1000, 1500, 2000 Гц и т.д. Человеческое ухо в ответ на звуковой сигнал ведет себя сходным образом. Анатомические особенности уха обеспечивают много возможностей для превращения энергии входящего чистого тона, хотя бы частично, в обертоны. А значит, даже когда источник дает чистый тон, внимательный слушатель может услышать не только основной тон, но и едва воспринимаемые один или два обертона.

Взаимодействие двух тонов.

Когда два чистых тона воспринимаются ухом одновременно, могут наблюдаться следующие варианты их совместного действия, зависящие от природы самих тонов. Они могут маскировать друг друга, взаимно уменьшая громкость. Это чаще всего происходит, когда тоны не сильно различаются по частоте. Два тона могут соединяться друг с другом. При этом мы слышим звуки, соответствующие либо разнице частот между ними, либо сумме их частот. Когда два тона очень близки по частоте, мы слышим единый тон, высота которого примерно соответствует данной частоте. Этот тон, однако, становится то громче, то тише, поскольку два слегка несовпадающих акустических сигнала непрерывно взаимодействуют, то усиливая, то гася друг друга.

Тембр.

Объективно говоря, одни и те же сложные тоны могут различаться по степени сложности, т.е. по составу и интенсивности обертонов. Субъективной характеристикой восприятия, в целом отражающей особенность звука, является тембр. Таким образом, ощущения, вызванные сложным тоном, характеризуются не только определенной высотой и громкостью, но и тембром. Некоторые звуки кажутся богатыми и полными, другие – нет. Благодаря прежде всего различиям в тембре мы среди множества звуков узнаем голоса различных инструментов. Ноту ля, взятую на рояле, легко отличить от той же ноты, сыгранной на рожке. Если, однако, умудриться отфильтровать и заглушить обертоны каждого инструмента, эти ноты нельзя будет различить.

Локализация звуков.

Человеческое ухо не только различает звуки и их источники; оба уха, работая вместе, способны довольно точно определять направление, откуда идет звук. Поскольку уши расположены с противоположных сторон головы, звуковые волны от источника звука достигают их не совсем одновременно и воздействуют с несколько разной силой. За счет минимальной разницы во времени и силе мозг довольно точно определяет направление источника звука. Если источник звука находится строго спереди, то мозг локализует его вдоль горизонтальной оси с точностью до нескольких градусов. Если источник смещен в одну из сторон, точность локализации чуть-чуть меньше. Отличить звук сзади от звука спереди, а также локализовать его вдоль вертикальной оси оказывается несколько труднее.

Аномальный слух и слух животных.

Естественным стимулом для человеческого уха является звук, распространяющийся в воздухе, однако на ухо можно воздействовать и другими способами. Всем, например, хорошо известно, что звук слышен под водой. Также, если приложить источник колебаний к костной части головы, за счет костной проводимости появляется ощущение звука. Это явление весьма полезно при некоторых формах глухоты: небольшой передатчик, приложенный непосредственно к сосцевидному отростку (части черепа, расположенной сразу за ухом), позволяет больному слышать звуки, усиливаемые передатчиком, через кости черепа за счет костной проводимости.

Конечно же, слухом обладают не только люди. Способность слышать возникает на ранних ступенях эволюции и существует уже у насекомых. Разные виды животных воспринимают звуки различных частот. Одни слышат меньший, чем человек, диапазон звуков, другие – больший. Хороший пример – собака, чье ухо чувствительно к частотам за пределами человеческого слуха. Одно из применений этого – производство свистков, звук которых не слышен человеку, но достаточен для собаки.

Более полная информация о слухе животных содержится в статьях, посвященных отдельным видам.

Ухо является невероятно сложной системой и состоит из нескольких отделов; оно улавливает звуки из окружающего мира, усиливает их, преобразует в сигнал, понятный нейронам, и отправляет в мозг.

Что такое звук с точки зрения физики

Первая фраза о слухе в любом учебнике по нейрофизиологии сообщает о том, что человеческое ухо воспринимает звуки в диапазоне частот от 16(20) до 20 000 герц.

По-видимому, этот диапазон велик, но что эти цифры в действительности означают?

Частота звука выражается в количестве циклов колебаний, которые звук проделывает за одну секунду. Для порогов восприятия человека это будет 20 или 20 тысяч циклов в секунду, и такой звук будет восприниматься как низкий и высокий соответственно. При этом реально данный порог не зафиксирован, а зависит от громкости звука, которую измеряют в децибелах.

Громкость звука можно понимать как давление, оказываемой волной звука на барабанную перепонку: чем сильнее давление, тем громче звук. Так, в диапазоне от 0 (тишина) до 130 децибел (болевой порог) громкость нормальной речи располагается на уровне 50–60, а концерт рок-группы — 110–120 децибел.

Из чего состоит ухо и как оно усиливает звук?

Теперь от устройства звука перейдем к уху — органу чувств, этот звук воспринимающему. В учебниках принято делить ухо на три отдела: наружное , среднее и внутреннее ухо.

Наружное ухо знакомо всем и не нуждается в особом представлении — это ушная раковина и наружный слуховой проход. Ушная раковина благодаря своей форме улавливает окружающие звуки. Многие животные, возьмем хотя бы собак, могут ею двигать и контролировать поступающие звуковые волны — способность, утерянная большей частью представителей Homo sapiens .

Овальное окошечко — это тонкая мембрана, через колебание которой звук передается во внутреннее ухо , невероятно сложный и изящный отдел, в котором помимо процесса восприятия звука также расположен вестибулярный аппарат . Работу внутреннего уха можно описывать с бесконечным количеством деталей, но мы объясним только самые необходимые для понимания следующих разделов, а также расскажем некоторые увлекательные факты.

Внутри лабиринт улитки разделен на три отдела, заполненные жидкостью. Самый главный — средний, где расположены клетки, отвечающие за восприятие и преобразование звука, в то время как боковые отделы чисто механистически поддерживают колебания и сбрасывают давление от звуковых волн через круглое окошечко , тоже закрытое мембраной и выходящее в среднее ухо.

Внутреннее ухо и улитка. Слева показана улитка — структура, находящаяся во внутреннем ухе и преобразующая механические колебания звука в электрический сигнал. Справа показана улитка в поперечном разрезе, с тремя компартментами, главный из которых — средний — несет в себе кортиев орган.и передает сигнал мозгу

Внутреннее ухо и улитка. Слева показана улитка — структура, находящаяся во внутреннем ухе и преобразующая механические колебания звука в электрический сигнал. Справа показана улитка в поперечном разрезе, с тремя компартментами, главный из которых — средний — несет в себе кортиев орган.и передает сигнал мозгу

Таким образом, звуковые колебания мимолетно входят во внутреннее ухо через овальное окошечко и покидают его через круглое — вот вам и вся гамма окружающих нас звуков.

В среднем отделе улитки расположен кортиев орган — так собирательно называют все клетки, расположенные внутри. Нас интересуют только два типа клеток — внутренние и наружные волосковые клетки . Внутренние волосковые клетки — это рецепторы звука, которые как раз и преобразуют механические колебания жидкости в улитке в электрический сигнал.

Они называются волосковыми благодаря расположенным на их верхушке волоскам — стереоцилиям , похожими на антенны клетки. В покое клетка спокойно сидит себе в улитке, а при прохождении звуковой волны в жидкости стереоцилии отклоняются, и в их основании механически открываются ионные каналы.

Кортиев орган. Слева оранжевым показаны три ряда наружных волосковых клеток, справа — один ряд внутренних волосковых клеток, передающих электрический сигнал, кодирующий звук, нейронам спирального ганглия.

Кортиев орган. Слева оранжевым показаны три ряда наружных волосковых клеток, справа — один ряд внутренних волосковых клеток, передающих электрический сигнал, кодирующий звук, нейронам спирального ганглия.

Клетка активируется благодаря тому, что ионы калия начинают течь в клетку по градиенту концентрации и делать заряд клетки внутри более положительным.

Этот процесс называется деполяризацией и его можно сравнить с током электронов по проводам, только в случае живой клетки ток проводится с помощью ионов калия.

На этом все!

А если вы хотите разобраться в этой теме, рекомендуем прочитать эту статью , а пока благодарим вас за то, что вы прочитали эту статью до конца.

Будем рады вашим лайкам и подписке на наш канал — здесь мы рассказываем много интересного из мира науки! 💚

Звук играет важнейшую роль в жизни большинства людей. Он позволяет нам общаться и получать информацию, наслаждаться звуками природы и слушать музыку. Звук также может предупредить нас об опасности.

Все звуки возникают в результате движений. Например, когда дует ветер, на деревьях возникает движение листвы. Листья передвигают молекулы воздуха, заставляя их колебаться. Эти колебания называются звуковыми волнами и могут восприниматься ухом человека.

Медленные колебания (низкие частоты) воспринимаются как низкие звуки (бас), в то время как быстрые колебания (высокие частоты) воспринимаются как высокие звуки (дискант).

Человеческое ухо является сложным и чувствительным органом, который состоит из трех главных частей:

  • Внешнее ухо состоит из ушной раковины (внешняя хрящевая часть уха) и ушного канала. В конце ушного канала расположена барабанная перепонка, отделяющая внешнее ухо от среднего. Внешнее ухо работает подобно спутниковой антенне – оно улавливает звуковые волны и проводит их в ушной канал.
  • Среднее ухо представляет собой заполненное воздухом пространство, воздушное давление в котором регулируется Евстахиевой трубой, соединяющей глотку с барабанной полостью среднего уха. В среднем ухе находятся три крошечные косточки – молоточек, наковальня и стремечко. Эти косточки образовывают рычажный механизм, проводящий колебания барабанной перепонки во внутреннее ухо, в так называемую улитку. С этими косточками связаны две мышцы, которые сокращаются при поступлении в ухо очень громких звуков. Эти мышцы уменьшают эффект чрезмерного звукового давления во внутреннем ухе.
  • Внутреннее ухо, так называемая улитка, имеет форму раковины улитки и заполнена жидкостью. С улиткой связан вестибулярный аппарат, который состоит из трех полукружных каналов, заполненных жидкостью. Среднее ухо и внутреннее ухо соединены посредством овального окна. С овальным окном связано основание стремечка, которое работает как поршень, давящий на жидкость во внутреннем ухе.

Таким причудливым и сложным путем ухо в состоянии улавливать звуковые волны, преобразовывать их сначала в колебания косточек, затем в движение жидкости и, в конечном счете, в нервные импульсы, которые воспринимаются мозгом. Даже малейшее повреждение этой сложной системы может негативно отразится на слухе.

Расскажите или сохраните себе:

Еще в разделе “О слухе”

Три основные причины, почему может свистеть слуховой аппарат

Три основные причины, почему может свистеть слуховой аппарат

Почему свистит слуховой аппарат? Разбираем основные причины и как их устранить. Читать далее →

Все связано. Как тугоухость у детей коррелирует с другими заболеваниями и наоборот

Все связано. Как тугоухость у детей коррелирует с другими заболеваниями и наоборот

Классификация слуховых аппаратов. Что нужно знать перед первым приемом у сурдолога

Классификация слуховых аппаратов. Что нужно знать перед первым приемом у сурдолога

Звук, как и цвет, люди воспринимают по-разному. Например, то, что кажется слишком громким или некачественным одним, может быть нормальным для других.

Для работы над Яндекс.Музыкой нам всегда важно помнить о разных тонкостях, которые таит в себе звук. Что такое громкость, как она меняется и от чего зависит? Как работают звуковые фильтры? Какие бывают шумы? Как меняется звук? Как люди его воспринимают.


Мы довольно много узнали обо всём этом, работая над нашим проектом, и сегодня я попробую описать на пальцах некоторые основные понятия, которые требуется знать, если вы имеете дело с цифровой обработкой звука. В этой статье нет серьёзной математики вроде быстрых преобразований Фурье и прочего — эти формулы несложно найти в сети. Я опишу суть и смысл вещей, с которыми придётся столкнуться.

Поводом для этого поста можете считать то, что мы добавили в приложения Яндекс.Музыки возможность слушать треки в высоком качестве (320kbps). А можете не считать. Итак.

Прежде всего разберёмся с тем, что такое цифровой сигнал, как он получается из аналогового и откуда собственно берётся аналоговый сигнал. Последний максимально просто можно определить как колебания напряжения, возникающие из-за колебаний мембраны в микрофоне.



Рис. 1. Осциллограмма звука

Это осциллограмма звука — так выглядит аудио сигнал. Думаю, каждый хоть раз в жизни видел подобные картинки. Для того чтобы понять, как устроен процесс преобразования аналогового сигнала в цифровой, нужно нарисовать осциллограмму звука на миллиметровой бумаге. Для каждой вертикальной линии найдем точку пересечения с осциллограммой и ближайшее целое значение по вертикальной шкале — набор таких значений и будет простейшей записью цифрового сигнала.

Воспользуемся этим интерактивным примером, чтобы разобраться в том, как накладываются друг на друга волны разной частоты и как происходит оцифровка. В левом меню можно включать/выключать отображение графиков, настраивать параметры входных данных и параметры дискретизации, а можно просто двигать контрольные точки.

На аппаратном уровне это, разумеется, выглядит значительно сложнее, и в зависимости от аппаратуры сигнал может кодироваться совершенно разными способами. Самым распространённым из них является импульсно-кодовая модуляция, при которой записывается не конкретное значение уровня сигнала в каждый момент времени, а разница между текущим и предыдущим значением. Это позволяет снизить количество бит на каждый отсчёт примерно на 25%. Этот способ кодирования применяется в наиболее распространённых аудио-форматах (WAV, MP3, WMA, OGG, FLAC, APE), которые используют контейнер PCM WAV.

В реальности для создания стерео-эффекта при записи аудио чаще всего записывается не один, а сразу несколько каналов. В зависимости от используемого формата хранения они могут храниться независимо. Также уровни сигнала могут записываться как разница между уровнем основного канала и уровнем текущего.

Обратное преобразование из цифрового сигнала в аналоговый производится с помощью цифро-аналоговых преобразователей, которые могут иметь различное устройство и принципы работы. Я опущу описание этих принципов в данной статье.

Как известно, цифровой сигнал — это набор значений уровня сигнала, записанный через заданные промежутки времени. Процесс преобразования непрерывного аналогового сигнала в цифровой сигнал называется дискретизацией (по времени и по уровню). Есть две основные характеристики цифрового сигнала — частота дискретизации и глубина дискретизации по уровню.

Частота дискретизации указывает на то, с какими интервалами по времени идут данные об уровне сигнала. Существует теорема Котельникова (в западной литературе её упоминают как теорему Найквиста — Шеннона, хотя встречается и название Котельникова — Шеннона), которая утверждает: для возможности точного восстановления аналогового сигнала из дискретного требуется, чтобы частота дискретизации была минимум в два раза выше, чем максимальная частота в аналоговом сигнале. Если брать примерный диапазон воспринимаемых человеком частот звука 20 Гц — 20 кГц, то оптимальная частота дискретизации (частота Найквиста) должна быть в районе 40 кГц. У стандартных аудио-CD она составляет 44.1 кГц

Глубина дискретизации по уровню описывает разрядность числа, которым описывается уровень сигнала. Эта характеристика накладывает ограничение на точность записи уровня сигнала и на его минимальное значение. Стоит специально отметить, что данная характеристика не имеет отношения к громкости — она отражает точность записи сигнала. Стандартная глубина дискретизации на audio-CD — 16 бит. При этом, если не использовать специальную студийную аппаратуру, разницу в звучании большинство перестаёт замечать уже в районе 10-12 бит. Однако большая глубина дискретизации позволяет избежать появления шумов при дальнейшей обработке звука.

В цифровом звуке можно выделить три основных источника шумов.

Джиттер

Шум дробления

Он напрямую связан с глубиной дискретизации. Так как при оцифровке сигнала его реальные значения округляются с определённой точностью, возникают слабые шумы, связанные с её потерей. Эти шумы могут появляться не только на стадии оцифровки, но и в процессе цифровой обработки (например, если сначала уровень сигнала сильно понижается, а затем — снова повышается).

Алиасинг

При оцифровке возможна ситуация, при которой в цифровом сигнале могут появиться частотные составляющие, которых не было в оригинальном сигнале. Данная ошибка получила название Aliasing. Этот эффект напрямую связан с частотой дискретизации, а точнее — с частотой Найквиста. Проще всего понять, как это происходит, рассмотрев вот эту картинку:

Зелёным показана частотная составляющая, частота которой выше частоты Найквиста. При оцифровке такой частотной составляющей не удаётся записать достаточно данных для её корректного описания. В результате при воспроизведении получается совершенно другой сигнал — жёлтая кривая.

Для начала стоит сразу понять, что когда речь идёт о цифровом сигнале, то можно говорить только об относительном уровне сигнала. Абсолютный зависит в первую очередь от воспроизводящей аппаратуры и прямо пропорционален относительному. При расчётах относительных уровней сигнала принято использовать децибелы. При этом за точку отсчёта берётся сигнал с максимально возможной амплитудой при заданной глубине дискретизации. Этот уровень указывается как 0 dBFS (dB — децибел, FS = Full Scale — полная шкала). Более низкие уровни сигнала указываются как -1 dBFS, -2 dBFS и т.д. Вполне очевидно, что более высоких уровней просто не бывает (мы изначально берём максимально возможный уровень).

Поначалу бывает тяжело разобраться с тем, как соотносятся децибелы и реальный уровень сигнала. На самом деле всё просто. Каждые ~6 dB (точнее 20 log(2) ~ 6.02 dB) указывают на изменение уровня сигнала в два раза. То есть, когда мы говорим о сигнале с уровнем -12 dBFS, понимаем, что это сигнал, уровень которого в четыре раза меньше максимального, а -18 dBFS — в восемь, и так далее. Если посмотреть на определение децибела, в нём указывается значение — тогда откуда берётся 20? Всё дело в том, что децибел — это логарифм отношения двух одноимённых энергетических величин, умноженный на 10. Амплитуда же не является энергетической величиной, следовательно её нужно перевести в подходящую величину. Мощность, которую переносят волны с разными амплитудами, пропорциональна квадрату амплитуды. Следовательно для амплитуды (если все прочие условия, кроме амплитуды принять неизменными) формулу можно записать как

N.B. Стоит упомянуть, что логарифм в данном случае берётся десятичный, в то время как большинство библиотек под функцией с названием log подразумевает натуральный логарифм.

При различной глубине дискретизации уровень сигнала по этой шкале изменяться не будет. Сигнал с уровнем -6 dBFS останется сигналом с уровнем -6 dBFS. Но всё же одна характеристика изменится — динамический диапазон. Динамический диапазон сигнала — это разница между его минимальным и максимальным значением. Он рассчитывается по формуле , где n — глубина дискретизации (для грубых оценок можно пользоваться более простой формулой: n * 6). Для 16 бит это ~96.33 dB, для 24 бит ~144.49 dB. Это означает, что самый большой перепад уровня, который можно описать с 24-битной глубиной дискретизации (144.49 dB), на 48.16 dB больше, чем самый большой перепад уровня с 16-битной глубиной (96.33 dB). Плюс к тому — шум дробления при 24 битах на 48 dB тише.

Когда мы говорим о восприятии звука человеком, следует сначала разобраться, каким образом люди воспринимают звук. Очевидно, что мы слышим с помощью ушей. Звуковые волны взаимодействуют с барабанной перепонкой, смещая её. Вибрации передаются во внутреннее ухо, где их улавливают рецепторы. То, насколько смещается барабанная перепонка, зависит от такой характеристики, как звуковое давление. При этом воспринимаемая громкость зависит от звукового давления не напрямую, а логарифмически. Поэтому при изменении громкости принято использовать относительную шкалу SPL (уровень звукового давления), значения которой указываются всё в тех же децибелах. Стоит также заметить, что воспринимаемая громкость звука зависит не только от уровня звукового давления, но ещё и от частоты звука:

Простейшим примером обработки звука является изменение его громкости. При этом происходит просто умножение уровня сигнала на некоторое фиксированное значение. Однако даже в таком простом деле, как регулировка громкости, есть один подводный камень. Как я уже отметил ранее, воспринимаемая громкость зависит от логарифма звукового давления, а это значит, что использование линейной шкалы громкости оказывается не очень эффективным. При линейной шкале громкости возникает сразу две проблемы — для ощутимого изменения громкости, когда ползунок находится выше середины шкалы приходится достаточно далеко его сдвигать, при этом ближе к самому низу шкалы сдвиг меньше, чем на толщину волоса, может изменить громкость в два раза (думаю, с этим каждый сталкивался). Для решения данной проблемы используется логарифмическая шкала громкости. При этом на всей её длине передвижение ползунка на фиксированное расстояние меняет громкость в одинаковое количество раз. В профессиональной записывающей и обрабатывающей аппаратуре, как правило, используется именно логарифмическая шкала громкости.

Тут я, пожалуй, немного вернусь к математике, потому что реализация логарифмической шкалы оказывается не такой простой и очевидной вещью для многих, а найти в интернете данную формулу не так просто, как хотелось бы. Заодно покажу, как просто переводить значения громкости в dBFS и обратно. Для дальнейших объяснений это будет полезным.

  • точность, с которой указывается уровень сигнала, ограничена (причём достаточно сильно. 16 бит — это в 2 раза меньше, чем используется для стандартного числа с плавающей точкой);
  • у сигнала есть верхняя граница уровня, за которую он не может выйти.
  • уровень шумов дробления возрастает при увеличении громкости. Для малых изменений обычно это не очень критично, так как изначальный уровень шума значительно тише ощутимого, и его можно безопасно поднимать в 4-8 раз (например, применять эквалайзер с ограничением шкалы в ±12dB);
  • не стоит сначала сильно понижать уровень сигнала, а затем сильно его повышать — при этом могут появиться новые шумы дробления, которых изначально не было.

На практике всё это означает, что стандартные для Audio-CD параметры дискретизации (16 бит, 44,1 кГц) не позволяют производить качественную обработку звука, потому что имеют очень малую избыточность. Для этих целей лучше использовать более избыточные форматы. Однако стоит учитывать, что общий размер файла пропорционален параметрам дискретизации, поэтому выдача таких файлов для он-лайн воспроизведения — не лучшая идея.

Для того чтобы сравнивать громкость двух разных сигналов, её для начала нужно как-то измерить. Существует по меньшей мере три метрики для измерения громкости сигналов — максимальное пиковое значение, усреднённое значение уровня сигнала и метрика ReplayGain.

Усреднённое значение уровня сигнала — более полезная метрика и легко вычислимая, но всё же имеет существенные недостатки, связанные с тем, как мы воспринимаем звук. Визг циркулярной пилы и рокот водопада, записанные с одинаковым средним уровнем сигнала, будут восприниматься совершенно по-разному.

ReplayGain наиболее точно передает воспринимаемый уровень громкости записи и учитывает физиологические и психические особенности восприятия звука. Для промышленного выпуска записей многие звукозаписывающие студии используют именно её, также она поддерживается большинством популярных медиа-плееров. (Русская статья на WIKI содержит много неточностей и фактически не корректно описывает саму суть технологии)

Если мы можем измерять громкость различных записей, мы можем её нормализовать. Идея нормализации состоит в том, чтобы привести разные звуки к одинаковому уровню воспринимаемой громкости. Для этого используется несколько различных подходов. Как правило, громкость стараются максимизировать, но это не всегда возможно из-за ограничений максимального уровня сигнала. Поэтому обычно берётся некоторое значение немного меньше максимума (например -14 dBFS), к которому пытаются привести все сигналы.

Иногда нормализацию громкости производят в рамках одной записи — при этом различные части записи усиливают на разные величины, чтобы их воспринимаемая громкость была одинаковой. Такой подход очень часто применяется в компьютерных видео-плеерах — звуковая дорожка многих фильмов может содержать участки с очень сильно отличающейся громкостью. В такой ситуации возникают проблемы при просмотре фильмов без наушников в позднее время — при громкости, на которой нормально слышен шёпот главных героев, выстрелы способны перебудить соседей. А на громкости, при которой выстрелы не бьют по ушам, шёпот становится вообще неразличим. При внутри-трековой нормализации громкости плеер автоматически увеличивает громкость на тихих участках и понижает на громких. Однако этот подход создаёт ощутимые артефакты воспроизведения при резких переходах между тихим и громким звуком, а также порой завышает громкость некоторых звуков, которые по задумке должны быть фоновыми и еле различимыми.

Я не стану описывать совсем все аудио-фильтры, ограничусь только стандартными, которые присутствуют в Web Audio API. Самым простым и распространённым из них является биквадратный фильтр (BiquadFilterNode) — это активный фильтр второго порядка с бесконечной импульсной характеристикой, который может воспроизводить достаточно большое количество эффектов. Принцип работы этого фильтра основан на использовании двух буферов, каждый с двумя отсчётами. Один буфер содержит два последних отсчёта во входном сигнале, другой — два последних отсчёта в выходном сигнале. Результирующее значение получается с помощью суммирования пяти значений: текущего отсчёта и отсчётов из обоих буферов перемноженных на заранее вычисленные коэффициенты. Коэффициенты данного фильтра задаются не напрямую, а вычисляются из параметров частоты, добротности (Q) и усиления.

Все графики ниже отображают диапазон частот от 20 Гц до 20000 Гц. Горизонтальная ось отображает частоту, по ней применяется логарифмический масштаб, вертикальная — магнитуду (жёлтый график) от 0 до 2, или фазовый сдвиг (зелёный график) от -Pi до Pi. Частота всех фильтров (632 Гц) отмечена красной чертой на графике.

Lowpass



Рис. 8. Фильтр lowpass.

Пропускает только частоты ниже заданной частоты. Фильтр задаётся частотой и добротностью.

Highpass



Рис. 9. Фильтр highpass.

Действует аналогично lowpass, за исключением того, что он пропускает частоты выше заданной, а не ниже.

Bandpass



Рис. 10. Фильтр bandpass.

Этот фильтр более избирателен — он пропускает только определённую полосу частот.

Notch



Рис. 11. Фильтр notch.

Является противоположностью bandpass — пропускает все частоты вне заданной полосы. Стоит, однако, отметить разность в графиках затухания воздействия и в фазовых характеристиках данных фильтров.

Lowshelf



Рис. 12. Фильтр lowshelf.

Highshelf



Рис. 13. Фильтр highshelf.

Более умная версия lowpass — усиливает или ослабляет частоты выше заданной, частоты ниже пропускает без изменений.

Peaking



Рис. 14. Фильтр peaking.

Фильтр allpass



Рис. 15. Фильтр allpass.

Allpass отличается ото всех остальных — он не меняет амплитудные характеристики сигнала, вместо чего делает фазовый сдвиг заданных частот. Фильтр задаётся частотой и добротностью.

Фильтр WaveShaperNode

Фильтр ConvolverNode

Для работы данного фильтра требуется разложение сигнала на частотные составляющие. Это разложение производится с помощью быстрого преобразования Фурье (к сожалению, в русскоязычной Википедии совершенно несодержательная статья, написанная, судя по всему, для людей, которые и так знают, что такое БПФ и сами могут написать такую же несодержательную статью). Как я уже говорил во вступлении, не стану приводить в данной статье математику БПФ, однако не упомянуть краеугольный алгоритм для цифровой обработки сигналов было бы неправильно.

Данный фильтр реализует эффект реверберации. Существует множество библиотек готовых аудио-буферов для данного фильтра, которые реализуют различные эффекты (1, 2), подобные библиотеки хорошо находятся по запросу [impulse response mp3].

Большое спасибо моим коллегам, которые помогали собирать материалы для этой статьи и давали полезные советы.

Отдельное спасибо Тарасу Audiophile Ковриженко за описание алгоритмов нормализации и максимизации громкости и Сергею forgotten Константинову за большое количество пояснений и советов по данной статье.

UPD. Поправил раздел про фильтрацию и добавил ссылки по разным типам фильтров. Спасибо Денису deniskreshikhin Крешихину и Никите merlin-vrn Киприянову за то, что обратили внимание.

человеческий слух и его природа

Автозвук

Внешнее (наружнее) ухо

Внешнее ухо состоит из ушной раковины и наружного слухового прохода. Ушная раковина — упругий хрящ сложной формы, покрытый кожей. В нижней части ушной раковины располагается мочка, которая состоит из жировой ткани и также покрыта кожей. Ушная раковина выполняет роль приёмника звуковых волн из окружающего пространства. Особая форма строения ушной раковины позволяет лучше улавливать звуки, в особенности звуки среднечастотного диапазона, отвечающего за передачу речевой информации. Этот факт во многом обусловлен эволюционной необходимостью, поскольку человек большую часть жизни проводит в устном общении с представителями своего вида. Ушная раковина человека практически неподвижна, в отличии от большого числа представителей животного вида, которые используют движения ушами для более точной настройки на источник звука.


Среднее ухо

внутреннее ухо

Внутреннее ухо

Особенности восприятия и формирования речи

  1. Генератор — лёгкие в качестве резервуара воздушного объёма. В лёгких запасается энергия избыточного давления, далее через выводящий канал при помощи мускульной системы осуществляется вывод этой энергии через трахею, соединённой с гортанью. На этом этапе воздушная струя прерывается и видоизменяется;
  2. Вибратор — состоит из голосовых связок. Так же на поток воздействуют воздушные турбулентные струи (создают краевые тоны) и импульсные источники (взрывы);
  3. Резонатор — включает резонансные полости сложной геометрической формы (глотка, ротовая и носовая полости).

В совокупности индивидуального устройства данных элементов формируется неповторимый и индивидуальный тембр голоса каждого человека в отдельности.

Генерация энергии воздушного столба осуществляется в легких, которые создают определённый поток воздуха при вдохе и выдохе за счет разницы атмосферного и внутрилегочного давления. Процесс накопления энергии осуществляется посредством вдоха, процесс освобождения характеизуется выдохом. Происходит это за счет сжатия и расширения грудной клетки, которые осуществляются с помощью двух групп мышц: межреберных и диафрагмы, при глубоком усиленном дыхании и пении сокращаются также мышцы брюшного пресса, груди и шеи. При вдохе диафрагма сжимается и опускается вниз, сокращение наружных межреберных мышц поднимает ребра и отводит их в стороны, а грудину вперед. Увеличение грудной клетки приводит к падению давления внутри лёгких (по отношению к атмосферному), и это пространство стремительно заполняется воздухом. При выдохе соответственно происходит расслабление мускул и всё возвращается в прежнее состояние (грудная клетка возвращается в исходное состояние за счёт своей собственной тяжести, диафрагма поднимается, уменьшается объём ранее расширившихся легких, давление внутрилёгочное растет). Вдох можно описать как процесс, требующий затраты энергии (активный); выдох – процесс накопления энергии (пассивный). Управление процессом дыхания и формирования речи происходит бессознательно, но при пении постановка дыхания требует осознанного подхода и длительного дополнительного обучения.

Особенности слухового восприятия, безопасность прослушивания, слуховые пороги, адаптация, правильный уровень громкости

Как видно из описания строения человеческого уха, орган этот весьма нежный и достаточно сложный по строению. Принимая этот факт во внимание, нетрудно определить, что этот чрезвычайно тонкий и чувствительный аппарат имеет набор ограничений, порогов и т.д. Человеческая слуховая система приспособлена к восприятию тихих звуков, а так же звуков средней интенсивности. Длительное воздействие громких звуков влечёт за собой необратимые сдвиги слуховых порогов, а так же прочие проблемы со слухом, вплоть до полной глухоты. Степень повреждения прямопропорциональна времени воздействия в громкой среде. В этот момент так же вступает в силу механизм адаптации — т.е. под действием длительных громких звуков чувствительность постепенно снижается, ощущаемая громкость уменьшается, слух адаптируется.

  1. Нелинейность слухового восприятия человека;
  2. Особенности психоакустического восприятия, которые будут рассмотрены отдельно.

Психоакустика и особенности восприятия

  1. Дельта-волны (волны ниже 4 Гц). Соответствует состоянию глубокого сна без сновидений, при этом полностью отсутствуют ощущения тела.
  2. Тета-волны (волны 4-7 Гц). Состояние сна или глубокой медитации.
  3. Альфа-волны (волны 7-13 Гц). Состояния расслабления и релаксации во время бодрствования, сонливость.
  4. Бета-волны (волны 13-40 Гц). Состояние активность, повседневного мышления и мыслительной деятельности, возбуждение и познание.
  5. Гамма-волны (волны выше 40 Гц). Состояние сильной умственной активности, страха, возбуждения и осознания.

Психоакустика, как раздел науки, ищет ответы на самые интересные вопросы, касающиеся конечного восприятия человеком звуковой информации. В процессе изучения этого процесса вскрывается огромное количество факторов, влияние которых неизменно происходит как в процессе прослушивания музыки, так и в любом другом случае обработки и анализа любой звуковой информации. Психоакуситка изучает практически всё многообразие возможных влияний, начиная с эмоционального и психического состояния человека в момент прослушивания, заканчивая особенностями строения голосовых связок (в случае, если речь идёт об особенностях восприятия всех тонкостей вокального исполнения) и механизма преобразования звука в электрические импульсы мозга. Наиболее интересные, а главное важные факторы (которые жизненно необходимо учитывать каждый раз при прослушивании любимых музыкальных композиций, а так же при построении профессиональной аудиосистемы) будут рассмотрены далее.

Понятие созвучности, музыкальной созвучности

Таким образом, созвучность и несогласованность (консонансность и диссонансность) напрямую зависит от разрешающей способности слуховой системы. Получается, что если два разных тона звучат в унисон или разница частот равна нулю, то это совершенный консонанс. Такой же консонанс возникает в случае, если разница частот будет больше, чем критическая полоса. Диссонанс же возникает лишь тогда, когда разница частот составляет от 5% до 50% от критической полосы. Наивысшая степень диссонанса в данном отрезке прослушивается, если разница составляет одну четверть от ширины критической полосы. На основании этого легко проанализировать любую сведённую музыкальную запись и сочетание инструментов на предмет созвучности или диссонансности звучания. Нетрудно догадаться, какую большую роль в этом случае играет звукорежиссёр, студия звукозаписи и прочие составляющие конечного цифрового или аналогового оригинала звуковой дорожки, и всё это ещё даже до попытки воспроизведения на звуковоспроизводящем оборудовании.

Локализация звука

Воспринимать всю полноту пространственной звуковой картины человеку помогает система бинаурального слуха и пространственной локализации. Этот механизм восприятия реализуется за счёт двух приёмников слуха и двух слуховых каналов. Звуковая информация, которая поступает по этим каналам, в последствии обрабатывается в переферической части слуховой системы и подвергается спектрально временному анализу. Далее, эта информация передаётся в высшие отделы головного мозга, где сравнивается разница левого и правого звукового сигнала, а так же формируется единый звуковой образ. Этот описанный механизм именуется бинауральным слухом. Благодаря этому, у человека имеются такие уникальные возможности:

бинауральный слух

1) локализация звуковых сигналов от одного или нескольких источников, при этом формируется пространственная картина восприятия звукового поля
2) разделение сигналов, приходящих от различных источников
3) выделение одних сигналов, на фоне других (например, выделение речи и голоса из шума или звучания инструментов)

Наибольший эффект локализации, воспринимаемый человеческими органами слуха, находится в области средних частот. В то же время, практически невозможно определить направление звуков частот выше 8000 Гц и ниже 150 Гц. Последний факт особенно широко используется в системах hi-fi и домашнего театра при выборе местоположения сабвуфера (низкочастотного звена), расположение которого в помещении ввиду отсутствия локализации частот ниже 150 Гц практически не имеет значения, и у слушателя в любом случае возникает целостный образ звуковой сцены. Точность локализации зависит от расположения источника излучения звуковых волн в пространстве. Таким образом, наибольшая точность локализации звуков отмечается в горизонтальной плоскости, достигая значения 3°. В вертикальной плоскости человеческая слуховая система гораздо хуже определяет направление источника, точность в этом случае составляет 10-15° (из-за специфического строения ушных раковин и сложной геометрии). Точность локализации слегка варьируется в зависимости от угла расположения излучающих звук объектов в пространстве углами относительно слушателя, а так же, на конечный эффект оказывает влияние степень дифракции звуковых волн головы слушателя. Следует так же заметить, что широкополосные сигналы локализуются лучше, чем узкополосный шум.

Гораздо интереснее обстоит дело с определением глубины направленного звука. Например, человек по звуку может определить расстояние до объекта, однако, происходит это в большей степени за счёт изменения звукового давления в пространстве. Обычно, чем дальше объект от слушателя, тем больше происходит ослабление звуковых волн в свободном пространстве (в помещении добавляется влияние отражённых звуковых волн). Таким образом можно заключить, что точность локализации выше в закрытом помещении именно за счёт возникновения ревербации. Отражённые волны, возникающие в закрытых помещениях, дают возможность появлению таких интересных эффектов, как расширение звуковой сцены, обволакивание и пр. Данные явления возможны именно за счёт восприимчивости трёхмерной локализации звуков. Основные зависимости, которые и определяют горизонтальную локализацию звука: 1) разница по времени прихода звуковой волны в левое и правое ухо; 2) разница в интенсивности, возникающая из-за дифракции на голове слушателя. Для определения глубины звука важна разница уровня звукового давления и разница спектрального состава. Локализация в вертикальной плоскости так же сильно зависима от дифракции в ушной раковине.

Сложнее обстоит дело с современными системами пространственного звучания на основе технологии dolby surround и аналогов. Казалось бы, принцип построения систем домашнего кинотеатра чётко регламентируют способ воссоздания достаточно натуралистичной пространственной картины 3D звучания с присущим объёмом и локализацией виртуальных источников в пространстве. Однако, не всё так тривиально, поскольку обычно не принимаются во внимание сами механизмы восприятия и локализации большого количества источников звука. Преобразование звука органами слуха предполагает процесс сложения сигналов разных источников, пришедших в разные уши. Притом, если фазовая структура разных звуков более менее синхронна, такой процесс на слух воспринимается как звук, исходящий от одного источника. Имеется ещё и целый ряд трудностей, включая особенности механизма локализации, затрудняющий точность определения направления источника в пространстве.

Ввиду вышесказанного, наиболее трудной задачей становится разделение звуков от разных источников, особенно, если эти разные источники проигрывают схожий амплитудно-частотный сигнал. А именно это и происходит на практике в любой современной системе пространственного звучания, и даже в обычной стереосистеме. Когда человек прослушивает большое количество звуков, исходящих от разных источников, сначала происходит определение принадлежности каждого конкретного звука тому источнику, который его создаёт (группировка по частоте, высоте, тембру). И только вторым этапом слух пытается локализовать источник. После этого приходящие звуки разделяются по потокам, основываясь на пространственных признаках (разница во времени поступления сигналов, разница по амплитуде). На основе полученной информации формируется более менее статичный и фиксированный слуховой образ, из которого которого возможно определить, откуда идёт каждый конкретный звук.

Очень удобно отследить данные процессы на примере обычной сцены, с фиксированно расположенными на ней музыкантами. При этом, очень интересно то, что если вокалист/исполнитель, занимая изначально определённую позицию на сцене начнёт плавно перемещаться по сцене в любом направлении, ранее сформированный слуховой образ не изменится! Определение направления звука, исходящего от вокалиста, останется субъективно прежним, как-буд-то он стоит на том же месте, на котором стоял до перемещения. Только в случае резкого изменения местоположения исполнителя на сцене произойдёт расщипление сформированного звукового образа. Помимо рассмотренных проблем и сложности процессов локализации звуков в пространстве, в случае с многоканальными системами пространственного звучания достаточно большую роль оказывает процесс ревербации в конечном помещении для прослушивания. Наиболее ярко эта зависимость наблюдается, когда большое число отражённых звуков приходит со всех сторон — точность локализации существенно ухудшается. Если же энергетическая насыщенность отражённых волн больше (преобладает) чем прямых звуков, критерий локализации в таком помещении становится крайне размытым, говорить о точности определения таких источников крайне затруднительно (если вообще возможно).

Читайте также: