Почему бессмысленно хранить аудио в 24/192

Вводные слова

Нет, честно говоря, никаких вводных слов не будет. Чтобы было сразу понятно, к чему клонит вся эта статья, сразу сформулирую её основной вывод: нет смысла распространять музыку в формате 24 бита и 192 кГц, потому что его качество редко лучше 16/44.1 или 16/48, а занимает он в 6 раз больше места.

Кое-что о человеческой психологии

В прошлом году Нил Янг* и Стив Джобс обсуждали создание сервиса для скачивания аудио в «бескомпромиссном студийном качестве», а спустя некоторое время Нил Янг представил плеер Pono, который должен будет использоваться для воспроизведения этого аудио. В общем, эта идея нравится инвесторам, и они совсем недавно выделили $500,000 на популяризацию этого формата. По-сути, на что выделены эти деньги? На одурачивающий маркетинг. Почему этот маркетинг работает? Ну, он работает из-за существования парочки факторов.

Во-первых, при восприятии таких новостей люди зачастую основываются на догадках о том, как работает цифровое аудио, а не на том, как на самом деле оно работает: они предполагают, что увеличение частоты дискретизации аналогично увеличению количества кадров в секунду в видео. На самом деле такое увеличение аналогично добавлению инфракрасных и ультрафиолетовых цветов, которые мы никогда не увидим и видеть не можем в принципе. (Об этом повествует центральная часть статьи, но она будет чуть-чуть дальше.)

Во-вторых, люди могут считать, что слышат разницу в звуке, когда её на самом деле нет. Допускать такие ошибки мышления — это нормально для человека. Ошибки эти называются когнитивными искажениями. Подтверждение предубеждения, стадный инстинкт, эффект плацебо, доверие авторитету — это лишь некоторые когнитивные искажения, могущие заставить человека поверить в то, что он слышит разницу. Подтверждение предубеждения: «В 24/192 больше информации, значит я её должен слышать; о, слышу!» Стадный инстинкт вообще каким-то магическим образом заставляет людей верить в то, чего нет и быть не может. Доверие авторитету либо заставляет совершенно не критично относиться к информации, либо при сравнении со своим честным мнением отдавать предпочтение чужому мнению. В советском научно-популярном фильме «Я и другие» наглядно показываются некоторые социальные когнитивные искажения. Например, в фильме показывается следующий эксперимент: группе студентов показывают несколько портретов людей, и они должны сказать, на каких из двух портретов изображён один и тот же человек. Все студенты, кроме одного, — подставные и указывают на два портрета совершенно непохожих людей, а испытуемый, хоть изначально и не думал о таком варианте, зачастую соглашается с мнением большинства. Вы скажете: «Нет, ну я-то не такой». Вообще, вряд ли. Все мы люди, просто отличаемся тем, что в разной степени в чём-либо осведомлены. В любом случае, если бы люди не были подвластны таким когнитивным искажениям, то уже давно не работал бы маркетинг. Посмотрите кругом: люди покупают необоснованно дорогие товары и радуются этому.

Итак, 24/192 обычно не улучшает качество и это звучит как плохая новость. Хорошая новость заключается в том, что качество звучания улучшить несложно — достаточно просто купить хорошие наушники**. В конце концов улучшение качества звучания от них заметно сразу, оно не иллюзорно и радует. По крайней мере взяв наушники хотя бы в ценовом диапазоне от $100 до $200, вы будете радоваться и скажете мне спасибо за мой совет купить хорошие наушники, если, конечно, вы не купите красивые и дорогие имиджевые наушники, предназначенные совсем не для качественного воспроизведения аудио. А теперь давайте перейдём к самому интересному.

* Да, я тоже понятия не имел, кто такой Нил Янг. Оказывается, это известный канадский музыкант... уже 50 лет как известный.
** Это моё личное мнение, я не являюсь представителем каких-либо магазинов и не преследую никакой коммерческой цели.

Теорема Найквиста-Шеннона

Для того, чтобы не оказаться в ловушке мышления, попробуем с самых азов понять, из-за чего работает цифровое аудио.

Сначала чётко уясним термины (будем формулировать их так, будто они применяются только при анализе звуков).
Сигнал — функция, зависящая от времени. Например, как сигнал можно выразить электрическое напряжение в проводах аудиоаппаратуры или, скажем, давление звука на барабанную перепонку (в зависимости от момента времени).

Спектр — представление сигнала в зависимости от частоты, а не времени. Это означает, что функция выражается не как «громкость», записанная во времени, а как набор громкостей бесконечного количества гармоник (косинусоид), включенных в один и тот же момент времени. То есть изначальный сигнал может быть представлен как набор гармонических сигналов разных частот и амплитуд («громкостей»). Да, физические величины зачастую (на деле почти всегда) можно представлять таким «странным» образом (проведя преобразование Фурье над изначальной функцией). (Отображение значения спектра в произвольный момент времени — это один из самых наглядных способов изобразить визуально музыку в аудиоплеере. Замечу, что тот спектр, о котором я говорю, содержит информацию о всем промежутке времени, а не о каком-то мгновенном значении, т.к. по набору гармоник (спектру) можно воссоздать весь звуковой отрывок.)

Теорема Найквиста-Шеннона утверждает, что если сигнал имеет ограниченный спектр, то он может быть восстановлен по своим отсчётам, взятым с частотой, строго большей удвоенной верхней частоты f_c: f > 2 f_c. Если мы будем увеличивать частоту отсчётов, то это повлияет лишь на то, что формат цифрового аудио начнёт позволять записывать более высокие частоты — те, которые мы никак не воспринимаем. Кстати, в этой теореме говорится о сигнале, состоящем не из конечного набора частот, а из бесконечного, как в реальном звуке. Если говорить простым языком, то смысл теоремы заключается в том, что если мы возьмём какой-нибудь звуковой сигнал, содержащий только частоты, меньшие f_c, и запишем (в файл) его значения через каждые 1/f секунды, то мы сможем потом воссоздать изначальный звуковой сигнал по этим значениям. Да-да, воссоздать полностью, без потери какого-либо качества вообще. Но формулировка не объясняет, как воссоздать этот звук. Вообще, это теорема из работы Найквиста «Certain topics in telegraph transmission theory» за 1928 год, в этой работе ничего не сказано про то, как воссоздать звук. А вот теорема Котельникова, предложенная и доказанная В.А. Котельниковым в 1933 году, объясняет это довольно чётко.

Теорема Котельникова

Что же это означает? Во-первых, обратим внимание на функцию sinc(t) = sin(t)/t. Наглядно это просто мексиканская шляпа:

Теорема Котельникова | Мексиканская шляпа | График ( sinc(t) = sin(t)/t )

Вычитание k/(2f₁) из t означает сдвиг шляпы в нужное место (в то самое место, где был записан отсчёт), а умножение на D_k означает растягивание этой шляпы по вертикали так, чтобы её макушка совпадала с точкой отсчёта. То есть теорема утверждает, что для воссоздания звука достаточно собрать шляпы в точках, соответствующих отсчётам, причём таким образом, чтобы вершины шляп совпадали с измерениями в отсчётах. Теорему оставим без доказательства — его можно найти в почти любой литературе по обработке сигналов. Однако обращу внимание на то, что воссоздание функции по теореме Котельникова не является просто сглаживанием. Да, шляпа не влияет на значения в соседних отсчётах, но влияет на значения между ними. И когда мы имеет низкочастотный сигнал, это может выглядеть как сглаживание, но если мы имеем, скажем высокочастотный косинус, то при его изображении в виде ступенек, мы даже не поймём, что это косинус — он будет казаться просто хаотичным набором отсчётов, однако, при восстановлении получится самый настоящий и идеально гладенький косинус.

Ну что же, математически понятно, что восстановить звук возможно. Чисто теоретически. И это не значит, что устройства воспроизведения цифрового звука воссоздают звук неотличимым от оригинального, это лишь значит, что аудиоформат позволяет такое сделать. А вот как правильно подкидывать мексиканские шляпы на выход цифро-аналогового преобразователя и как донести полученный звук до уха с минимальными искажениями — это уже совсем другая магия, не имеющая отношения к данной статье. К счастью для нас, добрые инженеры уже тысячу раз подумали над тем, как им решить для нас эту задачу.

Что дают 24 бита

При обсуждении применения теоремы Котельникова к цифровому аудио мы для простоты забыли, что при квантовании (оцифровке) числа D_k — это числа, записанные на компьютере, а, значит, это числа не любой точности, а какой-то определённой — той, что мы выберем для нашего аудиоформата. Это означает, что значения изначального сигнала записываются не точно, и это приводит к, вообще говоря, невозможности воссоздать оригинальный сигнал. Но как в реальности это влияет на воспринимаемый человеком звук при честном сравнении 16 и 24 битных сигналов? Проводились исследования, что лучше, 24/44 или 16/88 (да-да, именно так!), удвоение частоты качества не прибавило, а вот увеличение разрядности испытуемые определяли без проблем. В сторону 32 и 64 бит пока никто не смотрит, нет в природе устройств, которые бы могли реализовать потенциал 64-битного звука. А вот при внутренней обработке звука в музыкальных редакторах используют высокую разрядность под 64 бит и выше.

Давайте поговорим о громкости звука. Громкость звука — это субъективная величина, возрастающая очень медленно при увеличении звукового давления и зависит от него, амплитуды и частоты звука. Уровень громкости звука — это относительная величина, которая выражается в фонах и численно равна уровню звукового давления, создаваемого синусоидальным тоном частотой 1 кГц такой же громкости, как и измеряемый звук. Уровень звукового давления (sound pressure level, SPL) измеряется в дБ относительно порога слышимости синусоидальной волны в 1 кГц для человеческого уха, а при возрастании звукового давления в 2 раза, уровень звукового давления увеличивается на 6 дБ. Приведу несколько значений звукового давления:

20-30 дБ SPL – очень тихая комната (да-да, комната, в которой ничего не происходит).
40-50 дБ SPL – обычный разговор.
75 дБ SPL – крик, смех на расстоянии 1 метр.
85 дБ SPL – опасная для слуха громкость — повреждение при длительном воздействии 8 часов в день, для некоторых людей эта величина может быть меньше [Hearing damage]. Примерно такая громкость на автостраде в час пик [Sound pressure levels]. Не знаю как вы, но я на такой громкости никогда не слушаю музыку — это становится понятно, когда иду в закрытых накладных/охватывающих наушниках мимо шоссе и пытаюсь слушать музыку.
91 дБ SPL – повреждение слуха при воздействии 2 часа в день.
100 дБ SPL – это максимальное допустимое звуковое давление для наушников по нормам Евросоюза.
120 дБ SPL – почти невыносимо — болевой порог.
140 дБ SPL и выше — разрыв барабанной перепонки, баротравма или даже смерть.

Эта сводная таблица уровней громкости рассчитана на воспроизведение с акустических систем, где негативное влияние оказывает высокое звуковое давление на все тело.

В наушниках без особых проблем многие слушают под 130-140 дБ и никакого разрыва перепонки не случается. Слух попортить безусловно можно. Основные данные по болевым порогам получены от колонок, где наибольший вред наносят низкие частоты, которые действуют не столько на ухо, сколько на все тело, вводя в резонанс внутренние органы и разрушая их. Повредить грудную клетку от низких частот из наушников просто не реально. А вот в автомобиле от сабвуфера – в самый раз. Но более важно то, что таблица создавалась изначально под производственный шум на заводах. Ухо от наушников повредить можно на высокой громкости только в области верхних средних частот, где у уха есть собственный резонанс.

Эффективный же динамический диапазон 16-битного аудио — 96 дБ. Сравнивая 130 и 96 дБ становится понятно, что разницу в звуке мы услышать можем. Но чисто теоретически. Во-первых, 96 дБ — это величина отношения сигнал/шум в типичных источниках звука. Во-вторых, для популяризации форматов высокого разрешения на студиях часто сводят звук для CD и DVD-Audio с несколько разным усердием и в итоге покупатель может слышать посредственно сведённый материал в первом случае и хорошо сведенный во втором.

Последнее время стало модным выпускать ремастеры различных альбомов исполнителей. Но при этом большая часть таких ремастеров, сделанных на более новом оборудовании и в тяжеловесных форматах звучит существенно хуже, чем старые записи... Здесь возникает подозрение, что вместо качественного сведения талантливым звукорежиссером, все заменяется просто качественным оборудованием и уверенности, что это даст лучший результат, а если нет, то и так все раскупят.

Получается, что с позиции технических параметров 24 бит всегда будут лучше, чем 16, но услышать это можно на качественно сделанных записях, если сделать запись с радио, то там различить 16 и 24 бита будет очень сложно. Таким образом стоит гнаться не за высокими форматами, а за качественно записанными и сведенными записями и стремится к повышению качества аппаратуры.

Гонка к тяжеловесным форматам сопоставима с гонкой за мегапикселями фотоаппаратов, где любой профессионал знает, что итоговое качество от этого зависит довольно слабо.

В дорогих системах порой используют отдельную обработку в виде SRC как в Colorfly C4 Pro, что при переводе 44.1/16>192/24 позволяет перевести ЦАП в другой режим работы и заменить его блок цифровой фильтрации сигнала (от альязинга) более совершенным внешним SRC конвертером. Так же отдельно сконвертированные файлы из 44.1/16 в 192/24 порой могут звучать лучше, но именно из-за особенностей используемого ЦАП и это дает повод задуматься над апгрейдом системы в целом.

Надо отметить, что проверка различных DVD-Audio дисков порой выдавала удручающий результат, т.к. изначальный исходник для тяжеловесного формата был взят из стандартного CD-Audio.

Дополнительно

Ну что же, если наша цель заключается в том, чтобы наслаждаться звучанием, то осталось понять, что новость про бессмысленность 24/192 даже и не плохая вовсе — она, на самом деле говорит о том, что качество звука улучшить можно, но для этого не надо гнаться за тяжеловесными форматами.

Но раз существует как минимум два мнения по поводу «16/44.1 против 24/192», то, может быть есть и ещё какие-то иные и интересные мнения? Да, есть. Как минимум есть ещё две интересные статьи с неожиданными выводами: «Coding High Quality Digital Audio» от J. Robert Stuart (статья на английском) и «24/192 Music Downloads... and why they make no sense» от Monty, разработчика формата OGG (эта статья тоже на английском, она утверждает, что 24 бита тоже бессмысленны).

Резюме

Нет смысла хранить аудио в 24/192, поскольку это не улучшит качество звука просто так.
192 кГц бессмысленны потому, что позволяют записывать звуки с частотами, которые мы не слышим, а все слышимые звуки есть в 44.1 кГц.
Кстати, если бы на этих частотах содержалась какая-нибудь информация, и если бы она воспроизводилась цифро-аналоговым преобразователем, то она бы вносила дополнительные искажения (шумы) в слышимом диапазоне частот. А вы знаете причины такого поведения аудиосистемы?
24 бита позволяют записывать звуки такой громкости, какую мы не можем слышать на обычной аппаратуре (или позволяет записывать громкость слышимых звуков с такой точностью, которая неотличима от 16 бит).
Из-за когнитивных искажений мы можем считать, что разница между 16/44.1 и 24/192 существует и заметна.
Многие маркетинговые ходы и стратегии основываются на когнитивных искажениях и незнании.
Качество звучания можно улучшить, но другими способами.

Автор:
Другие авторы: Роман Кузнецов
14.12.2012

Нашли опечатку в тексте? Выделите и нажмите Ctrl+Enter. Это не требует регистрации. Спасибо.

Поделитесь в социальных сетях

Еще интересное для чтения

Комментарии и отзывы (26)

Для того, чтобы оставить комментарий необходимо - зарегистрироваться или зайти под логином своей соц. сети, блога или другого доступного сервиса на странице входа.

Мне нравится0 Гоша Крапивников 17.12.2012 00:51:35
Согласен, большинство ремастеров звучит отстойно. А когда была только аналоговая запись, то все делалось исключительно ушами и по этому винил до сих пор для многих звучит приятнее всех компактов... Лучше всего с форматами высоких разрешений смотреть в сторону обычных музыкантов, которые свои треки продают в 44/16 и 96/24, полученных с одного микса, например Gas - Microscopic.

Мне нравится0 Юрий Маренич 09.01.2014 03:55:52
А про передачу формы сигнала как? Спектр и ряды Фурье Нейквист и Котельников отменили? Попробуйте разложить сложный сигнал на гармоники и урезать верхние. Типа выше 20000. Что получите при этом? Меандр и тот становится похож на себя при полосе пропускания в 10 раз выше частоты его самого!

Мне нравится0

SergeRX 12.01.2014 17:17:26

Цитата
Юрий Маренич пишет: А про передачу формы сигнала как?

Думаю, что дискретизация с частотой 44 и урезание спектра выше 20000 в редакторе - одно и тоже.
В случае с меандром на диграмме естественно какие то различия в форме сигнала будут видны, но на слух разница не будет ощутима (собственно об этом и статья).

Мне нравится0 openid.yandex.ru/ceremony777 02.04.2014 16:43:19
Это ж как так можно: Нила Янга то не знать. Это ж культовый дядька. After the Gold Rush (1970) советую ознакомиться. Интересная статья.

Мне нравится1 Владимир Гаркушов 15.04.2014 00:58:46
В корне не согласен с общей риторикой! С технической точки зрения то наверное все так и есть, но на деле разница как минимум в разрядности записей для аудиофила огромна! И естественно она в пользу 24 битного звучания. Тот кто это писал явно не аудиофил. И дело тут вовсе не в субъективном восприятии, все это неоднократно мною сравнивалось, конвертировалось из одного формата в другой и обратно, просто из любопытства. Ну кто не аудиофил, не меломен, тот не в состоянии оценить все прелести качественной записи. Конечно, качественной запись может быть и 16 и 24 битной, но последняя заметно выигрывает, звук ощутимо натуральнее! Я бы сказал он совсем другой, потому что мы в эпоху цифровой музыки совсем забыли что такое натуральное звучание инструментов, а точнее большинство и не знали

Мне нравится0 Aleksander Pocrishkin 16.04.2014 08:45:54
Aleksander Pocrishkin ...Ребята! Согласен c ''16/44.1kHz - нет кардинальной разницы между - 24/192kHz'', всё зависит от качества источника, транспорта, терминалов и т.д., если конечно, слушать 17-ти летнего рэпера! ...С его Басс-бочкой и максимум двумя инструментами, да подругой на ''Бэк.Вок.'', например - Эминем! ...А, о детализации звука, вы забыли!? ЦАП 16/44.1kHz не видит разницы между гитарой и саксофоном при совпадении частоты, тональности, октавы и времени, он их объединяет и по-тихому, начинает ''Варить Кашу!'' А, если у вас, больше 6-ти инструментов!?... У, ЦАП 24/192kHz - этой проблемы нет! А, звучание Фирменного ''CD-Audio''- это строжайшее ''НОУ-ХАУ!'', до сиих пор! Одно, только ''Просочилось'', другой принцип записи - ''Тонами'', без пред- усиления (за счёт минусовых деферентов нуля.) Вытекающая, из выше упомянутого, амплитуда волны доходит до 50dB! - в 16/44.1kHz, при ''Актуальном'' - диапазоне в 20dB, получается - двойной ''Квант'' - а, это ''Квази - 32Bit!'' А, для примера ''Эталонной'' детализации звука: - Michael Jackson ''History''- Part I / 1995 г. (Vinyl - Epic / Sony / USA - Original), трек ''Don't Stop 'Til You Get Enough'' - Pre Amp: ''Mark Levinson №33 Н'', АЦП 24bit-192kHz (HI - End Class), Ссылка: (torrent downloaded from http://www.Demonoid.me) ...''Железо,''- любое! Хоть ''Realtek'' ... Лишь-бы, было - 24/192kHz - это принципиально! И, естественно ''Всё в нулях! Да-же, если, Экв. в нуле (Всё, равно - OFF!) - Если и тут, не заметна разница...! - Тогда, советую бросить графики, формулы и, сходить на ''Живой'' концерт какого нибудь ''Профи.'' Например: Леонид Агутин - ''Отрезвляет!'', по себе знаю! Ведь, ''Live'' с участием музыкантов мирового уровня, и аппаратурой ''TOP'' - класса, графиком АЧХ не оспоришь! ....Согласитесь! - Или, нет!?

Мне нравится0 OruScUkG 09.07.2014 16:12:22
Ребята, тогда расскажите, какого ценового уровня аппаратура нужна для того, чтобы расслышать 192 КГц / 24 бит? Я знаю, вы сейчас скажете, что на наушниках-вкладышах за 300 руб. и встроенной звуковой карте никакой разницы услышать и невозможно. Допустим. Давайте возьмем хотя бы вот такой набор - ASUS Xonar Essence One (что-то около $520) и Sennheiser HD-650 (около $500). Этот комплект стоит чуть более $1000 - но и на нем никакой разницы между 44,1 КГц / 16 бит и 192 КГц / 24 бит я не слышу. Вы, вероятно, опять скажете, что ASUS и Sennheiser - это недостойные истинного ценителя поделия, и надо покупать XXX и YYY. Допустим. Возможно, я вам поверю. Тогда сколько должен стоить минимальный комплект (скажем, наушники + ЦАП), чтобы это можно было услышать?

Мне нравится0 Edward Pobirsky 10.07.2014 10:15:04
привет! кто-же слушает наушники (пока её не оглох - только динамики!!!) Я чётко слышу разницу 192 и 224 и если музыка нравится в колекцию пишу по возмоности запись в 320! А скоро уже буду только во "флеках"!!!

Мне нравится0 Filipp Zolotov 07.10.2014 19:12:25
Вопрос такой;слушаю формат FLAC на частоте 44.1 кгц, изменится ли качество если слушать его на частоте 192 кгц?и вообще все ли устройства поддерживают частоту воспроизведения 192 кгц или это индивидуальность? Мое устройство Walkman F805,уши Sony MDR-MA900.

Мне нравится1 openid.yandex.ru/ANANASLIMON 28.10.2014 07:16:29
Востановить сигнал по отсчетам не получится, можно сгладить используя соседние отсчеты по алгоритму sin(x)/x это может хорошо востанавливать только синусы, а если сигнал имел другую форму, то все равно на выходе будет что то очень напоминающие их. Так что чем выше дискретизация тем лучше. И дело тут не в ультразвуке, просто удается более точно отобразить сигнал. Никакие алгоритмы не смогут восполнить потерю информации. Это все похоже на сглаживание фотографий, или сглаживание 3d графики, все это выполняется по тем же алгоритмам Бит хватит и 16, даже можно снизить до 10 и будет вполне слушабельно. Другое дело файлы занимают такой огромный объем что хочется коллекционировать только мп3, как на жестких дисках, так и на всяких компактах.

Возврат к списку >>>

			[?]
Логин		Пароль