Плюсы и минусы MP3 128 kbps

Сжатие аудио-данных - штука сложная. Ничего нельзя сказать заранее... Самый распространенный на сегодня формат - MPEG Layer3 с потоком 128 кбит/с - обеспечивает качество, которое на первый взгляд ничем не отличается от оригинала. Его так и называют легкомысленно - "CD-качество". Тем не менее, почти все знают, что многие люди воротят нос от такого "CD качества". Что же не так? Почему этого качества недостаточно? Очень сложный вопрос. Я сам противник сжатия в 128 кбит, так как результат порой получается дурацкий. Но у меня есть некоторое количество записей в 128 кбит, к которым я практически не могу придраться. Подходит ли поток 128 для кодирования того или иного материала - выясняется, к сожалению, только после многократного прослушивания результата. Заранее ничего сказать не удается - лично мне не известны признаки, которые позволили бы заранее определить удачность результата. Но часто потока 128 полностью хватает для качественного кодирования музыки.

Для кодирования в 128 кбит/с лучше всего использовать продукты от Fraunhofer - MP3 Producer 2.1 или более поздние. Кроме MP3enc 3.0 - в нем есть досадная ошибка, приводящая к очень плохому кодированию высоких частот. Версии выше 3.0 не страдают этим недостатком.

Прежде всего, немного общих слов. Восприятие звуковой картины человеком очень сильно зависит от симметричной передачи двух каналов (стерео). Разные искажения в разных каналах - гораздо хуже, чем одинаковые. Вообще говоря, обеспечение как можно более одинаковых характеристик звука в обоих каналах, но между тем разный материал (иначе какое же это стерео) - большая проблема звукозаписи, которая обычно недооценивается. Если для кодирования моно мы можем использовать 64 кбит/с, то для кодирования стерео в режиме просто двух каналов нам не хватит 64 кбит/с на канал - стерео результат будет звучать гораздо более неправильно, чем каждый канал в отдельности. В большинстве продуктов Fraunhofer вообще поставлен предел для моно в 64 кбит/с - и я еще не видел монофонической записи (чистой записи - без шумов или искажений), которая потребовала бы большего потока. Наши пристрастия к монофоническому звуку почему-то гораздо более слабы, чем к стереофоническому - видимо, он просто не воспринимается нами серьезно :) - с психоакустической точки зрения он представляет собой просто звук, исходящий из колонки, а не попытка полной передачи какой-то звуковой картины.

Попытка передачи стерео сигналов выдвигает гораздо более жесткие требования - в конце концов, вы когда-нибудь слышали про психоакустическую модель, которая учитывает маскирование одного канала другим? Также игнорируются некоторые обратные, скажем так, эффекты - например, некий стерео эффект, который рассчитан на оба канала сразу. Отдельно взятый левый канал маскирует сам в себе свою часть эффекта - мы не услышим его. Но наличие правого канала - второй части эффекта - изменяет наше восприятие левого канала: мы подсознательно больше ожидаем услышать левую часть эффекта, и это изменение нашей психоакустики тоже нужно учитывать. При слабом сжатии - 128 кбит на канал (итого 256 кбит) эти эффекты сходят на нет, поскольку каждый канал представлен достаточно полно чтобы с запасом перекрывать надобность в симметричности передачи, но для потоков около 64 кбит на канал это большая проблема - передача тонких нюансов совместного восприятия обоих каналов требует более точной передачи, чем это на сегодняшний день возможно в таких потоках.

Можно было, конечно, делать полноценную акустическую модель для двух каналов, но индустрия пошла по другому пути, который в общем то эквивалентен этому, но гораздо проще. Множество алгоритмов с общим названием Joint Stereо - частичное решение вышеописанных проблем. Большинство алгоритмов сводится к тому, что выделяется центральный канал и разностный канал - mid/side stereo. Центральный канал несет основную аудио информацию и представляет собой обычный моно канал, образованный из двух исходных каналов, а разностный - остальную информацию, позволяющую восстановить исходный стерео звук. Сама по себе эта операция полностью обратима - это просто другой способ представления двух каналов, с которым легче работать при сжатии стерео информации.

Далее обычно происходит сжатие отдельно центрального и разностного канала, при этом используется тот факт, что разностный канал в реальной музыке относительно беден - оба канала имеют очень много общего. Баланс сжатия в пользу центрального и разностного канала выбирается на ходу, но в основном гораздо больший поток выделяется на центральный канал. Сложные алгоритмы решают, что нам в данный момент предпочтительнее - более правильная пространственная картина или качество передачи общей для обоих каналов информации, или же просто сжатие без mid/side стерео - то есть в режиме двойного канала.

Как ни странно, но стереофоническое сжатие - самое слабое место результата сжатия в Layer3 128 кбит/с. Нельзя критиковать создателей формата - это всё таки меньшее возможное зло. Тонкая стереофоническая информация почти не воспринимается сознательно (если не брать во внимание явных вещей - грубое расположение инструментов в пространстве, искусственные эффекты и т.п.), поэтому качество стерео оценивается человеком в последнюю очередь. Обычно что-то всегда не дает добраться до этого: компьютерные колонки, например, вносят гораздо более существенные недостатки, и до таких тонкостей как неправильная передача пространственной информации дело просто не доходит.

Не стоит думать, что то, что не дает расслышать этот недостаток на компьютерной акустике - это то, что колонки расставлены на расстояние 1 метр, по бокам монитора, не создавая достаточной стереобазы. Дело даже не в этом.. Во первых если уж дело доходит до таких колонок, то человек сидит прямо перед ними - а это создает тот же эффект, что и колонки в углах комнаты, и даже больший: на нормальной акустике и хорошей громкости вы почти никогда не сможете выделить точное пространственное расположение звуков (речь идет не о звуковой картине, которую, наоборот, компьютерные колонки никогда не построят, а о непосредственном, сознательном, восприятии различия между каналами). Компьютерные колонки (в стандартном использовании) или наушники дают гораздо более четкое непосредственное восприятие стерео, чем обычная музыкальная акустика.

Прямо скажем - для непосредственного, информационно-познавательного восприятия звука, нам не очень требуется точная стерео информация. Непосредственно обнаружить разницу в этом аспекте между оригиналом и Layer3 128 кбит/с довольно сложно, хотя и можно. Нужен или большой опыт, или усиление интересующих эффектов. Самое простое, что можно сделать - виртуально разнести каналы дальше того, чем это возможно физически. Обычно именно этот эффект включается в дешевой компьютерной технике кнопочкой '3D Sound'. Или в бум-боксах, колонки которых не отделяются от корпуса устройства и разнесены слишком слабо для передачи красивого стерео естественным путем. Происходит переход пространственной информации в специфическую аудио информацию обоих каналов - увеличивается разница между каналами.

Я применил более сильный эффект, чем это обычно принято, чтобы лучше слышать разницу. Посмотрите как должно звучать - после кодирования в 256 кбит/с с двойным каналом (256_channels_wide.mp3, 172 Кб), и как звучит после кодирования в 128 кбит/с с joint stereo (128_channels_wide.mp3, 172 Кб).

Отступление. Оба эти файла - mp3 с 256 кбит/с, закодированные с помощью mp3 Producer 2.1. Не стоит путать: я, во первых, тестирую mp3, и во вторых - выкладываю результаты тестирования mp3 в mp3 ;). Всё было так: сначала я закодировал отрывок музыки в 128 и 256. Потом разжал эти файлы, применил обработку (экспандер стерео), сжал в 256 - лишь для экономии места - и выложил сюда.

Кстати говоря, только при 256 кбит/с в mp3 Producer 2.1 выключается joint stereo и включается dual channels - два независимых канала. Даже 192 кбит/с в Producer 2.1 - это какой-то вариант joint stereo, потому что мои примеры очень неправильно сжимались в меньший чем 256 кбит/с поток. Это основная причина того, что 'полное' качество начинается именно с 256 кбит/с - исторически сложилось так, что любой меньший поток в стандартных коммерческих продуктах от Fraunhofer (до 98 года) - это joint stereo, что в любом случае неприемлемо для полностью правильной передачи. Другие (или поздние) продукты, в принципе, позволяют произвольно выбирать - joint stereo или двойной канал - для любого потока.

Содержание раздела