ГЛАВНАЯ Визы Виза в Грецию Виза в Грецию для россиян в 2016 году: нужна ли, как сделать

Запись, редактирование, кодировка и качество mp3. Подробнее о настройках конвертирования звука Оптимальный битрейт при разных условиях прослушивания

Плюсы и минусы MP3 128 kbps

Сжатие аудио-данных — штука сложная. Ничего нельзя сказать заранее… Самый распространенный на сегодня формат — MPEG Layer3 с потоком 128 кбит/с — обеспечивает качество, которое на первый взгляд ничем не отличается от оригинала. Его так и называют легкомысленно — "CD-качество". Тем не менее, почти все знают, что многие люди воротят нос от такого "CD качества". Что же не так? Почему этого качества недостаточно? Очень сложный вопрос. Я сам противник сжатия в 128 кбит, так как результат порой получается дурацкий. Но у меня есть некоторое количество записей в 128 кбит, к которым я практически не могу придраться. Подходит ли поток 128 для кодирования того или иного материала — выясняется, к сожалению, только после многократного прослушивания результата. Заранее ничего сказать не удается — лично мне не известны признаки, которые позволили бы заранее определить удачность результата. Но часто потока 128 полностью хватает для качественного кодирования музыки.

Для кодирования в 128 кбит/с лучше всего использовать продукты от Fraunhofer — MP3 Producer 2.1 или более поздние. Кроме MP3enc 3.0 — в нем есть досадная ошибка, приводящая к очень плохому кодированию высоких частот. Версии выше 3.0 не страдают этим недостатком.

Прежде всего, немного общих слов. Восприятие звуковой картины человеком очень сильно зависит от симметричной передачи двух каналов (стерео). Разные искажения в разных каналах — гораздо хуже, чем одинаковые. Вообще говоря, обеспечение как можно более одинаковых характеристик звука в обоих каналах, но между тем разный материал (иначе какое же это стерео) — большая проблема звукозаписи, которая обычно недооценивается. Если для кодирования моно мы можем использовать 64 кбит/с, то для кодирования стерео в режиме просто двух каналов нам не хватит 64 кбит/с на канал — стерео результат будет звучать гораздо более неправильно, чем каждый канал в отдельности. В большинстве продуктов Fraunhofer вообще поставлен предел для моно в 64 кбит/с — и я еще не видел монофонической записи (чистой записи — без шумов или искажений), которая потребовала бы большего потока. Наши пристрастия к монофоническому звуку почему-то гораздо более слабы, чем к стереофоническому — видимо, он просто не воспринимается нами серьезно:) — с психоакустической точки зрения он представляет собой просто звук, исходящий из колонки, а не попытка полной передачи какой-то звуковой картины.

Попытка передачи стерео сигналов выдвигает гораздо более жесткие требования — в конце концов, вы когда-нибудь слышали про психоакустическую модель, которая учитывает маскирование одного канала другим? Также игнорируются некоторые обратные, скажем так, эффекты — например, некий стерео эффект, который рассчитан на оба канала сразу. Отдельно взятый левый канал маскирует сам в себе свою часть эффекта — мы не услышим его. Но наличие правого канала — второй части эффекта — изменяет наше восприятие левого канала: мы подсознательно больше ожидаем услышать левую часть эффекта, и это изменение нашей психоакустики тоже нужно учитывать. При слабом сжатии — 128 кбит на канал (итого 256 кбит) эти эффекты сходят на нет, поскольку каждый канал представлен достаточно полно чтобы с запасом перекрывать надобность в симметричности передачи, но для потоков около 64 кбит на канал это большая проблема — передача тонких нюансов совместного восприятия обоих каналов требует более точной передачи, чем это на сегодняшний день возможно в таких потоках.

Можно было, конечно, делать полноценную акустическую модель для двух каналов, но индустрия пошла по другому пути, который в общем то эквивалентен этому, но гораздо проще. Множество алгоритмов с общим названием Joint Stereо — частичное решение вышеописанных проблем. Большинство алгоритмов сводится к тому, что выделяется центральный канал и разностный канал — mid/side stereo. Центральный канал несет основную аудио информацию и представляет собой обычный моно канал, образованный из двух исходных каналов, а разностный — остальную информацию, позволяющую восстановить исходный стерео звук. Сама по себе эта операция полностью обратима — это просто другой способ представления двух каналов, с которым легче работать при сжатии стерео информации.

Далее обычно происходит сжатие отдельно центрального и разностного канала, при этом используется тот факт, что разностный канал в реальной музыке относительно беден — оба канала имеют очень много общего. Баланс сжатия в пользу центрального и разностного канала выбирается на ходу, но в основном гораздо больший поток выделяется на центральный канал. Сложные алгоритмы решают, что нам в данный момент предпочтительнее — более правильная пространственная картина или качество передачи общей для обоих каналов информации, или же просто сжатие без mid/side стерео — то есть в режиме двойного канала.

Как ни странно, но стереофоническое сжатие — самое слабое место результата сжатия в Layer3 128 кбит/с. Нельзя критиковать создателей формата — это всё таки меньшее возможное зло. Тонкая стереофоническая информация почти не воспринимается сознательно (если не брать во внимание явных вещей — грубое расположение инструментов в пространстве, искусственные эффекты и т.п.), поэтому качество стерео оценивается человеком в последнюю очередь. Обычно что-то всегда не дает добраться до этого: компьютерные колонки, например, вносят гораздо более существенные недостатки, и до таких тонкостей как неправильная передача пространственной информации дело просто не доходит.

Не стоит думать, что то, что не дает расслышать этот недостаток на компьютерной акустике — это то, что колонки расставлены на расстояние 1 метр, по бокам монитора, не создавая достаточной стереобазы. Дело даже не в этом.. Во первых если уж дело доходит до таких колонок, то человек сидит прямо перед ними — а это создает тот же эффект, что и колонки в углах комнаты, и даже больший: на нормальной акустике и хорошей громкости вы почти никогда не сможете выделить точное пространственное расположение звуков (речь идет не о звуковой картине, которую, наоборот, компьютерные колонки никогда не построят, а о непосредственном, сознательном, восприятии различия между каналами). Компьютерные колонки (в стандартном использовании) или наушники дают гораздо более четкое непосредственное восприятие стерео, чем обычная музыкальная акустика.

Прямо скажем — для непосредственного, информационно-познавательного восприятия звука, нам не очень требуется точная стерео информация. Непосредственно обнаружить разницу в этом аспекте между оригиналом и Layer3 128 кбит/с довольно сложно, хотя и можно. Нужен или большой опыт, или усиление интересующих эффектов. Самое простое, что можно сделать — виртуально разнести каналы дальше того, чем это возможно физически. Обычно именно этот эффект включается в дешевой компьютерной технике кнопочкой "3D Sound". Или в бум-боксах, колонки которых не отделяются от корпуса устройства и разнесены слишком слабо для передачи красивого стерео естественным путем. Происходит переход пространственной информации в специфическую аудио информацию обоих каналов — увеличивается разница между каналами.

Я применил более сильный эффект, чем это обычно принято, чтобы лучше слышать разницу. Посмотрите как должно звучать — после кодирования в 256 кбит/с с двойным каналом (256_channels_wide.mp3 , 172 кБ), и как звучит после кодирования в 128 кбит/с с joint stereo (128_channels_wide.mp3 , 172 кБ).

Отступление . Оба эти файла — mp3 с 256 кбит/с, закодированные с помощью mp3 Producer 2.1. Не стоит путать: я, во первых, тестирую mp3, и во вторых — выкладываю результаты тестирования mp3 в mp3 ;). Всё было так: сначала я закодировал отрывок музыки в 128 и 256. Потом разжал эти файлы, применил обработку (экспандер стерео), сжал в 256 — лишь для экономии места — и выложил сюда.

Кстати говоря, только при 256 кбит/с в mp3 Producer 2.1 выключается joint stereo и включается dual channels — два независимых канала. Даже 192 кбит/с в Producer 2.1 — это какой-то вариант joint stereo, потому что мои примеры очень неправильно сжимались в меньший чем 256 кбит/с поток. Это основная причина того, что "полное" качество начинается именно с 256 кбит/с — исторически сложилось так, что любой меньший поток в стандартных коммерческих продуктах от Fraunhofer (до 98 года) — это joint stereo, что в любом случае неприемлемо для полностью правильной передачи. Другие (или поздние) продукты, в принципе, позволяют произвольно выбирать — joint stereo или двойной канал — для любого потока.

О результатах

В оригинале (которому в данном случае точно соответствует 256 кбит/с) мы слышали звук с усиленным разностным каналом и ослабленным центральным. Очень хорошо было слышно реверберацию голоса, как и вообще всяческие искусственные реверберации и эхо — эти пространственные эффекты идут в основном в разностный канал. Если говорить конкретно, то в данном случае было 33% центрального канала и 300% разностного. Абсолютный эффект — 0% центрального канала — включается на аппаратуре типа музыкальных центров кнопочкой типа "karaoke vocal fader", "voice cancelation/remove" или подобными, смысл которых — убрать голос из фонограммы. Смысл операции в том, что голос обычно записан лишь на центральном канале — одинаковое присутствие в левом и правом канале. Убрав центральный канал, мы убираем голос (и много чего еще, поэтому эта функция в реальной жизни довольно бесполезна). Если у вас есть такая штука — можете сами послушать с ней свои mp3 — получается забавный детектор joint stereo.

На данном примере уже можно косвенно понять, что мы потеряли. Во первых, стало заметно хуже слышны все пространственные эффекты — они просто потерялись. Зато во вторых — бульканье — это результат перехода пространственной информации в звуковую. Чему соответствовало оно в пространстве — да просто всё время почти случайно перемещающимся компонентам звука, некому "пространственному шуму", которого не было в исходной фонограмме (она выдерживает хоть полный переход пространственной информации в звуковую без появления посторонних эффектов). Известно, что такого типа искажения при кодировании в низкие потоки часто появляются и непосредственно, без всяких дополнительных обработок. Просто непосредственные звуковые искажения (которых почти всегда нет) воспринимаются сознательно и сразу, а стереофонические (которые при joint stereo есть всегда и в большом количестве) — лишь подсознательно и в процессе прослушивания в течении некоторого времени.

Это — основная причина, которая не дает звуку Layer3 128 кбит/с считаться полным CD качеством. Дело в том, что само по себе превращение стерео звука в моно дает сильные негативные эффекты — часто один и тот же звук повторяется в разных каналах с небольшой задержкой, что при смешении дает просто размытый во времени звук. Моно звук, сделанный из стерео звука, звучит гораздо хуже, чем исходно монофоническая запись. Разностный канал, в дополнении к центральному (смешанному моно каналу), дает полное обратное разделение на правый и левый, но частичное отсутствии разностного канала (недостаточное его кодирование) приносит не только недостаточную пространственную картину, но и эти неприятные эффекты смешивания стереофонического звука в один моно канал.

Когда все остальные препятствия устранены — аппаратура хорошая, тональная окраска и динамика неизменна (потока вполне хватает для кодирования центрального канала) — это всё равно останется. Но бывают фонограммы, записанные таким образом, что негативные эффекты сжатия на основе mid/side stereo не проявляются — и тогда 128 кбит/с дает то же полное качество, что и 256 кбит/с. Частный случай — фонограмма, может быть, и богатая в смысле стерео информации, но бедная звуковой информацией — например, медленная игра на фортепьяно. В таком случае для кодирования разностного канала выделяется поток вполне достаточный для передачи точной пространственной информации. Бывают и более трудно объяснимые случаи — активная, заполненная самыми разными инструментами аранжировка, тем не менее, звучит на 128 кбит/с очень хорошо — но такое встречается редко, может в одном случае из пяти-десяти. Однако встречается.

Собственно к звуку. Сложно выделить непосредственные дефекты звучания центрального канала в Layer3 128 кбит/с. Отсутствие передачи частот выше 16 кГц (они, кстати, очень редко, но всё же передаются) и некое уменьшение амплитуды совсем высоких — строго говоря само по себе — просто чушь. Человек за несколько минут полностью привыкает и не к таким тональным искажениям, это просто не может считаться сильными отрицательными факторами. Да, это искажения, но для восприятия "полного качества" — далеко второстепенные. Со стороны центрального, непосредственно звукового, канала возможны неприятности другого рода — резкое ограничение доступного потока для кодирования этого канала, вызванное просто стечением обстоятельств — очень обильная пространственная информация, загруженный разнообразными звуками момент, частые неэффективные короткие блоки и как следствие всего этого — полностью израсходованный резервный буфер потока. Это случается, но относительно редко, и то — если такой факт имеет место, то обычно заметен на больших фрагментах непрерывно.

Показать дефекты такого рода в явном виде, чтобы заметил любой человек, очень сложно. Их легко заметит даже без обработки человек, который привык иметь дело со звуком, но для обычного некритичного слушателя это может показаться совершенно неотличимым от оригинала звучанием и каким-то абстрактным копанием в том, чего на самом деле нет.. И всё таки посмотрите пример. Для его выделения пришлось применить сильную обработку — очень сильно уменьшить содержание средних и высоких частот после декодирования. Убрав мешающие расслышать эти нюансы частоты мы, конечно, нарушаем работу модели кодирования, но это поможет лучше понять, что мы теряем. Итак — как должно звучать (256_bass.mp3 , 172 кБ), и что получается после декодирования и обработки потока 128 кбит/с (128_bass.mp3 , 172 кБ). Обратите внимание на заметную потерю непрерывности, плавности звучания баса, а также некоторые другие аномалии. Передачей низких частот в данном случае пожертвовали в пользу более высоких частот и пространственной информации.

Надо заметить, что работу акустической модели сжатия можно наблюдать (при внимательном изучении и имея некоторый опыт работы со звуком) и на 256 кбит/с, если применить более-менее сильный эквалайзер. Если сделать это и потом послушать, можно будет иногда (довольно часто) замечать неприятные эффекты (звон/бульканье). Более важно то, что звук после такой процедуры будет иметь неприятный, неровный характер, который очень сложно заметить сразу, но это будет заметно при длительном прослушивании. Разница между 128 и 256 лишь в том, что в потоке 128 кбит/с эти эффекты часто существуют и без всякой обработки. Их тоже сложно заметить сразу, но они есть — пример с басом дает некоторое представление о том, где их искать. Расслышать же это в высоких потоках (выше 256 кбит/с) без обработки просто нельзя. Эта проблема не касается высоких потоков, но есть то, что иногда (очень редко) не дает считать даже Layer3 — 256 кбит/с оригиналом — это временные параметры (подробнее будет в отдельной статье позже: см. MPEG Layer3 — 256 /ссылка на другую статью/).

Есть фонограммы, которых не касается и эта проблема. Проще всего перечислить факторы, которые, наоборот, приводят к появлению вышеописанных искажений. Если ни один из них не выполнен — имеется большой шанс на полностью успешное, в этом аспекте, кодирование в Layer3 — 128 кбит/с. Всё зависит, однако, от конкретного материала…

В первую очередь — шум, скажем так, аппаратный. Если фонограмма ощутимо шумит — её очень нежелательно кодировать в маленькие потоки, так как слишком большая часть потока идет на кодирование ненужной информации, которая к тому же не слишком то поддается разумному кодированию с помощью акустической модели.

  • Просто шум — всякие посторонние звуки. Монотонный шум города, улицы, ресторана, т.п., на фоне которого происходит основное действие. Такого типа звуки дают очень обильный поток информации, которую следует кодировать, и алгоритм будет вынужден чем-то жертвовать в основном материале.
  • Неестественные сильные стереоэффекты. Это, скорее, относится к предыдущему пункту, но в любом случае — слишком большая часть потока идет на разностный канал, и кодирование центрального канала сильно ухудшается.
  • Сильные фазовые искажения, разные для разных каналов. В принципе, это относится скорее к недоработкам распространенных в данное время алгоритмов кодирования, чем к стандарту, но всё таки. Начинаются самые дикие искажения из-за полного срыва всего процесса. К таким искажениям исходной фонограммы в большинстве случаев приводит запись на кассетную технику и последующая оцифровка, особенно при проигрывании недорогими магнитофонами с некачественным реверсом. Головки стоят криво, лента мотается косо, и каналы слегка задерживаются один относительно другого.
  • Просто слишком перегруженная запись. Совсем грубо говоря — большой симфонический оркестр играет весь разом:). Обычно в результате сжатия в 128 кбит/с получается нечто такое совсем схематичное — камерные, медные, ударные, солист. Встречается, конечно, не только в классике.

Другой полюс — то, что обычно неплохо сжимается:

  • Сольный инструмент с относительно простым звуком — гитара, фортепьяно. Скрипка, например, имеет слишком наполненный спектр и звучит обычно не очень хорошо. От скрипки скрипача на самом деле зависит и само произведение. Неплохо также обычно сжимаются несколько инструментов — барды или КСП, например (инструмент + голос).
  • Качественная современного изготовления музыка. Имеется в виду не музыкальное качество, а качество звука — сведение, расположение инструментов, категорическое отсутствие сложных глобальных эффектов, украшающих звуков и вообще чего либо лишнего. В эту категорию, например, легко попадает вся современная попса, также некоторый рок, и вообще довольно много всего.
  • Агрессивная, "электрогитарная" музыка. Ну чтобы как-то привести пример — ранняя Metallica (да и современная в общем то тоже). [помните, речь не о музыкальных стилях! просто пример.]

Стоит заметить, что на сжатие Layer3 почти не производят впечатления такие параметры, как наличие/отсутствие высоких частот, басов, глухая/звонкая окраска и т.д. Зависимость есть, но настолько слабая, что можно не принимать её в расчет.

К сожалению (или к счастью?), дело упирается в самого человека. Многие люди без подготовки и предварительного выделения слышат разницу между потоками около 128 кбит/с и оригиналом, многие же даже синтетические экстремальные примеры не воспринимают на слух как отличия. Первых не нужно ни в чем убеждать, вторых же такими примерами и не убедишь… Можно было бы просто сказать, что кому-то есть разница, а кому-то нет, если бы не одно но: в процессе слушания музыки со временем наше восприятие всё время улучшается. То, что казалось хорошим качеством вчера, завтра может таковым уже не показаться — так случается всегда. И если довольно бессмысленно (по крайней мере на мой взгляд) сжимать в 320 кбит/с по сравнению с 256 кбит/с — выигрыш уже не слишком важен, хотя и понятен, то хранить музыку хотя бы в 256 кбит/с всё же стоит.

Битрейт указывается как одна из главных характеристик видео и аудиозаписей. Большинство пользователей привыкло думать, что он определяет качество загружаемого файла. Но что такое битрейты и как они на самом деле характеризуют музыкальные файлы и видеоролики? Рассмотрим это подробнее.

Что такое битрейты?

Битрейт - это величина, которая отображает количество единиц информации (мегабит или килобит), вмещенных в одну секунду воспроизведения файла. Соответственно, он измеряется в мегабитах в секунду (Mbps) или килобитах в секунду (Kbps). Иначе битрейт можно охарактеризовать как ширину пропускной полосы. Эта характеристика важна для тех, кто хочет конвертировать файлы, потому что при одной и той же продолжительности больший битрейт приведет к увеличению файла. Помимо размера, меняется и качество звука. Уменьшение размера при понижении битрейта называется сжатием.

Распространенный музыкальный представляет собой аудиофайл, сжатый до такой степени, что на стандартный диск помещается до 12-ти часов музыки. При этом качество остается достаточно высоким благодаря психоакустическому сжатию: из всего диапазона убираются звуки с теми частотами и уровнями громкости, которые не улавливаются человеческим ухом. Отобранные звуки формируются в обособленные блоки, называемые фреймами. Фреймы имеют одинаковую продолжительность звучания и сжимаются по заданному алгоритму. Когда проигрывается музыка, сигнал воссоздается из декодированных блоков в определенной последовательности.

Какое обычно используется сжатие?

Битрейт аудио чаще всего составляет 256 Кбит/с. При таком значении аудиозапись сжимается в размере приблизительно в 6 раз, благодаря чему на один диск можно записать в 6 раз больше музыки, чем до сжатия. Если битрейт понизить до 128 Кбит/с, то на один диск поместится уже в 12 раз больше музыки, однако качество звучания будет заметно ниже. Музыка, записанная в качестве 128 Кбит/с, чаще всего предлагается для прослушивания в интернете, т. к. в погоне за повышением скорости загрузки страниц владельцы ресурсов идут на любые жертвы. Многие пользователи отмечают, что ее качество далеко от идеального.

Теперь, когда стало ясно, что такое битрейты, самое время определить их оптимальный уровень. Как любители, так и профессионалы бесконечно спорят, как битрейт влияет на качество звука и влияет ли вообще. На музыкальных альбомах, как правило, указывается битрейт. Один и тот же диск, записанный в качестве 128 Кбит/с и 256 Кбит/с, будет различаться по цене в два раза.

Оптимальный битрейт при разных условиях прослушивания

Для многих людей двенадцатикратное сжатие не представляет какого-либо ущерба, в то время как другие утверждают, что не могут слушать музыку с битрейтом ниже, чем 320 Кбит/с. Парадоксально, но правы и те и другие. Дело в том, что в конечном счете качество воспроизведения зависит не от а от условий воспроизведения и даже от типа музыки.

Например, песня проигрывается на магнитофоне, установленном в отечественном автомобиле. В таком случае качество на уровне 192 Кбит/с будет вполне достаточным. Более высокий битрейт улучшит качество звука, но разница не будет заметна из-за высокого уровня шума во время поездки. Если же музыка играет на домашнем компьютере или портативном плеере, то требуется не менее 256 Кбит/с. Если же сигнал не подвергается изменениям, передается на внешние устройства и выводится на дорогие импортные колонки, то следует по возможности прибегать к минимальному сжатию. Оно возможно при битрейте 320 Кбит/с.

Оптимальный битрейт для различных музыкальных стилей

Музыка с высоким битрейтом нужна не всегда. Популярная музыка, как правило, достаточно хорошо звучит при битрейте 192-256 Кбит/с. Более высокое качество установить можно, но смысла в этом нет: поп-композиции недолговечны, поэтому сохранение места на дисках должно быть приоритетным. Кроме того, качество исходных записей тоже посредственное, поэтому повышение битрейта может никак не повлиять на качество воспроизводимого файла. Для прослушивания в транспорте и на неофициальных вечеринках среднего качества вполне хватит.

Если же речь идет о классической музыке, произведениях легендарных рок-групп или редких авторских песнях, то качество должно быть превыше всего. При приобретении такой музыки нужно посмотреть на битрейт, указанный на упаковке диска. Если песня загружается из Интернета, то такая информация должна присутствовать на странице скачивания. Кроме того, битрейт отображается в плеере во время проигрывания.

Битрейты видеофайлов

Выше говорилось о том, что такое битрейты аудиозаписей. Но что такое битрейт видео? Учитывая, что видео воспроизводится как последовательность звуков и изображений, то определение битрейта будет аналогичным. Наличие видеоряда утяжеляет файл, но в конечном счете изображения для процессора - это такие же нули и единицы, как и звуки. Принцип шифрования информации одинаков для всех типов файлов.

Формат mp3 . Качество. (Простыми словами)
mp3 - цифровое представление аналогового сигнала, который дискредитируется (оцифровывается) через равные промежутки времени (с заданной в герцах частотой) и представляется в двоичном виде (с заданной точностью - разрядностью в битах).

Исполнитель - Название.mp3
192kbps 48kHz 16bit CBR stereo

1. Что означает 16kbps или 320kbps , или 192kbps и т.д.
Цифра означает сколько цифровых данных понадобилось для кодировки.
kbps -"килобайт пё секонд" т.е. килобайт в секунду.
Бит в секунду, бит/с (англ. bits per second, bps) - базовая единица измерения скорости передачи информации.

*Чем больше это значение, тем качественней и объёмистей (Mb) звук.

* 1 байт = 8 бит
* 1 килобит = 1024 бит = 128 байт (Б)
* 1 мегабит = 1048576 бит = 131072 байт = 128 Кбайт

Начинающие часто путают килобайты c килобитами, ожидая скорости 256 КБ/c от канала 256 Кбит/c (на таком канале скорость будет 31,25 КБ/с). То есть, для загрузки одного мегабайта (1 МB) информации на таком канале потребуется 32,768 секунды.

2.Что означает 44100 Hz или 44 kHz.

Частота дискретизации - частота взятия отсчетов при преобразовании аналогового звукового сигнала в цифровой. Выражается числом отсчетов в секунду или в герцах, частота дискретизации по времени формата компакт-диска - 44,1 кГц.

(Простыми словами - с какой частотой оцифровыван звук)

*Звуковые карты поддерживают распространённые частоты, как и плееры.
Хотя в редакторах можно сохранить от 2000 Hz до 192 000 Hz .Чем выше частота, тем больше (Mb) и качественней звук.

3.Что такое 16bit или 24bit.
Значения амплитуды звука представлены с помощью разного числа битов (разрядности); звуковая дорожка, как правило, оцифровывается с разрядностью от 12 до 24 бит.
*Чем лучше это значение, тем точнее и чётче будет слышно разные,но похожие по звучанию инструменты, а также сильно влияет на качество звука.
4. Что такое ABR , CBR , VBR
ABR расшифровывается как Average Bit Rate, то есть усредненный битрейт, который является гибридом VBR и CBR: битрейт в кбит/c задаётся пользователем, а программа варьирует его, постоянно подгоняя под заданный битрейт.

*Простыми словами при сохранении mp3 звука и выбрав VBR 128kbps , это будет означать, что звук будет кодироваться с переменным (по небходимости) битрейтом не превышая 128kbps .При тишине будет около 16kbps.

CBR - это постоянное качество не более указанного, но даже при тишине будет указанное значение.
т.е. кодируя CBR 320kbps 1-ну минуту звука и 1-ну минуту тишины конечные файлы будут занимать одинаковое значение Mb.

ABR - кодируется с постоянным указанным значением (например 128kbps) , но при необходимости 128kbps нарушается и берётся более высокое значение.
*По качеству лучше взять VBR c чаcтотой 48Hz ,потом CBR ,ABR , VBR 44,1Hz.
5. Mono . Stereo .Вроде все знают.

Позже напишу остальное...

Развенчание популярных мифов о цифровом звуке.

2017-10-01T15:27

2017-10-01T15:27

Audiophile"s Software

Примечание : для лучшего понимания нижеизложенного текста очень рекомендую ознакомиться с основами цифрового звука .

Также многие затронутые ниже моменты освещены в моей публикации «Ещё раз о печальной правде: откуда на самом деле берётся хорошее звучание?» .

Чем больше битрейт, тем качественнее трек

Это далеко не всегда так. Для начала напомню, что такое битрейт (bitrate, а не bitraid). Фактически это скорость потока данных в килобитах на секунду при воспроизведении. Т. е., если мы возьмем размер трека в килобитах и разделим на его продолжительность в секундах, получим его битрейт - т. н. file-based bitrate (FBR), обычно он не слишком отличается от битрейта аудиопотока (причиной различий является наличие в треке метаданных - тегов, «вшитых» изображений и т. п.).

Теперь возьмем пример: битрейт несжатого PCM аудио, записанного на обычном Audio CD, рассчитывается следующим образом: 2 (канала) × 16 (бит на каждый семпл) × 44100 (семплов в секунду) = 1411200 (бит/с) = 1411.2 кбит/с. А теперь возьмём и сожмём трек любым lossless кодеком («lossless» - «беспотерьный», т. е. такой, который не приводит к потере какой-либо информации), например кодеком FLAC. В результате мы получим битрейт ниже исходного, но качество при этом останется неизменным - вот вам и первое опровержение.

Сюда ещё кое-что стоит добавить. Битрейт на выходе при lossless сжатии может получиться самый разный (но, как правило он меньше, чем у несжатого аудио) - зависит это от сложности сжимаемого сигнала, а точнее от избыточности данных. Таким образом, более простые сигналы будут сжиматься лучше (т. е. имеем меньший размер файла при такой же продолжительности => меньший битрейт), а более сложные - хуже. Именно поэтому классическая музыка в lossless имеет меньший битрейт, чем, скажем, рок. Но надо подчеркнуть, что битрейт тут ни в коем случае не является показателем качества звукового материала.

Теперь поговорим о lossy сжатии (с потерями). Прежде всего надо понимать, что существует множество разных кодеров и форматов, и даже в пределах одного формата качество кодирования у разных кодеров может отличаться (например, QuickTime AAC кодирует намного качественнее устаревшего FAAC), не говоря уже о превосходстве современных форматов (OGG Vorbis, AAC, Opus) над MP3. Проще говоря, из двух одинаковых треков, закодированных разными кодерами с одним битрейтом, какой-то будет звучать лучше, а какой-то - хуже.

Кроме того, существует такое понятие, как апконверт . Т. е., можно взять трек в формате MP3 с битрейтом 96 кбит/с и конвертировать его в MP3 320 кбит/с. Мало того, что при этом качество не улучшится (ведь потерянные при предыдущем кодировании в 96 кбит/с данные уже не вернуть), оно даже ухудшится. Тут стоит указать, что на каждом этапе lossy кодирования (с любым битрейтом и любым кодером) в аудио вносится определенная порция искажений.

И даже более. Есть еще один нюанс. Если, скажем, битрейт аудиопотока - 320 кбит/с, это не значит, что все 320 кбит ушли на кодирование той самой секунды. Это характерно для кодирования с постоянным битрейтом и для тех случаев, когда человек, надеясь получить максимальное качество, форсирует слишком большой постоянный битрейт (как пример - установка 512 кбит/с CBR для Nero AAC). Как известно, количество бит, выделяемое на тот или иной фрейм, регулируется психоакустической моделью. Но в случае, когда выделенное количество намного ниже установленного битрейта, то не спасает даже резервуар бит (о терминах читайте в статье «Что такое CBR, ABR, VBR?») - в итоге мы получаем бесполезные «нулевые биты», которые просто «добивают» размер фрейма до нужного (т. е. увеличивают размер потока до заданного). Кстати, это легко проверить - сожмите полученный файл архиватором (лучше 7z) и посмотрите на степень сжатия - чем она больше - тем больше нулевых битов (т. к. они приводят к избыточности), тем больше зря потраченного места.

Кодеки lossy (MP3 и прочие) способны справитьcя c современной электронной музыкой, но не способны качественно закодировать классическую (академическую), живую, инструментальную музыку

«Ирония судьбы» здесь в том, что на самом деле всё с точностью до наоборот. Как известно, академическая музыка в подавляющем большинстве случаев следует мелодическим и гармоническим принципам, а также инструментальному составу. С математической точки зрения это обуславливает относительно простой гармонический состав музыки. Так преобладание консонансов продуцирует меньшее количество побочных гармоник: например, для квинты (интервал, в котором основные частоты двух звуков различаются в полтора раза) общей для двух звуков будет каждая вторая гармоника, для кварты, где частоты различаются на одну треть - каждая третья, и т. п. Кроме того, наличие фиксированных соотношений частот, обусловленных использованием равномерно темперированного строя, также упрощает спектральный состав классической музыки. Живой инструментальный состав классики обуславливает отсутствие в ней шумов, характерных для электронной музыки, искажений, резких скачков амплитуды, а также отсутствие избытка высокочастотных составляющих.

Перечисленные выше факторы приводят к тому, что классическая музыка намного легче сжимается, прежде всего, чисто математически. Если вы помните, математическое сжатие работает за счёт устранения избыточности (описывая похожие фрагменты информации с использованием меньшего количества битов), а также за счёт предсказания (т. н. предикторы предсказывают поведение сигнала, а затем кодируется только отклонение реального сигнала от предсказанного - чем точнее они совпали, тем меньше битов нужно для кодирования). В данном случае относительно простой спектральный состав и гармоничность обуславливают высокую избыточность, устранение которой даёт значительную степень компрессии, а малое количество всплесков и шумовых компонентов (являющихся случайными и непредсказуемыми сигналами) обуславливает хорошую математическую предсказуемость подавляющей части информации. И это я уже не говорю об относительно небольшой средней громкости классических треков и о часто встречающихся промежутках тишины, для кодирования которых информация практически не требуется. В итоге мы можем без потерь сжать, например, некоторую сольную инструментальную музыку до битрейтов ниже 320 кбит/с (кодеры TAK и OFR на такое вполне способны).

Так вот, во-первых, дело в том, что математическое сжатие, лежащее в основе lossless кодирования, является также и одним из этапов lossy кодирования (читайте Понятно об MP3 кодировании). А во-вторых, т. к. в lossy используется преобразование Фурье (разложение сигнала на гармоники), то простота спектрального состава даже вдвойне облегчает кодеру работу. В итоге, сравнивая оригинальный и закодированный семпл классической музыки в слепом тесте, мы с удивлением обнаруживаем, что никаких отличий найти не можем, даже при относительно низком битрейте. И самое смешное - что когда мы начинаем совсем понижать битрейт кодирования, первое, что обнаруживает отличия - фоновые шумы в записи.

Что же касается электронной музыки - с ней кодерам приходится очень нелегко: шумовые составляющие имеют минимальную избыточность, и вместе с резкими скачками (какими-нибудь пилообразными импульсами) являются крайне непредсказуемыми сигналами (для кодеров, которые «заточены» под естественные звуки, ведущие себя совершенно иначе), прямое же и обратное преобразование Фурье с отбросом отдельных гармоник психоакустической моделью неминуемо даёт эффекты пре- и пост-эхо, слышимость которых кодеру далеко не всегда легко оценить... Добавьте еще к этому высокий уровень ВЧ составляющих - и получите большое количество киллер-семплов, с которыми на средне-низких битрейтах не справляются даже наиболее продвинутые кодеры, как ни странно, именно среди электронной музыки.

Также забавляют мнения «опытных слухачей» и музыкантов, которые при полном непонимании принципов lossy кодирования начинают утверждать, что они слышат, как инструменты в музыке после кодирования начинают фальшивить, частоты плавают и т. п. Это, возможно, ещё было бы справедливо для допотопных кассетных плееров с детонацией, но в цифровом аудио всё точно: частотная составляющая либо остаётся, либо отбрасывается, смещать тональность тут попросту нет надобности. Более того: наличие у человека музыкального слуха совершенно не означает наличие у него хорошего частотного слуха (например, способности воспринимать частоты >16 кГц, которая с возрастом сходит на нет) и отнюдь не облегчает ему задачу поиска артефактов lossy кодирования, т. к. искажения эти имеют характер очень специфический и требуют опыта слепого сравнения именно lossy аудио - надо знать, на чём и где искать.

DVD-Audio звучит лучше, чем Audio CD (24 бита против 16-ти, 96 кГц против 44.1 и т. п.)

К сожалению, люди обычно смотрят только на цифры и очень редко задумываются о влиянии того или иного параметра на объективное качество.

Рассмотрим для начала разрядность. Этот параметр отвечает не за что иное, как за динамический диапазон, т. е., за разницу между самым тихим и самым громким звуками (в дБ). В цифровом аудио максимальный уровень - это 0 dBFS (FS - full scale), а минимальный - ограничен уровнем шумов, т. е., фактически динамический диапазон по модулю равен уровню шумов. Для 16-битного аудио динамический диапазон рассчитывается как 20 × log 10 2 16 , что равняется 96.33 вБ. При этом динамический диапазон симфонического оркестра - до 75 дБ (в основном около 40-50 дБ).

А теперь представим реальные условия. Уровень шума в комнате - около 40 дБ (не забываем, что дБ - величина относительная. В данном случае за 0 дБ принимается порог слышимости), максимальная громкость музыки достигает 110 дБ (чтобы не было дискомфорта) - получаем разность 70 дБ. Таким образом получается, что динамический диапазон более 70 дБ в данном случае просто бесполезен. Т. е. при диапазоне выше или громкие звуки будут достигать болевого порога, или тихие звуки будут поглощаться окружающими шумами. Достичь уровня окружающих шумов менее 15 дБ очень трудно (так как на этом уровне находится громкость человеческого дыхания и прочих шумов обусловленных, человеческой физиологией), в итоге диапазон в 95 дБ для прослушивания музыки оказывается совершенно достаточным.

Теперь о частоте дискретизации (частота семплирования, sample rate). Этот параметр отвечает за частоту квантования по времени и непосредственно влияет на максимальную частоту сигнала, которую можно описать данным представлением аудио. По теореме Котельникова она равна половине частоты дискретизации. Т. е. для обычной частоты семплирования в 44100 Гц максимальная частота составляющих сигнала - 22050 Гц. Максимальная же частота. которая воспринимается человеческим ухом - чуть выше 20000 Гц (и то, при рождении; по мере взросления порог опускается до 16000 Гц).

Лучше всего данная тема раскрыта в статье Загрузки в формате 24/192 - почему они не имеют смысла .

Разные программные плееры звучат по-разному (e. g. foobar2000 лучше Winamp и т. п.)

Чтобы понять, почему это не так, надо разобраться, что собой представляет программный плеер. По сути это декодер, обработчики (опционально), плагин вывода (на один из интерфейсов: ASIO, DirectSound, WASAPI. etc.), ну и конечно же GUI (графический интерфейс пользователя). Т. к. декодер в 99.9 % случаев работает по стандартному алгоритму, а плагин вывода - это всего лишь часть программы, которая передает поток звуковой карте через один из интерфейсов, то причиной различий могут быть только обработчики. Но дело в том, что обработчики обычно по-умолчанию выключены (или должны быть выключены, т. к. главное для хорошего плеера - уметь передать звук в «первозданном» виде). В итоге, предметом сравнения тут могут быть только возможности обработки и вывода, в которых, кстати говоря, необходимости очень часто вообще нет. Но даже если такая необходимость и есть - то это уже сравнение обработчиков, а никак не плееров.

Разные версии драйвера звучат по-разному

В основании этого утверждения лежит банальное незнание принципов работы звуковой карты. Драйвер - это программное обеспечение, необходимое для эффективного взаимодействия устройства с операционной системой, также обычно предоставляющее графический интерфейс пользователя для возможности управления устройством, его параметрами и т. д. Драйвер звуковой карты обеспечивает распознавание звуковой карты как звукового устройства Windows, сообщает ОС о поддерживаемых картой форматах, обеспечивает передачу несжатого PCM (в большинстве случаев) потока на карту, а также даёт доступ к настройкам. Кроме того, в случае наличия софтовой обработки (средствами CPU), драйвер может содержать различные DSP (обработчики). Потому, во-первых, при отключенных эффектах и обработке, если драйвер не обеспечивает точную передачу PCM на карту, это считается грубейшей ошибкой, критическим багом. И случается такое крайне редко . С другой стороны, различия между драйверами могут быть в обновлении алгоритмов обработки (ресемплеров, эффектов), хотя это случается тоже отнюдь не часто. К тому же, для достижения наивысшего качества эффекты и любую обработку драйвером всё равно следует исключать.

Таким образом, обновления драйверов в основном ориентированы на повышение стабильности работы и устранение ошибок, связанных с обработкой. Ни то, ни другое в нашем случае на качество воспроизведения не влияет, потому в 999 случаях из 1000 драйвер влияния на звук не оказывает.

Лицензионные Audio CD звучат лучше, чем их копии

Если при копировании не произошло ошибок (неустранимых) чтения/записи и у оптического привода устройства, на котором будет воспроизводится диск-копия, нет проблем с его чтением, то такое утверждение ошибочно и легко опровергается .

Режим кодирования Stereo дает лучшее качество, чем Joint Stereo

Это заблуждение главным образом касается LAME MP3, так как все современные кодеры (AAC, Vorbis, Musepack) используют только режим Joint Stereo (и это уже о чём-то говорит)

Для начала стоит упомянуть, что режим Joint Stereo успешно используется при lossless сжатии. Суть его заключается в том, что сигнал перед кодированием раскладывается на сумму правого и левого канала (Mid) и на их разность (Side), а затем происходит отдельное кодирование этих сигналов. В пределе (для одинаковой информации в правом и левом канале) получается двойная экономия данных. А так как в большинстве музыки информация в правом и левом каналах довольно схожа, то этот метод оказывается очень эффективным и позволяет значительно увеличить степень сжатия.

В lossy принцип тот же. Но здесь в режиме постоянного битрейта качество фрагментов со схожей информацией в двух каналах будет увеличиваться (в пределе - удваиваться), а для VBR режима в таких местах будет просто уменьшаться битрейт (не забываем, что главная задача VBR режима - стабильно поддерживать заданное качество кодирования, используя минимально возможный битрейт). Так как во время lossy кодирования приоритет (при распределении битов) отдаётся сумме каналов, чтобы избежать ухудшения стереопанорамы, используется динамическое переключение между режимами Joint Stereo (Mid/Side) и обычным (Left/Right) стерео на базе фреймов. Кстати говоря, причиной данного заблуждения послужило несовершенство алгоритма переключения в старых версиях LAME, а также наличие режима Forced Joint, в котором автопереключение отсутствует. В последних версиях LAME режим Joint включен по умолчанию и менять его не рекомендуется.

Чем шире спектр, тем качественнее запись (о спектрограммах, auCDtect и частотном диапазоне)

В наше время на форумах, к несчастью, очень распространено измерение качества трека «линейкой по спектрограмме». Очевидно, по причине простоты такого способа. Но, как показывает практика, в действительности всё намного сложнее.

А дело тут вот в чем. Спектрограмма визуально демонстрирует распределение мощности сигнала по частотам, но не может дать полного представления о звучании записи, наличии в ней искажений и артефактов компрессии. Т. е., по сути всё, что можно определить по спектрограмме, - это частотный диапазон (и частично - плотность спектра в районе ВЧ). Т. е., в лучшем случае, путем анализа спектрограммы можно выявить апконверт. Сравнение же спектрограмм треков, полученных путем кодирования различными кодерами, с оригиналом - полнейший абсурд. Да, вы сможете выявить различия в спектре, но вот определить, будут ли они (и в какой степени) восприниматься человеческим ухом - практически невозможно. Нельзя забывать, что задача lossy кодирования - обеспечить результат неотличимый человеческим ухом от оригинала (никак не глазом).

Это же относится и к оценке качества кодирования путём анализа треков на выходе программой auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - это лишь оболочки для единственной в своем роде консольной программы auCDtect). Алгоритм auCDtect тоже фактически анализирует частотный диапазон и всего лишь позволяет определить (с определенной долей вероятности), было ли на каком-либо из этапов кодирования применено MPEG сжатие. Алгоритм заточен под MP3, потому его легко «обмануть» с помощью кодеков Vorbis, AAC и Musepack, так что даже если программа пишет «100% CDDA» - это не значит, что закодированное аудио на 100% соответствует исходному.

И возвращаясь непосредственно к спектрам. Популярно также стремление некоторых «энтузиастов» во что бы то ни было отключить lowpass (НЧ) фильтр в кодере LAME. Здесь на лицо непонимание принципов кодирования и психоакустики. Во-первых, кодер обрезает высокие частоты только с одной целью - сэкономить данные и использовать их для кодирования наиболее слышимого диапазона частот. Расширенный частотный диапазон может фатально сказаться на общем качестве звучания и привести к слышимым артефактам кодирования. Более того, отключение среза на 20 кГц - вообще совершенно неоправданно, так как частоты выше человек попросту не слышит.

Существует некая «волшебная» предустановка эквалайзера, способная значительно улучшить звучание

Это не совсем так, во-первых, потому, что каждая отдельно взятая конфигурация (наушники, акустика, звуковая карта) обладает своими собственными параметрами (в частности, своей амплитудно-частотной характеристикой). И потому к каждой конфигурации должен быть свой, уникальный подход. Проще говоря, такая предустановка эквалайзера существует, но она отличается для разных конфигураций. Суть же её заключается в корректировке АЧХ тракта, а именно - в «выравнивании» нежелательных провалов и всплесков.

Также среди людей далеких от непосредственной работы со звуком очень популярна настройка графического эквалайзера «галочкой», что фактически представляет собой повышение уровня НЧ и ВЧ составляющих, но в то же время приводит к приглушению вокала и инструментов, спектр звучания которых находится в районе средних частот.

Перед конвертированием музыки в другой формат следует «разжимать» её в WAV

Сразу отмечу, что под WAV подразумеваются PCM данные (импульсно-кодовая модуляция) в контейнере WAVE (файл с расширением *.wav). Эти данные представляют собой не что иное, как последовательность битов (нулей и единиц) группами по 16, 24 или 32 (в зависимости от разрядности), каждая из которых представляет собой двоичный код амплитуды соответствующего ей семпла (например, для 16 бит в десятичном представлении это значения от -32768 до +32768).

Так вот, дело в том, что любой обработчик звука - будь то фильтр или кодер - как правило работает только с этими значениями, то есть только с несжатыми данными. Это значит, что для преобразования звука, скажем, из FLAC в APE, просто необходимо сначала декодировать FLAC в PCM, а затем уже закодировать PCM в APE. Это как для перепаковки файлов из ZIP в RAR, надо сначала распаковать ZIP.

Однако, если вы пользуетесь конвертером или просто продвинутым консольным кодером, промежуточное преобразование в PCM происходит на лету, иногда даже без записи во временный WAV файл. Именно это и вводит людей в заблуждения: кажется, что форматы конвертируются непосредственно один в другой, но на самом деле в такой программе обязательно есть декодер входного формата, выполняющий промежуточное преобразование в PCM.

Таким образом, ручное преобразование в WAV не даст вам совершенно ничего, кроме лишней траты времени.