Mp3 Разбираемся по порядку. Наиболее распространенные заблуждения на тему цифрового звука Скорости потока данных в формате MP3 и области применения

Развенчание популярных мифов о цифровом звуке.

2017-10-01T15:27

2017-10-01T15:27

Audiophile"s Software

Примечание : для лучшего понимания нижеизложенного текста очень рекомендую ознакомиться с основами цифрового звука .

Также многие затронутые ниже моменты освещены в моей публикации «Ещё раз о печальной правде: откуда на самом деле берётся хорошее звучание?» .

Чем больше битрейт, тем качественнее трек

Это далеко не всегда так. Для начала напомню, что такое битрейт (bitrate, а не bitraid). Фактически это скорость потока данных в килобитах на секунду при воспроизведении. Т. е., если мы возьмем размер трека в килобитах и разделим на его продолжительность в секундах, получим его битрейт - т. н. file-based bitrate (FBR), обычно он не слишком отличается от битрейта аудиопотока (причиной различий является наличие в треке метаданных - тегов, «вшитых» изображений и т. п.).

Теперь возьмем пример: битрейт несжатого PCM аудио, записанного на обычном Audio CD, рассчитывается следующим образом: 2 (канала) × 16 (бит на каждый семпл) × 44100 (семплов в секунду) = 1411200 (бит/с) = 1411.2 кбит/с. А теперь возьмём и сожмём трек любым lossless кодеком («lossless» - «беспотерьный», т. е. такой, который не приводит к потере какой-либо информации), например кодеком FLAC. В результате мы получим битрейт ниже исходного, но качество при этом останется неизменным - вот вам и первое опровержение.

Сюда ещё кое-что стоит добавить. Битрейт на выходе при lossless сжатии может получиться самый разный (но, как правило он меньше, чем у несжатого аудио) - зависит это от сложности сжимаемого сигнала, а точнее от избыточности данных. Таким образом, более простые сигналы будут сжиматься лучше (т. е. имеем меньший размер файла при такой же продолжительности => меньший битрейт), а более сложные - хуже. Именно поэтому классическая музыка в lossless имеет меньший битрейт, чем, скажем, рок. Но надо подчеркнуть, что битрейт тут ни в коем случае не является показателем качества звукового материала.

Теперь поговорим о lossy сжатии (с потерями). Прежде всего надо понимать, что существует множество разных кодеров и форматов, и даже в пределах одного формата качество кодирования у разных кодеров может отличаться (например, QuickTime AAC кодирует намного качественнее устаревшего FAAC), не говоря уже о превосходстве современных форматов (OGG Vorbis, AAC, Opus) над MP3. Проще говоря, из двух одинаковых треков, закодированных разными кодерами с одним битрейтом, какой-то будет звучать лучше, а какой-то - хуже.

Кроме того, существует такое понятие, как апконверт . Т. е., можно взять трек в формате MP3 с битрейтом 96 кбит/с и конвертировать его в MP3 320 кбит/с. Мало того, что при этом качество не улучшится (ведь потерянные при предыдущем кодировании в 96 кбит/с данные уже не вернуть), оно даже ухудшится. Тут стоит указать, что на каждом этапе lossy кодирования (с любым битрейтом и любым кодером) в аудио вносится определенная порция искажений.

И даже более. Есть еще один нюанс. Если, скажем, битрейт аудиопотока - 320 кбит/с, это не значит, что все 320 кбит ушли на кодирование той самой секунды. Это характерно для кодирования с постоянным битрейтом и для тех случаев, когда человек, надеясь получить максимальное качество, форсирует слишком большой постоянный битрейт (как пример - установка 512 кбит/с CBR для Nero AAC). Как известно, количество бит, выделяемое на тот или иной фрейм, регулируется психоакустической моделью. Но в случае, когда выделенное количество намного ниже установленного битрейта, то не спасает даже резервуар бит (о терминах читайте в статье «Что такое CBR, ABR, VBR?») - в итоге мы получаем бесполезные «нулевые биты», которые просто «добивают» размер фрейма до нужного (т. е. увеличивают размер потока до заданного). Кстати, это легко проверить - сожмите полученный файл архиватором (лучше 7z) и посмотрите на степень сжатия - чем она больше - тем больше нулевых битов (т. к. они приводят к избыточности), тем больше зря потраченного места.

Кодеки lossy (MP3 и прочие) способны справитьcя c современной электронной музыкой, но не способны качественно закодировать классическую (академическую), живую, инструментальную музыку

«Ирония судьбы» здесь в том, что на самом деле всё с точностью до наоборот. Как известно, академическая музыка в подавляющем большинстве случаев следует мелодическим и гармоническим принципам, а также инструментальному составу. С математической точки зрения это обуславливает относительно простой гармонический состав музыки. Так преобладание консонансов продуцирует меньшее количество побочных гармоник: например, для квинты (интервал, в котором основные частоты двух звуков различаются в полтора раза) общей для двух звуков будет каждая вторая гармоника, для кварты, где частоты различаются на одну треть - каждая третья, и т. п. Кроме того, наличие фиксированных соотношений частот, обусловленных использованием равномерно темперированного строя, также упрощает спектральный состав классической музыки. Живой инструментальный состав классики обуславливает отсутствие в ней шумов, характерных для электронной музыки, искажений, резких скачков амплитуды, а также отсутствие избытка высокочастотных составляющих.

Перечисленные выше факторы приводят к тому, что классическая музыка намного легче сжимается, прежде всего, чисто математически. Если вы помните, математическое сжатие работает за счёт устранения избыточности (описывая похожие фрагменты информации с использованием меньшего количества битов), а также за счёт предсказания (т. н. предикторы предсказывают поведение сигнала, а затем кодируется только отклонение реального сигнала от предсказанного - чем точнее они совпали, тем меньше битов нужно для кодирования). В данном случае относительно простой спектральный состав и гармоничность обуславливают высокую избыточность, устранение которой даёт значительную степень компрессии, а малое количество всплесков и шумовых компонентов (являющихся случайными и непредсказуемыми сигналами) обуславливает хорошую математическую предсказуемость подавляющей части информации. И это я уже не говорю об относительно небольшой средней громкости классических треков и о часто встречающихся промежутках тишины, для кодирования которых информация практически не требуется. В итоге мы можем без потерь сжать, например, некоторую сольную инструментальную музыку до битрейтов ниже 320 кбит/с (кодеры TAK и OFR на такое вполне способны).

Так вот, во-первых, дело в том, что математическое сжатие, лежащее в основе lossless кодирования, является также и одним из этапов lossy кодирования (читайте Понятно об MP3 кодировании). А во-вторых, т. к. в lossy используется преобразование Фурье (разложение сигнала на гармоники), то простота спектрального состава даже вдвойне облегчает кодеру работу. В итоге, сравнивая оригинальный и закодированный семпл классической музыки в слепом тесте, мы с удивлением обнаруживаем, что никаких отличий найти не можем, даже при относительно низком битрейте. И самое смешное - что когда мы начинаем совсем понижать битрейт кодирования, первое, что обнаруживает отличия - фоновые шумы в записи.

Что же касается электронной музыки - с ней кодерам приходится очень нелегко: шумовые составляющие имеют минимальную избыточность, и вместе с резкими скачками (какими-нибудь пилообразными импульсами) являются крайне непредсказуемыми сигналами (для кодеров, которые «заточены» под естественные звуки, ведущие себя совершенно иначе), прямое же и обратное преобразование Фурье с отбросом отдельных гармоник психоакустической моделью неминуемо даёт эффекты пре- и пост-эхо, слышимость которых кодеру далеко не всегда легко оценить... Добавьте еще к этому высокий уровень ВЧ составляющих - и получите большое количество киллер-семплов, с которыми на средне-низких битрейтах не справляются даже наиболее продвинутые кодеры, как ни странно, именно среди электронной музыки.

Также забавляют мнения «опытных слухачей» и музыкантов, которые при полном непонимании принципов lossy кодирования начинают утверждать, что они слышат, как инструменты в музыке после кодирования начинают фальшивить, частоты плавают и т. п. Это, возможно, ещё было бы справедливо для допотопных кассетных плееров с детонацией, но в цифровом аудио всё точно: частотная составляющая либо остаётся, либо отбрасывается, смещать тональность тут попросту нет надобности. Более того: наличие у человека музыкального слуха совершенно не означает наличие у него хорошего частотного слуха (например, способности воспринимать частоты >16 кГц, которая с возрастом сходит на нет) и отнюдь не облегчает ему задачу поиска артефактов lossy кодирования, т. к. искажения эти имеют характер очень специфический и требуют опыта слепого сравнения именно lossy аудио - надо знать, на чём и где искать.

DVD-Audio звучит лучше, чем Audio CD (24 бита против 16-ти, 96 кГц против 44.1 и т. п.)

К сожалению, люди обычно смотрят только на цифры и очень редко задумываются о влиянии того или иного параметра на объективное качество.

Рассмотрим для начала разрядность. Этот параметр отвечает не за что иное, как за динамический диапазон, т. е., за разницу между самым тихим и самым громким звуками (в дБ). В цифровом аудио максимальный уровень - это 0 dBFS (FS - full scale), а минимальный - ограничен уровнем шумов, т. е., фактически динамический диапазон по модулю равен уровню шумов. Для 16-битного аудио динамический диапазон рассчитывается как 20 × log 10 2 16 , что равняется 96.33 вБ. При этом динамический диапазон симфонического оркестра - до 75 дБ (в основном около 40-50 дБ).

А теперь представим реальные условия. Уровень шума в комнате - около 40 дБ (не забываем, что дБ - величина относительная. В данном случае за 0 дБ принимается порог слышимости), максимальная громкость музыки достигает 110 дБ (чтобы не было дискомфорта) - получаем разность 70 дБ. Таким образом получается, что динамический диапазон более 70 дБ в данном случае просто бесполезен. Т. е. при диапазоне выше или громкие звуки будут достигать болевого порога, или тихие звуки будут поглощаться окружающими шумами. Достичь уровня окружающих шумов менее 15 дБ очень трудно (так как на этом уровне находится громкость человеческого дыхания и прочих шумов обусловленных, человеческой физиологией), в итоге диапазон в 95 дБ для прослушивания музыки оказывается совершенно достаточным.

Теперь о частоте дискретизации (частота семплирования, sample rate). Этот параметр отвечает за частоту квантования по времени и непосредственно влияет на максимальную частоту сигнала, которую можно описать данным представлением аудио. По теореме Котельникова она равна половине частоты дискретизации. Т. е. для обычной частоты семплирования в 44100 Гц максимальная частота составляющих сигнала - 22050 Гц. Максимальная же частота. которая воспринимается человеческим ухом - чуть выше 20000 Гц (и то, при рождении; по мере взросления порог опускается до 16000 Гц).

Лучше всего данная тема раскрыта в статье Загрузки в формате 24/192 - почему они не имеют смысла .

Разные программные плееры звучат по-разному (e. g. foobar2000 лучше Winamp и т. п.)

Чтобы понять, почему это не так, надо разобраться, что собой представляет программный плеер. По сути это декодер, обработчики (опционально), плагин вывода (на один из интерфейсов: ASIO, DirectSound, WASAPI. etc.), ну и конечно же GUI (графический интерфейс пользователя). Т. к. декодер в 99.9 % случаев работает по стандартному алгоритму, а плагин вывода - это всего лишь часть программы, которая передает поток звуковой карте через один из интерфейсов, то причиной различий могут быть только обработчики. Но дело в том, что обработчики обычно по-умолчанию выключены (или должны быть выключены, т. к. главное для хорошего плеера - уметь передать звук в «первозданном» виде). В итоге, предметом сравнения тут могут быть только возможности обработки и вывода, в которых, кстати говоря, необходимости очень часто вообще нет. Но даже если такая необходимость и есть - то это уже сравнение обработчиков, а никак не плееров.

Разные версии драйвера звучат по-разному

В основании этого утверждения лежит банальное незнание принципов работы звуковой карты. Драйвер - это программное обеспечение, необходимое для эффективного взаимодействия устройства с операционной системой, также обычно предоставляющее графический интерфейс пользователя для возможности управления устройством, его параметрами и т. д. Драйвер звуковой карты обеспечивает распознавание звуковой карты как звукового устройства Windows, сообщает ОС о поддерживаемых картой форматах, обеспечивает передачу несжатого PCM (в большинстве случаев) потока на карту, а также даёт доступ к настройкам. Кроме того, в случае наличия софтовой обработки (средствами CPU), драйвер может содержать различные DSP (обработчики). Потому, во-первых, при отключенных эффектах и обработке, если драйвер не обеспечивает точную передачу PCM на карту, это считается грубейшей ошибкой, критическим багом. И случается такое крайне редко . С другой стороны, различия между драйверами могут быть в обновлении алгоритмов обработки (ресемплеров, эффектов), хотя это случается тоже отнюдь не часто. К тому же, для достижения наивысшего качества эффекты и любую обработку драйвером всё равно следует исключать.

Таким образом, обновления драйверов в основном ориентированы на повышение стабильности работы и устранение ошибок, связанных с обработкой. Ни то, ни другое в нашем случае на качество воспроизведения не влияет, потому в 999 случаях из 1000 драйвер влияния на звук не оказывает.

Лицензионные Audio CD звучат лучше, чем их копии

Если при копировании не произошло ошибок (неустранимых) чтения/записи и у оптического привода устройства, на котором будет воспроизводится диск-копия, нет проблем с его чтением, то такое утверждение ошибочно и легко опровергается .

Режим кодирования Stereo дает лучшее качество, чем Joint Stereo

Это заблуждение главным образом касается LAME MP3, так как все современные кодеры (AAC, Vorbis, Musepack) используют только режим Joint Stereo (и это уже о чём-то говорит)

Для начала стоит упомянуть, что режим Joint Stereo успешно используется при lossless сжатии. Суть его заключается в том, что сигнал перед кодированием раскладывается на сумму правого и левого канала (Mid) и на их разность (Side), а затем происходит отдельное кодирование этих сигналов. В пределе (для одинаковой информации в правом и левом канале) получается двойная экономия данных. А так как в большинстве музыки информация в правом и левом каналах довольно схожа, то этот метод оказывается очень эффективным и позволяет значительно увеличить степень сжатия.

В lossy принцип тот же. Но здесь в режиме постоянного битрейта качество фрагментов со схожей информацией в двух каналах будет увеличиваться (в пределе - удваиваться), а для VBR режима в таких местах будет просто уменьшаться битрейт (не забываем, что главная задача VBR режима - стабильно поддерживать заданное качество кодирования, используя минимально возможный битрейт). Так как во время lossy кодирования приоритет (при распределении битов) отдаётся сумме каналов, чтобы избежать ухудшения стереопанорамы, используется динамическое переключение между режимами Joint Stereo (Mid/Side) и обычным (Left/Right) стерео на базе фреймов. Кстати говоря, причиной данного заблуждения послужило несовершенство алгоритма переключения в старых версиях LAME, а также наличие режима Forced Joint, в котором автопереключение отсутствует. В последних версиях LAME режим Joint включен по умолчанию и менять его не рекомендуется.

Чем шире спектр, тем качественнее запись (о спектрограммах, auCDtect и частотном диапазоне)

В наше время на форумах, к несчастью, очень распространено измерение качества трека «линейкой по спектрограмме». Очевидно, по причине простоты такого способа. Но, как показывает практика, в действительности всё намного сложнее.

А дело тут вот в чем. Спектрограмма визуально демонстрирует распределение мощности сигнала по частотам, но не может дать полного представления о звучании записи, наличии в ней искажений и артефактов компрессии. Т. е., по сути всё, что можно определить по спектрограмме, - это частотный диапазон (и частично - плотность спектра в районе ВЧ). Т. е., в лучшем случае, путем анализа спектрограммы можно выявить апконверт. Сравнение же спектрограмм треков, полученных путем кодирования различными кодерами, с оригиналом - полнейший абсурд. Да, вы сможете выявить различия в спектре, но вот определить, будут ли они (и в какой степени) восприниматься человеческим ухом - практически невозможно. Нельзя забывать, что задача lossy кодирования - обеспечить результат неотличимый человеческим ухом от оригинала (никак не глазом).

Это же относится и к оценке качества кодирования путём анализа треков на выходе программой auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - это лишь оболочки для единственной в своем роде консольной программы auCDtect). Алгоритм auCDtect тоже фактически анализирует частотный диапазон и всего лишь позволяет определить (с определенной долей вероятности), было ли на каком-либо из этапов кодирования применено MPEG сжатие. Алгоритм заточен под MP3, потому его легко «обмануть» с помощью кодеков Vorbis, AAC и Musepack, так что даже если программа пишет «100% CDDA» - это не значит, что закодированное аудио на 100% соответствует исходному.

И возвращаясь непосредственно к спектрам. Популярно также стремление некоторых «энтузиастов» во что бы то ни было отключить lowpass (НЧ) фильтр в кодере LAME. Здесь на лицо непонимание принципов кодирования и психоакустики. Во-первых, кодер обрезает высокие частоты только с одной целью - сэкономить данные и использовать их для кодирования наиболее слышимого диапазона частот. Расширенный частотный диапазон может фатально сказаться на общем качестве звучания и привести к слышимым артефактам кодирования. Более того, отключение среза на 20 кГц - вообще совершенно неоправданно, так как частоты выше человек попросту не слышит.

Существует некая «волшебная» предустановка эквалайзера, способная значительно улучшить звучание

Это не совсем так, во-первых, потому, что каждая отдельно взятая конфигурация (наушники, акустика, звуковая карта) обладает своими собственными параметрами (в частности, своей амплитудно-частотной характеристикой). И потому к каждой конфигурации должен быть свой, уникальный подход. Проще говоря, такая предустановка эквалайзера существует, но она отличается для разных конфигураций. Суть же её заключается в корректировке АЧХ тракта, а именно - в «выравнивании» нежелательных провалов и всплесков.

Также среди людей далеких от непосредственной работы со звуком очень популярна настройка графического эквалайзера «галочкой», что фактически представляет собой повышение уровня НЧ и ВЧ составляющих, но в то же время приводит к приглушению вокала и инструментов, спектр звучания которых находится в районе средних частот.

Перед конвертированием музыки в другой формат следует «разжимать» её в WAV

Сразу отмечу, что под WAV подразумеваются PCM данные (импульсно-кодовая модуляция) в контейнере WAVE (файл с расширением *.wav). Эти данные представляют собой не что иное, как последовательность битов (нулей и единиц) группами по 16, 24 или 32 (в зависимости от разрядности), каждая из которых представляет собой двоичный код амплитуды соответствующего ей семпла (например, для 16 бит в десятичном представлении это значения от -32768 до +32768).

Так вот, дело в том, что любой обработчик звука - будь то фильтр или кодер - как правило работает только с этими значениями, то есть только с несжатыми данными. Это значит, что для преобразования звука, скажем, из FLAC в APE, просто необходимо сначала декодировать FLAC в PCM, а затем уже закодировать PCM в APE. Это как для перепаковки файлов из ZIP в RAR, надо сначала распаковать ZIP.

Однако, если вы пользуетесь конвертером или просто продвинутым консольным кодером, промежуточное преобразование в PCM происходит на лету, иногда даже без записи во временный WAV файл. Именно это и вводит людей в заблуждения: кажется, что форматы конвертируются непосредственно один в другой, но на самом деле в такой программе обязательно есть декодер входного формата, выполняющий промежуточное преобразование в PCM.

Таким образом, ручное преобразование в WAV не даст вам совершенно ничего, кроме лишней траты времени.

Что является одним из наиболее распространенных и глубоко укоренившихся заблуждений в мире меломанов?

Сохранить и прочитать потом -

Прим. перев.: Это перевод второй (из четырех) частей развернутой статьи Кристофера «Монти» Монтгомери (создателя Ogg Free Software и Vorbis) о том, что, по его мнению, является одним из наиболее распространенных и глубоко укоренившихся заблуждений в мире меломанов.

Частота 192 кГц считается вредной

Музыкальные цифровые файлы с частотой 192 кГц не приносят никакой выгоды, но всё же оказывают кое-какое влияние. На практике оказывается, что их качество воспроизведения немного хуже, а во время воспроизведения возникают ультразвуковые волны.

И аудиопреобразователи, и усилители мощности подвержены влиянию искажений, а искажения, как правило, быстро нарастают на высоких и низких частотах. Если один и тот же динамик воспроизводит ультразвук наряду с частотами из слышимого диапазона, то любая нелинейная характеристика будет сдвигать часть ультразвукового диапазона в слышимый спектр в виде неупорядоченных неконтролируемых нелинейных искажений, охватывающих весь слышимый звуковой диапазон. Нелинейность в усилителе мощности приведет к такому же эффекту. Эти эффекты трудно заметить, но тесты подтвердили, что оба вида искажений можно расслышать.

График выше показывает искажения, полученные в результате интермодуляции звука частотой 30 кГц и 33 кГц в теоретическом усилителе с неизменным коэффициентом нелинейных искажений (КНИ) около 0.09%. Искажения видны на протяжении всего спектра, даже на меньших частотах.

Неслышимые ультразвуковые волны способствуют интермодуляционным искажениям в слышимом диапазоне (светло-синяя зона). Системы, не предназначенные для воспроизведения ультразвука, обычно имеют более высокие уровни искажений, около 20 кГц, дополнительно внося вклад в интермодуляцию. Расширение диапазона частот для включения в него ультразвука требует компромиссов, которые уменьшат шум и активность искажений в пределах слышимого спектра, но в любом случае ненужное воспроизведение ультразвуковой составляющей ухудшит качество воспроизведения.

Есть несколько способов избежать дополнительных искажений:

  1. Динамик, предназначенный только для воспроизведения ультразвука, усилитель и разделитель спектра сигнала, чтобы разделить и независимо воспроизводить ультразвук, который вы не можете слышать, чтобы он не влиял на другие звуки.
  2. Усилители и преобразователи, спроектированные для воспроизведения более широкого спектра частот так, чтобы ультразвук не вызывал слышимых нелинейных искажений. Из-за дополнительных затрат и сложности исполнения, дополнительный частотный диапазон будет уменьшать качество воспроизведения в слышимой части спектра.
  3. Качественно спроектированные динамики и усилители, которые совсем не воспроизводят ультразвук.
  4. Для начала можно не кодировать такой широкий диапазон частот. Вы не можете (и не должны) слышать ультразвуковые нелинейные искажения в слышимой полосе частот, если в ней нет ультразвуковой составляющей.

Все эти способы нацелены на решение одной проблемы, но только 4 способ имеет какой-то смысл.

Если вам интересны возможности вашей собственной системы, то нижеследующие сэмплы содержат: звук частотой 30 кГц и 33 кГц в формате 24/96 WAV, более длинную версию в формате FLAC, несколько мелодий и нарезку обычных песен с частотой, приведенной к 24 кГц так, что они полностью попадают в ультразвуковой диапазон от 24 кГц до 46 кГц.

Тесты для измерения нелинейных искажений:

  • Звук 30 кГц + звук 33 кГц (24 бит / 96 кГц)
  • Мелодии 26 кГц – 48 кГц (24 бит / 96 кГц)
  • Мелодии 26 кГц – 96 кГц (24 бит / 192 кГц)
  • Нарезка из песен, приведенных к 24 кГц (24 бит / 96 кГц WAV) (оригинальная версия нарезки) (16 бит / 44.1 кГц WAV)

Предположим, что ваша система способна воспроизводить все форматы с частотами дискретизации 96 кГц . При воспроизведении вышеуказанных файлов, вы не должны слышать ничего, ни шума, ни свиста, ни щелчков или каких других звуков. Если вы слышите что-то, то ваша система имеет нелинейную характеристику и вызывает слышимые нелинейные искажения ультразвука. Будьте осторожны при увеличении громкости, если вы попадете в зону цифрового или аналогового ограничения уровня сигнала, даже мягкого, то это может вызвать громкий интермодуляционный шум.

В целом, не факт, что нелинейные искажения от ультразвука будут слышимы на конкретной системе. Вносимые искажения могут быть как незначительны, так и довольно заметны. В любом случае, ультразвуковая составляющая никогда не является достоинством, и во множестве аудиосистем приведет к сильному снижению качества воспроизведения звука. В системах, которым она не вредит, возможность обработки ультразвука можно сохранить, а можно вместо этого пустить ресурс на улучшение качества звучания слышимого диапазона.

Недопонимание процесса дискретизации

Теория дискретизации часто непонятна без контекста обработки сигналов. И неудивительно, что большинство людей, даже гениальные доктора наук в других областях, обычно не понимают её. Также неудивительно, что множество людей даже не осознают, что понимают её неправильно.

Дискретизированные сигналы часто изображают в виде неровной лесенки, как на рисунке выше (красным цветом), которая выглядит как грубое приближение к оригинальному сигналу. Однако такое представление является математически точным, и когда происходит преобразование в аналоговый сигнал, его график становится гладким (голубая линия на рисунке).

Наиболее распространенное заблуждение заключается в том, что, якобы, дискретизация – процесс грубый и приводит к потерям информации. Дискретный сигнал часто изображается как зубчатая, угловатая ступенчатая копия оригинальной идеально гладкой волны. Если вы так считаете, то можете считать, что чем больше частота дискретизации (и чем больше бит на отсчет), тем меньше будут ступеньки и тем точнее будет приближение. Цифровой сигнал будет все больше напоминать по форме аналоговый, пока не примет его форму при частоте дискретизации, стремящейся к бесконечности.

По аналогии, множество людей, не имеющих отношения к цифровой обработке сигналов, взглянув на изображение ниже, скажут: «Фу!» Может показаться, что дискретный сигнал плохо представляет высокие частоты аналоговой волны, или, другими словами, при увеличении частоты звука, качество дискретизации падает, и частотная характеристика ухудшается или становится чувствительной к фазе входного сигнала.

Это только так выглядит. Эти убеждения неверны!

Комментарий от 04.04.2013: В качестве ответа на всю почту, касательно цифровых сигналов и ступенек, которую я получил, покажу реальное поведение цифрового сигнала на реальном оборудовании в нашем видео Digital Show & Tell , поэтому можете не верить мне на слово.

Все сигналы частотой ниже частоты Найквиста (половина частоты дискретизации) в ходе дискретизации будут захвачены идеально и полностью, и бесконечно высокая частота дискретизации для этого не нужна. Дискретизация не влияет на частотную характеристику или фазу. Аналоговый сигнал может быть восстановлен без потерь – таким же гладким и синхронным как оригинальный.

С математикой не поспоришь, но в чем же сложности? Наиболее известной является требование ограничения полосы. Сигналы с частотами выше частоты Найквиста должны быть отфильтрованы перед дискретизацией, чтобы избежать искажения из-за наложения спектров. В роли этого фильтра выступает печально известный сглаживающий фильтр. Подавление помехи дискретизации, на практике, не может пройти идеально, но современные технологии позволяют подойти к идеальному результату очень близко. А мы подошли к избыточной дискретизации.

Избыточная дискретизация

Частоты дискретизации свыше 48 кГц не имеют отношения к высокой точности воспроизведения аудио, но они необходимы для некоторых современных технологий. Избыточная дискретизация (передискретизация) – наиболее значимая из них .

Идея передискретизации проста и изящна. Вы можете помнить из моего видео «Цифровое мультимедиа. Пособие для начинающих гиков», что высокие частоты дискретизации обеспечивают гораздо больший разрыв между высшей частотой, которая нас волнует (20 кГц) и частотой Найквиста (половина частоты дискретизации). Это позволяет пользоваться более простыми и более надежными фильтрами сглаживания и увеличить точность воспроизведения. Это дополнительное пространство между 20 кГц и частотой Найквиста, по существу, просто амортизатор для аналогового фильтра.

На рисунке выше представлены диаграммы из видео «Цифровое мультимедиа. Пособие для начинающих гиков», иллюстрирующие ширину переходной полосы для ЦАП или АЦП при частоте 48 кГц (слева) и 96 кГц (справа).

Это только половина дела, потому что цифровые фильтры имеют меньше практических ограничений в отличие от аналоговых, и мы можем завершить сглаживание с большей точностью и эффективностью. Высокочастотный необработанный сигнал проходит сквозь цифровой сглаживающий фильтр, который не испытывает проблем с размещением переходной полосы фильтра в ограниченном пространстве. После того, как сглаживание завершено, дополнительные дискретные отрезки в амортизирующем пространстве просто откидываются. Воспроизведение передискретизированного сигнала проходит в обратном порядке.

Это означает, что сигналы с низкой частотой дискретизации (44.1 кГц или 48 кГц) могут обладать такой же точностью воспроизведения, гладкостью АЧХ и низким уровнем наложений, как сигналы с частотой дискретизации 192 кГц или выше, но при этом не будет проявляться ни один из их недостатков (ультразвуковые волны, вызывающие интермодуляционные искажения, увеличенный размер файлов). Почти все современные ЦАП и АЦП производят избыточную дискретизацию на очень высоких скоростях, и мало кто об этом знает, потому что это происходит автоматически внутри устройства.

ЦАП и АЦП не всегда умели передискретизировать. Тридцать лет назад некоторые звукозаписывающие консоли использовали для звукозаписи высокие частоты дискретизации, используя только аналоговые фильтры. Этот высокочастотный сигнал потом использовался для создания мастер-дисков. Цифровое сглаживание и децимация (повторная дискретизация с более низкой частотой для CD и DAT) происходили на последнем этапе создания записи. Это могло стать одной из ранних причин, почему частоты дискретизации 96 кГц и 192 кГц стали ассоциироваться с производством профессиональных звукозаписей.

16 бит против 24 бит

Хорошо, теперь мы знаем, что сохранять музыку в формате 192 кГц не имеет смысла. Тема закрыта. Но что насчет 16-битного и 24-битного аудио? Что же лучше?

16-битное аудио с импульсно-кодовой модуляцией действительно не полностью покрывает теоретический динамический звуковой диапазон, который способен слышать человек в идеальных условиях. Также есть (и будут всегда) причины использовать больше 16 бит для записи аудио.

Ни одна из этих причин не имеет отношения к воспроизведению звука – в этой ситуации 24-битное аудио настолько же бесполезно, как и дискретизация на 192 кГц. Хорошей новостью является тот факт, что использование 24-битного квантования не вредит качеству звучания, а просто не делает его хуже и занимает лишнее место.

Примечания к Части 2

6. Многие из систем, которые неспособны воспроизводить сэмплы 96 кГц, не будут отказываться их воспроизводить, а будут незаметно субдискретизировать их до частоты 48 кГц. В этом случае звук не будет воспроизводиться совсем, и на записи ничего не будет, вне зависимости от степени нелинейности системы.

7. Передискретизация – не единственный способ работы с высокими частотами дискретизации в обработке сигналов. Есть несколько теоретических способов получить ограниченный по полосе звук с высокой частотой дискретизации и избежать децимации, даже если позже он будет субдискретизирован для записи на диски. Пока неясно, используются ли такие способы на практике, поскольку разработки большинства профессиональных установок держатся в секрете.

8. Неважно, исторически так сложилось или нет, но многие специалисты сегодня используют высокие разрешения, потому что ошибочно полагают, что звук с сохраненным содержимым за пределами 20 кГц звучит лучше. Прямо как потребители.

Эту статью прочитали 33 932 раза

Триумфальное шествие формата записи звука MPEG-1 Layer 3 (в просторечии получившего обозначение MP3) объясняется тем, что был предложен простой и эффективный способ сжатия звуковых файл, позволяющий хранить на стандартном диске CD-ROM до 12 часов музыки приемлемого качества.

Если говорить упрощенно, алгоритм MPEG-1 Layer 3 основан на методе так называемого «психоакустического» сжатия, когда из звуков спектра исключаются не воспринимаемые слухом частоты и уровни громкости. «Очищенный» таким способом спектр разбивается на отдельные блоки (фреймы) одинаковой продолжительности и сжимается в соответствии с заданными требованиями. При воспроизведении сигнал формируется из последовательности декодированных фреймов.

Степень сжатия зависит от параметров звукового потока, который необходимо получить на выходе, после декодирования файла.

Основным параметром, определяющим качество звучания и степень сжатия, выступает так называемый (что такое) битрейт - ширина полосы пропускания, измеряемая в битах в секунду.

Чем больше этот показатель, тем лучше качество звука и меньше степень сжатия. Так как практически все файлы MP3 записывают в режиме стерео с частотой кодировки 44 КГц и глубиной 16 бит, определяющими факторами чистого звука становятся: источник записи, применяемый кодек и выбраный битрейт.

Слово кодек образовано сочетанием слов кодер + декодер. Это программ- , ный модуль, позволяющий кодировать или декодировать файлы звука или видео в соответствии с собственным алгоритмом.

Среднее значение потока 256 Кбит/с обеспечивает коэффициент сжатия примерно 6:1, для других величин степень сжатия изменяется пропорционально. Таким образом, при потоке 256 Кбит/с можно записать на компакт-диск музыку с шести обычных Audio CD, а при потоке 128 Кбит/с - с двенадцати обычных музыкальных дисков.

По поводу величины битрейта, обеспечивающей хорошее качество звучания, соответствующее качеству воспроизведения Audio CD, идут бесконечные споры среди любителей и профессионалов.

Некоторые считают достаточным уровень 128 Кбит/с, других удовлетворяет только максимальное значение потока - 320 Кбит/с. По всей вероятности, правы и те и другие - разница только в том, что записано и в каких условиях воспроизводится.

Величина битрейта, с которой кодировался оцифрованный звук, обычно указывается на обложке компакт-дисков. К примеру, полную коллекцию музыки группы Beatles можно приобрести на трех дисках с битрейтом 128 Кбит/с или на шести дисках с битрейтом 256 Кбит/с.

Понятно, что во втором случае стоимость покупки будет вдвое дороже, но и качество лучше.

Если музыка звучит в автомобиле отечественного производства, поток 192 Кбит/с обеспечит достаточное качество звука, лучшего вы все равно не услышите из-за посторонних шумов. Для прослушивания на компьютере или автономном проигрывателе (МРЗ -плеере) приемлем поток 256 Кбит/с.

А вот если сигнал без изменений поступает на внешнее устройство и выводится на колонки высокого качества, желателен максимально возможный поток - 320 Кбит/с. Исходя из перечисленных соображений, универсальным можно считать поток 256 Кбит/с: при хорошем качестве записи он обеспечит адекватное воспроизведение в большинстве случаев.

Для трансляции музыки через Интернет обычно используют величину потока 128 Кбит/с. При этом качество звучания «как бы»оставляет желать лучшего.

Записывать популярную музыку с битрейтом выше 192-256 Кбит/с не имеет смысла: песенки живут недолго, да и исходные записи зачастую не отличаются высоким качеством. В конце концов, поплясать можно и под звук «магнитофонного» качества.

Совсем другое дело классика и редкие авторские произведения. Причем под классикой мы понимаем не только Баха или Моцарта. Сегодня классикой можно считать и The Beatles, и Led, Zeppelin, и Высоцкого, и Цоя, и много других авторов (исполнителей).

Если при покупке компакт-диска вы не обратили внимания на величину битрейта, указанную на упаковке, то посмотреть значение можно в строке проигрывателя во время воспроизведения файла.

Битрейтом (от англ. bitrate ) аудиофайлов называют количество бит (единиц информации), используемых для хранения одной секунды звукозаписи. Наиболее распространенной единицей измерения битрейта является количество килобит в секунду (Кбит/с, Kbps). Битрейт является одной из ключевых характеристик файлов мультимедиа, влияющей на их качество и размер. Чем с большим битрейтом были записаны музыка или видео, тем лучше будет их качество и тем "объемнее" будут файлы записей.

Соответственно, изменение величины битрейта в ту или иную сторону может увеличить или уменьшить размер файла. А вот с влиянием на качество записей все немного сложнее. Тогда как уменьшение величины битрейта закономерно приводит к ухудшению качества исходного файла, противоположная операция на качество никак не влияет. Даже если вы установите максимальную величину битрейта, качество звука и видеоряда вашего файла останутся прежними.

Как видите, увеличивать битрейт записи особого смысла нет: в результате вы получите файл большего размера при прежнем качестве. А вот снизить битрейт с целью уменьшения размера записи очень даже можно. Хотите попробовать изменить битрейт ваших песен или фильмов? Скачайте Movavi Конвертер Видео – удобную программу, с помощью которой вы легко измените битрейт видео- и аудиозаписей, будь то файлы в популярных форматах MP3, WMA, AVI и MP4 или записи, помещенные в более экзотичные контейнеры. Инструкция написана на примере работы с аудиофайлами.

1. Установите программу для изменения битрейта

Скачайте и запустите дистрибутив Movavi Конвертера Видео. Следуйте инструкциям на экране, чтобы инсталлировать программу. По окончании установки конвертер запустится автоматически.

2. Добавьте файлы в программу

Нажмите кнопку Добавить файлы , выберите пункт Добавить аудио и поместите в программу нужные файлы . Программа поддерживает множество форматов медиа, поэтому формат входных файлов может быть практически любым. Изменяйте битрейт аудиофайлов MP3, WMA, AAC и других. Попробуйте снизить битрейт видео: работайте с видеозаписями в AVI, MP4, DIVX и различными форматами HD-видео. Программа поможет вам справиться с широким спектром задач по конвертации медиафайлов!

3. Выберите формат сохранения

Перед изменением битрейта нужно выбрать формат, в котором будут сохранены ваши аудиозаписи. Для этого кликните по вкладке Аудио и выберите подходящий формат из списка. Сделав выбор в пользу того или иного аудиоформата, щелкните по его названию и из раскрывшегося списка выберите одну из доступных величин битрейта (опция недоступна для форматов FLAC, OGG, WAV и M4A). Если вы не хотите менять стандартную величину битрейта, указанную в выбранном профиле, вы можете пропустить следующий шаг и приступить к конвертации.

4. Установите нужную величину битрейта

Нажмите кнопку-шестеренку справа от поля Формат на выходе . В списке Тип битрейта выберите

Надежная и эффективная программа для записи видео с экрана в HD. Захватывайте видео из программ, онлайн-трансляции и даже разговоры в Skype и сохраняйте клипы в любом популярном формате, а также для просмотра на мобильных устройствах.

Битрейт принято использовать при измерении эффективной скорости передачи потока данных по каналу, то есть минимального размера канала, который сможет пропустить этот поток без задержек.

Битрейт выражается битами в секунду (бит/c, bps ), а также производными величинами с приставками кило- (кбит/с, kbps ), мега- (Мбит/с, Mbps ) и т. д.

Скорость передачи данных с использованием битов в секунду блока (символ: «бит/с»), часто применяется в сочетании с приставками из международной системы измерения единиц (СИ), такими как «кило» (1 кбит/с = 1024 бит/с), «мега» (1 Мбит/с = 1024 кбит/с), «гига» (1 Гбит/с = 1024 Мбит/с) или «тера» (1 Тбит/с = 1024 Гбит/с). Нестандартная аббревиатура «bps» часто используется для замены стандартного символа «бит/с», так что, например, «1 Мбит» используется для обозначения одного миллиона бит в секунду. Один байт в секунду (1 Б/с) соответствует 8 бит/с.

Характеристики

В форматах потокового видео и аудио (например, MPEG и MP3), использующих сжатие c потерей качества, параметр «битрейт» выражает степень сжатия потока и, тем самым, определяет размер канала, для которого сжат поток данных. Чаще всего битрейт звука и видео измеряют в килобитах в секунду (англ. kilobit per second, kbps ), реже - в мегабитах в секунду (только для видео).

Существует три режима сжатия потоковых данных:

  • CBR (англ. Constant bitrate ) - с постоянным битрейтом;
  • VBR (англ. Variable bitrate ) - с переменным битрейтом;
  • ABR (англ. Average bitrate ) - с усреднённым битрейтом.

Скорость передачи информации

Физический уровень чистого битрейта, скорость передачи информации, полезной битрейт, частота полезной нагрузки, чистая скорость передачи данных, скорость передачи кодированных передач, эффективная скорость передачи данных или скорость подачи проволоки (неофициальный язык) цифрового канала связи является способность без учёта накладного протокола физического уровня, для мультиплекса пример с временным разделением каналов (TDM) обрамляющих битов, резервируемых с прямым исправлением ошибок (FEC) кодов, эквалайзер обучающих символов и другого канального кодирования. Помехоустойчивые коды являются общими, особенно в системах беспроводной связи , стандартов широкополосного модема или современных высокоскоростных локальных сетей на основе меди. Физический уровень чистого битрейта является скорость передачи данных, измеренная в контрольной точке на границе раздела между канальным уровнем и физическим уровнем, и, следовательно, может включать в себя линию передачи данных, а также нагрузку уровня.

В модемах и беспроводных системах, адаптации линии связи (автоматическая адаптация скорости передачи данных и модуляции и / или ошибок схемы кодирования, качество сигнала) часто применяется. В этом контексте термин пик битрейта означает чистый битрейт самой быстрой и наименее надёжным режимом передачи, используемый, например, [когда расстояние очень короткое замыкание] между отправителем и передатчиком. Некоторые операционные системы и сетевое оборудование может обнаружить «скорость соединения» (неофициальный язык) той или иной технологии доступа к сети или устройства связи, что предполагает текущую чистую скорость передачи данных. Следует отметить, что термин скорость линии в некоторых учебниках определяется как валовой скорости передачи в битах, а в других, как чистой скорости передачи данных.

Взаимосвязь между совокупным битрейтом и чистой скорости передачи данных зависит от скорости ПИО кода в соответствии со следующим.

Постоянный битрейт

Постоянный битрейт - вариант кодирования потоковых данных, при котором пользователь изначально задаёт необходимый битрейт, который не меняется на протяжении всего файла.

Его главное достоинство - возможность довольно точно предсказать размер конечного файла.

Однако вариант с постоянным битрейтом не очень подходит для музыкальных произведений, звучание которых динамично изменяется во времени, так как не обеспечивает оптимального соотношения размер/качество.

Переменный битрейт

С переменным битрейтом кодек выбирает значение битрейта исходя из параметров (уровня желаемого качества), причём в течение кодируемого фрагмента битрейт может изменяться. При сжатии звука нужный битрейт определяется на основе психоакустической модели. Данный метод даёт наилучшее соотношение качество/размер выходного файла, однако точный его размер оказывается очень плохо предсказуем. В зависимости от характера звука (или изображения, в случае кодирования видео), размер полученного файла может отличаться в несколько раз.

Усреднённый битрейт

Усреднённый битрейт является гибридом постоянного и переменного битрейтов: значение в кбит/c задаётся пользователем, а программа варьирует его в некоторых пределах. Однако, в отличие от VBR, кодек с осторожностью использует максимально и минимально возможные значения, не рискуя выйти за заданную пользователем среднюю величину. Этот метод позволяет наиболее гибко задавать скорость обработки (для аудио это может быть любым числом между 8 и 320 кбит/с, против чисел, кратных 16 в методе CBR) и с гораздо большей (по сравнению с VBR) точностью предсказывать размер выходного файла.

MP3

Формат MP3 сжатия аудио с потерями данных. Качество звука улучшается с увеличением битрейта:

  • 32 кбит/с - как правило, приемлемо только для речи
  • 96 кбит/с - как правило, используется для передачи речи или потокового звука низкого качества
  • 128 или 160 кбит/с - начальный уровень кодирования музыки
  • 192 кбит/с - приемлемое качество кодирования музыки
  • 256 кбит/с - высокое качество кодирования музыки
  • 320 кбит/с - наивысшее качество кодирования, поддерживаемое стандартом MP3

Другое аудио

  • 700 бит/с - наинизший битрейт, используемый речевым кодеком Codec2 с открытым исходным кодом; голос едва распознаётся, битрейт 1,2 кбит/с даёт гораздо лучший звук
  • 800 бит/с - минимально необходимый уровень для распознавания речи, используется в специализированных речевых кодеках FS-1015
  • 2,15 кбит/с - минимальный битрейт кодека Speex с открытым исходным кодом
  • 6 кбит/с - минимальный битрейт кодека Opus с открытым исходным кодом
  • 8 кбит/с - телефонное качество звука с использованием речевых кодеков
  • - цифрового формата высококачественного аудио на DVD. DVD-Audio не предназначен для видео и не то же самое, что видеодиски

Здесь мы рассмотрим как правильно подобрать битрейт для своей интернет трансляции. И так, Битрейт - это качество видео. Чем он выше, тем выше качество. Если сделать качественный стрим поток с великолепной картинкой, то нужно просто повысить битрейт и все? Как бы не так. Стрим поток то идет в режиме онлайн, соответственно, весь этот высокий битрейт занимает интернет канал и смотреть его будет невозможно. Поэтому нужно учитывать возможности своего интернета и интернета вашей аудитории. Не у всех протянуто оптоволокно. Так что выше 2 мбит/с битрейн ставить не рекомендуется.

Второе, на что стоит обратить внимание, это, так называемое, соотношение бит/пиксель. Данная Формула выглядит просто:

бит/(пиксели*кадры)

Что означает данная формула? Допустим, мы кодируем стрим поток с разрешением 100px х 100px, на 25 fps (кадров в секунду) и поставили битрейт 250 kbps (килобит в секунду). Итак, на секунду видео размером 10000 пикселей (сто умножаем на сто) выделяется 25 кадров и 250 килобит. Выходит по 10 килобит(10000 бит) на каждый кадр (250/25). Делим биты, выделяемые на кадр, на размер в пикселях - получим отношение бит/пиксель - сколько информации выделяется для «кодировки» одного пикселя.

Чем больше информации выделяется - тем выше качество.

В нашем примере отношение бит/пиксель составляет: (по 10000 бит на кадр)/(10000 пикселей) = 1. Многовато будет. Вполне отличное качество можно получить при отношении 0,1 -0,15 . Для нашего примера было бы достаточно битрейта ~ 32-35 kbps.

Посчитаем ориентировочные соотношения бит/пиксель для наиболее распространенных разрешений:

720p: 1280×720 точек:

  • Битрейт 1500kbps - 1500000/((1280*720)*25) = 1500000/23040000 = 0,065
  • Битрейт 2500kbps - 2500000/((1280*720)*25) = 2500000/23040000 = 0,109
  • Битрейт 3500kbps - 3500000/((1280*720)*25) = 3500000/23040000 = 0,152

1080p: 1920×1080 точек:

  • Битрейт 1500kbps - 1500000/((1920*1080)*25) = 1500000/51840000= 0,029 (как видим, качество при том же битрейте будет хуже где-то в 2,5 раза, поэтому для 1080р нужен больший битрейт, чем для 720р )
  • Битрейт 5000kbps - 5000000/((1920*1080)*25) = 5000000/23040000 = 0,096
  • Битрейт 7500kbps - 7500000/((1920*1080)*25) = 7500000/23040000 = 0,145
  • Битрейт 10000kbps - 10000000/((1920*1080)*25) = 10000000/23040000 = 0,192

Какие же выводы можно сделать? Первое, оно же главное, не можешь снабдить разрешение необходимым битрейтом - не берись стримить. Все равно хочешь стримить? Снижай или разрешение или fps. Добей бит/пиксель хотябы до 0,075-0,1, а лучше больше.

Качество

Разрешение

Видео Битрейт, kbps

Аудио Битрейт, kbps

FPS кадров/сек

Видео-кодек

h.264 профиль

Аудио-кодек

Аудио-канал

240 p (426 x 240)

400 (300-700)

AAC или MP3

270p (480x270)

400 (300-700)

AAC или MP3

360p (640x360)

750 (400-1000)

AAC или MP3

480p (854x480)

1000 (500-2000)

AAC или MP3

540p (960x540)

1000 (800 - 2000)

AAC или MP3

Mono или
Stereo

720p (1280x720)

2500 (1560-4000)

AAC или MP3

Mono или
Stereo

720p (1280x720)

3800 (2500-6000)

AAC или MP3

Mono или
Stereo

1080p (1920x1080)

4500 (3000-6000)

AAC или MP3

Mono или
Stereo

1080p (1920x1080)

6800 (4500-9000)

AAC или MP3

Mono или
Stereo

1440p) (2560x1440)

9000 (6000-13000)

AAC или MP3

Mono или
Stereo

1440p (2560x1440)

13000 (9000-18000)

AAC или MP3

Mono или
Stereo

4K/2160р (3840x2106)

23000 (13000-34000)

AAC или MP3

Mono или
Stereo

4K/2160р (3840x2106)

35000 (20000-51000)

AAC или MP3

Mono или
Stereo



Главная / Инструкции / Подбираем битрейт для стрима

Примечание : для лучшего понимания нижеизложенного текста очень рекомендую ознакомиться с основами цифрового звука.

    S: Чем больше битрейт, тем качественнее трек

    R: Это далеко не всегда так. Для начала напомню, что такое битрейт (bitrate, а не bitraid). Фактически это скорость потока данных в килобитах на секунду при воспроизведении. Т. е., если мы возьмем размер трека в килобитах и разделим на его продолжительность в секундах, получим его битрейт - т. н. file-based bitrate (FBR), обычно он не слишком отличается от битрейта аудиопотока (причиной различий является наличие в треке метаданных - тегов, «вшитых» изображений и т. п.).

    Теперь возьмем пример: битрейт несжатого PCM аудио, записанного на обычном Audio CD, рассчитывается следующим образом: 2 (канала) * 16 (бит на каждый семпл) * 44100 (семплов в секунду) = 1411200 (бит/с) = 1411.2 кбит/с. А теперь возьмем и сожмём трек любым lossless кодеком («lossless» - «беспотерьный», т. е. такой, который не приводит к потере каких-либо данных), например кодеком FLAC. В результате мы получим битрейт ниже исходного, но качество при этом останется неизменным - вот вам и первое опровержение.

    Сюда еще кое-что стоит добавить. Битрейт на выходе при lossless сжатии может получиться самый разный (но, как правило он меньше, чем у несжатого аудио) - зависит это от сложности сжимаемого сигнала, а точнее от избыточности данных. Таким образом, более простые сигналы будут сжиматься лучше (т. е. имеем меньший размер файла при такой же продолжительности => меньший битрейт), а более сложные - хуже. Именно поэтому классическая музыка в lossless имеет меньший битрейт, чем, скажем, рок. Но надо подчеркнуть, что битрейт тут ни в коем случае не является показателем качества звукового материала.

    Теперь поговорим о lossy сжатии (с потерями). Первым делом надо понимать, что существует множество разных кодеров и форматов, и даже в пределах одного формата качество кодирования у разных кодеров может отличаться (например, QuickTime AAC кодирует намного качественнее устаревшего FAAC), не говоря уже о превосходстве современных форматов (OGG Vorbis, AAC, Opus) над MP3. Проще говоря, из двух одинаковых треков, закодированных разными кодерами с одним битрейтом, какой-то будет звучать лучше, а какой-то - хуже.

    Кроме того, существует такое понятие, как апконверт . Т. е. можно взять трек в формате MP3 с битрейтом 96 кбит/с и конвертировать его в MP3 320 кбит/с. Мало того, что при этом качество не улучшится (ведь потерянные при предыдущем кодировании в 96 кбит/с данные уже не вернуть), оно даже ухудшится. Тут стоит указать, что на каждом этапе lossy кодирования (с любым битрейтом и любым кодером) в аудио вносится определенная порция искажений.

    И даже более. Есть еще один нюанс. Если, скажем, битрейт аудио потока - 320 кбит/с, это не значит, что все 320 кбит ушли на кодирование той самой секунды. Это характерно для кодирования с постоянным битрейтом и для тех случаев, когда человек, надеясь получить максимальное, качество форсирует слишком большой постоянный битрейт (как пример - установка 512 кбит/с CBR для Nero AAC). Как известно, количество бит, выделяемое на тот или иной фрейм, регулируется психоакустической моделью. Но в случае, когда выделенное количество намного ниже установленного битрейта, то не спасает даже резервуар бит (о терминах читайте в статье «Что такое CBR, ABR, VBR?») - в итоге мы получаем бесполезные «нулевые биты», которые просто «добивают» размер фрейма до нужного (т. е. увеличивают размер потока до заданного). Кстати, это легко проверить - сожмите полученный файл архиватором (лучше 7z) и посмотрите на степень сжатия - чем она больше - тем больше нулевых битов (т. к. они приводят к избыточности), тем больше зря потраченного места.


    S: DVD-Audio звучит лучше, чем Audio CD (24 bit vs 16, 96 kHz vs 44.1 и т. п.)

    R: в принципе, это вполне логично, и даже отчасти правда, но вот только люди обычно смотрят только на цифры и очень редко задумываются о влиянии того или иного параметра.

    Итак, рассмотрим для начала разрядность. Этот параметр отвечает ни за что иное, как за динамический диапазон, т.е. за разницу между самым тихим и самым громким звуками (в дБ). В цифровом аудио максимальный уровень - это 0 dBFS, а минимальный - ограничен уровнем шумов, т. е. фактически динамический диапазон по модулю равен уровню шумов. Для 16-битного аудио динамический диапазон рассчитывается как 20*log(2^16) ? 96.33 (dB). При этом динамический диапазон симфонического оркестра - до 75 дБ (в основном около 40-50 дБ).

    А теперь представим реальные условия. Уровень шума в комнате - около 40 дБ (не забываем, что дБ - величина относительная. В данном случае за 0 дБ принимается порог слышимости), максимальная громкость музыки достигает 110 дБ (чтобы не было дискомфорта) - получаем разность 70 дБ. Таким образом получается, что динамический диапазон более 70 дБ в данном случае просто бесполезен. Т. е. при диапазоне выше или громкие звуки будут достигать болевого порога, или тихие звуки будут поглощаться окружающими шумами. Достичь уровня окружающих шумов менее 15 дБ очень трудно (так как на этом уровне находится громкость человеческого дыхания и прочих шумов обусловленных человеческим фактором), в итоге диапазон в 95 дБ для прослушивания музыки оказывается совершенно достаточным.

    Теперь о частоте дискретизации (частота семплирования, sample rate). Этот параметр отвечает за частоту квантования по времени и непосредственно влияет на максимальную частоту сигнала, которую можно описать данным представлением аудио. По теореме Котельникова она равна половине частоты дискретизации. Т. е. для обычной частоты семплирования в 44100 Гц максимальная частота составляющих сигнала - 22050 Гц. Максимальная же частота. которая воспринимается человеческим ухом - чуть выше 20000 Гц (и то, при рождении; по мере взросления порог опускается до 16000 Гц).

    Читайте Загрузки в формате 24/192 - почему они не имеют смысла.


    S: Разные программные плееры звучат по-разному (e. g. foobar2000 лучше Winamp и т. п.)

    R: Чтобы понять, почему это не так, надо разобраться, что собой представляет программный плеер. По сути это декодер, обработчики (опционально), плагин вывода (на один из интерфейсов: ASIO, DirectSound, WASAPI. etc.), ну и конечно же GUI ( пользователя). Т. к. декодер в 99.9 % случаев работает по стандартному алгоритму, а плагин вывода - это всего лишь часть программы, которая передает поток звуковой карте через один из интерфейсов, то причиной различий могут быть только обработчики. Но дело в том, что обработчики обычно по-умолчанию выключены (или должны быть выключены, т. к. главное для хорошего плеера - уметь передать звук в «первозданном» виде). В итоге, предметом сравнения тут могут быть только возможности обработки и вывода, в которых, кстати говоря, необходимости очень часто вообще нет. Но даже если такая необходимость и есть - то это уже сравнение обработчиков, а никак не плееров.

    Здесь я еще хотел бы упомянуть свою и, пожалуй, огорчить пользователей, восхищающихся «колоссальными» переменами в звучании после описанной в ней настройки - в 95% случаев это самовнушение (кроме конечно тех случаев, когда в ходе её настройки был выключен какой-нибудь «улучшайзер» или другой обработчик, портящий всю картину). Как это ни печально, выигрыш от всех этих ухищрений с ReplayGain, ресемплерами и лимитерами - мизерный. Вывод: хотите действительно качественного звука - купите себе Hi-Fi акустику и профессиональную звуковую карту.


    S: Разные версии драйвера звучат по-разному

    R: В основании этого утверждения лежит банальное незнание принципов работы звуковой карты. Драйвер - это программное обеспечение , необходимое для эффективного взаимодействия устройства с операционной системой , а также обычно предоставляющее графический интерфейс пользователя для возможности управления устройством, его параметрами и т. д. Драйвер звуковой карты обеспечивает распознавание звуковой карты как звукового , сообщает ОС о поддерживаемых картой форматах, обеспечивает передачу несжатого PCM (обычно) потока на карту, а также даёт доступ к настройкам. Кроме того, в случае наличия софтовой обработки (средствами CPU), драйвер может содержать различные DSP (обработчики). Потому, во-первых, при отключенных эффектах и обработке, если драйвер не обеспечивает точную передачу PCM на карту, это считается грубейшей ошибкой, критическим багом. И случается это крайне редко . С другой стороны, различия между драйверами могут в обновлении алгоритмов обработки (ресемплеров, эффектов), хотя это случается тоже весьма редко. К тому же эффекты и любую обработку драйвером всё равно следует отключить/обойти для достижения наивысшего качества.

    Таким образом, обновления драйверов в основном ориентированы на повышение стабильности работы и устранение ошибок, связанных с обработкой. Ни то, ни другое в нашем случае на качество воспроизведения не влияет, потому в 999 случаях из 1000 драйвер влияния на звук не оказывает.


    S: Лицензионные Audio CD звучат лучше, чем их копии

    R: Если при копировании не произошло ошибок (неустранимых) чтения/записи и у оптического привода устройства, на котором будет воспроизводится диск-копия, нет проблем с его чтением, то такое утверждение ошибочно и легко опровергается.


    S: Режим кодирования Stereo дает лучшее качество , чем Joint Stereo

    R: Это заблуждение главным образом касается LAME MP3, так как все современные кодеры (AAC, Vorbis, Musepack) используют только режим Joint Stereo (и это уже о чём-то говорит)

    Для начала стоит упомянуть, что режим Joint Stereo успешно используется при lossless сжатии. Суть его заключается в том, что сигнал перед кодированием раскладывается на сумму правого и левого канала (Mid) и на их разность (Side), а затем происходит отдельное кодирование этих сигналов. В пределе (для одинаковой информации в правом и левом канале) получается двойная экономия данных. А так как в большинстве музыки информация в правом и левом каналах довольно схожа, то этот метод оказывается очень эффективным и позволяет значительно увеличить степень сжатия.

    В lossy принцип тот же. Но здесь в режиме постоянного битрейта качество фрагментов со схожей информацией в двух каналах будет увеличиваться (в пределе - удваиваться), а для VBR режима в таких местах будет просто уменьшаться битрейт (не забываем, что главная задача VBR режима - стабильно поддерживать заданное качество кодирования, используя минимально возможный битрейт). Так как во время lossy кодирования приоритет (при распределении битов) отдаётся сумме каналов, чтобы избежать ухудшения стереопанорамы, используется динамическое переключение между режимами Joint Stereo (Mid/Side) и обычным (Left/Right) стерео на базе фреймов. Кстати говоря, причиной данного заблуждения послужило несовершенство алгоритма переключения в старых версиях LAME, а также наличие режима Forced Joint, в котором автопереключение отсутствует. В последних версиях LAME режим Joint включен по умолчанию и менять его не рекомендуется.


    S: Чем шире спектр, тем качественнее запись (о спектрограммах, auCDtect и частотном диапазоне)

    R: В наше время на форумах, к несчастью, очень распространено измерение качества трека «линейкой по спектрограмме». Очевидно, по причине простоты такого способа. Но, как показывает практика, в действительности всё намного сложнее.

    А дело тут вот в чем. Спектрограмма визуально демонстрирует распределение мощности сигнала по частотам, но не может дать полного представления о звучании записи, наличии в ней искажений и артефактов компрессии. Т. е. по сути всё что можно определить по спектрограмме - это частотный диапазон (и частично - плотность спектра в районе ВЧ). Т. е., в лучшем случае, путем анализа спектрограммы можно выявить апконверт. Сравнение же спектрограмм треков, полученных путем кодирования различными кодерами, с оригиналом - полнейший абсурд. Да, вы сможете выявить различия в спектре, но вот определить, будут ли они (и в какой степени) восприниматься человеческим ухом - практически невозможно. Нельзя забывать, что задача lossy кодирования - обеспечить результат неотличимый человеческим ухом от оригинала (никак не глазом).

    Это же относится и к оценке качества кодирования путем анализа треков на выходе программой auCDtect (Audiochecker, auCDtect Task Manager, Tau Analyzer, fooCDtect - это лишь оболочки для единственной в своем роде консольной программы auCDtect). Алгоритм auCDtect тоже фактически анализирует частотный диапазон и всего лишь позволяет определить (с определенной долей вероятности), было ли на каком-либо из этапов кодирования применено MPEG сжатие. Алгоритм заточен под MP3, потому его легко «обмануть» с помощью кодеков Vorbis, AAC и Musepack, так что даже если программа пишет «100% CDDA» - это не значит, что закодированное аудио на 100% соответствует исходному.

    И, возвращаясь непосредственно к спектрам. Популярно также стремление некоторых «энтузиастов» во что бы то ни было отключить lowpass (НЧ) фильтр в кодере LAME. Здесь на лицо непонимание принципов кодирования и психоакустики. Во-первых, кодер обрезает высокие частоты только с одной целью - сэкономить данные и использовать их для кодирования наиболее слышимого диапазона частот. Расширенный частотный диапазон может фатально сказаться на общем качестве звучания и привести к слышимым артефактам кодирования. Более того, отключение среза на 20 кГц - вообще совершенно неоправданно, так как частоты выше человек попросту не слышит.


    S: Существует некая «волшебная» предустановка эквалайзера, способная значительно улучшить звучание

    R: Это не совсем так, во-первых, потому, что каждая отдельно взятая конфигурация (наушники, акустика, звуковая карта) обладает своими собственными параметрами (в частности, своей амплитудно-частотной характеристикой). И потому к каждой конфигурации должен быть свой, уникальный подход. Проще говоря, такая предустановка эквалайзера существует, но она отличается для разных конфигураций. Суть же её заключается в корректировке АЧХ тракта, а именно - в «выравнивании» нежелательных провалов и всплесков.

    Также, среди людей далеких от непосредственной работы со звуком очень популярна настройка графического эквалайзера «галочкой», что фактически представляет собой повышение уровня НЧ и ВЧ составляющих, но в то же время приводит к приглушению вокала и инструментов, спектр звучания которых находится в районе средних частот.


    S: Перед конвертированием музыки в другой формат следует «разжимать» её в WAV

    R: Сразу отмечу, что под WAV подразумеваются PCM данные (импульсно-кодовая модуляция) в контейнере WAVE (файл с расширением *.wav). Эти данные представляют собой ни что иное, как последовательность битов (нулей и единиц) группами по 16, 24 или 32 (в зависимости от разрядности), каждая из которых представляет собой двоичный код амплитуды соответствующего ей семпла (например, для 16 бит в десятичном представлении это значения от -32768 до +32768).

    Так вот, дело в том, что любой обработчик звука - будь то фильтр или кодер - как правило работает только с этими значениями, то есть только с несжатыми данными. Это значит, что для преобразования звука, скажем, из FLAC в APE, просто необходимо сначала декодировать FLAC в PCM, а затем уже закодировать PCM в APE. Это как для перепаковки файлов из ZIP в RAR, надо сначала распаковать ZIP.

    Однако, если вы пользуетесь конвертером или просто продвинутым консольным кодером, промежуточное преобразование в PCM происходит на лету, иногда даже без записи во временный WAV файл. Именно это и вводит людей в заблуждения - кажется, что форматы конвертируются непосредственно один в другой, но на самом деле в такой программе обязательно есть декодер входного формата, выполняющий помежуточное преобразование в PCM.

    Таким образом, ручное преобразование в WAV не даст вам совершенно ничего, кроме лишней траты времени.


Битрейт принято использовать при измерении эффективной скорости передачи потока данных по каналу, то есть минимального размера канала, который сможет пропустить этот поток без задержек.

Битрейт выражается битами в секунду (бит/c, bps ), а также производными величинами с приставками кило- (кбит/с, kbps ), мега- (Мбит/с, Mbps ) и т. д.

Скорость передачи данных с использованием битов в секунду блока (символ: «бит/с»), часто применяется в сочетании с приставками из международной системы измерения единиц (СИ), такими как «кило» (1 кбит/с = 1024 бит/с), «мега» (1 Мбит/с = 1024 кбит/с), «гига» (1 Гбит/с = 1024 Мбит/с) или «тера» (1 Тбит/с = 1024 Гбит/с). Нестандартная аббревиатура «bps» часто используется для замены стандартного символа «бит/с», так что, например, «1 Мбит» используется для обозначения одного миллиона бит в секунду. Один байт в секунду (1 Б/с) соответствует 8 бит/с.

Энциклопедичный YouTube

  • 1 / 5

    В форматах потокового видео и аудио (например, MPEG и MP3), использующих сжатие c потерей качества , параметр «битрейт» выражает степень сжатия потока и, тем самым, определяет размер канала, для которого сжат поток данных. Чаще всего битрейт звука и видео измеряют в килобитах в секунду (англ. kilobit per second, kbps ), реже - в мегабитах в секунду (только для видео).

    Существует три режима сжатия потоковых данных:

    • CBR (англ. Constant bitrate ) - с постоянным битрейтом;
    • VBR (англ. Variable bitrate ) - с переменным битрейтом;
    • ABR (англ. Average bitrate ) - с усреднённым битрейтом.

    Скорость передачи информации

    Физический уровень чистого битрейта, скорость передачи информации, полезной битрейт, частота полезной нагрузки, чистая скорость передачи данных, скорость передачи кодированных передач, эффективная скорость передачи данных или скорость подачи проволоки (неофициальный язык) цифрового канала связи является способность без учёта накладного протокола физического уровня, для мультиплекса пример с временным разделением каналов (TDM) обрамляющих битов, резервируемых с прямым исправлением ошибок (FEC) кодов, эквалайзер обучающих символов и другого канального кодирования. Помехоустойчивые коды являются общими, особенно в системах беспроводной связи, стандартов широкополосного модема или современных высокоскоростных локальных сетей на основе меди. Физический уровень чистого битрейта является скорость передачи данных, измеренная в контрольной точке на границе раздела между канальным уровнем и физическим уровнем, и, следовательно, может включать в себя линию передачи данных, а также нагрузку уровня.

    В модемах и беспроводных системах, адаптации линии связи (автоматическая адаптация скорости передачи данных и модуляции и / или ошибок схемы кодирования, качество сигнала) часто применяется. В этом контексте термин пик битрейта означает чистый битрейт самой быстрой и наименее надёжным режимом передачи, используемый, например, [когда расстояние очень короткое замыкание] между отправителем и передатчиком. Некоторые операционные системы и сетевое оборудование может обнаружить «скорость соединения» (неофициальный язык) той или иной технологии доступа к сети или устройства связи, что предполагает текущую чистую скорость передачи данных. Следует отметить, что термин скорость линии в некоторых учебниках определяется как валовой скорости передачи в битах, а в других, как чистой скорости передачи данных.

    Взаимосвязь между совокупным битрейтом и чистой скорости передачи данных зависит от скорости ПИО кода в соответствии со следующим.

    Постоянный битрейт

    Постоянный битрейт - вариант кодирования потоковых данных, при котором пользователь изначально задаёт необходимый битрейт, который не меняется на протяжении всего файла.

    Его главное достоинство - возможность довольно точно предсказать размер конечного файла.

    Однако вариант с постоянным битрейтом не очень подходит для музыкальных произведений, звучание которых динамично изменяется во времени, так как не обеспечивает оптимального соотношения размер/качество.

    Переменный битрейт

    С переменным битрейтом кодек выбирает значение битрейта исходя из параметров (уровня желаемого качества), причём в течение кодируемого фрагмента битрейт может изменяться. При сжатии звука нужный битрейт определяется на основе психоакустической модели . Данный метод даёт наилучшее соотношение качество/размер выходного файла, однако точный его размер оказывается очень плохо предсказуем. В зависимости от характера звука (или изображения, в случае кодирования видео), размер полученного файла может отличаться в несколько раз.

    Усреднённый битрейт

    Усреднённый битрейт является гибридом постоянного и переменного битрейтов: значение в кбит/c задаётся пользователем, а программа варьирует его в некоторых пределах. Однако, в отличие от VBR, кодек с осторожностью использует максимально и минимально возможные значения, не рискуя выйти за заданную пользователем среднюю величину. Этот метод позволяет наиболее гибко задавать скорость обработки (для аудио это может быть любым числом между 8 и 320 кбит/с, против чисел, кратных 16 в методе CBR) и с гораздо большей (по сравнению с VBR) точностью предсказывать размер выходного файла.

    MP3

    Формат MP3 сжатия аудио с потерями данных. Качество звука улучшается с увеличением битрейта:

    • 32 кбит/с - как правило, приемлемо только для речи
    • 96 кбит/с - как правило, используется для передачи речи или потокового звука низкого качества
    • 128 или 160 кбит/с - начальный уровень кодирования музыки
    • 192 кбит/с - приемлемое качество кодирования музыки
    • 256 кбит/с - высокое качество кодирования музыки
    • 320 кбит/с - наивысшее качество кодирования, поддерживаемое стандартом MP3
В продолжение темы:
Безопасность компьютера

Вакансия: Full Stack-веб-разработчик Одно из самых популярных направлений в области ИТ – это веб-разработка. Важное место в ней занимают Full Stack-веб-разработчики. Это...

Новые статьи
/
Популярные