Оцифровка сигнала. Вопросы оцифровки сигнала


Вопросы оцифровки сигнала

Как и обещали, мы публикуем статью по теории цифровой записи. Интересно, что автор статьи не мог удержаться и от чисто эстетических выкладок в этом плане. Предлагаемое выступление завсегдатая аудио-конференций Василия Николаенко и комментарий, одобренный автором, вращаются вокруг вопроса граничной частоты в работе с цифровыми аудиоданными. Вопрос актуален для всех звеньев в цепи создания коммерческого носителя — от звукорежиссера, издателя и рекорд-компании до слушателя и пользователя ПК, который ищет лучший режим перезаписи на болванку. Автор аргументирует, что результат записи зависит от конкретных условий: сочетания динамического диапазона и спектральной насыщенности сигнала по частотам. Он оперирует известной теоремой Котельникова и показывает, как именно ограничить спектр сигнала при записи/воспроизведении, чтобы избежать так называемых цифровых искажений. Автор полагает, что в детальной разработке его концепции заинтересованы звукозаписывающие компании, например — для создания качественных цифровых аудио-архивов и оцифровки аналоговых архивных записей высокой художественной ценности. Цифра является наилучшим архивным медиумом, но известны записи исключительного качества, созданные на студийной многодорожечной ленте. Значительно реже, по словам автора, встречаются интересные цифровые записи с частотой дискретизации 44,1 кГц и разрядностью 18 или 20 бит. Вместе с тем, поиск оптимального цифрового режима затруднен расплывчатостью критериев и разными подходами профессионалов цифровой записи. Не выработаны практические рекомендации, не изучена теория этого вопроса. Публикуя выступление Николенко, мы расчитываем на резонанс среди практиков, которые, возможно, давно уже не имеют никаких таких вопросов – только ответы.
В самом распространенном цифровом формате записи без сжатия — формате компакт диска CD-DA — используется квантование по частоте (частота следования отсчетов 44,1 кГц) и по амплитуде (разрядность каждого отсчета 16 двоичных разрядов — 65536 возможных уровней). На мой взгляд, применять формулу теоремы Котельникова для расчета полосы воспроизводимых частот формата ИКМ (PCM) в данном случае некорректно: дискретна не только шкала времени, но и амплитуда. В результате возникает шум квантования, когда результирующая огибающая дискретных точек не совпадает с исходным сигналом. В этом нетрудно убедиться, прослушав один и тот же отрывок записи с одинаковой частотой дискретизации, но с разной разрядностью.
Известна инвариантность частота/разрядность дискретизации. Существует два подхода в оценке взаимосвязи разрядности и частоты дискретизации. Смысл теоремы Котельникова в том, сколько необходимо отсчетов (точек на временной оси) для восстановления параметров любого сигнала с учетом ограниченности его спектра и длины (значения амплитуды в формуле не участвуют). Когда мы оцифровываем звук, то дискретна не только ось времени, но и амплитуда сигнала. Она еще и ограничена разрядностью оцифровки сверху и снизу. При записи это необходимо учитывать, нормируя амплитуду для получения сопоставимых с оригиналом записи результатов. Один из способов нормирования амплитуды — использование отношения динамического диапазона возможного цифрового сигнала (разрядности) к разрядности квантования (дискретизации).
А что, если учесть и потери квантования по амплитуде и компенсировать их ростом частоты? В качестве критерия оценки качества ИКМ-формата предлагается граничная частота, находимая по формуле Фгр=1:2 х Fs : (2 в степени 2m/n x 4 в степени m-n), где Фгр – максимальная частота, восстанавливаемая без потерь, Fs — частота дискретизации (для CD составляет 44100 Гц); m — максимальная разрядность динамического диапазона (обеспечивающая оригинальное качество и составляющая обычно от 8 до 20 бит); n — разрядность дискретизации (фактическая частота дискретизации, для CD — 16 бит). Тут учтен шум квантования и соблюдается условие, что динамический диапазон (разрядность) сигнала превышает разрядность дискретизации. Если разрядность дискретизации по амплитуде меньше разрядности динамического диапазона оцифровки (n Если разрядность дискретизации по амплитуде много больше разрядности динамического диапазона (n>>m), формула сводится к формуле теоремы Котельникова: Фгр=Фс:2, что свидетельствует о ее соответствии граничным условиям.
Применяя предлагаемую формулу для оценки PCM форматов, как используемых в настоящее время, так и перспективных, можно свести результаты в таблицу, где рассчитана граничная частота (в килогерцах) для трех разных уровней динамического диапазона возможного сигнала:
1. 120 дБ — максимальный диапазон человеческого слуха, несколько отличный от максимального уровня звукового давления (140 дБ). Фоновый шум принят за –20 дБ.
2. 108 дБ — максимальный диапазон возможного музыкального сигнала. Пример — Торжественная увертюра «1812 год» П.И.Чайковского с колоколами и стрельбой из пушек.
3. 96 дБ — максимальный диапазон музыкального сигнала, за редким исключением.
Оказывается, что самый распространенный формат CD-DA (16 бит/44,1 кГц) при заявленном (в стандарте Red Book) динамическом диапазоне в 96 дБ имеет граничную частоту всего 5,51 кГц!
Если говорить о максимально жестких требованиях к параметрам цифрового формата, звукорежиссеры при создании CD дисков ограничивают динамический диапазон уровнем примерно в 60 дБ, но даже при этом граничная частота составит порядка 10 кГц. Для современной популярной музыки это не критично, а вот звучание классических записей в оркестровом исполнении будет заметно неестественным.
Формат DVD-A выглядит намного предпочтительнее на частоте дискретизации 192 кГц. Тем не менее, реально применяемые дельта-сигма АЦП в современных DVD-A-проигрывателях не обеспечивают истинной 24-битной разрядности ни по монотонности аналогово-цифрового преобразования, ни по уровню шумов. Основание: THD+N для истинных 24 бит должно при этом составить <-144 дБ.

Комментарий Александра Дмитриева (Институт радиотехники и электроники РАН)

C практической точки зрения 16 бит действительно дают некоторую неточность. Сигналов с идеальным ограниченным спектром не существует, тогда как важно ограничить частоту оцифровки сверху (например, 22 кГц). При этом не теряются слышимые частоты, но теряется часть энергии сигнала. Для ее компенсации необходимо увеличивать разрядность по амплитуде относительно нормы. Существует и обратная возможность — компенсировать недостаток разрядности частотой. Для этого применяется сигма-дельта модуляция (СДМ), когда вы всего одним битом указываете, растет или падает сигнал. Если частота высока, то такой способ точно описывает исходный сигнал. Подобные устройства предлагают Sony и Analog Devices. На полуторамегагерцовых ЦАП/АЦП музыка звучит достаточно качественно, имея ввиду калиброванные сигналы, принятые за эталон качества звука. По ним же сравнивают АЦП, построенные на разных алгоритмах (ИКМ и СДМ).
Основная масса сигналов (с которыми работает звукорежиссер) формально укладывается в требования точности оцифровки на имеющихся АЦП, но сигма-дельта модуляция чревата проблемами. Результирующая остаточных шумов (разность между исходной кривой и аппроксимирующей) может оказаться неожиданной, а на практике мозг слушателя может опознавать такой шум как чуждый. На выходе сигнал в целом будет оценен как неестественный, с характерными цифровыми искажениями. Для сравнения: в аналоговой записи тоже имели место щелчки и помехи, но они воспринимались ухом как терпимые, естественные. Это отличает их от шумов квантования цифровой записи, которые мозг каким-то образом явно выделяет, хотя по уровню эти помехи могут быть много меньше аналоговых искажений. Кстати, аналоговый процесс записи (кстати, сейчас переживающий ренессанс), располагает фактическим динамическим диапазоном не хуже стандарта 16 бит. Просто это сложно проверить, так как эталоны утеряны (записи, сделанные до 60–70-х годов!) или же восстановлению не подлежат. Цифровые архивы предъявляют совсем иные требования, и сравнение с аналогом в любом случае неправомерно.


Звукорежиссеры правы в том, что максимальное цифровое качество заключается в высокой разрядности. Однако, чтобы признать систему истинно 24-разрядной, уровень суммарных искажений (динамические + шум или THD + N) должен составлять меньше -144 дБ. Можно говорить о существовании профессиональных АЦП с такими параметрами. Очевидно, к честным мультиразрядным процессорам могут быть отнесены некоторые из Lynx Studio. В потребительском же аудио сплошь используются АЦП и ЦАП, выдающие 24-разрядное слово, что означает лишь длину данных. Разрешение же при этом может составлять 14 или 15 разрядов. Этот параметр обычно маскируется и подается косвенно как динамический диапазон и коэффициент искажений.