Зачем дискретизировать сигнал
Перейти к содержимому

Зачем дискретизировать сигнал

Не пустой звук. Разбираемся, как устроено цифровое кодирование звука

Как известно, в цифровом звуке практически любой формат, за редким исключением, записывается импульсно-кодовым потоком, или потоком PCM — pulse code modulation. FLAC, MP3, WAV, Audio CD, DVD-Audio и другие форматы — это лишь способы упаковки, «консервации» потока PCM.

С чего все начиналось

Теоретические основы цифровой передачи звука были разработаны еще на заре двадцатого века, когда ученые попытались передать звуковой сигнал на большое расстояние, но не по телефону, а довольно странным для того времени способом.

Разделив звуковую волну на небольшие части, ее можно было отправлять получателю в некоем математическом представлении. Получатель, в свою очередь, мог восстановить исходную волну и прослушать запись. Также перед учеными стояла задача увеличить пропускную способность «эфира».

В 1933 году увидела свет теорема В. А. Котельникова. В западных источниках ее называют теоремой Найквиста — Шеннона. Да, Гарри Найквист был первым, кто затронул эту тему: в 1927 году он рассчитал минимальную частоту дискретизации для передачи формы волны, впоследствии названную в его честь «частотой Найквиста», — но теорема Котельникова была издана на 16 лет раньше.

Суть теоремы проста: непрерывный сигнал можно представить в виде интерполяционного ряда, состоящего из дискретных отчетов, по которым можно заново восстановить сигнал. Чтобы была возможность восстановить приблизительно исходное состояние сигнала, частота дискретизации должна равняться как минимум удвоенной верхней граничной частоте этого сигнала.

Много лет теорема не была востребована — вплоть до прихода цифровой эпохи. Тут-то ей и нашлось применение. В частности, теорема пригодилась при разработке формата CDDA (Compact Disc Digital Audio), в простонародье его называют Audio CD или Red Book. Формат был выпущен инженерами Philips и Sony в 1980 году и стал стандартом для аудио-компакт-дисков.

  • частота дискретизации — 44,1 кГц;
  • разрядность квантования — 16 бит.
  • Частота дискретизации — количество отсчетов сигнала, «взятых» при его дискретизации. Измеряется в герцах.
  • Разрядность квантования — количество двоичных разрядов, выражающих амплитуду сигнала. Измеряется в битах.

Частота дискретизации 44,1 кГц была рассчитана из теоремы Котельникова. Считается, что слух среднестатистического человека не способен уловить звук за пределами 19–22 кГц. Вероятно, частота 22 кГц и была выбрана в качестве верхней граничной.

22 000 × 2 = 44 000 + 100 = 44 100 Герц

Откуда взялось 100 Герц? Есть версия, что это небольшой запас на случай ошибок или передискретизации. На самом деле такую частоту в Sony выбрали из соображений совместимости со стандартом телевещания PAL.

Разрядность формата CDDA — 16 бит, или 65 536 отсчетов, что равняется динамическому диапазону примерно в 96 дБ. Такое большое число отсчетов выбрано не случайно. Во-первых, из-за сильного влияния шумов квантования, во-вторых, чтобы обеспечить формальный динамический диапазон выше, чем у главных тогда конкурентов — кассетных записей и виниловых пластинок. Я расскажу об этом подробнее в разделе про цифроаналоговые преобразователи.

Дальнейшее развитие PCM так и продолжилось по принципу умножения на два. Появились другие частоты дискретизации: сначала добавилась частота дискретизации 48 кГц, а в дальнейшем основанные на ней частоты 96, 192 и 384 кГц. Частота 44,1 кГц также удваивалась до 88,2, 176,4 и 352,8 кГц. Разрядность же увеличилась с 16 до 24, а позднее и до 32 бит.

Следующим после CDDA в 1987 году появился формат DAT — Digital Audio Tape. Частота дискретизации в нем составила 48 кГц, разрядность квантования не изменилась. И хотя формат провалился, частота дискретизации 48 кГц прижилась на студиях звукозаписи, как пишут, из-за удобства цифровой обработки.

В 1999 году вышел формат DVD-Audio, который позволял записать на один диск шесть стереодорожек с частотой дискретизации 96 кГц и разрядностью 24 бит или две стереодорожки с частотой 192 кГц, 24 бит.

В том же году был представлен формат SACD — Super Audio CD, но диски для него стали производить только спустя три года. Подробнее об этом формате я расскажу в разделе про DSD.

Это основные форматы, которые считаются стандартом для цифровых звукозаписей на носителях. Теперь рассмотрим, как передаются данные в цифровом звуковом тракте.

Структура цифрового звукового тракта

При проигрывании музыки происходит примерно следующее: плеер при помощи кодека, выполненного в виде устройства или программы, распаковывает файл в заданном формате (FLAC, MP3 и другие) или считывает данные с CD, DVD-Audio или SACD-диска, получая стандартный поток данных PCM. Затем этот поток передается через USB, LAN, S/PDIF, PCI и так далее в I2S-конвертер. В свою очередь, конвертер преобразует полученные данные в так называемые кадры интерфейса передачи данных I2S (не путать с I2С!).

I2S — это последовательная шина передачи цифрового аудиопотока. Сейчас I2S — стандарт для подключения источника сигнала (компьютер, проигрыватель) к цифроаналоговому преобразователю. Именно через нее подключается напрямую или опосредованно подавляющее большинство ЦАП. Существуют и другие стандарты передачи цифрового аудиопотока, но они используются гораздо реже.

Выход (вход) I2S на печатных платах

Выход (вход) I2S на печатных платах

Другие статьи в выпуске:

Xakep #256. Боевой Linux

Шина I2S может состоять из трех, четырех и даже пяти контактов:

  • continuous serial clock (SCK) — тактовый сигнал битовой синхронизации (может называться BCK или BCLK);
  • word select (WS) — тактовый сигнал кадровой синхронизации (может называться LRCK или FSYNC);
  • serial data (SD) — сигнал передаваемых данных (может называться DATA, SDOUT или SDATA). Как правило, данные передаются от передатчика к приемнику, но бывают устройства, которые могут выступать и приемником, и передатчиком одновременно. В таком случае может присутствовать еще один контакт;
  • serial data in (SDIN) — по этому контакту данные движутся в направлении приема, а не передачи.

SD или SDOUT служит для подключения цифроаналогового преобразователя, а SDIN используется для подключения аналого-цифрового преобразователя к шине I2S.

В большинстве случаев присутствует еще один контакт, Master Clock (MCLK или MCK), он используется для синхронизации приемника и передатчика от одного генератора тактовых импульсов, чтобы снизить коэффициент ошибок передачи данных. Для внешней синхронизации MCLK служат два генератора тактовых импульсов: с частотой 22 579 кГц и 24 576 кГц. Первый, 22 579 кГц, — для частот, кратных 44,1 кГц (88,2, 176,4, 352,8 кГц), а второй, 24 576 кГц, — для частот, кратных 48 кГц (96, 192, 384 кГц). Также могут встречаться генераторы на 45 158,4 кГц и 49 152 кГц — наверняка ты уже заметил, как в мире цифрового звука всё любят умножать на два.

Frame, или кадр I2S

Frame, или кадр I2S

В I2S обязательно используются три контакта: SCK, WS, SD — остальные контакты опциональны.

По каналу SCK передаются синхроимпульсы, под которые синхронизированы кадры.

По каналу WS передается длина «слова», при этом используются и логические состояния. Если на контакте WS логическая единица, значит, передаются данные правого канала, если ноль — данные левого канала.

По SD передаются биты данных — значения амплитуды звукового сигнала при квантовании, те самые 16, 24 или 32 бита. Никаких контрольных сумм и служебных каналов на шине I2S не предусмотрено. Если данные при передаче потеряются, возможности восстановить их не существует.

На дорогих ЦАП часто бывают внешние разъемы для подключения к I2S. Использование таких разъемов и кабелей может плохо отразиться на звуке, вплоть до появления «артефактов» и заиканий, все будет зависеть от качества и длины провода. Все же I2S это внутрисхемный разъем, и длина проводников от передатчика до приемника должна стремиться к нулю.

Рассмотрим, как передается поток данных PCM по шине I2S. Например, при передаче PCM 44,1 кГц с разрядностью 16 бит длина слова на канале SD будет соответствовать этим шестнадцати битам, а длина кадра будет 32 бита (правый канал + левый). Но чаще всего передающие устройства используют длину слова 24 бита.

При воспроизведении PCM 44,1 × 16 старшие биты либо попросту игнорируются, так как заполнены нулями, либо, в случае со старыми мультибитными ЦАП, они могут перейти на следующий кадр. Длина «слова» (WS) может также зависеть от плеера, через который воспроизводится музыка, а также от драйвера устройства воспроизведения.

Альтернативой PCM и I2S может быть запись звукового сигнала в DSD. Этот формат развивался параллельно с PCM, хотя и тут теорема Котельникова оказала некоторое влияние. Для улучшения качества звучания по сравнению с CDDA упор был сделан не на повышение разрядности квантования, как в формате DVD Audio, а на увеличение частоты дискретизации.

DSD расшифровывается как Direct Stream Digital. Он берет свое начало в лабораториях фирм Sony и Philips — впрочем, как и другие форматы, рассматриваемые в этой статье.

Впервые DSD увидел свет на дисках Super Audio CD в далеком 2002 году.

На тот момент SACD казался шедевром инженерной мысли, в нем был применен совершенно новый способ записи и воспроизведения, очень близкий к аналоговым устройствам. Реализация одновременно была простой и изящной.

Носитель даже оснастили защитой от копирования, хотя и без этого никакие пираты были не страшны. Под марками Sony и Philips стали выпускать «закрытые» устройства исключительно для воспроизведения, без какой-либо возможности копировать диски. Производители продавали студиям оборудование для записи, но при этом оставили за собой контроль за выпуском SACD-дисков.

Как знать, возможно, формат SACD мог бы обрести популярность, сравнимую с Audio CD, если бы не стоимость устройств воспроизведения. Безосновательно накручивая цены на проигрыватели, руководители Sony и Philips сами мешали популярности своего формата. А следующая ошибка и вовсе поставила крест на продажах специализированных устройств. Для продвижения игровой приставки Sony PlayStation инженеры Sony добавили возможность слушать на ней SACD. Хакеры тут же взломали приставку и стали копировать диски SACD в ISO-образы, которые можно записать на обычную болванку DVD и воспроизводить на любом плеере фирм-конкурентов; другие просто извлекали дорожки для воспроизведения на компьютере.

Звукозаписывающие компании тоже хороши: вопреки ожиданиям меломанов, они не пользовались всеми возможностями нового формата высокого разрешения. На студиях не записывали в DSD музыку с мастер-ленты, а брали цифровую запись в PCM, пересводили и обрабатывали всем подряд: лимитерами, компрессорами, дитерингом с нойз-шейпингом и различными цифровыми фильтрами. В итоге на выходе получался такой стерильный и сухой звук, что даже CD Audio мог бы звучать гораздо лучше. Таким образом было подорвано доверие слушателей к SACD, а заодно и к новым форматам вообще.

Увы, с виниловыми пластинками эта порочная практика применяется и по сей день: студии печатают винил с цифровой записи, даже если у них есть запись на мастер-ленте. Так что на современном виниле запросто может оказаться 44,1 × 16.

Что же представляет собой DSD? Это однобитный поток с очень высокой, по сравнению с PCM, частотой дискретизации. Также в DSD используется иной вид модуляции, PDM (Pulse Density Modulation) — плотностно-импульсная модуляция. Запись звука в таком формате производится однобитным аналого-цифровым преобразователем, сейчас такие АЦП на основе сигма-дельта-модуляции используются повсеместно. Процесс записи выглядит примерно так: пока амплитуда волны возрастает, на выходе АЦП логическая единица, когда амплитуда падает, на выходе логический ноль, среднего значения быть не может. Сравнивается с предыдущим значением амплитуды волны.

DSD позволяет достичь важных преимуществ по сравнению с PCM:

  • точнее прорисовка волны;
  • выше помехоустойчивость;
  • более простой способ коммутации и передачи цифрового потока;
  • теоретически есть возможность уменьшить стоимость, упростив схему ЦАП, но из-за обратной совместимости со старыми форматами производители вряд ли пойдут на это.

Изначально на SACD-дисках использовался формат DSD x64 c частотой дискретизации 2822,4 кГц. За основу взяли частоту дискретизации Audio CD 44,1 кГц, увеличенную в 64 раза, отсюда название x64. Сегодня реально используются следующие DSD:

  • x64 = 2822,4 кГц;
  • x128 = 5644,8 кГц;
  • x256 = 11 289,6 кГц;
  • x512 = 22 579,2 кГц;
  • заявлен DSD x1024.

Существует некий промежуточный формат между PCM и DSD под названием DXD — Digital eXtreme Definition. Это, по сути, PCM высокого разрешения — 352,8 кГц или 384 кГц с разрядностью квантования 24 или 32 бита. Он применяется в студиях для обработки и последующего сведения материалов.

Но такой подход ущербен: во-первых, он не позволяет задействовать все преимущества DSD, во-вторых, размер файлов получается больше, чем в DSD. На текущий момент флагманские ЦАП на входе I2S принимают поток данных PCM с частотой дискретизации до 768 кГц и разрядностью до 32 бит. Страшно даже считать, какой объем на жестком диске будет занимать один альбом в таком разрешении.

DSD практически отделился от SACD. Теперь формат DSD чаще можно встретить упакованным в файлы с расширением DSF и DFF. Выпущено множество проигрывателей с возможностью записи в DSF и DFF, любители хорошего звука все чаще и чаще оцифровывают виниловые пластинки именно в формате DSD. А вот на звукозаписывающих студиях никто не хочет вкладываться в малопопулярные форматы, так что там продолжают клепать звук на минималках: 44,1 × 16.

Коммутация DSD и передача данных

Для передачи цифрового потока в DSD используется трехконтактная схема подключения:

  1. DSD Clock Pin (DCLK) — синхронизация;
  2. DSD Lch Data Input Pin (DSDL) — данные левого канала;
  3. DSD Rch Data Input Pin (DSDR) — данные правого канала.

В отличие от I2S, передача данных DSD предельно упрощена. DCLK задает тактовую частоту битовой синхронизации, а по контактам DSDL и DSDR последовательно передаются сами данные левого и правого канала соответственно. Никаких ухищрений тут нет, запись и воспроизведение в DSD делается побитно. Такой подход дает максимальное приближение к аналоговому сигналу, а за счет высокой частоты уменьшаются шумы квантования и на порядок повышается точность воспроизведения.

DoP часто применяется для передачи потока данных DSD, поэтому упомянуть о нем стоит. DoP — это открытый стандарт передачи данных DSD через кадры PCM (DSD over PCM). Стандарт создан для того, чтобы передавать поток через драйверы и устройства, не поддерживающие прямую передачу DSD (не DSD native).

Принцип работы такой: в 24-битном кадре PCM старшие 8 бит заполняются единицами — это значит, что в данный момент передаются данные DSD. Оставшиеся 16 бит заполняются последовательно битами данных DSD.

Для передачи DSD x64 с частотой однобитного потока 2822,4 кГц необходима частота дискретизации PCM, равная 176,4 кГц (176,4 × 16 = 2822,4 кГц). Для передачи DSD x128 с частотой 5644,8 кГц уже потребуется частота дискретизации PCM 352,8 кГц.

Подробности ты можешь найти в описании стандарта DoP (PDF).

Цифроаналоговые преобразователи

Перейдем к ЦАП — цифро-аналоговым преобразователям. Эта сложная тема всегда покрыта завесой тайны и присыпана аудиофильской мистикой. К тому же вокруг цифроаналоговых преобразователей очень много спекуляций противоборствующих лагерей: маркетологов, аудиофилов и скептиков. Давай разберемся, в чем тут дело.

Мультибитные ЦАП

Вначале, когда только появился формат Audio CD, PCM преобразовывали в аналоговый сигнал при помощи мультибитных ЦАП. Они были построены на основе резистивной матрицы постоянного импеданса, так называемой матрицы R-2R.

Упрощенная схема мультибитного ЦАП

Упрощенная схема мультибитного ЦАП

Мультибитные ЦАП работают так: поток PCM разделяется на два канала, левый и правый, и переводится из последовательного представления сигнала в параллельное — например, при помощи сдвиговых регистров. В буфер одного регистра записываются данные правого канала, а в буфер другого — данные левого. Данные передаются одновременно по параллельным портам с заданной частотой дискретизации (чаще всего 44,1 кГц), как на изображении ниже, только параллельных выходов не восемь, а шестнадцать, потому что разрядность 16 бит. В зависимости от положения в кадре старшие и младшие биты будут встречать на пути следования электрического тока разное сопротивление, поскольку разным будет количество последовательно подключенных резисторов. Чем старше бит, тем больше должна быть его значимость.

Мультибитные ЦАП, или мультибиты, требуют очень качественных компонентов и точной подгонки резисторов, ведь любые неточности в номиналах компонентов суммируются. Это приводит к серьезным отклонениям от исходной волны и создает погрешность в несколько разрядов квантования.

В мультибитных ЦАП восьмидесятых годов нет никаких манипуляций с PCM. Мультибиты подключаются напрямую к шине I2S и проигрывают PCM как есть: пришли данные правого канала (16 бит), подождал данные второго канала (16 бит), выдал оба канала на резистивную матрицу — и так с частотой 44,1 кГц.

В восьмидесятые годы частота и разрядность определялись форматом СDDA, который стал практически эталонной реализацией теоремы Котельникова. С некоторыми оговорками так можно охарактеризовать и более поздний MP3. Только начиная с формата DVD Audio был пересмотрен подход к оцифровке и воспроизведению звука.

Так работали простейшие первые ЦАП, позднее стали использовать преобразователи с более сложным устройством. Схемы модернизировали, качество компонентов улучшалось, а еще в мультибитных ЦАП стали применять технологию oversampling. Oversampling — это передискретизация цифрового потока с повышением частоты дискретизации и разрядности квантования для уменьшения шума квантования.

Чтобы объяснить, зачем используется oversampling, необходимо рассказать о применении теоремы Котельникова на практике. Здесь все не так радужно, как представляется в мире математики, — ни о каком «с любой точностью», как написано в теореме, и речи не идет.

Теорема Котельникова

«Любую функцию F(t), состоящую из частот от 0 до f1, можно непрерывно передавать с любой точностью при помощи чисел, следующих друг за другом через 1/(2f1) секунд»

Следствия теоремы Котельникова:

  • любой аналоговый сигнал может быть восстановлен с какой угодно точностью по своим дискретным отсчетам, взятым с частотой f > 2fc, где fc — максимальная частота, которая ограничена спектром реального сигнала;
  • если максимальная частота в сигнале равна половине частоты дискретизации (наложение спектра) или превышает ее, то способа восстановить сигнал из дискретного в аналоговый без искажений не существует.

Если тебя интересуют подробности, можешь обратиться к первоисточнику — работе «О пропускной способности „эфира“ и проволоки в электросвязи» авторства В. А. Котельникова (PDF).

Сложности с теоремой Котельникова

Часто теорему Котельникова воспринимают слишком буквально и возводят в абсолют. Сколько я прочитал статей твердолобых скептиков о чудесных форматах MP3 и CDDA и о безумных аудиофилах, которые впаривают всем свои ненужные DVD-Audio и DSD! Конечно же, главным аргументом у них выступает теорема Котельникова.

Начнем с того, что частоты Найквиста на практике недостаточно для передачи точной формы волны. Из-за неидеальных условий неизбежно появляются шумы и искажения: шумы квантования при записи звукового сигнала, шумы округления при его обработке и воспроизведении и не только. Принято считать, что шумы квантования не могут быть меньше половины младшего разряда квантования. Это обусловлено тем, что при квантовании звукового сигнала делается округление до ближайшего разряда, в большую или меньшую сторону. Шумы округления также не могут быть меньше половины младшего разряда, или, как его еще называют, шага квантования. Есть еще собственные шумы АЦП и ЦАП, но для них сложно привести точную цифру, ведь на них влияет большое количество факторов: конкретная реализация, количество и качество компонентов и даже окружающая среда. Обычно собственные шумы составляют несколько разрядов квантования.

Из этого следует, что частота дискретизации должна быть значительно выше частоты Найквиста, чтобы компенсировать потери при оцифровке и последующем воспроизведении цифровой записи.

Приведу пример из конспекта лекций Э. И. Вологдина «Стандарты и системы цифровой звукозаписи»:

Как видно, пока пиковое значение входного сигнала не превышает 0,5 кванта, выходной сигнал квантователя равен нулю, то есть имеет место центральная отсечка. Это приводит к нелинейности преобразования и возникновению больших искажений при малых амплитудах ЗС. Пока значение A > 1,5, выходной сигнал демодулятора представляет собой последовательность прямоугольных импульсов, у которых с изменением уровня ЗС меняется длительность. Это обусловлено ошибками квантования, которые соизмеримы с амплитудой входного сигнала. Искажения начинают заметно уменьшаться только при A > 2.

За А взята амплитуда сигнала.

В приведенной цитате речь идет только о шуме квантования, причем взято минимально возможное значение — 1/2 шага квантования. Шумы округления оказывают примерно такое же влияние — минимум 1/2 шага квантования.

Кроме шумов, в цифровой записи могут появляться искажения, вызванные использованием ФНЧ — фильтра низких частот. По теореме Котельникова необходимо ограничить частоту звукового сигнала фильтром и принять ее за верхнюю граничную, из которой потом умножением на два вычисляют частоту Найквиста. Проблема в том, что в теореме рассматривается идеальный ФНЧ, которых в реальном мире не бывает. Приведу цитату из того же конспекта лекций Вологдина:

Для надежного подавления спектральных составляющих выше частоты Найквиста антиэлайзинговый ФНЧ должен иметь частоту среза несколько ниже частоты Найквиста и очень сильно (не меньше 90 дБ) подавлять составляющие спектра сигнала на этой частоте. Обычно это эллиптические фильтры 7. 9 порядков. Высокая крутизна среза ФНЧ приводит к специфическим искажениям в виде «звона». Это связано с тем, что отклик на импульсное воздействие такого фильтра описывается осциллирующей функцией вида sinс (v). Чем выше крутизна среза ФНЧ, тем медленнее происходит затухание звуковых колебаний. Единственным способом борьбы с этими искажениями является повышение частоты выборок. Это позволяет уменьшить крутизну спада антиэлайзингового ФНЧ без уменьшения эффективности подавления спектральных составляющих выше частоты Найквиста.

Рассмотрю еще один интересный момент. В теореме Котельникова приводится бесконечный по времени сигнал, что противоречит условиям записи на носитель или в файл.

Теорема Котельникова дает предельные соотношения для идеализированных условий, среди которых следует отметить ограниченность спектра по частоте и бесконечное время наблюдения. Все реальные сигналы конечны во времени и имеют неограниченный по частоте спектр. Использование модели с ограниченным спектром и конечное время наблюдения приводят к погрешности при восстановлении непрерывного сигнала. Расчеты показывают, что на практике частота FД существенно превышает частоту дискретизации по Котельникову» (здесь FД — это частота дискретизации).

Источник — И. П. Ястребов «Дискретизация непрерывных сигналов во времени. Теорема Котельникова» (PDF)

Чтобы обрисовать масштаб проблемы, приведу еще одну цитату.

Искажения, вызванные ошибками квантования, уверенно заметны на слух уже при восьмиразрядном кодировании, хотя при этом величина искажений не превышает 0,5%. Это значит, что при шестнадцатиразрядном кодировании, используемом при записи CD, реальный динамический диапазон цифрового звука не превышает 48 дБ, а не 96 дБ, как это пишется в рекламе».

Источник — Э. И. Вологдин «Цифровая звукозапись» (PDF)

Выводы

Теорема Котельникова математически верна, но для практического ее применения требуется существенная коррекция. И частоту Найквиста можно обозначить скорее как минимально допустимую для восстановления приблизительной формы волны, но никак не для восстановления сигнала «с любой точностью». Для компенсации потерь при оцифровке и воспроизведении частота дискретизации должна быть не в два, а как минимум в несколько раз выше верхней граничной частоты.

На этом оставим в покое теорему Котельникова и перейдем к изучению различных шумов при записи, сведении и воспроизведении звукового сигнала.

Существует множество видов шумов, влияющих на запись. Приведу основные: шум квантования, шум округления, дрожание апертуры, нелинейные искажения, аналоговый шум. Можешь познакомиться с описаниями четырех типов шумов и формулами, чтобы примерно понять, сколько искажений в оцифрованный сигнал вносит каждый вид.

Не стоит воспринимать термин «шум» как проявление именно знакомого всем «белого шума». Разные виды шумов воспринимаются по-разному, в данном контексте термин «шум» скорее нужно понимать как потерю части полезного сигнала.

Примерно рассчитать отдельный вид шума еще можно, но общий уровень шумов при оцифровке — едва ли. Это очень сложная математическая модель с множеством допущений. Попробуем пойти от обратного и проанализировать динамический диапазон записанного сигнала на АЦП (аналого-цифровом преобразователе) и сравнить его с теоретически возможным.

Уровень шума обычно рассчитывают по отношению к шагу квантования (один разряд) или к динамическому диапазону звукового сигнала. Динамический диапазон измеряется в децибелах, рассчитать его можно по формуле: DR = 20lg(2 N ), где N — разрядность квантования. Получается для 16 бит возможный динамический диапазон около 96 дБ, а для 24 бит около 144 дБ.

Возьму результаты тестирования АЦП «Lynx Studio Hilo TB», это студийный АЦП/ЦАП высшей ценовой категории. Он показал следующие результаты.

Режим работы 24 бит, 44 кГц
Динамический диапазон, дБ (А) 119,3 Отлично

А вот результаты без усиления.

Режим работы 24 бит, 44 кГц
Динамический диапазон, дБ (А) 112,6 Отлично

Забегая вперед, скажу, что в тестируемом АЦП используются технологии дитеринг (Dithering), нойз-шейпинг (Noise shaping), а также децимация, что позволяет расширить динамический диапазон и снизить уровень шума. Подробнее про эти технологии расскажу в следующем пункте.

А теперь прикинем: 24 бита равняются 144 дБ — это возможный динамический диапазон. От 144 дБ отнимем реальный динамический диапазон 119 дБ, потери от шумов составят лучшем случае 25 дБ, а в худшем 32 дБ. К сожалению, при 16 бит его не тестировали, но в соотношении результаты должны быть еще хуже, поскольку понижение разрядности неминуемо приводит к росту шумов. Получается, что примерно 1/5 часть сигнала просто теряется из-за шума.

Складывается далеко не радужная картина. А если копнуть глубже и учесть, как звук сводят на студии записи, становится не по себе. Как правило, готовое произведение сводят из семплов, в которых уже и так присутствуют указанные шумы, поскольку семплы записаны на подобном АЦП. Затем добавляют эффекты, которые как минимум приводят к передискретизации (resampling) и связанным с ней ошибкам округления.

Кроме того, плохие звукорежиссеры очень любят все пожать и выровнять, используя лимитеры и компрессоры, принцип работы которых основан на уменьшении динамического диапазона. Через все эти пытки проходит практически каждый семпл. Даже при использовании простого эквалайзера сигнал проходит через цифровой фильтр, который вносит шум округления как минимум в полшага квантования. При конечном сведении все семплы собираются в один поток, соответственно шумы каждого добавляются к шумам еще одной передискретизации. Но и это еще не все — при воспроизведении ЦАП добавляет собственные шумы и шум округления. Представляешь, что на самом деле остается от полезного сигнала?

Методы борьбы с шумами

Чтобы исправить это плачевное положение, были разработаны специальные технологии борьбы с шумами. Давай рассмотрим самые основные.

Oversampling

Технологию oversampling стали применять еще во времена мультибитных ЦАП для компенсации потерь, вызванных шумами. Принцип работы oversampling заключается в том, что к уже существующим дискретным отсчетам добавляются промежуточные, которые повторяют приблизительную форму волны. Промежуточные отсчеты либо рассчитываются с применением математической интерполяции, либо заполняются нулевыми значениями и передаются на цифровой фильтр. Обычно и тот и другой подход называют интерполяцией, а цифровой фильтр называют интерполирующим. Самым простым способом интерполяции является линейная интерполяция, а самым простым цифровым фильтром может выступать фильтр нижних частот.

Ниже — иллюстрация алгоритма интерполяции дискретного сигнала с коэффициентом 2. Красные точки обозначают исходные отсчеты сигнала, сплошные линии — непрерывный сигнал, представлением которого эти отсчеты являются. Сверху — исходный сигнал. В середине — этот же сигнал со вставленными нулевыми отсчетами (зеленые точки). Снизу — интерполированный сигнал (синие точки — интерполированные значения отсчетов).

Сначала стали применять только передискретизацию с повышением частоты, например с 44,1 до 176,4 кГц. Позднее применяли уже передискретизацию с повышением частоты дискретизации и увеличением разрядности квантования — этот процесс называется реквантование.

Хотя oversampling вносит шум округления, все же при его использовании благодаря расширению динамического диапазона сигнала снижается общая плотность шума, и последующая обработка сигнала окажет уже меньшее влияние. Каждое удвоение частоты дискретизации расширяет динамический диапазон примерно на один шаг квантования — 6 дБ — минус шум округления.

Как раз для возможности применить oversampling стали выпускать микросхемы мультибитных ЦАП, поддерживающие на входе цифровой поток до 192 × 24. Также появились аппаратные апсемплеры на основе DSP (digital signal processor).

Конечно, применение технологии oversampling давало улучшение характеристик звукового сигнала, но кардинально ситуацию не меняло: уровень шума все равно оставался высоким. Поэтому стали применяться и другие технологии.

Децимация

Для записи и сведения звукового сигнала начали использовать децимацию — это обратный процесс, передискретизация с понижением частоты дискретизации и разрядности квантования. Сигнал записывается с высокой частотой дискретизации и разрядностью квантования, например 176,4 или 192 кГц с разрядностью 24 бит, и при помощи удаления части отсчетов цифровым фильтром «сжимается» до стандарта CDDA — 44,1 кГц, 16 бит. Этот подход позволяет немного снизить уровень шума квантования.

Ниже — иллюстрация алгоритма децимации дискретного сигнала с коэффициентом 2. Красные точки обозначают отсчеты, сплошные линии — непрерывный сигнал, представлением которого эти отсчеты являются. Сверху — исходный сигнал. В середине — этот же сигнал после фильтрации в цифровом фильтре нижних частот. Снизу — децимированный сигнал.

Dithering

Dithering (дитеринг) — метод подмешивания псевдослучайного шума при оцифровке или воспроизведении звукового сигнала. Эта технология выполняет две задачи:

  • линеаризация передаточной функции квантователя/реквантователя;
  • декорреляция ошибок квантования.

Шумы квантования имеют корреляцию, то есть взаимосвязь с основным сигналом. Это создает паразитные гармоники, которые повторяют форму сигнала. Они влияют на восприятие, создавая ощущение «нечеткости» звучания. Корреляцию можно убрать, добавляя специально смоделированный шум в основной сигнал, — таким образом коррелированный шум квантования превращается в обычный белый шум. Это немного поднимает общий шумовой уровень, но хорошо сказывается на восприятии.

Дитеринг на примере обработки изображений: до и после

Дитеринг на примере обработки изображений: до и после

Noise shaping (нойз-шейпинг)

Технология noise shaping (NS) позволяет значительно уменьшить шум, вносимый при квантовании, реквантовании и дитеринге.

Нойз-шейпинг работает так: квантованный сигнал на входе сравнивается с сигналом на выходе реквантователя, формируется разница (ошибка), которая вычитается из основного сигнала. Тем самым компенсируются искажения, внесенные реквантователем и в процессе дитеринга. Образуется так называемая обратная связь, которая стремится компенсировать ошибку на входе и выходе реквантователя. Эта технология работает подобно отрицательной обратной связи на операционном усилителе, только все преобразования происходят в цифровом виде.

Здесь приведена схема реквантователя первого порядка, но, как правило, используются реквантователи вплоть до 9–12-го порядка

Здесь приведена схема реквантователя первого порядка, но, как правило, используются реквантователи вплоть до 9–12-го порядка

У этой технологии есть свои минусы. Применение NS вносит большое количество шумов в область высоких частот, поэтому необходимо применять фильтр низких частот, с частотой среза, близкой к верхней граничной частоте. На практике вместе с NS всегда применяют еще и дитеринг, результат их совместной работы намного лучше на слух.

Dynamic Element Matching

Dynamic Element Matching (DEM) — технология, которая формирует на выходе ЦАП несколько уровней сигнала. Она похожа на нечто среднее между однобитным и мультибитным ЦАП. DEM служит для снижения детерминированных ошибок при использовании сигма-дельта-модуляции (SDM). Эти ошибки, подобно шумам квантования, сильно коррелированы с сигналом на выходе однобитного модулятора, поэтому значительно влияют на восприятие звукового сигнала.

Также эта технология снижает требования к аналоговому фильтру, потому что форма сигнала еще до фильтрации приближается к форме воспроизводимой волны. DEM реализуется при помощи нескольких выводов, соединенных в общую шину, которые формируют выходной сигнал ЦАП.

Кроме рассмотренных, применяются и другие технологии, а также их сочетания и вариации. Особенно производители любят экспериментировать с цифровой фильтрацией и модуляторами, изобретая все новые и новые цифровые фильтры, влияющие на сигнал как в лучшую, так и в худшую сторону. Алгоритмы обработки цифрового сигнала современных ЦАП, как правило, сложны и включают все перечисленное, а также собственные наработки производителей. Разумеется, производители не публикуют алгоритмы фильтров и модуляторов, в лучшем случае приводят примерную блок-схему. Так что остается только предполагать, что на самом деле происходит со звуковым сигналом внутри того или иного цифроаналогового преобразователя.

Сигма-дельта-преобразователи

Сигма-дельта цифроаналоговые преобразователи развивались обособленно от мультибитных ЦАП. За основу была взята, как понятно из названия, сигма-дельта-модуляция, в литературе она обычно обозначается аббревиатурой SDM. В сигма-дельта-модуляции передается не абсолютное значение амплитуды сигнала за единицу времени, как в мультибитных ЦАП, а изменения сигнала относительно предыдущего значения. Так, если амплитуда возрастает, передается 1, а если падает — 0. Подобный принцип уже был описан в разделе про DSD.

Первые сигма-дельта-ЦАП были полностью однобитными, но за счет высокой частоты дискретизации обеспечивали динамический диапазон на уровне примерно 129 дБ. За основу взяли частоту дискретизации 44,1 кГц. Вероятно, выбранная частота позволяла экономить аппаратные ресурсы благодаря упрощению вычислений при интерполяции.

Сначала использовали частоту 2,8 МГц, это 44,1 кГц, увеличенная в 64 раза. Сейчас частота может быть разной, она определяется внутренней архитектурой самого ЦАП. Обычно она основана на частотных сетках, кратных 44,1 кГц и 48 кГц, с множителем 64, 128, 256, 512, 1024.

Со временем дельта-сигма-ЦАП практически полностью вытеснили мультибитные, просто по экономическим причинам. Во-первых, их требования к качеству и точности компонентов гораздо ниже, чем у мультибитных ЦАП, соответственно, и себестоимость ниже. Во-вторых, в восьмидесятые — девяностые годы стоимость реализации интерполяции и noise shaping для однобитного модулятора была существенно меньше, чем для 16 бит. Сейчас, с развитием технологий, это не так критично, и многие сигма-дельта-ЦАП имеют, подобно мультибитам, несколько уровней на выходе. Но за счет многократного увеличения частоты требования к компонентам остаются не очень высокими, поэтому первое преимущество сохраняется и по сей день.

Современные сигма-дельта-ЦАП имеют сложную структуру и включают в себя практически все технологии, перечисленные в предыдущей главе. Приведу пример внутренней структуры одного из простых сигма-дельта-ЦАП из лекций Вологдина.

Входные цифровые 16-разрядные выборки с частотой дискретизации 44,1 кГц подаются на вход цифрового фильтра передискретизации. В схеме используется нерекурсивный с четырехкратной передискретизацией FIR (finite impulse response) интерполяционный фильтр с линейной фазовой характеристикой. На первом этапе модуляции в результате переквантования число разрядов в выборках понижается с 16 до 14 и используется SDM 1-го порядка. Затем еще раз производится передискретизация c помощью двух ступеней (Kos = 32 и 2). Между этими ступенями в тракт вводится шумовой сигнал, осуществляющий операцию «Dithering» с уровнем шума, равным минус 20 дБ. Она уменьшает нелинейность передаточной функции из-за ошибок квантования. Общий коэффициент передискретизации равен 256, и частота дискретизации увеличивается до 11,29 МГц. Во второй ступени модуляции используется SDM 2-го порядка и формируется одноразрядный цифровой поток. К выходу ЦАП подключается время-импульсный цифровой модулятор, преобразующий цифровые данные в последовательность импульсов, модулированных по плотности (PDM).

Если обобщить и упростить, происходит примерно следующее. На вход ЦАП подается поток данных PCM через разъем I2S, подвергается интерполяции (oversampling), далее добавляется шум (dithering), и затем поток подается на реквантователь с обратной связью (noise shaping). В конце формируется однобитный поток, он проходит через аналоговый фильтр нижних частот, где уже и получается конечный звуковой сигнал, который мы слышим.

Многоразрядный ЦАП устроен сложнее: кроме перечисленного, в нем используется еще и технология DEM.

Если хочешь разобраться в деталях, почитай материалы по ссылкам, там есть информация не только о сигма-дельта-ЦАП, но и о сигма-дельта-АЦП.

Современные цифроаналоговые преобразователи — устройства сложные. Но применение этих технологий необходимо для искусственного расширения динамического диапазона, и по большому счету они используются, чтобы преодолеть ограничения форматов CDDA и MP3. Если бы записи изначально выпускали в высоком разрешении PCM (192 × 24), а лучше в формате DSD, то не пришлось бы применять так много технологий и сложных цифровых преобразований. В случае с DSD вмешательство в квантованный сигнал и вовсе не нужно, по крайней мере при воспроизведении.

Заключение

Путь развития звукозаписи и воспроизведения в цифровую эпоху был непростым и тернистым. С изобретением компакт-дисков всего за пару десятилетий звук на аналоговых носителях практически прекратил свое существование. Хорошо это или плохо — каждый решает для себя, но хотелось бы, чтобы оставалась сама возможность выбора. Если не между цифрой и аналогом, то хотя бы как и в каком качестве слушать любимую музыку. К сожалению, сейчас этого выбора почти нет. Сейчас мало кто выпускает музыку в высоком разрешении, кроме энтузиастов на трекерах. Винить в этом можно разве что студии звукозаписи, которые решили ограничиться единственным форматом — CDDA.

Остается только посочувствовать музыкантам! Сколько сил и времени они тратят на создание музыки, но их труд даже не сохраняется в достойном качестве. Выходом могла бы стать запись на мастер-ленту или хотя бы в DSD. Но звукозаписывающие студии не станут тратить лишние усилия, ведь их устраивает текущее положение вещей.

Дискретизация

Для того чтобы решить определенные задачи, человек вынужден преобразовывать имеющуюся информацию из одной формы, в которой она представлена, в другую. Например, при чтении книги вслух мы преобразовываем информацию из текстовой (дискретной) формы в звуковую (непрерывную). Тот, кто занимается транскрибацией, преобразовывает звуковую форму в текстовую — совершает обратный процесс.

Для того чтобы передавать, хранить, автоматически обрабатывать данные, гораздо удобнее использовать дискретную форму представления информации. В этом и состоит ее основное преимущество. Именно поэтому информатика — наука, на которой основана работа всей компьютерной техники, — много внимания уделяет дискретизации.

Дискретизация — процесс, с помощью которого непрерывная форма представления информации преобразуется в дискретную.иеие

Осторожно! Если преподаватель обнаружит плагиат в работе, не избежать крупных проблем (вплоть до отчисления). Если нет возможности написать самому, закажите тут.

В информатике под понятием дискретности подразумевают алгоритм решения задачи, разбивающий весь процесс на определенное количество простых шагов (этапов), выполняемых поочередно.

Другими словами, дискретность — это набор действий, имеющих строго определенную, предписанную им алгоритмом последовательность. Каждое следующее действие может быть исполнено только при полном завершении предыдущего этапа.

Формы представления дискретной информации

Итак, существуют две формы представления информации:

  • непрерывная;
  • дискретная.

Они принципиально отличаются в зависимости от своей природы.

Любой объект или явление, существующие в нашем мире, можно представить с помощью определенных физических величин и характеристик. Такое природное явление, как циклон, можно описать с помощью скорости ветра, температуры воздуха, количества выпавших осадков и другими характерными для циклона величинами.

Характерные физические величины для описания человека:

  • возраст;
  • вес;
  • рост;
  • температура тела;
  • кровяное давление и пр.

Все вышеуказанные физические величины имеют собственные определенные диапазоны. Количество значений, которые способна принимать та или иная величина, может быть бесконечным.

Подобные величины и ту информацию, которую они передают, принято называть непрерывными. Между значениями таких величин не бывает скачкообразных разрывов. Такая непрерывная величина, как масса тела, например, может принимать любые значения от нуля до бесконечности, включая дробные.

Кроме непрерывных величин, существуют и такие, которые обозначают целое, а не дробное количество: например, число музыкантов в оркестре или число атомов в молекуле вещества.

Если объект изучения обладает характерным свойством в какие-то моменты принимать строго конкретные значения (знаковые или числовые), то это свойство называют дискретной информацией об объекте.

Особенность дискретной информации — ее прерывистость, возможность пронумеровать и представить в цифровом виде с использованием логических нуля и единицы.

Дискретными значениями являются:

  • количество зданий в городе;
  • геометрические фигуры;
  • буквы алфавита.

Для того чтобы обладать наиболее полными сведениями об объекте или явлении, чаще всего их описывают с помощью двух форм представления информации одновременно.

Геометрическую фигуру можно описать с помощью ее дискретного значения (квадрат) и непрерывного значения длины его стороны (15,25 см).

При использовании пружинных весов или весов со стрелкой измеряемая величина (масса) является сама по себе непрерывной. Но весы переводят этот показатель в дискретную форму в зависимости от того, к какому делению шкалы ближе окажется бегунок пружинных весов или стрелка.

В этом случае, чем более мелкие деления на шкале, тем более точной будет дискретное представление информации о массе взвешиваемого предмета.

Дискретную информацию принято представлять в символьном виде, с использованием знаков — натуральных чисел или букв. С помощью натуральных чисел можно представить деления на шкале измерительного прибора, нумерацию страниц книги или домов на улице города.

Цифровой вариант представления информации очень удобен для использования в ЭВМ.

В повседневной жизни для представления информации помимо цифр используют слова, составленные из букв какого-либо алфавита (русского, латинского, китайского и пр.). С помощью слов обозначают имена и свойства объектов, перечисляют действия.

Также широкое применение получили различные математические символы, знаки препинания.

Использование совокупности всех имеющихся символов, условно именуемой «алфавитом», дает возможность создания различных информационных объектов.

  1. Из букв составляют слова, характеризующие свойства объектов.
  2. С помощью цифр можно передать информацию о числовых значениях величин.
  3. Одновременное использование букв, цифр и математических символов позволяет создавать формулы, указывать на соотношения между различными величинами.

Такой вид представления информации называется символьным, так как она имеет дискретную природу, заключенную в использовании последовательности различных символов.

Существует большое количество «алфавитов» или систем письменности, с помощью которых можно передать (записать, сохранить) одну и ту же информацию различными символическими наборами.

В качестве примера поставим в соответствие каждой букве алфавита ее порядковый номер. В этом случае с помощью цифр от 0 до 9 можно записать текст целой книги.

Более того, ту же самую информацию можно закодировать с помощью двоичного кода, используя всего 2 символа — 0 и 1.

К дискретным формам представления информации относят также ее графическое изображение в виде различных чертежей, графиков, схем.

Информационные параметры сигнала

Дискретизация в системах обработки информации выглядит как обмен информацией, который происходит с помощью сигналов. Носителями таких сигналов выступают физические величины, которые могут быть представлены распределением сигналов в пространстве и времени.

Показатели соответствующих временных функций являются информационными параметрами сигнала. Среди таких показателей могут быть:

  • цвет изображения;
  • координаты точки изображения;
  • длительность импульсов;
  • продолжительность распределения импульсов в пространстве;
  • частота;
  • амплитуда;
  • фаза сигнала.

Как происходит дискретизация, основные этапы

По аналогии с видом представления информации сигналы классифицируют также на 2 типа:

  • аналоговые (непрерывные);
  • дискретные.

В случае аналогового сигнала параметры внутри отдельных диапазонов могут принимать любые значения в любой момент времени.

В случае дискретного сигнала каждому установленному моменту времени соответствует определенное значение параметра. Дискретный сигнал описывает непрерывную информацию в виде точек графика, построенного в системе координат. В ней ось абсцисс представляет собой время сигнала в дискретном изображении, а ось ординат отражает дискретное представление уровня сигнала.

Преобразование аналогового сигнала в дискретный называется дискретизацией, которая происходит как по времени, так и по уровню сигнала.

Рассмотрим, как происходит дискретизация на примере самописцев атмосферного давления. Эти приборы работают на метеорологических станциях. Они в непрерывном режиме записывают изменение атмосферного давления на протяжении длительного времени в виде барограмм — кривых, вычерченных прибором в течение нескольких часов.

Одна из таких барограмм представлена ниже:

ur__3.jpg

Взяв график за основу, можно снять с него необходимую нам информацию. Например, показания самописца в начале измерения атмосферного давления и каждый последующий час. Полученные данные заносятся в таблицу:

ur__4.jpg

Таким образом, мы смогли преобразовать полученную в аналоговой (непрерывной) форме информацию в дискретный вид.

Если внимательно сравнить данные таблицы с данными графика, то можно заметить некоторую потерю точности. Так, самого большого значения давление достигло во время четвертого часа работы самописца, но в таблицу эта информация не попала.

Чтобы увеличить точность процесса дискретизации, следует брать меньшие временные интервалы. Например, снимать данные с барограммы не раз в час, а каждые полчаса или пятнадцать минут. В этом случае мы получим более точную картину изменения давления, представленную в дискретной форме.

Дискретные сигналы легче обрабатывать и хранить, чем аналоговые. Кроме того, на них практически не влияют помехи во время передачи на большие расстояния, что является их явным преимуществом. Поэтому использование дискретных сигналов получило более широкое распространение по сравнению с непрерывными.

Побочные эффекты дискретизации и квантования

Как мы уже выяснили, дискретизация происходит как по уровню (амплитуде) сигнала, так и по времени. При этом дискретизацию по уровню часто называют квантованием. В научной литературе могут встречаться оба термина, которые обозначают процесс оцифровки сигнала.

Поскольку все сигналы в природе имеют аналоговое происхождение, то для их хранения, обработки и передачи необходимо сначала оцифровывать сигналы — произвести с помощью аналого-цифровых приборов их дискретизацию и квантование по уровню.

После этого любой сигнал можно закодировать, провести его цифровую обработку, передать на расстоянии и хранить. При этом часто возникает необходимость преобразовать полученный цифровой сигнал обратно в аналоговый.

Подобным образом, например, происходит звуковое воспроизведение аудиозаписей с компакт-дисков. Цифровые сигналы, записанные в области высоких частот, преобразуются в низкочастотные звуковые.

Обратное преобразование сигнала происходит с определенной степенью точности, которая зависит от:

  • частоты дискретизации (чем выше частота, тем точнее воспроизведение сигнала);
  • числа уровней квантования для каждой выборки (чем больше уровень, тем точнее сигнал).

Следует учесть, что чем больше будет частота и число уровней, тем больше будет и цифровой информации, а значит, потребуется соответствующее количество ресурсов для ее передачи, хранения, обработки. Поэтому приходится соблюдать разумный компромисс между желаемой точностью воспроизведения сигнала и размерами обеспечивающих ее ресурсов.

Цифровое представление аналогового аудиосигнала. Краткий ликбез

Дорогие читатели, меня зовут Феликс Арутюнян. Я студент, профессиональный скрипач. В этой статье хочу поделиться с Вами отрывком из моей презентации, которую я представил в университете музыки и театра Граца по предмету прикладная акустика.

Рассмотрим теоретические аспекты преобразования аналогового (аудио) сигнала в цифровой.
Статья не будет всеохватывающей, но в тексте будут гиперссылки для дальнейшего изучения темы.

Чем отличается цифровой аудиосигнал от аналогового?

Аналоговый (или континуальный) сигнал описывается непрерывной функцией времени, т.е. имеет непрерывную линию с непрерывным множеством возможных значений (рис. 1).

Цифровой сигнал — это сигнал, который можно представить как последовательность определенных цифровых значений. В любой момент времени он может принимать только одно определенное конечное значение (рис. 2).

Аналоговый сигнал в динамическом диапазоне может принимать любые значения. Аналоговый сигнал преобразуется в цифровой с помощью двух процессов — дискретизация и квантование. Очередь процессов не важна.

Дискретизацией называется процесс регистрации (измерения) значения сигнала через определенные промежутки (обычно равные) времени (рис. 3).

Квантование — это процесс разбиения диапазона амплитуды сигнала на определенное количество уровней и округление значений, измеренных во время дискретизации, до ближайшего уровня (рис. 4).

Дискретизация разбивает сигнал по временной составляющей (по вертикали, рис. 5, слева).
Квантование приводит сигнал к заданным значениям, то есть округляет сигнал до ближайших к нему уровней (по горизонтали, рис. 5, справа).

Эти два процесса создают как бы координатную систему, которая позволяет описывать аудиосигнал определенным значением в любой момент времени.
Цифровым называется сигнал, к которому применены дискретизация и квантование. Оцифровка происходит в аналого-цифровом преобразователе (АЦП). Чем больше число уровней квантования и чем выше частота дискретизации, тем точнее цифровой сигнал соответствует аналоговому (рис. 6).

Уровни квантования нумеруются и каждому уровню присваивается двоичный код. (рис. 7)

Количество битов, которые присваиваются каждому уровню квантования называют разрядностью или глубиной квантования (eng. bit depth). Чем выше разрядность, тем больше уровней можно представить двоичным кодом (рис. 8).

Данная формула позволяет вычислить количество уровней квантования:

Если N — количество уровней квантования,
n — разрядность, то

Обычно используют разрядности в 8, 12, 16 и 24 бит. Несложно вычислить, что при n=24 количество уровней N = 16,777,216.

При n = 1 аудиосигнал превратится в азбуку Морзе: либо есть «стук», либо нету. Существует также разрядность 32 бит с плавающей запятой. Обычный компактный Аудио-CD имеет разрядность 16 бит. Чем ниже разрядность, тем больше округляются значения и тем больше ошибка квантования.

Ошибкой квантований называют отклонение квантованного сигнала от аналогового, т.е. разница между входным значением и квантованным значением ()

Большие ошибки квантования приводят к сильным искажениям аудиосигнала (шум квантования).

Чем выше разрядность, тем незначительнее ошибки квантования и тем лучше отношение сигнал/шум (Signal-to-noise ratio, SNR), и наоборот: при низкой разрядности вырастает шум (рис. 9).

Разрядность также определяет динамический диапазон сигнала, то есть соотношение максимального и минимального значений. С каждым битом динамический диапазон вырастает примерно на 6dB (Децибел) (6dB это в 2 раза; то есть координатная сетка становиться плотнее, возрастает градация).

Ошибки квантования (округления) из-за недостаточного количество уровней не могут быть исправлены.

50dB SNR
примечание: если аудиофайлы не воспроизводятся онлайн, пожалуйста, скачивайте их.

Теперь о дискретизации.

Как уже говорили ранее, это разбиение сигнала по вертикали и измерение величины значения через определенный промежуток времени. Этот промежуток называется периодом дискретизации или интервалом выборок. Частотой выборок, или частотой дискретизации (всеми известный sample rate) называется величина, обратная периоду дискретизации и измеряется в герцах. Если
T — период дискретизации,
F — частота дискретизации, то

Чтобы аналоговый сигнал можно было преобразовать обратно из цифрового сигнала (точно реконструировать непрерывную и плавную функцию из дискретных, «точечных» значении), нужно следовать теореме Котельникова (теорема Найквиста — Шеннона).

Теорема Котельникова гласит:

Вам знакомо число 44.1kHz? Это один из стандартов частоты дискретизации, и это число выбрали именно потому, что человеческое ухо слышит только сигналы до 20kHz. Число 44.1 более чем в два раза больше чем 20, поэтому все частоты в цифровом сигнале, доступные человеческому уху, могут быть преобразованы в аналоговом виде без искажении.

Но ведь 20*2=40, почему 44.1? Все дело в совместимости с стандартами PAL и NTSC. Но сегодня не будем рассматривать этот момент. Что будет, если не следовать теореме Котельникова?

Когда в аудиосигнале встречается частота, которая выше чем 1/2 частоты дискретизации, тогда возникает алиасинг — эффект, приводящий к наложению, неразличимости различных непрерывных сигналов при их дискретизации.

Как видно из предыдущей картинки, точки дискретизации расположены так далеко друг от друга, что при интерполировании (т.е. преобразовании дискретных точек обратно в аналоговый сигнал) по ошибке восстанавливается совершенно другая частота.

Аудиопример 4: Линейно возрастающая частота от

100 до 8000Hz. Частота дискретизации — 16000Hz. Нет алиасинга.

Аудиопример 5: Тот же файл. Частота дискретизации — 8000Hz. Присутствует алиасинг

Пример:
Имеется аудиоматериал, где пиковая частота — 2500Hz. Значит, частоту дискретизации нужно выбрать как минимум 5000Hz.

Следующая характеристика цифрового аудио это битрейт. Битрейт (bitrate) — это объем данных, передаваемых в единицу времени. Битрейт обычно измеряют в битах в секунду (Bit/s или bps). Битрейт может быть переменным, постоянным или усреднённым.

Следующая формула позволяет вычислить битрейт (действительна только для несжатых потоков данных):

Битрейт = Частота дискретизации * Разрядность * Количество каналов

Например, битрейт Audio-CD можно рассчитать так:
44100 (частота дискретизации) * 16 (разрядность) * 2 (количество каналов, stereo)= 1411200 bps = 1411.2 kbit/s

При постоянном битрейте (constant bitrate, CBR) передача объема потока данных в единицу времени не изменяется на протяжении всей передачи. Главное преимущество — возможность довольно точно предсказать размер конечного файла. Из минусов — не оптимальное соотношение размер/качество, так как «плотность» аудиоматериала в течении музыкального произведения динамично изменяется.

При кодировании переменным битрейтом (VBR), кодек выбирает битрейт исходя из задаваемого желаемого качества. Как видно из названия, битрейт варьируется в течение кодируемого аудиофайла. Данный метод даёт наилучшее соотношение качество/размер выходного файла. Из минусов: точный размер конечного файла очень плохо предсказуем.

Усреднённый битрейт (ABR) является частным случаем VBR и занимает промежуточное место между постоянным и переменным битрейтом. Конкретный битрейт задаётся пользователем. Программа все же варьирует его в определенном диапазоне, но не выходит за заданную среднюю величину.

При заданном битрейте качество VBR обычно выше чем ABR. Качество ABR в свою очередь выше чем CBR: VBR > ABR > CBR.

ABR подходит для пользователей, которым нужны преимущества кодирования VBR, но с относительно предсказуемым размером файла. Для ABR обычно требуется кодирование в 2 прохода, так как на первом проходе кодек не знает какие части аудиоматериала должны кодироваться с максимальным битрейтом.

Существуют 3 метода хранения цифрового аудиоматериала:

  • Несжатые («сырые») данные
  • Данные, сжатые без потерь
  • Данные, сжатые с потерями
Несжатый (RAW) формат данных

содержит просто последовательность бинарных значений.
Именно в таком формате хранится аудиоматериал в Аудио-CD. Несжатый аудиофайл можно открыть, например, в программе Audacity. Они имеют расширение .raw, .pcm, .sam, или же вообще не имеют расширения. RAW не содержит заголовка файла (метаданных).

Другой формат хранения несжатого аудиопотока это WAV. В отличие от RAW, WAV содержит заголовок файла.

Аудиоформаты с сжатием без потерь

Принцип сжатия схож с архиваторами (Winrar, Winzip и т.д.). Данные могут быть сжаты и снова распакованы любое количество раз без потери информации.

Как доказать, что при сжатии без потерь, информация действительно остаётся не тронутой? Это можно доказать методом деструктивной интерференции. Берем две аудиодорожки. В первой дорожке импортируем оригинальный, несжатый wav файл. Во второй дорожке импортируем тот же аудиофайл, сжатый без потерь. Инвертируем фазу одного из дорожек (зеркальное отображение). При проигрывании одновременно обеих дорожек выходной сигнал будет тишиной.

Это доказывает, что оба файла содержат абсолютно идентичные информации (рис. 11).

Кодеки сжатия без потерь: flac, WavPack, Monkey’s Audio…

При сжатии с потерями

акцент делается не на избежание потерь информации, а на спекуляцию с субъективными восприятиями (Психоакустика). Например, ухо взрослого человек обычно не воспринимает частоты выше 16kHz. Используя этот факт, кодек сжатия с потерями может просто жестко срезать все частоты выше 16kHz, так как «все равно никто не услышит разницу».

Другой пример — эффект маскировки. Слабые амплитуды, которые перекрываются сильными амплитудами, могут быть воспроизведены с меньшим качеством. При громких низких частотах тихие средние частоты не улавливаются ухом. Например, если присутствует звук в 1kHz с уровнем громкости в 80dB, то 2kHz-звук с громкостью 40dB больше не слышим.

Дискретизация

Дискретизация – переход от непрерывного сигнала к близкому (в определенном смысле) дискретному сигналу, описываемому разрывной функцией времени. Пример дискретного сигнала – последовательность коротких импульсов с изменяющейся амплитудой (последняя выступает в данном случае в качестве информативного параметра).

Обработка и передача дискретной информации имеет ряд преимуществ по сравнению с информацией, заданной в непрерывном виде. Дискретные сигналы в меньшей степени подвержены искажениям в процессе передачи и хранения, они легко преобразуются в двоичный цифровой код и обрабатываются с помощью цифровых вычислительных устройств.

Процесс дискретизации состоит обычно из двух этапов: дискретизации по времени и дискретизации (квантования) по уровню.

Дискретизация аналогового сигнала по времени – процесс формирования выборки аналогового сигнала в моменты времени, кратные периоду дискретизирующей последовательности ∆t.

Дискретизирующая последовательность – периодическая последовательность отсчетов времени, задающая сетку дискретного времени.

Период дискретизации ∆t – интервал времени между двумя последовательными отсчетами аналогового сигнала (шаг дискретизации по времени).

При выборе частоты дискретизации по времени можно воспользоваться теоремой В.А. Котельникова.

Теорема отсчетов (теорема Котельникова) – теорема, определяющая выбор периода дискретизации ∆t аналогового сигнала в соответствии с его спектральной характеристикой.

Согласно теореме, всякий непрерывный сигнал, имеющий ограниченный частотный спектр, полностью определяется своими дискретными значениями в моменты отсчета, отстоящие друг от друга на интервалы времени ∆t = l/(2Fmax), где Fmax – максимальная частота в спектре сигнала. Иначе, дискретизация по времени не связана с потерей информации, если частота дискретизации f дискр = 1/∆t в два раза выше указанной верхней частоты сигнала Fmax.

Согласно теореме Котельникова, нет необходимости передавать бесконечное множество всех значений непрерывного сигнала x(t), достаточно передавать лишь те его значения (рис. 3.52), которые отстоят друг от друга на расстоянии ∆t = l/(2Fmax). Для восстановления сигнала x(t) на вход идеального фильтра низких частот, имеющего полосу пропускания частот от 0 до Fmsx, необходимо подать последовательность узких импульсов с амплитудой, соответствующей дискретным отсчетам сигнала x(ti) в моменты времени ti = it.

Рис. 3.52. Дискретные отсчеты сигнала

Поскольку теорема отсчетов (теорема Котельникова) сформулирована для сигнала с ограниченным спектром, а реальные сигналы имеют неограниченную спектральную плотность, то при расчетах ∆t =1/(2Fmax) используют приближенное значение Fmax (например, активную ширину спектра, определенную по амплитудному критерию, по критерию 90%-ного содержания энергии или средней мощности сигнала). Кроме того, и идеальный фильтр низких частот, необходимый для восстановления сигнала в соответствии с теоремой, является физически нереализуемым, так как предъявляемые к нему требования (идеально прямоугольная форма амплитудно-частотной характеристики, отсутствие фазового сдвига в рассматриваемой полосе частот от 0 до Fmax) оказываются противоречивыми и могут выполняться лишь с определенной погрешностью. Учитывая сказанное, частоту дискретизации по времени обычно принимают в 1,5–2,5 раза больше значения, рассчитанного по теореме Котельникова.

Существуют и другие способы выбора частоты дискретизации сигнала (с учетом времени корреляции передаваемого сообщения, значения наибольшего или среднеквадратичного отклонения процесса). Так, в соответствии с критерием Н.А. Железнова, который выполняется для случайных сигналов, имеющих конечную длительность Тс и неограниченный частотный спектр, рекомендуется принимать шаг дискретизации ∆t, равный максимальному интервалу корреляции сигнала φ0. Предполагается, что параметр φ0, характеризует такой промежуток времени, в пределах которого отдельные значения случайного процесса можно считать статистически зависимыми (коррелированными), причем φ0Тс. Таким образом, исходный непрерывный сигнал заменяется совокупностью N=Тс/φ0 некоррелированных отсчетов (импульсов), следующих с частотой fдискр=1/∆t= φ0. При этом восстановление сигнала x(t) осуществляется с помощью линейного прогнозирующего фильтра со среднеквадратической ошибкой, сколь угодно мало отличающейся от нуля в промежутке времени, равном интервалу корреляции φ0.

Более полно учитывая свойства реальных сигналов (конечная длительность, неограниченность спектра), критерий Железнова тем не менее исходит из допущения о равенстве нулю корреляционной функции сигнала Кх(φ) вне интервала [-φ0; φ0], что на практике выполняется с определенной погрешностью.

В тех случаях, когда имеется более подробная информация о законе изменения сигнала, выбор частоты дискретизации можно осуществлять исходя из допустимой погрешности аппроксимации функции x(t) на каждом из интервалов дискретизации. На рис. 3.53 дан пример кусочно-линейной аппроксимации, когда соседние отсчеты функции x(t), взятые в дискретные моменты времени ti и ti+1, соединяются отрезками прямых.

Рис. 3.53. Кусочно-линейная аппроксимация

Рассмотренные способы равномерной дискретизации (при ∆t=const) иногда могут приводить к получению избыточных отсчетов, не оказывающих существенного влияния на процесс восстановления исходного сообщения. Например, если функция x(t) мало изменяется на некотором, достаточно протяженном интервале времени То, то соответствующие дискретные отсчеты сигнала практически не отличаются друг от друга и, следовательно, нет необходимости использовать все указанные отсчеты для хранения или передачи информации по линии связи. Сокращение избыточной информации возможно на основе способов адаптивной (неравномерной) дискретизации, обеспечивающих выбор интервала ∆t между соседними отсчетами с учетом фактического изменения характеристик сигнала (в частности скорости его изменения).

Дискретизация сигнала по уровню – процесс отображения бесконечного множества значений аналогового сигнала на некоторое конечное множество (определяемое числом уровней квантования).

Отличительной особенностью дискретизации по уровню является замена непрерывной шкалы уровней сигнала x(t) дискретной шкалой хi (i = 1, 2, . m), в которой различные значения сигнала отличаются между собой не менее чем на некоторое фиксированное (или выбираемое в процессе квантования) значение ∆t, называемое шагом квантования.

Шаг квантования – величина, равная интервалу между двумя соседними уровнями кванто-вания (определена только для случая равномерного квантования).

Необходимость квантования вызвана тем, что цифровые вычислительные устройства могут оперировать только с числами, имеющими конечное число разрядов. Таким образом, квантование представляет собой округление передаваемых значений с заданной точностью. При равномерном квантовании (∆x=const) число разрешенных дискретных уровней х составляет

m = (xmax – xmin)/∆x,

где xmax и xmin – соответственно верхняя и нижняя границы диапазона изменения сигнала.

Ошибка квантования – величина, определяемая как ξ(х) = ххдi, где х – кодируемая дискретная величина, хдi– дискретизированный сигнал.

Шум квантования – случайная функция времени, определяемая как зависимость ошибки квантования от времени.

Чем меньше значение ∆х, тем меньше получаемая ошибка. Если в результате квантования любое из значений сигнала x(t), попавшее в интервал (хдi — ∆х/2; хдi + хдi х/2), округляется до хд, то возникающая при этом ошибка ξ(х) не превышает половины шага квантования, т.е. mах|ξ(х)|=0,5∆х. На практике шаг квантования ∆х выбирают исходя из уровня помех, в той или иной форме присутствующих при измерении, передаче и обработке реальных сигналов.

Если функция x(t) заранее неизвестна, а шаг квантования ∆х достаточно мал по сравнению с диапазоном изменения сигнала (хmax – хmin), то принято считать ошибку квантования ξ(х) случайной величиной, подчиняющейся равномерному закону распределения. Тогда, как показано на рис. 3.54, плотность вероятности f1(ξ) для случайной величины ξ, принимает значение 1/(∆х) внутри интервала (-∆х/2; +∆х/2) и равна нулю вне этого интервала.

Рис. 3.54. Равномерный закон распределения ошибки квантования

При ∆x=const относительная погрешность квантования ∆х=ξ(х)/х существенно зависит от текущего значения сигнала x(t). В связи с этим при необходимости обработки и передачи сигналов, изменяющихся в широком диапазоне, нередко используется неравномерное (нелинейное) квантование, когда шаг ∆х принимается малым для сигналов низкого уровня и увеличивается с ростом соответствующих значений сигнала (например ∆х выбирают пропорционально логарифму значения |x(t)|). Выбор шага ∆хi =хдi – хдi-1 осуществляется еще и с учетом плотности распределения случайного сигнала (для более вероятных значений сигнала шаг квантования выбирают меньшим, для менее вероятных – большим). Таким образом удается обеспечить высокую точность преобразования при ограниченном (не слишком большом) числе разрешенных дискретных уровней сигнала x(t).

Процесс преобразования дискретного сигнала в цифровой называют кодированием информации, а множество различных кодовых комбинаций, получаемых при данном правиле кодирования, – кодом. Важной характеристикой кода является основание (или значность) кода, т.е. число возможных значений, которые могут принимать элементы кодовой комбинации. Пусть требуется передать сигнал, уровень которого изменяется от 0 до 10 В. Если шаг квантования данных составляет 10 мВ, то каждый отсчет сигнала можно рассматривать как одно из 1000 возможных сообщений. Для передачи этой информации можно предложить различные способы:

– каждому сообщению поставить в соответствие определенный уровень напряжения, при этом основание кода m = 1000, а длина кодовой комбинации (слова) принимает минимальное значение n=1;

– можно воспользоваться двоичным (бинарным) представлением амплитуды сигнала с m = 2, но тогда потребуется комбинация длины n = 10 (210=1024, так что некоторые комбинации здесь не использованы).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *