Отличия аналогового звука от цифрового
Очень часто мы слышим такие определения, как «цифровой» или «дискретный» сигнал, в чем его отличие от «аналогового»?
Суть различия в том, что аналоговый сигнал непрерывный во времени (голубая линия), в то время как цифровой сигнал состоит из ограниченного набора координат (красные точки). Если все сводить к координатам, то любой отрезок аналогового сигнала состоит из бесконечного количества координат.
У цифрового сигнала координаты по горизонтальной оси расположены через равные промежутки времени, в соответствии с частотой дискретизации. В распространенном формате Audio-CD это 44100 точек в секунду. По вертикали точность высоты координаты соответствует разрядности цифрового сигнала, для 8 бит это 256 уровней, для 16 бит = 65536 и для 24 бит = 16777216 уровней. Чем выше разрядность (количество уровней), тем ближе координаты по вертикали к исходной волне.
Аналоговыми источниками являются: винил и аудиокассеты. Цифровыми источниками являются: CD-Audio, DVD-Audio, SA-CD (DSD) и файлы в WAVE и DSD форматах (включая производные APE, Flac, Mp3, Ogg и т.п.).
Преимущества и недостатки аналогового сигнала
Преимуществом аналогового сигнала является то, что именно в аналоговом виде мы воспринимаем звук своими ушами. И хотя наша слуховая система переводит воспринимаемый звуковой поток в цифровой вид и передает в таком виде в мозг, наука и техника пока не дошла до возможности именно в таком виде подключать плееры и другие источники звука напрямик. Подобные исследования сейчас активно ведутся для людей с ограниченными возможностями, а мы наслаждаемся исключительно аналоговым звуком.
Недостатком аналогового сигнала являются возможности по хранению, передаче и тиражированию сигнала. При записи на магнитную ленту или винил, качество сигнала будет зависеть от свойств ленты или винила. Со временем лента размагничивается и качество записанного сигнала ухудшается. Каждое считывание постепенно разрушает носитель, а перезапись вносит дополнительные искажения, где дополнительные отклонения добавляет следующий носитель (лента или винил), устройства считывания, записи и передачи сигнала.
Делать копию аналогового сигнала, это все равно, что для копирования фотографии ее еще раз сфотографировать.
Преимущества и недостатки цифрового сигнала
К преимуществам цифрового сигнала относится точность при копировании и передачи звукового потока, где оригинал ничем не отличается от копии.
Основным недостатком можно считать то, что сигнал в цифровом виде является промежуточной стадией и точность конечного аналогового сигнала будет зависеть от того, насколько подробно и точно будет описана координатами звуковая волна. Вполне логично, что чем больше будет точек и чем точнее будут координаты, тем более точной будет волна. Но до сих пор нет единого мнения, какое количество координат и точность данных является достаточным для того, что бы сказать, что цифровое представление сигнала достаточно для точного восстановления аналогового сигнала, неотличимого от оригинала нашими ушами.
Если оперировать объемами данных, то вместимость обычной аналоговой аудиокассеты составляет всего около 700-1,1 Мб, в то время как обычный компакт диск вмещает 700 Мб. Это дает представление о необходимости носителей большой емкости. И это рождает отдельную войну компромиссов с разными требованиями по количеству описывающих точек и по точности координат.
На сегодняшний день считается вполне достаточным представление звуковой волны с частотой дискретизации 44,1 кГц и разрядности 16 бит. При частоте дискретизации 44,1 кГц можно восстановить сигнал с частотой до 22 кГц. Как показывают психоакустические исследования, дальнейшее повышение частоты дискретизации мало заметно, а вот повышение разрядности дает субъективное улучшение.
Как ЦАП строят волну
ЦАП – это цифро-аналоговый преобразователь, элемент, переводящий цифровой звук в аналоговый. Мы рассмотрим поверхностно основные принципы. Если по комментариям будет виден интерес более подробно рассмотреть ряд моментов, то будет выпущен отдельный материал.
Мультибитные ЦАП
Очень часто волну представляют в виде ступенек, что обусловлено архитектурой первого поколения мультибитных ЦАП R-2R, работающих аналогично переключателю из реле.
На вход ЦАП поступает значение очередной координаты по вертикали и в каждый свой такт он переключает уровень тока (напряжения) на соответствующий уровень до следующего изменения.
Хотя считается, что ухо человека слышит не выше 20 кГц, и по теории Найквиста можно восстановить сигнал до 22 кГц, остается вопрос качества этого сигнала после восстановления. В области высоких частот форма полученной «ступенчатой» волны обычно далека от оригинальной. Самый простой выход из ситуации – это увеличивать частоту дискретизации при записи, но это приводит к существенному и нежелательному росту объема файла.
Альтернативный вариант – искусственно увеличить частоту дискретизации при воспроизведении в ЦАП, добавляя промежуточные значения. Т.е. мы представляем путь непрерывной волны (серая пунктирная линия), плавно соединяющий исходные координаты (красные точки) и добавляем промежуточные точки на этой линии (темно фиолетовые).
При увеличении частоты дискретизации обычно необходимо повышать и разрядность, чтобы координаты были ближе к аппроксимированной волне.
Благодаря промежуточным координатам удается уменьшить «ступеньки» и построить волну ближе к оригиналу.
Когда вы видите функцию повышения частоты с 44.1 до 192 кГц в плеере или внешнем ЦАП, то это функция добавления промежуточных координат, а не восстановления или создание звука в области выше 20 кГц.
Изначально это были отдельные SRC микросхемы до ЦАП, которые потом перекочевали непосредственно в сами микросхемы ЦАП. Сегодня можно встретить решения, где к современным ЦАП добавляется такая микросхема, это сделано для того, чтобы обеспечить альтернативу встроенным алгоритмам в ЦАП и порой получить еще более лучший звук (как например это сделано в Hidizs AP100).
Основной отказ в индустрии от мультибитных ЦАП произошел из-за невозможности дальнейшего технологического развития качественных показателей при текущих технологиях производства и более высокой стоимости против «импульсных» ЦАП-ов с сопоставимыми характеристиками. Тем не менее, в Hi-End продуктах предпочтение отдают зачастую старым мультибитным ЦАП-ам, нежели новым решениям с технически более хорошими характеристиками.
Импульсные ЦАП
В конце 70-тых широкое распространение получил альтернативный вариант ЦАП-ов, основанный на «импульсной» архитектуре – «дельта-сигма». Технология импульсных ЦАП-ов стала возможной появлению сверх-быстрых ключей и позволила использовать высокую несущую частоту.
Амплитуда сигнала является средним значением амплитуд импульсов (зеленым показаны импульсы равной амплитуды, а белым итоговая звуковая волна).
Например последовательность в восемь тактов пяти импульсов даст усредненную амплитуду (1+1+1+0+0+1+1+0)/8=0,625. Чем выше несущая частота, тем больше импульсов попадает под сглаживание и получается более точное значение амплитуды. Это позволило представить звуковой поток в однобитном виде с широким динамическим диапазоном.
Усреднение возможно делать обычным аналоговым фильтром и если такой набор импульсов подать напрямую на динамик, то на выходе мы получим звук, а ультра высокие частоты не будут воспроизведены из-за большой инертности излучателя. По этому принципу работают ШИМ усилители в классе D, где плотность энергии импульсов создается не их количеством, а длительностью каждого импульса (что проще в реализации, но невозможно описать простым двоичным кодом).
Мультибитный ЦАП можно представить как принтер, способный наносить цвет пантоновыми красками. Дельта-Сигма – это струйный принтер с ограниченным набором цветов, но благодаря возможности нанесению очень мелких точек (в сравнении с пантовым принтером), за счет разной плотности точек на единицу поверхности дает больше оттенков.
На изображении мы обычно не видим отдельных точек из-за низкой разрешающей способности глаза, а только средний тон. Аналогично и ухо не слышит импульсов по отдельности.
В конечном итоге при текущих технологиях в импульсных ЦАП можно получить волну, близкую к той, что теоретически должна получится при аппроксимации промежуточных координат.
Надо отметить, что после появления дельта-сигма ЦАП исчезла актуальность рисовать «цифровую волну» ступеньками, т.к. так ступеньками волну современные ЦАП не строят. Правильно дискретный сигнал строить точками соединенной плавной линией.
Являются ли идеальными импульсные ЦАП?
Но на практике не все безоблачно, и существует ряд проблем и ограничений.
Т.к. подавляющее количество записей сохранено в многоразрядном сигнале, то перевод в импульсный сигнал по принципу «бит в бит» требует излишне высокую несущую частоту, которую современные ЦАП не поддерживают.
Основной функцией современных импульсных ЦАП является перевод многоразрядного сигнала в однобитный с относительно невысокой несущей частотой с прореживанием данных. В основном именно эти алгоритмы и определяют конечное качество звучания импульсных ЦАП-ов.
Чтобы уменьшить проблему высокой несущей частоты, звуковой поток разбивается на несколько однобитных потоков, где каждый поток отвечает за свою группу разряда, что эквивалентно кратному увеличению несущей частоты от числа потоков. Такие ЦАП называются мультибитными дельта-сигма.
Сегодня импульсные ЦАП-ы получили второе дыхание в быстродействующих микросхемах общего назначения в продуктах компаний NAD и Chord за счет возможности гибко программировать алгоритмы преобразования.
Формат DSD
После широкого распространения дельта-сигма ЦАП-ов вполне логичным было и появления формата записи двоичного кода напрямую дельта-сигма кодировке. Этот формат получил название DSD (Direct Stream Digital).
Широкого распространения формат не получил по нескольким причинам. Редактирование файлов в этом формате оказалось излишне ограниченным: нельзя микшировать потоки, регулировать громкость и применять эквализацию. А это значит, что без потери качества можно лишь архивировать аналоговые записи и производить двухмикрофонную запись живых выступлений без последующей обработки. Одним словом – денег толком не заработать.
В борьбе с пиратством диски формата SA-CD не поддерживались (и не поддерживаются до сих пор) компьютерами, что не позволяет делать их копии. Нет копий – нет широкой аудитории. Воспроизвести DSD аудиоконтент можно было только с отдельного SA-CD проигрывателя с фирменного диска. Если для PCM формата есть стандарт SPDIF для цифровой передачи данных от источника к отдельному ЦАП, то для DSD формата стандарта нет и первые пиратские копии SA-CD дисков были оцифровками с аналоговых выходов SA-CD проигрывателей (хоть ситуация и кажется глупой, но на деле некоторые записи выходили только на SA-CD, либо та же запись на Audio-CD специально была сделана некачественно для продвижения SA-CD).
Переломный момент произошел с выходом игровых приставок SONY, где SA-CD диск до воспроизведения автоматически копировался на жесткий диск приставки. Этим воспользовались поклонники формата DSD. Появление пиратских записей простимулировало рынок на выпуск отдельных ЦАП для воспроизведения DSD потока. Большинство внешних ЦАП с поддержкой DSD на сегодняшний день поддерживает передачу данных по USB используя формат DoP в виде отдельного кодирования цифрового сигнала через SPDIF.
Несущие частоты для DSD сравнительно небольшие, 2.8 и 5.6 МГц, но этот звуковой поток не требует никаких преобразований с прореживанием данных и вполне конкурентно-способен с форматами высокого разрешения, такими как DVD-Audio.
На вопрос что лучше, DSP или PCM однозначного ответа нет. Все упирается в качество реализации конкретного ЦАП и таланта звукорежиссера при записи конечного файла.
Общий вывод
Аналоговый звук – это то, что мы слышим и воспринимаем, как окружающий мир глазами. Цифровой звук, это набор координат, описывающих звуковую волну, и который мы напрямую услышать не можем без преобразования в аналоговый сигнал.
Аналоговый сигнал, записанный напрямую на аудиокассету или винил нельзя без потери качества перезаписать, в то время как волну в цифровом представлении можно копировать бит в бит.
Цифровые форматы записи являются постоянным компромиссом между количеством точностью координат против объема файла и любой цифровой сигнал является лишь приближением к исходному аналоговому сигналу. Однако при этом разный уровень технологий записи и воспроизведения цифрового сигнала и хранения на носителях для аналогового сигнала дают больше преимуществ цифровому представлению сигнала, аналогично цифровой фотокамере против пленочного фотоаппарата.
Кодирование звуковой информации
Звук представляет собой непрерывный сигнал, а именно звуковую волну с меняющейся амплитудой и частотой. Чем выше амплитуда сигнала, тем он громче воспринимается человеком. Чем больше частота сигнала, тем выше его тон.
Рисунок 1. Амплитуда колебаний звуковых волн
Частота звуковой волны определяется количеством колебаний в одну секунду. Данная величина измеряется в герцах (Гц, Hz).
Ухо человека воспринимает звуки в диапазоне от $20$ Гц до $20$ кГц, данный диапазон называют звуковым. Количество бит, которое при этом отводится на один звуковой сигнал, называют глубиной кодирования звука. В современных звуковых картах обеспечивается $16-$, $32-$ или $64-$битная глубина кодирования звука. В процессе кодирования звуковой информации непрерывный сигнал заменяется дискретным, то есть преобразуется в последовательность электрических импульсов, состоящих из двоичных нулей и единиц.
Частота дискретизации звука
Одной из важных характеристик процесса кодирования звука является частота дискретизации, которая представляет собой количество измерений уровня сигнала за $1$ секунду:
- одно измерение в одну секунду соответствует частоте $1$ гигагерц (ГГц);
- $1000$ измерений в одну секунду соответствует частоте $1$ килогерц (кГц) .
Частота дискретизации звука — это количество измерений громкости звука за одну секунду.
Количество измерений может находиться в диапазоне от $8$ кГц до $48$ кГц, причем первая величина соответствует частоте радиотрансляции, а вторая — качеству звучания музыкальных носителей.
Чем выше частота и глубина дискретизации звука, тем более качественно будет звучать оцифрованный звук. Самое низкое качество оцифрованного звука, которое соответствует качеству телефонной связи, получается, когда частота дискретизации равна 8000 раз в секунду, глубина дискретизации $8$ битов, что соответствует записи одной звуковой дорожки (режим «моно»). Самое высокое качество оцифрованного звука, которое соответствует качеству аудио-CD, достигается, когда частота дискретизации равна $48000$ раз в секунду, глубина дискретизации $16$ битов, что соответствует записи двух звуковых дорожек (режим «стерео»).
Готовые работы на аналогичную тему
Информационный объем звукового файла
Следует отметить, что чем выше качество цифрового звука, тем больше информационный объем звукового файла.
Оценим информационный объём моноаудиофайла ($V$), это можно сделать, используя формулу:
$V = N \cdot f \cdot k$,
где $N$ — общая длительность звучания, выражаемая в секундах,
$f$ — частота дискретизации (Гц),
$k$ — глубина кодирования (бит).
Например, если длительность звучания равна $1$ минуте и имеем среднее качество звука, при котором частота дискретизации $24$ кГц, а глубина кодирования $16$ бит, то:
$V=60 \cdot 24000 \cdot 16 \ бит=23040000 \ бит=2880000 \ байт = 2812,5 \ Кбайт=2,75 \ Мбайт.$
При кодировании стереозвука процесс дискретизации производится отдельно и независимо для левого и правого каналов, что, соответственно, увеличивает объём звукового файла в два раза по сравнению с монозвуком.
Например, оценим информационный объём цифрового стереозвукового файла, у котрого длительность звучания равна $1$ секунде при среднем качестве звука ($16$ битов, $24000$ измерений в секунду). Для этого глубину кодирования умножим на количество измерений в $1$ секунду и умножить на $2$ (стереозвук):
$V=16 \ бит \cdot 24000 \cdot 2 = 768000 \ бит = 96000 \ байт = 93,75 \ Кбайт.$
Основные методы кодирования звуковой информации
Существуют различные методы кодирования звуковой информации двоичным кодом, среди которых выделяют два основных направления: метод FM и метод Wave-Table.
Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых будет представлять собой правильную синусоиду, а это значит, что его можно описать кодом. Процесс разложения звуковых сигналов в гармонические ряды и их представление в виде дискретных цифровых сигналов происходит в специальных устройствах, которые называют «аналогово-цифровые преобразователи» (АЦП).
Рисунок 2. Преобразование звукового сигнала в дискретный сигнал
На рисунке 2а изображен звуковой сигнал на входе АЦП, а на рисунке 2б изображен уже преобразованный дискретный сигнал на выходе АЦП.
Для обратного преобразования при воспроизведении звука, который представлен в виде числового кода, используют цифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука изображен на рис. 3. Данный метод кодирования не даёт хорошего качества звучания, но обеспечивает компактный код.
Рисунок 3. Преобразование дискретного сигнала в звуковой сигнал
На рисунке 3а представлен дискретный сигнал, который мы имеем на входе ЦАП, а на рисунке 3б представлен звуковой сигнал на выходе ЦАП.
Таблично-волновой метод (Wave-Table) основан на том, что в заранее подготовленных таблицах хранятся образцы звуков окружающего мира, музыкальных инструментов и т. д. Числовые коды выражают высоту тона, продолжительность и интенсивность звука и прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются «реальные» звуки, качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.
Примеры форматов звуковых файлов
Звуковые файлы имеют несколько форматов. Наиболее популярные из них MIDI, WAV, МРЗ.
Формат MIDI (Musical Instrument Digital Interface) изначально был предназначен для управления музыкальными инструментами. В настоящее время используется в области электронных музыкальных инструментов и компьютерных модулей синтеза.
Формат аудиофайла WAV (waveform) представляет произвольный звук в виде цифрового представления исходного звукового колебания или звуковой волны. Все стандартные звуки Windows имеют расширение WAV.
Формат МРЗ (MPEG-1 Audio Layer 3) — один из цифровых форматов хранения звуковой информации. Он обеспечивает более высокое качество кодирования.
Кодирование звуковой информации
Звук являет собой волну, имеющую изменяющуюся со временем частоту и амплитуду колебаний. Иными словами, это непрерывный сигнал. Чем тише звук, который слышит человеческое ухо, тем ниже его амплитуда, а чем ниже его тон, тем меньше частота звукового сигнала.
Чтобы обозначить частоту колебаний, используют единицу измерения частоты — герц, сокращенно Гц или Hz. ГЦ обозначает количество колебаний звуковой волны в секунду.
На сегодняшний день для производства звуковых карт используется глубина кодирования звуковой волны величиной 64, 32 и 16 бит. Для удобства использования непрерывность звукового колебания при кодировании заменяют на последовательные отдельные сигналы, являющие собой последовательный ряд электрических импульсов, записанных с помощью нулей и единиц системы двоичного исчисления.
Не нашли что искали?
Просто напиши и мы поможем
Частота дискретизации звуковой волны
Это один из важнейших параметров, применяемых в процессе кодирования звуковых колебаний. Проще говоря, частотой дискретизации звуковой волны есть число замеров громкости звука в секунду. Так вот, например, 1 замер за 1 секунду равен частоте 1 ГГЦ (гигагерц), 1000 замеров за 1 секунду — 1 кГц (килогерц).
Так же на качество влияет глубина дискретизации, и чем она меньше, тем качество звука хуже. Примером самого низкого качества звука может быть передача радиоволны или звук во время телефонного разговора, при этом глубина дискретизации равна 8 бит, а ее частота — 8000 Гц за секунду, что представляет собой режим моно, то есть запись одной аудио дорожи. Примером самого высокого качества оцифрованной звуковой волны является аудио запись на звуковых музыкальных носителях, например, СD-дисках, с глубиной дискретизации 16 бит и ее частотой 48000 Гц в секунду, что представляет собой режим стерео, то есть запись двух аудио дорожек.
Объем звуковой информации
Чем больше по объему аудио файл, тем лучше будет качество его воспроизведения. Объем более качественного файла всегда меньше объема файла с низким качеством, при равной их продолжительности.
Для расчета объема информации, занимаемого аудио файлом с одной звуковой дорожкой, используют нижеприведенную формулу:
где \(N \) — общее время звучания аудио файла, сек,
\(f\) — частота дискретизации аудио файла, Гц,
\(k\) — глубина кодирования аудио файла, бит.
Рассмотрим пример, когда время звучания аудио файла 5 минут с высоким качеством воспроизведения с частотой дискретизации 48000 Гц и глубиной кодирования 64 бит, то объем такого файла будет составлять:
\(V = 5 * 60 * 48000 * 64 = 921600000 бит,\)
что составляет 115200000 байт, или 115200 Кбайт, или 115,2 Мбайт.
Для стереозвука расчет объема производится по той же формуле, лишь только с той разницей, что нужно еще умножить на два, так как файл со стереозвуком обычно занимает в два раза больше места из-за того, что процесс дискретизации во время кодирования стереозвука проводится для каждой дорожки отдельно.
Самые распространенные методы аудио кодирования
Аудио информация кодируется обычно с применением методов двоичного кода, из них самыми популярными являются таблично-волновой метод (Wave-Table) и метод модуляции частоты (FM).
Сложно разобраться самому?
Попробуй обратиться за помощью к преподавателям
Таблично-волновой метод (англ. Wave-Table) базируется на использовании предварительно разработанной таблицы, которая состоит из ячеек, содержащих все возможные звуки окружающей среды (птиц, животных, природы, музыкальных инструментов и так далее). Они представлены в виде цифровых кодов, каждый из них имеет свою определенную частоту, высоту, глубину, длительность и другие звуковые параметры. Благодаря тому, что образцы представляют собой реальные существующие звуки, воспроизводимый звук будет достаточно высококачественным, и сильно напоминать звуки живых инструментов.
Метод модуляции частоты (англ. Frequency Modulation — FM), базируется на разложении сложных звуковых волн на последовательные ряды более простых разно частотных гармонических сигналов, при чем каждый из них будет описываться законом правильной синусоиды, что означает возможность его записи с помощью кода. Для процесса разложения сложных аудио сигналов и их трансформации в ряд дискретных оцифрованных сигналов используют особое устройство, именуемое АЦП — аналогово-цифровой преобразователь. Для процесса обратной трансформации, а именно для трансформации звука из цифровых сигналов, применяется устройство, именуемое ЦАП – цифро-аналоговый преобразователь. Хотя этот метод не позволяет получить качественный звук при воспроизведении, но преимуществом его использования является компактность цифрового кода.
Распространенные форматы аудио файлов
Аудио файлы бывают различных форматов. Рассмотрим самые распространенные из них:
Кодирование звуковой информации
Компьютер работает с цифровой информацией, которую можно представить в виде серии электрических импульсов — логических нулей и единиц. Но тот звук, который мы слышим,непрерывен. Эта звуковая волна с меняющейся амплитудой и частотой является аналоговым сигналом. Чтобы записать такой звук на диск компьютера его надо преобразовать в цифровую форму. Этим занимается аналого-цифровой преобразователь (АЦП). Для воспроизведения звука, записанного в цифровом виде, цифроаналоговый преобразователь преобразовывает его в аналоговый сигнал.
Дискретизация звука
Непрерывная звуковая волна разбивается на отдельные участки по времени, для каждого устанавливается своя величина амплитуды. Каждой ступеньке присваивается свой уровень громкости звука, который можно рассматривать как набор возможных состояний
Характеристики качества звука:
1. «Глубина» кодирования звука — количество бит на один звуковой сигнал
Современные звуковые карты обеспечивают 16-битную «глубину» кодирования звука. Количество уровней (градаций амплитуды) можно рассчитать по формуле
N = 2I = 216 = 65 536 уровней сигнала
(градаций амплитуды)
2. Частота дискретизации – это количество измерений уровней сигнала за 1 секунду
Одно измерение в 1 секунду соответствует частоте 1 Гц
1000 измерений в 1 секунду — 1 кГц
Количество измерений может лежать в диапазоне от 8000 до 48 000
(8 кГц – 48 кГц)
8 кГц соответствует частоте радиотрансляции,
48 кГц – качеству звучания аудио- CD.
Ухо человека воспринимает звук в диапазоне от
20 Гц до 20 кГц.
Опыт показывает, что точное соответствие цифрового сигнала аналоговому достигается, если частота дискретизации будет вдвое выше максимальной звуковой частоты, то есть составит не менее 40 кГц.
На практике значения частоты дискретизации, применяемые в звуковых системах, равны 44,1 кГц или 48 кГц. Чем больше частота дискретизации, тем качественнее звук.
При двоичном кодировании непрерывного звукового сигнала он заменяется серией его отдельных выборок — отсчетов.
Современные звуковые карты могут обеспечить кодирование 65536 различных уровней сигнала или состояний.
Таким образом, современные звуковые карты обеспечивают 16-битное кодирование звука. При каждой выборке значению амплитуды звукового сигнала присваивается 16-битный код.
Звук — это физическое природное явление, распространяющееся посредством колебаний воздуха и, следовательно, можно сказать, что мы имеем дело только с волновыми характеристиками. Задачей преобразования звука в электронный вид является повторение всех его этих самых волновых характеристик. Но электронный сигнал не является аналоговым, и может записываться посредством коротких дискретных значений. Пусть они имеют малый интервал между собой и практически неощутимы, на первый взгляд для человеческого уха, но мы должны всегда иметь в виду, что имеем дело только с эмуляцией природного явления именуемого звуком.
Такая запись называется импульсно-кодовой модуляцией и являет собой последовательную запись дискретных значений. Разрядность устройства, исчисляемая в битах, говорит о том сколькими значениями одновременно в одном записанном дискрете, берется звук. Чем больше разрядность, тем больше звук соответствует оригиналу.
Форматы звуковых файлов
РСМ
РСМ расшифровывается как pulse code modulation, что и является в переводе как импульсно-кодовая. Файлы именно с таким расширением встречаются довольно редко. Но РСМ является основополагающей для всех звуковых файлов.
WAV
Самое простое хранилище дискретных данных. Один из типов файлов семейства RIFF. Помимо обычных дискретных значений, битности, количества каналов и значений уровней громкости, в wav может быть указано еще множество параметров, о которых Вы, скорее всего, и не подозревали — это: метки позиций для синхронизации, общее количество дискретных значений, порядок воспроизведения различных частей звукового файла, а также есть место для того, чтобы Вы смогли разместить там текстовую информацию.
RIFF
Resource Interchange File Format. Уникальная система хранения любых структурированных данных.
IFF
Эта технология хранения данных проистекает от Amiga-систем. Interchange File Format. Почти то же, что и RIFF, только имеются некоторые нюансы. Начнем с того, что система Amiga — одна из первых, в которой стали задумываться о программно-сэмплерной эмуляции музыкальных инструментов. В результате, в данном файле звук делится на две части: то, что должно звучать вначале и элемент того, что идет за началом. В результате, звучит начало один раз, за тем повторяется второй кусок столько раз, сколько Вам нужно и нота может звучать бесконечно долго.
MOD
Файл хранит в себе короткий образец звука, который потом можно использовать в качестве шаблона для инструмента.
AIFили AIFF
Audio Interchange File Format. Данный формат распространен в системах Apple Macintosh и Silicon Graphics. Заключает в себе сочетание MOD и WAV.
MID
Файл, хранящий в себе сообщения MIDI-системе, установленной на Вашем компьютере или в устройстве.
МР3
Самый скандальный формат за последнее время. Многие для объяснения параметров сжатия, которые в нем применяют, сравнивают его с jpeg для изображений. Там очень много наворотов в вычислениях, чего и не перечислишь, но коэффициент сжатия в 10-12 раз сказали о себе сами. Специалисты говорят о контурности звука как о самом большом недостатке данного формата. Действительно, если сравнивать музыку с изображением, то смысл остался, а мелкие нюансы ушли. Качество МР3 до сих пор вызывает много споров, но для «обычных немузыкальных» людей потери не ощутимы явно.
VQF
Хорошая альтернатива МР3, разве что менее распространенная. Есть и свои недостатки. Закодировать файл в VQF — процесс гораздо более долгий. К тому же, очень мало бесплатных программ, позволяющих работать с данным форматом файлов, что, собственно, и сказалось на его распространении.
RA
Real Audio или потоковая передача аудиоданных. Довольно распространенная система передачи звука в реальном времени через Интернет. Скорость передачи порядка 1 Кб в секунду. Полученный звук обладает следующими параметрами: 8 или 16 бит и 8 или 11 кГц.
Ввод музыки в компьютер.
Существует несколько способов ввода музыки в компьютер. Выбор будет зависеть от того, в каком виде она находится. Если источником музыки является цифровой музыкальный файл (формата wav или mp3), то он, как правило, вводится в компьютер штатными средствами — например, загружается из Интернета или копируется с компакт-диска (файл mp3 представляет собой сжатый примерно в 10 раз файл формата wav). Файлы формата wav являются «родными» для музыкальных компакт-дисков, они записываются с 16-разрядным сэмплированием с частотой 44 кГц; файл с одной песней обычно имеет размер от 30 до 60 МБ.
Если источником музыки является виниловая пластинка или музыкальный инструмент/другое устройство со стереофоническим линейным выходом, то такая музыка, как правило, вводится с помощью установленной в компьютер звуковой карты. К современной звуковой карте через гнездо линейного входа можно напрямую подключить любой музыкальный инструмент (синтезатор, гитару и т.д.) или устройство воспроизведения (проигрыватель грампластинок, магнитофон и т.п.), после чего ПК может начать запись. Здесь исключительно важную роль играет размер и форма соединительных разъемов — многие современные звуковые карты высшего класса имеют входные разъемы, позволяющие подключать оптические, раздельные кабели и кабели с миништекерами. Существует множество вариантов соединений, каждый из которых обеспечивает определенный уровень качества и соответствует определенному стандарту.
Еще одно средство ввода музыки в персональный компьютер — интерфейс MIDI. Это стандарт электронной музыки, согласно которому звуковая информация представляется в виде единиц и нулей. Обычно через интерфейс MIDI подключаются синтезаторы или отдельные клавиатуры — и тогда ПК «воспринимает» каждую сыгранную ноту как элемент цифровой информации и воспроизводит ее в виде музыки в реальном времени.
Что такое MIDI-синтезатор? Термин «синтезатор» обычно используется применительно к электронному музыкальному инструменту, в котором звук создается и обрабатывается, меняя свою окраску и характеристики. Естественно, название этого устройства пошло от его основного предназначения – синтеза звука. Основных методов синтеза звука существует всего два: FM (Frequency modulation – частотная модуляция) и WT (Wave Table – таблично-волновой). Опишем лишь основную идею методов. В основе FM-синтеза лежит идея, что любое даже самое сложное колебание является, по сути, суммой простейших синусоидальных. Таким образом, можно наложить друг на друга сигналы от конечного числа генераторов синусоид и путем изменения частот синусоид получать звуки, похожие на настоящие. Таблично-волновой синтез основывается на другом принципе. Синтез звука при использовании такого метода достигается за счет манипуляций над заранее записанными (оцифрованными) звуками реальных музыкальных инструментов. Эти звуки (они называются сэмплами) хранятся в постоянной памяти синтезатора.
MIDI – это общепринятая спецификация, связанная с организацией цифрового интерфейса для музыкальных устройств, включающая в себя стандарт на аппаратную и программную части.
Эта спецификация предназначена для организации локальной сети электронных инструментов (рис. 2). К MIDI-устройствам относятся различные аппаратные и музыкальные инструменты, отвечающие требованиям MIDI. Таким образом, MIDI-синтезатор – это музыкальный инструмент, предназначенный обычно для синтеза звука и музыки, а также удовлетворяющий спецификации MIDI. Давайте разберемся кратко, почему выделен отдельный класс устройств, названный MIDI.
Дело в том, что осуществление программной обработки звука часто сопряжено с неудобствами, обусловленными различными техническими особенностями этого процесса. Даже возложив операции по обработке звука на звуковую карту или любую другую аппаратуру, остается множество различных проблем. Во-первых, зачастую желательно пользоваться аппаратным синтезом звучания музыкальных инструментов (как минимум потому, что компьютер – это общий инструмент, часто необходим просто аппаратный синтезатор звуков и музыки, не более). Во-вторых, программная обработка звука часто сопровождается временными задержками, в то время как при концертной работе необходимо мгновенное получение обработанного сигнала. По этим и другим причинам и прибегают к использованию специальной аппаратуры для обработки, а не компьютеров со специальными программами. Однако при использовании аппаратуры возникает необходимость в едином стандарте, который позволил бы соединять устройства друг с другом и комбинировать их. Эти предпосылки и заставили в 1982 году несколько ведущих в области музыкального оборудования компаний утвердить первый MIDI-стандарт, который впоследствии получил продолжение и развивается по сей день. Что же, в конечном счете, представляет собой MIDI-интерфейс и устройства в него входящие с точки зрения персонального компьютера?
- Аппаратно — это установленные на звуковой карте: синтезатор различных звуков и музыкальных инструментов, микропроцессор, контролирующий и управляющий работу MIDI-устройств, а также различные стандартизованные разъемы и шнуры для подключения дополнительных устройств.
- Программно — это протокол MIDI, представляющий собой набор сообщений (команд), которые описывают различные функции системы MIDI и с помощью которых осуществляется связь (обмен информацией) между устройствами MIDI. Сообщения можно рассматривать как средство удаленного управления.
Следует отметить, что в отношении синтезаторов звука MIDI устанавливает строгие требования к их возможностям, примененным в них способам синтеза звука, а также к управляющим параметрам синтеза. Кроме того, для того, чтобы музыка созданная на одном синтезаторе могла бы быть легко перенесена и успешно воспроизведена на другом, были установлены несколько стандартов на соответствие инструментов (голосов) и их параметров в различных синтезаторах: стандарт General MIDI (GM), General Synth (GS) и eXtended General (XG). Базисным стандартом является GM, остальные два являются его логическими продолжениями и расширениями.
В качестве практического примера устройства MIDI, можно рассмотреть обычную MIDI-клавиатуру. Упрощенно, MIDI-клавиатура представляет собой укороченную клавиатуру рояля, в корпусе с которой находится MIDI-интерфейс, позволяющий подключать ее к другим MIDI-устройствам, например, к MIDI-синтезатору, который установлен в звуковой карте компьютера. Используя специальное программное обеспечение (например, MIDI-секвенсор) можно включить MIDI-синтезатор в режим игры, например, на рояле, и нажимая на клавиши MIDI-клавиатуры слышать звуки рояля. Естественно, что роялем дело не ограничивается – в стандарте GM имеются 128 мелодических инструментов и 46 ударных. Кроме того, используя MIDI-секвенсор можно записывать исполняемые на MIDI-клавиатуре ноты в компьютер, для последующего редактирования и аранжировки, либо просто для элементарной распечатки нот.
Надо отметить, что поскольку MIDI-данные – это набор команд, то музыка, которая написана с помощью MIDI, также записывается с помощью команд синтезатора. Иными словами, MIDI-партитура – это последовательность команд: какую ноту играть, какой инструмент использовать, какова продолжительность и тональность ее звучания и так далее. Знакомые многим MIDI-файлы (.MID) есть нечто иное, как набор таких команд. Естественно, что поскольку имеется великое множество производителей MIDI-синтезаторов, то и звучать один и тот же файл может на разных синтезаторах по-разному (потому что в файле сами инструменты не хранятся, а есть лишь только указания синтезатору какими инструментами играть, в то время как разные синтезаторы могут звучать по-разному).
Обработка звука
Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:
1. Амплитудные преобразования.Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.
2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное «сворачивание» сигнала из спектра в волну.
3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.
4. Временные преобразования.Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.
Приведу несколько практических примеров использования указанных видов преобразований при создании реальных звуковых эффектов:
- Echo (эхо)Реализуется с помощью временных преобразований. Фактически для получения эха необходимо на оригинальный входной сигнал наложить его задержанную во времени копию. Для того чтобы человеческое ухо воспринимало вторую копию сигнала как повторение, а не как отзвук основного сигнала, необходимо время задержки установить равным примерно 50 мс. На основной сигнал можно наложить не одну его копию, а несколько, что позволит на выходе получить эффект многократного повторения звука (многоголосного эха). Чтобы эхо казалось затухающим, необходимо на исходный сигнал накладывать не просто задержанные копии сигнала, а приглушенные по амплитуде.
- Reverberation (повторение, отражение).Эффект заключается в придании звучанию объемности, характерной для большого зала, где каждый звук порождает соответствующий, медленно угасающий отзвук. Практически, с помощью реверберации можно «оживить», например, фонограмму, сделанную в заглушенном помещении. От эффекта «эхо» реверберация отличается тем, что на входной сигнал накладывается задержанный во времени выходной сигнал, а не задержанная копия входного.
- Chorus (хор).В результате его применения звучание сигнала превращается как бы в звучание хора или в одновременное звучание нескольких инструментов. Схема получения такого эффекта аналогична схеме создания эффекта эха с той лишь разницей, что задержанные копии входного сигнала подвергаются слабой частотной модуляции (в среднем от 0.1 до 5 Гц) перед смешиванием с входным сигналом. Увеличение количества голосов в хоре достигается путем добавления копий сигнала с различными временами задержки.
Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом). Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене. Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и скрупулезная проработка всех нюансов звучания. Существует множество различных операций над звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме.
Программное обеспечение
Наиболее важный класс программ – редакторы цифрового аудио. Основные возможности таких программ это, как минимум, обеспечение возможности записи (оцифровки) аудио и сохранение на диск. Развитые представители такого рода программ позволяют намного больше: запись, многоканальное сведение аудио на нескольких виртуальных дорожках, обработка специальными эффектами очистка от шумов. Они имеют развитую навигацию и инструментарий в виде спектроскопа и прочих виртуальных приборов, управление/управляемость внешними устройствами, преобразование аудио из формата в формат, генерация сигналов, запись на компакт диски и многое другое. Некоторыеизтакихпрограмм: Cool Edit Pro
рис.8
Специализированные реставраторы аудио играют также немаловажную роль в обработке звука. Такие программы позволяют восстановить утерянное качество звучания аудио материала, удалить нежелательные щелчки, шумы, треск, специфические помехи записей с аудиокассет, и провести другую корректировку аудио. Программыподобногорода: Dart, Clean (отSteinberg Inc.), Audio Cleaning Lab. (от Magix Ent.), Wave Corrector.
Основные возможности реставратора Clean 3.0 (см. рис.9 – рабочее окно программы): устранение всевозможных потрескиваний и шумов, режим автокоррекции, набор эффектов для обработки скорректированного звука, включая функцию «surround sound» с наглядным акустическим моделированием эффекта, запись CD с подготовленными данными, «интеллигентная» система подсказок, поддержка внешних VST плаг-инов и другие возможности.
Напоследок следует упомянуть о существовании огромного количества другого аудио ПО: проигрыватели аудио (наиболее выдающиеся: WinAMP, Sonique, Apollo, XMPlay, Cubic Player), подключаемые модули для проигрывателей (из «улучшателей» звучания аудио — DFX, Enhancer, iZotop Ozone), утилиты для копирования информации с аудио CD (ExactAudioCopy, CDex, AudioGrabber), перехватчики аудио потоков (Total Recorder, AudioTools), кодеры аудио (кодеры MP3: Lame encoder, Blade Encoder Go-Go и другие; кодеры VQF: TwinVQ encoder, Yamaha SoundVQ, NTT TwinVQ; кодеры AAC: FAAC, PsyTel AAC, Quartex AAC), конвертеры аудио (для перевода аудио информации из одного формата в другой), генераторы речи и множество других специфических и общих утилит. Безусловно, все перечисленное – только малая толика из того, что может пригодиться при работе со звуком.