Formaty Zapisu Audio

Dział ten zawiera formaty w których, stosuje się kompresję stratną.

AC3|AAC|MP3|MP4|MPC|WMA|QDesign|Ogg Vorbis

Kompresja stratna, to metody zmniejszania ilości bitów potrzebnych do wyrażenia danej informacji, które nie dają gwarancji, że odtworzona informacja będzie identyczna z oryginałem. Dla niektórych danych algorytm kompresji stratnej może odtworzyć informację w sposób identyczny.

Kompresja stratna jest możliwa ze względu na sposób działania ludzkich zmysłów, tj. wyższą wartość pewnych części danych nad innymi. Algorytmy kompresji stratnej zazwyczaj posługują się modelami psychoakustycznymi, psychowizualnymi itd., aby odrzucić najmniej istotne dane o dźwięku, obrazie, pozostawiając dane o wyższej wartości dla rozpoznawania tej informacji (akustycznej, wizualnej) przez zmysły. Ilość odrzucanych danych jest zazwyczaj określana przez stopień kompresji.

Z tego też względu nie istnieją algorytmy kompresji stratnej, które można stosować do dowolnego typu danych. Np. kompresja stratna plików wykonywalnych byłaby praktycznie niemożliwa do zastosowania, gdyż nie jest to informacja odczytywana przez zmysły, a przez maszynę.

powrót^

AC3 - standard stratnego kodeka dźwięku używany na większości płyt DVD-Video. Powszechnie znany jako Dolby Digital Audio Compression-3, Dolby Digital lub A/52 (nazwa A/52 została przyjęta przez ATSC).

Dźwięk jest kodowany z oryginalnego zapisu PCM o częstotliwości próbkowania 48 kHz i próbkowaniu 16-24 bit (czyli o jakości równej lub wyższej niż CD-Audio). Taki zapis, zajmujący ponad 5 Mb/s jest kompresowany do 384kbps lub 448kbps dla dźwięku 5.1 (poniżej kompresja jest zbyt znaczna, wartości wyższe są dosyć rzadko stosowane, głównie na DVD - do 640 kbps) albo 192kbps dla dźwięku 2.0, niestety z pewną stratą jakości, szczególnie wyczuwalną przy słuchaniu płyt z muzyką zapisaną w tym formacie (taką prędkość strumienia stosuje się najczęściej do dźwięku Dolby Digital nadawanego w telewizjach).

AC3 pozwala na zapisanie wielokanałowego dźwięku w następujących kombinacjach (przód/tył):

1/0
1+1/0 (czyli mono na dwóch głośnikach z przodu)
2/0 (czyli zwykłe stereo)
3/0
2/1 (stereo z przodu i jeden głośnik za słuchaczem)
3/1 (tzw. LCRS - kanał "lewy-środkowy-prawy-otaczający" - czyli konfiguracja Dolby Surround)
3/2

Oprócz tego, do każdej kombinacji można dołączyć kanał z niskimi częstotliwościami (LFE - ang. low frequency effects), określany jako .1. A więc dźwięk 5.1 to 3 głośniki z przodu, 2 z tyłu oraz bezkierunkowy, niskotonowy subwoofer.

Każdy odtwarzacz DVD posiada wbudowany dekoder A/52, a dokładniej konwerter A/52 na Dolby Surround, tak aby można było podłączyć go do zwykłego telewizora (nie tracąc przy okazji możliwości uzyskania dźwięku przestrzennego). Najlepiej jest jednak zakupić 6 kanałowy wzmacniacz cyfrowy z dekoderem A/52 (Dolby Digital), który w pełni wykorzysta możliwości formatu.

Strumień danych skompresowanych AC3 przenosi też metadane (dane opisujące sygnał audio), ang. metadata - zawierają one informacje o poziomie głośności dialogów, sposobie kompresji dynamiki, sposobie tworzenia tzw. "downmix" - czyli możliwości odtwarzania dźwięku na mniejszej liczbie głośników niż jest zakodowana w oryginalnym strumieniu. Z założenia w strumieniu Dolby Digital transmituje się sygnał z możliwie najwyższą jakością (bez kompresji dynamiki, z maksymalną liczbą kanałów), a wszystkie konieczne obróbki (zmniejszenie dynamiki sygnałów audio, dostosowanie do liczby głośników systemu audio słuchacza) odbywa się na poziomie dekodera odbierającego sygnał.

powrót^

AAC (ang. Advanced Audio Coding) to algorytm stratnej kompresji danych dźwiękowych, którego specyfikacja została opublikowana w roku 1997. Format AAC zaprojektowany został jako następca MP3, oferujący lepszą jakość dźwięku przy podobnym rozmiarze danych.

Profile

Kompresja AAC jest modularna i oferuje w standardowo cztery profile:

Low Complexity (LC) - najprostszy, najszerzej stosowany i odtwarzany przez wszystkie odtwarzacze obsługujące format AAC,
Main Profile (MAIN) - rozszerzenie LC
Sample-Rate Scalable (SRS) lub Scalable Sample Rate (AAC-SSR) - zakres częstotliwości dzielony jest na cztery, kompresowane niezależnie pasma (podobnie jak w formacie ATRAC), jakość jest przez to nieco niższą niż pozostałych profili
Long Term Prediction (LTP) - rozszerzenie MAIN wymagające mniejszej ilości obliczeń

Usprawnienia względem MP3

próbkowanie 8-96 kHz (MP3 16-48 kHz)
do 48 kanałów (MP3 2 kanały w standardzie MPEG-1 i 5.1 w standardzie MPEG-2)
skuteczniejszy i wydajniejszy
lepsze przenoszenie częstotliwości ponad 16 kHz
lepszy tryb kompresji sygnału stereofonicznego joint-stereo

powrót^

MP3 jest częścią MPEG-1, będącego standardem kompresji dźwięku i ruchomych obrazów zaproponowanym przez MPEG (Moving Picture Experts Group). Format wideo MPEG-1 używany jest na Video CD. Jakość obrazu przy zwykłej przepustowości VCD jest w przybliżeniu porównywalna do tej znanych z kaset VHS.

MPEG-1 składa się z wielu "partii", kolejno:

Synchronizacja oraz mieszanie wideo i audio.
Kodek kompresji sygnałów wideo bez przeplotu.
Kodek kompresji stratnej sygnałów audio. Standard definiuje trzy "warstwy", czy też poziomy złożoności kodowania audio MPEG.
1. MP1 lub MPEG-1 Part 3 Layer 1 (MPEG-1 Audio Layer 1)
2. MP2 lub MPEG-1 Part 3 Layer 2 (MPEG-1 Audio Layer 2)
3. MP3 lub MPEG-1 Part 3 Layer 3 (MPEG-1 Audio Layer 3)
Procedury dla testów zgodności.
Oprogramowanie referencyjne.

MP3 (ang. MPEG-1 Audio Layer-3) to popularny format stratnej kompresji dźwięku opierający się na zmodyfikowanej dyskretnej transformacie cosinusowej i używający modelu psychoakustycznego. Format został stworzony we Fraunhofer Institute. Przy tworzeniu jego pierwszej implementacji wykorzystywany był m.in. utwór Suzanne Vegi Tom's Diner w celu dostosowania kompresji do brzmienia ludzkiego głosu.

Dźwięk skompresowany z przepływnością (ang. bitrate) 128 kbps daje zazwyczaj zadowalającą jakość na przeciętnym sprzęcie odsłuchowym w komputerach osobistych (128 kbps przyjmuje się jako odpowiadającą niskiej jakości odtwarzaczom CD), dźwięk skompresowany przy 192 kbps jest dla większości ludzi nieodróżnialny od oryginału. Niektórzy słuchacze w celu uzyskania większej jakości dźwięku stosują jeszcze słabszą kompresję (256 lub nawet 320 kbps). Jakość zależy również w dużym stopniu od używanego do kompresji enkodera.

Pierwotnie do kompresji MP3 stosowano Constant Bit Rate (CBR), czyli do każdej ramki używano tej samej ilości bitów. Współcześnie używa się raczej Variable Bit Rate (VBR) charakteryzującego się zmienną przepływnością w wybranym przedziale podczas kodowania.

Kodowany dźwięk może posiadać postać zarówno jednokanałową (mono) jak i dwukanałową (stereo). Istnieje też format MP3 Surround (do zapisu dźwięku wielokanałowego 5.1) wstecznie zgodny z wcześniejszym standardem.

Dla dźwięku stereofonicznego format MP3 posiada trzy tryby kompresji:

dual channel - w którym dźwięk jest zapisywany jako dwa odrębne kanały monofoniczne.
stereo (stereo mode 0) - w którym każda ramka zapisywana jest algorytmem left/right stereo.
joint stereo (stereo mode 1) - w którym dla każdej ramki wybierany jest najlepszy dla niej algorytm zapisu dźwięku stereo.

Stosowanymi w kompresji MP3 algorytmami kodowania ramki dźwięku stereofonicznego są:

left/right stereo (simple stereo, independent channel) - w którym dźwięk w kanałach prawym i lewym jest kodowany niezależnie, może jednak zmieniać się liczba bitów przeznaczonych na każdy z kanałów. Efektywny dla ramek, w których oba kanały różnią się w dużym stopniu.
middle/side stereo - w którym sygnał stereo kodowany jest w postaci pary wartości oznaczających sumę (L+R) oraz różnicę (L-R) kanałów. Efektywny dla ramek, w których oba kanały przyjmują podobne wartości.
intensity stereo - w którym sygnał stereo dla niektórych (głównie wysokich) częstotliwości kodowany jest jako monofoniczna wartość uzupełniona o wektor określający kierunek, z którego dochodzi dźwięk. W praktyce stosowany tylko przy niskiej przepływności (poniżej 80 kbps). Niektóre enkodery (np. LAME) w ogóle nie stosują tego algorytmu.

Pliki w tym formacie posiadają rozszerzenie .mp3.

CBR dostępne w MP3: 8 kb/s 16 kb/s 32 kb/s 40 kb/s 64 kb/s 80 kb/s 96 kb/s 112 kb/s 128 kb/s 160 kb/s 192 kb/s 224 kb/s 256 kb/s 320 kb/s

powrót^

MP4 (MPEG-4 Part 14) jest to standard kodowania dźwięku i obrazu. Został napisany z myślą o telewizji cyfrowej oraz przesyłaniu multimediów przez internet Zapewnia dobrą jakość przesyłanych danych przy niskiej prędkości transferu. Rozszerzenie plików w tym formacie to *.mp4 lub *.m4a.

Format MPEG4 Audio jest to najprościej zbiór norm określających kodowanie naturalnego oraz syntetycznego dźwięku. Części dotyczące kodowania syntetycznego to SA (Structured Audio) oraz TTSI (Text-to-Speech Interface), zwierają narzędzia umożliwiające symboliczną definicje muzyki oraz mowy, jak np. MIDI oraz system "Text-to-Speech". Co więcej, zawarte są tam również narzędzia do lokalizacji dźwięku 3D, pozwalające na tworzenie naturalnej oraz sztucznej przestrzeni dźwiękowej. MPEG4 Audio określa także kodowanie dźwięku naturalnego, dla pasma przesyłania począwszy od 2 kbps. Stosowane są 3 rodzaje kodeków: PARA (Parametric Codec) dla najniższych przepustowości, CELP (Code Excited Linear Predictive) dla średnich, oraz TF (Time-Frequency), zawierający MPEG-2 AAC, który pozwala na uzyskanie najwyższej jakości dźwięku. MPEG4 oferuje także nowe możliwości, jak kontrola szybkości przesyłania i położenia widma sygnału, wyciszanie błędów oraz skalowalność, w której skład wchodzi:

1. Skalowalność prędkości przesyłania (bit rate scalability), pozwala na przekształcenie określonego strumienia bitów w strumień o niższej szybkości przesyłania, umożliwiając bezbłędną transmisję w zmiennych warunkach.
2. Skalowalność pasma przenoszenia, (bandwidth scalability), gdzie określone części strumienia bitów przesyłają odpowiednie fragmenty widma sygnału. W gorszych warunkach możliwe jest zawężenie przesyłanego widma, bez szkody dla zrozumiałości materiału.
3. Skalowalność złożoności enkodera (encoder complexity scalability), pozwala enkoderom o różnym stopniu złożoności na generowanie poprawnego oraz zgodnego z normą sygnału.
4. Skalowalność złożoności dekodera (decoder complexity scalability), pozwala na poprawne dekodowanie sygnału przez dekodery o różnym stopniu złożoności Najogólniej, jakość dźwięku zależy od stopnia złożoności enkodera i dekodera.
5. System korekcji błędów (error robustness) umożliwia dekoderowi korekcję lub ukrycie słyszalnych zniekształceń spowodowanych błędami w trakcie transmisji.

W MPEG4 jednym ze skalowanych formatów jest standard BASC (Bit Sliced Arithmetic Coding), sposób kodowania zbliżony jest do AAC, enkoder różni się jedynie ulepszonym modułem odpowiedzialnym za dynamikę. Dzięki temu, przy zawężeniu pasma transmisji poniżej 40 kbps, pogorszenie jakości jest prawie niezauważalne. W praktyce, podczas transmisji enkoder jest w stanie zmieniać pasmo od 16 do 64 kbps, z krokiem 1 kbps.

MPEG4 Audio
Natural Coding			Synthetic Coding
PARA (Parametric Coding)	Code Excited Linear Predictive (CELP)	TF (Time-Frequency)	SA (Structured Audio)		TTSI (Text-to-Speech Interface)
Formaty: HILN HVXC	Format: NB-CELP	Formaty: TwinVQ AAC BSAC	SAOL (Structured Audio Orchestra Language)	SASL (Structured Audio Score Language)	Symboliczny język opisy mowy.

SAOL (Structured Audio Orchestra Language) definiuje "orkiestrę" za pomocą poszczególnych "instrumentów". "Instrument" jest to niewielka sieć danych dla procesora sygnałowego, pozwalająca na emulację naturalnego brzmienia instrumentu muzycznego.

SASL (Structured Audio Score Language) jest używany do tworzenia nowych efektów oraz zawiera informacje służące modyfikowaniu istniejącego dźwięku Pozwala na lepszą kontrolę syntezy oraz bardziej naturalny efekt końcowy. W przypadku, gdy nie jest wymagana szczegółowa kontrola, do przesyłania danych o instrumenatch może być wykorzystany protokół MIDI.

W formacie MPEG4 po raz pierwszy pojawia się także pojęcie "obiektu audio". Najprościej można go zdefiniować jako słyszalną część docierającego do odbiorcy materiału dźwiękowego, zakodowaną za pomocą pojedynczego strumienia bitów. Może to być np. głos jednego lub kilku mówców, dźwięk jednego lub kilku instrumentów lub tło akustyczne. Obiekty audio mogą być grupowane oraz miksowane, przy czym rozdzielenie pojedynczego obiektu na mniejsze składowe jest już dosyć trudne. Możliwości wykorzystania tego sposobu transmisji są bardzo rozległe:
- do odbiorcy, poprzez 5 kanałów przesyłany jest dźwięk z pięciu różnych instrumentów wchodzących w skład orkiestry. Odbiorca może np. wyłączyć jeden z instrumentów i grać razem z pozostałymi członkami zespołu.
- transmisja wydarzeń sportowych w kilku językach
- interaktywne filmy oraz aplikacje video, korzystające z obiektowego opisu sceny, np. w typowej sekwencji z filmu, rozgrywającej się na dworcu kolejowym, można wyróżnić kilka obiektów audio:
- rozmowa pomiędzy aktorami, najważniejszy element sceny
- tło akustyczne, np. gwar dworcowy oraz odgłosy nadjeżdżających pociągów
- zapowiedzi speakera o przyjazdach i odjazdach pociągów
- tło muzyczne (ścieżka dźwiękowa)

Każdy z obiektów dźwiękowych może być dowolnie modyfikowany, zależnie od potrzeb. W trudniejszych warunkach transmisji, możliwe jest ograniczenie pasma lub całkowite usunięcie obiektów nie mających wpływu na treść przekazu.
Format MPEG4 oferuje znacznie więcej niż jego poprzednicy: MPEG1 oraz MPEG2. Oprócz narzędzi umożliwiających kompresję i przesyłanie dźwięku naturalnego, wzbogacony został o możliwości syntezy dźwięku po stronie odbiorcy oraz skalowania przesyłanego strumienia bitów. Trwają także prace nad formatem MPEG7, który ma połączyć większość aplikacji multimedialnych w jedną całość. Pozwoli to na łatwe zarządzanie multimedialnymi zasobami Internetu: wyszukiwanie, sprzedaż lub udostępnianie utworów oraz filmów. Nad własnym formatem kompresji dżwieku pracuje również Microsoft. W połowie kwietnia firma zamierza oficjalnie zaprezentować "MS Audio 4.0", jak mówią przedstawićiele firmy, format będzie całkowicie "bezpieczny", ponadto przy kompresji na 64 kbps jakość dżwięku ma być lepsza od plików MP3 oraz AAC skompresowanych na 128 kbps.

powrót^

Musepack (MPC) - format stratnej kompresji dźwięku, bazujący na algorytmach MPEG Layer-2 (MP2), jednakże znacznie w stosunku do nich rozbudowany. Format został zaprojektowany tak, by dawać dźwięk nierozróżnialny od oryginału przy standardowych ustawieniach (tzw. przezroczystość, ang. transparency), co osiąga przy przepływności (bitrate) niższej niż inne popularne kodeki (jak np. MP3). Algorytm zaprojektowano tak, aby przechowywał jak najwięcej informacji, dlatego najlepiej sprawdza się dla wysokich przepływności (od 140 kbit/s wzwyż), natomiast dla przepływności poniżej 112 kbit/s jakość dźwięku w tym formacie gwałtownie spada. Wzorcowa implementacja Musepack jest szybsza niż większość popularnych kodeków dźwięku.

Prace nad MPC rozpoczął w 1997 Andree Buschmann, a w tej chwili rozwija go Frank Klemm.

Pliki w formacie Musepack mają zwykle rozszerzenie .mpc lub (rzadziej) .mpp bądź .mp+. Zazwyczaj tagi w plikach MPC zapisywane są metodą APEv2.

Charakterystyka formatu

Zalety

do niedawna jeszcze (2004) uważany za najlepszy stratny kodek przy średnich i wyższych przepływnościach (od 128 kbit/s wzwyż). Obecnie (2006) konkurencyjne formaty (Vorbis, AAC) potrafią już osiągać równie dobre rezultaty.
zapewnia bardzo szybką kompresję i dekompresję
w zamierzeniu już standardowe ustawienie (preset --standard) ma zapewniać tzw. przezroczystość
standard otwarty

Wady

nieobsługiwany w standardzie w przenośnych odtwarzaczach (co staje się możliwe w niektórych odtwarzaczach po instalacji alternatywnego systemu o nazwie Rockbox)
brak wsparcia dla dźwięku wielokanałowego (tylko mono/stereo)
niedoskonałe przeszukiwanie (w wersji 1.16 błąd naprawiono)
brak możliwości przesyłu strumieniowego
ograniczenie częstotliwości próbkowania do 48 kHz

powrót^

WMA (ang. Windows Media Audio) - format kompresji dźwięku stworzony przez Microsoft Corporation. W zamierzeniach producenta ma konkurować z formatem MP3.

Powodem stworzenia WMA mogły być konflikty patentowe z Fraunhofer Institute - twórcą formatu MP3, dotyczące dołączania kodeka MP3 do systemu Windows. Według Microsoftu WMA zapewnia jakość dźwięku znacznie lepszą niż MP3, a początkowo firma z Redmond twierdziła nawet, że WMA dorównuje jakości płyty CD przy przepływności równej 64 kbps.

Niezależne testy odsłuchowe pokazały, że choć WMA przy przepływności 96 kbps i niższych brzmi nieco lepiej niż MP3, to jednak przy wysokich przepływnościach oferuje zauważalnie gorszą jakość dźwięku. Kodek w żadnym wypadku nie dorównuje jakości płyty CD przy 64 kbps.

Wraz z Windows Media Player 9 Microsoft zaprezentował nowe kodeki z rodziny WMA: WMA 9 Professional (obsługujący dźwięk wielokanałowy), WMA 9 Lossless (bezstratny) i WMA 9 Voice (zoptymalizowany do przesyłania głosu przy bardzo niskiej przepływności). Wszystkie trzy nie są wstecznie kompatybilne.

powrót^

QDesign - kodek audio, oryginalnie LBpack Dmitra Shmunka. Firma QDesign kupiła kodek i zatrudniła twórcę, aby stworzył coś, co stanie się oficjalnym kodekiem audio w QuickTime firmy Apple Computers.

Oficjalną nazwą kodeka jest RaveSound, zgodnie z tym artykułem w prasie, jednak zwykle nazywany jest kodekiem QDesign. Jest on znany jako jeden z najbardziej agresywnych kodeków, co oznacza, ze kompresuje całkiem dobrze przy małych bitrate. Jednak jego agresywność wprowadza zbyt wiele "artefaktów" przy większych bitrate.

Wersja personal dostępna jest wraz z QuickTime Pro i pozwala na kodowanie przy bitrate do 48 kbit/s. Wersja profesjonalna kodeka pozwala na kodowanie z bitrate dochodzącym do 128 kbit/s.

powrót^

Vorbis to stratny kodek dźwięku z rodziny Ogg. Bardzo często używany jest w połączeniu z kontenerem Ogg i nosi wtedy nazwę Ogg Vorbis, często błędnie zapisywaną tylko jako Ogg. Ogg Vorbis potrafi obsłużyć do 255 kanałów i ponad 16-bitowy dźwięk w zakresie 6-48 kHz.

Dane techniczne tych formatów należą do public domain. Biblioteki dystrybuuje się na prawach licencji z rodziny BSD, a narzędzia na zasadach GNU GPL.

Rozszerzenie plików Ogg Vorbis to .ogg.

Charakterystyka formatu Ogg Vorbis

Vorbis jest kodekiem ogólnego zastosowania. Ponieważ jego schemat kompresji przedkłada jakość wynikowej fali dźwiękowej nad jej zgodność z zakodowywanym oryginałem, najlepiej sprawdza się w tworzeniu plików o dużym stopniu kompresji (od 48 do 128 kbps). Uznaje się, że średnia jakość dźwięku zakodowanego w formacie Ogg Vorbis jest porównywalna do AAC i wyższa niż MP3 o tej samej przepływności.

w odróżnieniu od MP3 format Ogg Vorbis nie jest opatentowany i pozostaje bezpłatny, zarówno do celów prywatnych, jak i komercyjnych
dekodowanie plików zapisanych w tym formacie wymaga większego zapotrzebowania na moc obliczeniową procesora niż MP3 (w przenośnych odtwarzaczach szczególnie uwidacznia się to poprzez skrócenie czasu pracy)
jest kodekiem z natury VBR

Aby uniknąć pomyłki przy dobraniu odpowiedniej wartości przepływności w zależności od ilości kanałów dźwiękowych, niektóre programy kodujące materiał audio do formatu Ogg Vorbis (np. Audacity) zamiast jawnie określonej przepływności używają umownej skali Q (skali jakości) odnoszącej się do jakości nagrania. Poniżej przedstawiono znaczenie poszczególnych jej wartości na skali przepływności dla 2 kanałów dźwiękowych (stereo), 16 bitowego dźwięku o próbkowaniu 44,1kHz:

skala Q	przepływność nominalna
-2 (tylko aoTuV b2 i nowszy)	32 Kbps
-1	45 Kbps
0	64 Kbps
1	80 Kbps
2	96 Kbps
3	112 Kbps
4	128 Kbps
5	160 Kbps
6	192 Kbps
7	224 Kbps
8	256 Kbps
9	320 Kbps
10	499,9 Kbps

Tworzenie plików Vorbis

Oggdrop oraz OggdropXPd to małe i proste, ale w pełni funkcjonalne programy działające według zasady przeciągnij i upuść. Przeciągając do okna programu pliki WAV otrzymujemy skompresowane pliki Ogg Vorbis. Możliwe jest dokładne ustalenie jakości dźwięku. Bezpośrednie kodowanie do formatu Ogg Vorbis umożliwia także program FreeRIP (strona projektu) do zgrywania muzyki z płyt CD-Audio. Otwarty edytor dźwiękowy Audacity umożliwia eksport wynikowego materiału dźwiękowego do formatu Ogg Vorbis.

powrót^