![]() |
![]() |
Dział ten zawiera formaty w których, stosuje się kompresję stratną. AC3|AAC|MP3|MP4|MPC|WMA|QDesign|Ogg Vorbis Kompresja stratna, to metody zmniejszania ilości bitów potrzebnych do wyrażenia danej informacji, które nie dają gwarancji, że odtworzona informacja będzie identyczna z oryginałem. Dla niektórych danych algorytm kompresji stratnej może odtworzyć informację w sposób identyczny. Kompresja stratna jest możliwa ze względu na sposób działania ludzkich zmysłów, tj. wyższą wartość pewnych części danych nad innymi. Algorytmy kompresji stratnej zazwyczaj posługują się modelami psychoakustycznymi, psychowizualnymi itd., aby odrzucić najmniej istotne dane o dźwięku, obrazie, pozostawiając dane o wyższej wartości dla rozpoznawania tej informacji (akustycznej, wizualnej) przez zmysły. Ilość odrzucanych danych jest zazwyczaj określana przez stopień kompresji. Z tego też względu nie istnieją algorytmy kompresji stratnej, które można stosować do dowolnego typu danych. Np. kompresja stratna plików wykonywalnych byłaby praktycznie niemożliwa do zastosowania, gdyż nie jest to informacja odczytywana przez zmysły, a przez maszynę. AC3 - standard stratnego kodeka dźwięku używany na większości płyt DVD-Video. Powszechnie znany jako Dolby Digital Audio Compression-3, Dolby Digital lub A/52 (nazwa A/52 została przyjęta przez ATSC). Dźwięk jest kodowany z oryginalnego zapisu PCM o częstotliwości próbkowania 48 kHz i próbkowaniu 16-24 bit (czyli o jakości równej lub wyższej niż CD-Audio). Taki zapis, zajmujący ponad 5 Mb/s jest kompresowany do 384kbps lub 448kbps dla dźwięku 5.1 (poniżej kompresja jest zbyt znaczna, wartości wyższe są dosyć rzadko stosowane, głównie na DVD - do 640 kbps) albo 192kbps dla dźwięku 2.0, niestety z pewną stratą jakości, szczególnie wyczuwalną przy słuchaniu płyt z muzyką zapisaną w tym formacie (taką prędkość strumienia stosuje się najczęściej do dźwięku Dolby Digital nadawanego w telewizjach). AC3 pozwala na zapisanie wielokanałowego dźwięku w następujących kombinacjach (przód/tył):
Oprócz tego, do każdej kombinacji można dołączyć kanał z niskimi częstotliwościami (LFE - ang. low frequency effects), określany jako .1. A więc dźwięk 5.1 to 3 głośniki z przodu, 2 z tyłu oraz bezkierunkowy, niskotonowy subwoofer. Każdy odtwarzacz DVD posiada wbudowany dekoder A/52, a dokładniej konwerter A/52 na Dolby Surround, tak aby można było podłączyć go do zwykłego telewizora (nie tracąc przy okazji możliwości uzyskania dźwięku przestrzennego). Najlepiej jest jednak zakupić 6 kanałowy wzmacniacz cyfrowy z dekoderem A/52 (Dolby Digital), który w pełni wykorzysta możliwości formatu. Strumień danych skompresowanych AC3 przenosi też metadane (dane opisujące sygnał audio), ang. metadata - zawierają one informacje o poziomie głośności dialogów, sposobie kompresji dynamiki, sposobie tworzenia tzw. "downmix" - czyli możliwości odtwarzania dźwięku na mniejszej liczbie głośników niż jest zakodowana w oryginalnym strumieniu. Z założenia w strumieniu Dolby Digital transmituje się sygnał z możliwie najwyższą jakością (bez kompresji dynamiki, z maksymalną liczbą kanałów), a wszystkie konieczne obróbki (zmniejszenie dynamiki sygnałów audio, dostosowanie do liczby głośników systemu audio słuchacza) odbywa się na poziomie dekodera odbierającego sygnał. AAC (ang. Advanced Audio Coding) to algorytm stratnej kompresji danych dźwiękowych, którego specyfikacja została opublikowana w roku 1997. Format AAC zaprojektowany został jako następca MP3, oferujący lepszą jakość dźwięku przy podobnym rozmiarze danych. ProfileKompresja AAC jest modularna i oferuje w standardowo cztery profile:
Usprawnienia względem MP3
MP3 jest częścią MPEG-1, będącego standardem kompresji dźwięku i ruchomych obrazów zaproponowanym przez MPEG (Moving Picture Experts Group). Format wideo MPEG-1 używany jest na Video CD. Jakość obrazu przy zwykłej przepustowości VCD jest w przybliżeniu porównywalna do tej znanych z kaset VHS. MPEG-1 składa się z wielu "partii", kolejno:
MP3 (ang. MPEG-1 Audio Layer-3) to popularny format stratnej kompresji dźwięku opierający się na zmodyfikowanej dyskretnej transformacie cosinusowej i używający modelu psychoakustycznego. Format został stworzony we Fraunhofer Institute. Przy tworzeniu jego pierwszej implementacji wykorzystywany był m.in. utwór Suzanne Vegi Tom's Diner w celu dostosowania kompresji do brzmienia ludzkiego głosu. Dźwięk skompresowany z przepływnością (ang. bitrate) 128 kbps daje zazwyczaj zadowalającą jakość na przeciętnym sprzęcie odsłuchowym w komputerach osobistych (128 kbps przyjmuje się jako odpowiadającą niskiej jakości odtwarzaczom CD), dźwięk skompresowany przy 192 kbps jest dla większości ludzi nieodróżnialny od oryginału. Niektórzy słuchacze w celu uzyskania większej jakości dźwięku stosują jeszcze słabszą kompresję (256 lub nawet 320 kbps). Jakość zależy również w dużym stopniu od używanego do kompresji enkodera. Pierwotnie do kompresji MP3 stosowano Constant Bit Rate (CBR), czyli do każdej ramki używano tej samej ilości bitów. Współcześnie używa się raczej Variable Bit Rate (VBR) charakteryzującego się zmienną przepływnością w wybranym przedziale podczas kodowania. Kodowany dźwięk może posiadać postać zarówno jednokanałową (mono) jak i dwukanałową (stereo). Istnieje też format MP3 Surround (do zapisu dźwięku wielokanałowego 5.1) wstecznie zgodny z wcześniejszym standardem. Dla dźwięku stereofonicznego format MP3 posiada trzy tryby kompresji:
Stosowanymi w kompresji MP3 algorytmami kodowania ramki dźwięku stereofonicznego są:
Pliki w tym formacie posiadają rozszerzenie .mp3. CBR dostępne w MP3: 8 kb/s 16 kb/s 32 kb/s 40 kb/s 64 kb/s 80 kb/s 96 kb/s 112 kb/s 128 kb/s 160 kb/s 192 kb/s 224 kb/s 256 kb/s 320 kb/s MP4 (MPEG-4 Part 14) jest to standard kodowania dźwięku i obrazu. Został napisany z myślą o telewizji cyfrowej oraz przesyłaniu multimediów przez internet Zapewnia dobrą jakość przesyłanych danych przy niskiej prędkości transferu. Rozszerzenie plików w tym formacie to *.mp4 lub *.m4a. Format MPEG4 Audio jest to najprościej zbiór norm określających kodowanie naturalnego oraz syntetycznego dźwięku. Części dotyczące kodowania syntetycznego to SA (Structured Audio) oraz TTSI (Text-to-Speech Interface), zwierają narzędzia umożliwiające symboliczną definicje muzyki oraz mowy, jak np. MIDI oraz system "Text-to-Speech". Co więcej, zawarte są tam również narzędzia do lokalizacji dźwięku 3D, pozwalające na tworzenie naturalnej oraz sztucznej przestrzeni dźwiękowej. MPEG4 Audio określa także kodowanie dźwięku naturalnego, dla pasma przesyłania począwszy od 2 kbps. Stosowane są 3 rodzaje kodeków: PARA (Parametric Codec) dla najniższych przepustowości, CELP (Code Excited Linear Predictive) dla średnich, oraz TF (Time-Frequency), zawierający MPEG-2 AAC, który pozwala na uzyskanie najwyższej jakości dźwięku. MPEG4 oferuje także nowe możliwości, jak kontrola szybkości przesyłania i położenia widma sygnału, wyciszanie błędów oraz skalowalność, w której skład wchodzi: 1. Skalowalność prędkości przesyłania (bit rate scalability), pozwala na przekształcenie określonego strumienia bitów w strumień o niższej szybkości przesyłania, umożliwiając bezbłędną transmisję w zmiennych warunkach. W MPEG4 jednym ze skalowanych formatów jest standard BASC (Bit Sliced Arithmetic Coding), sposób kodowania zbliżony jest do AAC, enkoder różni się jedynie ulepszonym modułem odpowiedzialnym za dynamikę. Dzięki temu, przy zawężeniu pasma transmisji poniżej 40 kbps, pogorszenie jakości jest prawie niezauważalne. W praktyce, podczas transmisji enkoder jest w stanie zmieniać pasmo od 16 do 64 kbps, z krokiem 1 kbps.
SAOL (Structured Audio Orchestra Language) definiuje "orkiestrę" za pomocą poszczególnych "instrumentów". "Instrument" jest to niewielka sieć danych dla procesora sygnałowego, pozwalająca na emulację naturalnego brzmienia instrumentu muzycznego. SASL (Structured Audio Score Language) jest używany do tworzenia nowych efektów oraz zawiera informacje służące modyfikowaniu istniejącego dźwięku Pozwala na lepszą kontrolę syntezy oraz bardziej naturalny efekt końcowy. W przypadku, gdy nie jest wymagana szczegółowa kontrola, do przesyłania danych o instrumenatch może być wykorzystany protokół MIDI. W formacie MPEG4 po raz pierwszy pojawia się także pojęcie "obiektu audio". Najprościej można go zdefiniować jako słyszalną część docierającego do odbiorcy materiału dźwiękowego, zakodowaną za pomocą pojedynczego strumienia bitów. Może to być np. głos jednego lub kilku mówców, dźwięk jednego lub kilku instrumentów lub tło akustyczne. Obiekty audio mogą być grupowane oraz miksowane, przy czym rozdzielenie pojedynczego obiektu na mniejsze składowe jest już dosyć trudne. Możliwości wykorzystania tego sposobu transmisji są bardzo rozległe: Każdy z obiektów dźwiękowych może być dowolnie modyfikowany, zależnie od potrzeb. W trudniejszych warunkach transmisji, możliwe jest ograniczenie pasma lub całkowite usunięcie obiektów nie mających wpływu na treść przekazu. Musepack (MPC) - format stratnej kompresji dźwięku, bazujący na algorytmach MPEG Layer-2 (MP2), jednakże znacznie w stosunku do nich rozbudowany. Format został zaprojektowany tak, by dawać dźwięk nierozróżnialny od oryginału przy standardowych ustawieniach (tzw. przezroczystość, ang. transparency), co osiąga przy przepływności (bitrate) niższej niż inne popularne kodeki (jak np. MP3). Algorytm zaprojektowano tak, aby przechowywał jak najwięcej informacji, dlatego najlepiej sprawdza się dla wysokich przepływności (od 140 kbit/s wzwyż), natomiast dla przepływności poniżej 112 kbit/s jakość dźwięku w tym formacie gwałtownie spada. Wzorcowa implementacja Musepack jest szybsza niż większość popularnych kodeków dźwięku. Prace nad MPC rozpoczął w 1997 Andree Buschmann, a w tej chwili rozwija go Frank Klemm. Pliki w formacie Musepack mają zwykle rozszerzenie .mpc lub (rzadziej) .mpp bądź .mp+. Zazwyczaj tagi w plikach MPC zapisywane są metodą APEv2. Charakterystyka formatuZalety
Wady
WMA (ang. Windows Media Audio) - format kompresji dźwięku stworzony przez Microsoft Corporation. W zamierzeniach producenta ma konkurować z formatem MP3. Powodem stworzenia WMA mogły być konflikty patentowe z Fraunhofer Institute - twórcą formatu MP3, dotyczące dołączania kodeka MP3 do systemu Windows. Według Microsoftu WMA zapewnia jakość dźwięku znacznie lepszą niż MP3, a początkowo firma z Redmond twierdziła nawet, że WMA dorównuje jakości płyty CD przy przepływności równej 64 kbps. Niezależne testy odsłuchowe pokazały, że choć WMA przy przepływności 96 kbps i niższych brzmi nieco lepiej niż MP3, to jednak przy wysokich przepływnościach oferuje zauważalnie gorszą jakość dźwięku. Kodek w żadnym wypadku nie dorównuje jakości płyty CD przy 64 kbps. Wraz z Windows Media Player 9 Microsoft zaprezentował nowe kodeki z rodziny WMA: WMA 9 Professional (obsługujący dźwięk wielokanałowy), WMA 9 Lossless (bezstratny) i WMA 9 Voice (zoptymalizowany do przesyłania głosu przy bardzo niskiej przepływności). Wszystkie trzy nie są wstecznie kompatybilne. QDesign - kodek audio, oryginalnie LBpack Dmitra Shmunka. Firma QDesign kupiła kodek i zatrudniła twórcę, aby stworzył coś, co stanie się oficjalnym kodekiem audio w QuickTime firmy Apple Computers. Oficjalną nazwą kodeka jest RaveSound, zgodnie z tym artykułem w prasie, jednak zwykle nazywany jest kodekiem QDesign. Jest on znany jako jeden z najbardziej agresywnych kodeków, co oznacza, ze kompresuje całkiem dobrze przy małych bitrate. Jednak jego agresywność wprowadza zbyt wiele "artefaktów" przy większych bitrate. Wersja personal dostępna jest wraz z QuickTime Pro i pozwala na kodowanie przy bitrate do 48 kbit/s. Wersja profesjonalna kodeka pozwala na kodowanie z bitrate dochodzącym do 128 kbit/s. Vorbis to stratny kodek dźwięku z rodziny Ogg. Bardzo często używany jest w połączeniu z kontenerem Ogg i nosi wtedy nazwę Ogg Vorbis, często błędnie zapisywaną tylko jako Ogg. Ogg Vorbis potrafi obsłużyć do 255 kanałów i ponad 16-bitowy dźwięk w zakresie 6-48 kHz. Dane techniczne tych formatów należą do public domain. Biblioteki dystrybuuje się na prawach licencji z rodziny BSD, a narzędzia na zasadach GNU GPL. Rozszerzenie plików Ogg Vorbis to .ogg. Charakterystyka formatu Ogg VorbisVorbis jest kodekiem ogólnego zastosowania. Ponieważ jego schemat kompresji przedkłada jakość wynikowej fali dźwiękowej nad jej zgodność z zakodowywanym oryginałem, najlepiej sprawdza się w tworzeniu plików o dużym stopniu kompresji (od 48 do 128 kbps). Uznaje się, że średnia jakość dźwięku zakodowanego w formacie Ogg Vorbis jest porównywalna do AAC i wyższa niż MP3 o tej samej przepływności.
Aby uniknąć pomyłki przy dobraniu odpowiedniej wartości przepływności w zależności od ilości kanałów dźwiękowych, niektóre programy kodujące materiał audio do formatu Ogg Vorbis (np. Audacity) zamiast jawnie określonej przepływności używają umownej skali Q (skali jakości) odnoszącej się do jakości nagrania. Poniżej przedstawiono znaczenie poszczególnych jej wartości na skali przepływności dla 2 kanałów dźwiękowych (stereo), 16 bitowego dźwięku o próbkowaniu 44,1kHz:
Tworzenie plików VorbisOggdrop oraz OggdropXPd to małe i proste, ale w pełni funkcjonalne programy działające według zasady przeciągnij i upuść. Przeciągając do okna programu pliki WAV otrzymujemy skompresowane pliki Ogg Vorbis. Możliwe jest dokładne ustalenie jakości dźwięku. Bezpośrednie kodowanie do formatu Ogg Vorbis umożliwia także program FreeRIP (strona projektu) do zgrywania muzyki z płyt CD-Audio. Otwarty edytor dźwiękowy Audacity umożliwia eksport wynikowego materiału dźwiękowego do formatu Ogg Vorbis. |
||||||||||||||||||||||||||||||||||||||||||||||||||||