[AV-Com / puschpull] MPEG komprese

MPEG

MPEG je zkratka pro Moving Picture Expert Group, komisy, která se zabývá vývojem standardů pro komprimaci videa a připojeného audio signálu. Skupina pracuje pod organizací ISO - International Standards Organization.
Existuje několik norem pro kompresi videa MPEG, které vyhovují různým oblastem využití.

MPEG-1

- Tato nejpoužívanější norma je navržena s ohledem na technologii CD tak, že nejvyšší datový tok je až 1,5 Mb/s. V principu je norma MPEG-1 definována až do velikosti obrázku 4095x4095x60 (60 snímků za sekundu). Norma MPEG-1 sestává ze čtyř částí:
- IS 11172-1 popisuje synchronizaci a multiplexaci videa i zvukového signálu.
- IS 11172-2 popisuje kompresi neprokládaného video signálu.
- IS 11172-3 popisuje kompresi připojeného audio signálu.
- IS 11172-4 popisuje testování shody přenesených dat s původními.

MPEG-2

- Tato norma je navržena s ohledem na využití v dálkových a satelitních přenosech signálu při zachování televizní kvality. Norma MPEG-2 umožňuje rozlišení až do 16383x16383 bodů, jediné omezení je, že výška i šířka snímku musí být dělitelná 16 pro lepší rozdělení na oblasti při komprimaci.
(Důležitým rozdílem oproti normě MPEG-1 je také to, že MPEG-1 pracuje pouze s neprokládanými celými snímky, ale MPEG-2 dovoluje vedle neprokládaných snímků také použití snímků prokládaných. To může být výhodou při použití televizních přijímačů, které právě prokládání obrazu používají.)

MPEG-3

- Tato norma byla původně myšlena jako podpora HDTV, tedy televize s vysokým rozlišením, ovšem tuto oblast byla po úpravách schopna pokrýt i norma MPEG-2. Od normy MPEG-3 se tedy upustilo a dále se nepoužívá.

MPEG-4

- Na rozdíl od rostoucích požadavků na datový tok v předcházejících normách je norma MPEG-4 definována pro přenos videa a připojeného audio signálu po pomalých linkách s rychlostí od 4800 do 64000 bitů/s, tedy převážně po modemech. Tato rychlost je velice malá a MPEG-4 proto vychází z rozlišení 176x144 bodů při 10 snímcích za sekundu.
Trochu blíže ke standardům pro kompresi zvuku
IS 11172-3 normy MPEG-1 popisuje kompresi audio signálu. Existují tři kódovací schémata nazývaná Layer 1 až 3. Zvyšující se číslo "vrstvy" vyjadřuje zvyšující se kvalitu zvuku a tím i složitost kódovacího procesu. Pro každou vrstvu je specifikován formát datového toku a dekodér. V souladu se zvyšující se náročností a složitostí použitého algoritmu se zvyšujícím se číslem vrstvy je použita hierarchická kompatibilita vrstev. To znamená, že dekodér postavený na vrstvu N je schopen dekódovat i vrstvu s nižším číslem.
Celkový datový tok MPEG-1 může být maximálně 1,5 Mb/s - z toho je 1,2 Mb/s rezervováno pro video data a 0,3 Mb/s pro audio data. Pro srovnání: datový tok u CD (stereo, 16 bitů, 44,1 kHz) je 1,4 Mb/s. MPEG podporuje kompresní poměry od 1:2,7 až po 1:24. Kompresní poměr 1:6 (256 kb/s) se jeví co do kvality při vhodných poslechových podmínkách podle zkušeností jako naprosto nerozeznatelný od originálu. Vyšší kompresní poměry se již mohou projevit na kvalitě reprodukovaného zvuku, protože i v případě komprese zvuku se jedná o ztrátovou kompresi.
Důležitým pojmem pro kompresi audio dat ve formátu MPEG je psychoakustika, přesněji psychoakustický model. (O aplikaci psychoakustického modelu se často mluví jako o "perceptual noise shaping" nebo "perceptual subband transform coding".) Komprese je u tohoto ztrátového modelu založena na stejném principu jako využití redundance informací v grafických datech - kompresor vynechá detaily, jež jsou pro lidské ucho nepostižitelné. Průměrné lidské ucho je schopno zachytit zvuk přibližně v těchto mezích:
_ frekvenční rozsah 20 Hz - 20 kHz
_ dynamický rozsah (ticho - hluk) asi 96 dB
Citlivost je u lidského ucha nelineární a právě toho se využívá.
První metoda zvaná Frequency Masking je založená na tom, že lidské ucho není schopno rozlišit v přítomnosti silného signálu signál slabší, který tak zanikne.
Druhá metoda zvaná Temporal Masking je založena na setrvačnosti vjemu zvuku. Například když budeme přehrávat signál 1 kHz hlasitostí 60 dB a k němu ještě tón 1,1 kHz hlasitostí 40 dB, bude druhý tón překryt a tudíž bude neslyšitelný. Poté co vypneme silnější signál, bude tón ještě asi 5 ms neslyšitelný. Tuto prodlevu lze taktéž využít ke zjednodušení dat.

Jak již bylo uvedeno, formát MPEG definuje v základu 3 typy vrstev. Data se dělí na tzv. frames. Každý frame se pak skládá z 384 jednotlivých vzorků.

_ Layer 1 - dělící filtr pracující s critical band (poměr hlasitosti a závislosti citlivostí na frekvenci), je aplikován na jednotlivé frames a používá stejnou frekvenci. Psychoakustický model zde používá pouze Frequency Masking. Datový tok se může pohybovat od 32 kb/s do 448 kb/s.

_ Layer 2 - oproti Layer 1 dělící filtr pracuje s 3 framy najednou (předchozí, současný a následující = 1152 vzorků) a je zde použito jednoduché Temporal Masking. Soubory mají koncovku *.mp2 a datový tok je z intervalu od 32 kb/s do 384 kb/s.

_ Layer 3 - je použit lepší dělící filtr s proměnnou frekvencí. Psychoakustický model zde používá plně Temporal Masking a redukce vazeb mezi stereo signály. Soubory mají koncovku *.mp3. Datový tok je z intervalu od 32 kb/s do 320 kb/s.

(Všechny tři vrstvy mohou používat vzorkovací frekvenci 32 kHz, 44,1 kHz nebo 48 kHz.
Všechny tři vrstvy používají stejnou banku akustických filtrů. Layer 3 navíc používá diskrétní kosinovou transformaci pro zvýšení frekvenčního rozlišení.
V toku dat používají všechny vrstvy stejnou identifikační "hlavičku" i celkovou strukturu datového toku. To umožňuje dříve zmíněnou hierarchickou kompatibilitu všech tří vrstev.)

Samozřejmě je možné kompresní schéma MPEG používat i pro přehrávání a kopírování zvukových CD nosičů. Je ovšem nutné připomenout, že při tom nesmějí být porušena práva pro šíření a kopírování nahrávek.

Programům, které dokáží přímo z audio CD uložit skladby do formátu WAV, se obecně říká "grabovací programy" (CD Rippers). Podmínkou je ovšem dobrá mechanika CD-ROM, která umožňuje načítat audio stopy na CD jako datové soubory.

Soubory MP3 používají kompresi MPEG Audio Layer 3. Když při kompresi stereo audio souboru typu WAV (stereo, 16 bitů, 44,1 kHz) použijete parametry 128 kb/s a vzorkovací frekvenci 44,1 kHz, získáte soubor MP3, který se kvalitou blíží audio CD.

Soubory WAV v kvalitě CD získáte grabováním z audio CD nebo nahráváním pomocí LINE IN na zvukové kartě. Při nahrávání LINE IN však dochází ke dvěma konverzím signálu D/A a A/D, a tudíž ke zkreslení - lepší grabovací programy tento nedostatek dokáží obejít.

Největší výhodou MP3 je velikost souboru - kompresní poměr při CD kvalitě dosahuje 12:1. Na jedno datové CD je tak možné uložit 12 až 13 klasických audio CD. Toto datové CD je pak možné přehrávat (s použitím příslušného softwaru) v kvalitě, která se i pro cvičené ucho jeví jako nerozeznatelná od originální nahrávky.