Appunti‎ > ‎Formati audio‎ > ‎

Formati audio di prima categoria compressi

Lossless (senza perdita)

Questi formati lavorano in modo analogo allo zip. Comprimono il contenuto senza eliminare nulla. Al momento dell'ascolto bisogna effettuare una decompressione ritornando all'originale in uno dei formati lineari già visti.
Trattandosi di compressione lossless, il confronto fra questi codec non si fa sulla qualità (tutti restituiscono l'originale), ma sul livello di compressione e sulla velocità di codifica/ decodifica. Come ci si poteva aspettare, i risultati mostrano che le due cose sono inversamente proporzionali.

APE (Monkey Audio)
Permette di ridurre di circa il 50% lo spazio occupato dal suono (in certi casi anche di più).

FLAC
Formato Open Source, di grande popolarità . Una volta era estremamente diffuso (soprattutto tra i puristi), ma sta perdendo via via terreno con l'affermarsi del formato ape di MonkeyAudio che comprime un po' di più, per quanto FLAC abbia dalla sua una velocità di codifica e soprattutto decodifica decisamente maggiori.

LA (Lossless Audio)
Il formato lossless che comprime di più. La conversione in questo formato è lentissima, però ottiene la migliore compressione in assoluto. E' poco diffuso, dato che qualche Mb guadagnato non vale le lunghe attese in più (e un minor supporto da programmi terzi). Altri formati audio compressi senza perdita sono LPAC, OptimFROG, RKAU, TTA per citarne alcuni tra i tanti, mentre più recentemente spicca il formato APPLE LOSSLESS (noto anche come Apple Lossless Encoder, ALE, o Apple Lossless Audio Codec, ALAC), un audio codec sviluppato da Apple Inc. Pur avendo la stessa estensione dei file AAC (.m4a) non è una variante dell'AAC ma usa un algoritmo di linear prediction simile al FLAC e lo Shorten, e vanta un rapporto di compressione variabile tra il 40 ed il 60% a seconda della complessità dell'audio, che è di per sè simile a quella di altri formati, ma la velocità di decodifica lo rende indicato per dispositivi che abbiano una potenza di elaborazione limitata, come ad esempio i recenti lettori portatili iPod e simili. Importante per la diffusione del formato inoltre è stata la sua inclusione nella libreria open source libavcodec, implicando che qualunque player basato su questa libreria, come VLC media player e MPlayer, può riprodurre files Apple Lossless.



Lossy (con perdita)

Come già detto, nella compressione lossy alcuni particolari vemgono eliminati. Al momento della decompressione, quindi, non si ottiene più il file originale e non c'è alcun modo per recuperarlo.
Il primo termine di giudizio, quindi, è la qualità acustica. Il problema di ogni valutazione è che, tranne casi eclatanti ad alti livelli di compressione, non ci sono modi numerici per decidere chi è il migliore, ma, dato che le differenze possono essere minime, bisogna fare i conti almeno con:

  • il genere musicale
  • la cultura dell'ascoltatore
  • le preferenze dell'ascoltatore
  • le modalità di ascolto
  • la qualità dell'impianto di ascolto 

Per fare un esempio estremo, è chiaro che se il mio fruitore-tipo è quello che ascolta heavy metal in macchina, posso permettermi di più rispetto a un ascoltatore di musica classica in ambiente di ascolto accurato.


AIFF Compresso
Estensioni: AIFC

Già molti anni fa Apple ha introdotto il formato AIFC che è la versione compressa del già citato AIFF. Il rapporto di compressione raggiunge 6:1, ma a prezzo di perdita di qualità sensibile del segnale. Rapporti come 2:1 o al limite 3:1 danno buoni risultati anche su suoni complessi. La maggior parte delle applicazioni che leggono gli AIFF sono usabili anche per gli AIFC.


MPEG
Estensioni: MPEG, MPG, MP1, MP2, MP3

La codifica MPEG è, in verità , più nota per i file video, ma poichè ai video di solito si accompagna un audio, il Moving Picture Expert Group (MPEG, appunto) cha fa parte dell'ISO/IEC (International Standards Organization/International Electrotechnical Commission, una organizzazione internazione che promuove standard in vari campi industriali) ha definito le specifiche di uno dei più popolari sistemi di memorizzazione e compressione dell'audio fra quelli utilizzati in Internet attualmente. In realtà , le ricerche per un algoritmo di compressione audio con prestazioni elevate e alta qualità erano iniziate già nel 1987 al Fraunhofer Institut in Germania, con il nome in codice EUREKA project EU147, Digital Audio Broadcasting (DAB). Nel 1988 si insedia l'MPEG come sottogruppo dell'ISO dedicato agli standard audio/ video. In questa sede, l'italiano Leonardo Chiariglione inizia la definizione di uno standard di compressione audio. Le istanze dell'ISO e le realizzazioni Fraunhofer, che nel frattempo aveva brevettato il proprio algoritmo, si incontrano e nel 1992 queste ultime vengono integrate nelle specifiche dell'MPEG-1 che esce nel 1993. L'uscita del primo player realtime, WinPlay 3, lo presenta nel 1995 al grande pubblico che immediatamente ne decreta il successo. La ragione di questo successo, pur non trattandosi del miglior codec lossy, va ricercata nel fatto che con i rapporti di compressione più elevati, possibili con l'mp3, e le ridotte capacità di archiviazione dei pc di quei tempi (in media 400-500 Mb), era possibile gestire l'audio con il computer al di fuori dei formati "instrument-based", come il MIDI-file. Anche la mancanza di restrizioni DRM (Digital Right Management), che ne rendono facile la intercambiabilità tra vari lettori, e la grande disponibilità di musica codificata in questo formato contribuiscono a perpetuarne l'uso anche adesso che non è il formato più avanzato. Per quanto riguarda laquestione dello sfruttamento dei diritti dell'mp3, attualmente c'è una confusione sull'attribuzione della reale proprietà del formato, e la situazione vede Thomson, Fraunhofer IIS, Sisvel, Texas MP3 Technologies, e Alcatel-Lucent tutti impegnati a reclamare la propria legittimità nella riscossione dei diritti sui riproduttori mp3.

I file audio MPEG possono essere di tre tipi diversi ognuno dei quali ha le proprie specifiche. I livelli più elevati impiegano un tempo di codifica/decodifica maggiore, ma comprimono di più senza sacrificare la qualità audio.
Ogni standard può avere diversi layers (chiamati impropriamente "livelli") che rappresentano ciascuno una famiglia di algoritmi di codifica, contrassegnati da un numero romano: Layer I, Layer II, Layer III. Quelli maggiormente utilizzati per l'audio sono stati sviluppati nell'ambito del protocollo MPEG 1 e sono comunemente noti com MP1, 2 o 3 (in realtà il loro nome è MP1 layer I, II o III).

La compressione è basata su modelli psico-acustici che operano in modo simile al ben più noto JPEG sviluppato per le immagini. Il livello MPEG 2 comprime oltre 5:1 e può arrivare a 12:1 senza perdere qualità in modo apprezzabile anche se, come nel caso del JPEG, il risultato dipende dalla complessità del file di partenza (da notare che questi risultati non sono eccezionali se comparati a quelli video dove si arriva a 26:1). Gli impieghi dell'MPEG, comunque, vanno oltre Internet: Philips lo utilizza per il video CD ed è usato anche in numerose radio digitali. I lettori sono stati sviluppati per tutte le piattaforme e sono gli stessi che leggono i file video.

Di seguito le caratteristiche dei 3 formati, considerato che il bitrate (velocità del flusso di dati necessario alla riproduzione del suono) di un file stereo 16 bit 44.1 KHz è circa 1411 Kbps (un segnale stereo, SR 44100, 16 bit produce 2 * 44100 * 2 = 176400 bytes al secondo, il suo bitrate sarà quindi di 176400 * 8 = 1411200 bit al secondo, cioè circa 1411 Kbit):

Layer I
Compressione 1:4
Bitrate 384 Kb/s
Usato nei Philips DCC e nei sistemi digitali professionali. Adotta esclusivamente il metodo di eliminazione delle frequenze mascherate derivato dagli studi di psicoacustica. Ciò significa che elimina quelle frequenze che vengono nascoste dietro ad altre più presenti (masking).


Layer II
Compressione da 1:6 a 1:8
Adotta metodi di filtraggio del segnale audio molto più spinti rispetto al primo modello. E' stato migliorato il metodo della scelta e della eliminazione delle frequenze non necessarie. Codificando a 160 Kb/s si ottiene un buona qualità di suono; a 192 Kb/s si arriva vicini all'originale; a 256 Kb/s risulta difficile notare la differenza dall'originale.

Layer III
Compressione da 1:10 a 1:13
è il più complesso fra i modelli MPEG per l'audio. Non solo adotta filtraggi più massicci rispetto al Layer II, ma utilizza anche un coder estremamente complesso (Huffmann). Può avere velocità di codifica da 32 Kbps a 320 Kbps, con frequenze di campionamento di 32, 44.1 e 48 KHz. Bitrate non-standard fino a 640 Kbps sono possibili con l'encoder LAME, ma non tutti i riproduttori possono decodificare questi files. Codificando il segnale a 128 Kb/s si ottiene un suono sufficientemente buono, questo valore è la soglia di trasparenza al di sotto della quale non si dovrebbe scendere, a meno che non ci siano esigenze stringenti per la dimensione del file; a 160 Kb/s si è molto vicini all'originale; a 192 Kb/s e oltre, è difficile percepire differenze con l'originale. Per risolvere il problema della qualità in rapporto al bitrate, c'è la possibilità di usare il VBR (Variable Bit Rate), cioè dei file in cui il bitrate cambia continuamente in relazione alla complessità della musica da codificare, ma anche questo tipo di file non è universalmente riproducibile dai lettori che si attengono strettamente alle specifiche mp3.

La pagina web ufficiale pubblica i sequenti tassi di compressione per l'MPEG-1 Layer 1,2 e 3.

  • Layer 1: 384 kbit/s, compressione 4:1
  • Layer 2: 192...256 kbit/s, compressione 6:1...8:1
  • Layer 3: 112...128 kbit/s, compressione 10:1...12:1 

Questi sono valori piuttosto aleatori in quanto:

  • La qualità dipende non solo dal formato di codifica del file, ma anche dalla qualità psico acustica del codificatore. Il codificatore tipico layer 1 usa un modello psicoacustico molto elementare che finisce per richiedere molti più bit per un risultato soddisfacente. 
  • La codifica Layer 1 a 384 kbit/s è migliore della codifica Layer 2 a 192 "" 256 kbit/s. * La codifica Layer 3 a 112 "" 128kbit/s è peggiore del Layer 2 a 192 "" 256 kbit/s 

Un modo più realistico per considerare il bitrate è:

  • Layer 1: eccellente a 384 kbit/s 
  • Layer 2: eccellente a 256...320 kbit/s, molto buono a 224...256 kbit/s, buono a 192...224 kbit/s, non si dovrebbe usare sotto i 160 kbit/s 
  • Layer 3: eccellente a 224...256 kbit/s, molto buono a 192...224 kbit/s, buono a 160...192 kbit/s, non si dovrebbe usare sotto i 128 kbit/s 

MP3Pro
MP3Pro, di Thomson Multimedia, è in realtà una combinazione di MP3 e SBR (spectral band replication, vedi SBR Explained - Coding technologies).
Questa tecnologia codifica a parte (cioè in flussi diversi) le componenti a bassa e ad alta frequenza del segnale che viene, così, suddiviso in due parti prima del trattamento. In tal modo ognuna delle due parti viene codificata in modo adeguato ottenendo una qualità migliore, ma anche file leggermente più grossi.

MusePack (MPC noto anche come MP+)
Formato di altissimi risultati (secondo il produttore), soprattutto a bitrate alti (oltre 192 kbps e oltre). Effettivamente, su alcuni brani i risultati sono migliori (più cristallini) dell'mp3 a bitrate costante, soprattutto a bitrate medio/alti (192 kbps). Sono in molti a considerarlo il miglior formato audio lossy, ma in effetti MPC ha risultati migliori perchè utilizza il bitrate variabile (VBR) che lui chiama CVD (crystal voice detection) quindi è prevedibile che vinca facilmente se confrontato all'MP3 con bitrate fisso. In realtà si dovrebbero fare test per confrontarlo con un MP3 a bitrate variabile.

OGG VORBIS
Prende questo nome perchè incapsula il codec Vorbis nel formato Ogg. Sia Vorbis che Ogg sono open source e sono stati creati dalla Xiph.Org Foundation nel 1998 quando sembrava che Fraunhofer Gesellschaft volesse imporre il pagamento dei diritti per l'uso dell'MP3.
Xiph.Org Foundation è una organizzazione non profit che si dedica allo sviluppo di formati multimediali di pubblico dominio, per evitare che l'applicazione dei diritti derivanti dai copyright sui formati possa soffocare la condivisione della conoscenza.
Ogg Vorbis è un ottimo codec open source. Riesce a dare risultati migliori dell'mp3 soprattutto a bitrate bassi (maggior qualità in minor spazio), cioè inferiori a 128 kbps. Proprio per questa ragione la tecnologia Vorbis viene impiegata anche da parecchi grandi produttori di videogames al posto dell'MP3 per evitare eventuali richieste di diritti da parte di Fraunhofer Gesellschaft.

WMA

Formato windows media audio, compresso e molto simile a un mp3. Formato di compressione audio proprietario Microsoft.
I file compressi in questo formato sono di circa il 20 % più piccoli degli Mp3 con qualità generalmente inferiore. Il codec WMA è incapsulato in un ASF, per cui l'estensione può anche essere quest'ultima. In genere si usa WMA quando il contenuto è solo audio.

AAC
L'Advanced Audio Coding (AAC) usato nell'Apple I-Pod è uno schema di compressione che fa parte delle specifiche dell'MP4 le cui specifiche a livello progettuale sono uscite in ottobre 2004. MPEG-4 è una suite di standards che riguardano vari aspetti come multimedia, audio, video e formati di file, ed è più noto per le implicazioni nella codifica video, per cui AAC è solo uno dei profili dell'MP4 (riguardante specificamente la codifica dell'audio), che con le specifiche MPEG-4 part 10 o H.264 copre tutte le esigenze professionali per la compressione e la codifica dell'audio e del video. Le caratteristiche e le migliorie dell'AAC come dichiarate dal produttore:

  • Frequenza di campionamento da 8 kHz a 96 kHz (MP3: da 16 a 48 kHz)
  • Fino a 48 canali di audio
  • Maggiore efficienza di codifica per segnali stazionari (blocksize: 576 -> 1024 samples)
  • Maggiore efficienza di codifica per i transienti (blocksize: 192 -> 128 samples) * Migliore resa per frequenze al di sopra dei 16 kHz
  • Joint stereo più flessibile (separato per ogni banda) 

AAC ha un approccio modulare riguardo la codifica. A seconda della complessità dell'audio da codificare e della qualità desiderata in uscita, esistono differenti profili per differenti modalità d'uso del formato. AAC offre quattro profili di base:

  • Low Complexity Profile (LC) - il più semplice ed il più diffuso.
  • Main Profile (MAIN), che espande l'LC con un algoritmo di prediction.
  • Sample-rate Scalable (SRS), chiamato anche Scalable Sample Rate (MPEG-4 AAC-SSR), che ha grosse similitudini con gli standard Sony ATRAC ed ATRAC-3, usati nei mini-disc. 
  • Long Term Prediction (LTP), aggiunto nell'MPEG-4, un miglioramento del profilo MAIN che usa un algoritmo di prediction di minore complessità. 

A seconda del profilo AAC usato e dell'encoder MP3, un file AAC a 96 kbit/s può dare la stessa qualità percepita di un MP3 a 128 kbit/s. AAC è stato promosso come il più degno successore dell!MP3 per la codifica audio a medio ed alto bitrate, sebbene i bitrate più bassi siano il suo forte, inoltre AAC è il codec di default di iTunes di Apple Inc, il software che interagisce con iPod, il player leader del mercato, circostanza che unita al fatto che iTunes Store vende l!85% della musica scaricata legalmente codificato con l!AAC, e che tutti i lettori concorrenti di iPod, come gran parte dei telefoni cellulari e praticamente tutti gli audio player software per computer implementino AAC rendono di fatto questo formato a tutti gli effetti lo standard attuale della codifica audio lossy.