[successivo] [precedente] [inizio] [fine] [indice generale] [indice ridotto] [translators] [docinfo] [indice analitico] [volume] [parte]

Capitolo 528. Concetti generali sui formati audio digitali

Esistono alcuni concetti generali che riguardano i vari formati audio digitali, da conoscere, almeno superficialmente, per poter comprendere il significato delle funzioni dei programmi che generano o elaborano tali formati.

528.1 Composizione del suono

Si può considerare ogni tipo di suono come la somma di vibrazioni, ognuna con una propria frequenza di oscillazione e ampiezza. Per gestire il suono in modo elettrico, questo viene trasformato (analogicamente) in un segnale elettrico che oscilla riproducendo le stesse frequenze e un'ampiezza proporzionale tra le varie vibrazioni. Un suono si può rappresentare in un piano cartesiano, mettendo normalmente nell'asse orizzontale il tempo e in quello verticale la variazione di ciò che ne rappresenta il mezzo trasmissivo: la pressione dell'aria o il livello del segnale elettrico.

Figura 528.1. Se l'asse orizzontale rappresenta il tempo in millesimi di secondo (simbolo: «ms»), il disegno rappresenta un'oscillazione alla frequenza di 2 000 cicli al secondo, ovvero 2 000 Hz.

sin(2*x*2*pi)

Figura 528.2. Comparazione tra due vibrazioni: la prima alla frequenza di 2 000 Hz, la seconda alla frequenza di 7 000 Hz, con un'ampiezza pari alla metà del prima.

sin(2*x*2*pi) 0.5*sin(7*x*2*pi)

Figura 528.3. Suono composto da due vibrazioni: la prima alla frequenza di 2 000 Hz, la seconda alla frequenza di 7 000 Hz, con un'ampiezza pari alla metà del prima.

sin(2*x*2*pi)+0.5*sin(7*x*2*pi)

528.2 Rappresentazione digitale del suono

Per poter rappresentare il suono in forma digitale (ovvero in forma numerica), occorre fare una semplificazione, che comporta la suddivisione del tempo in segmenti abbastanza piccoli, all'interno dei quali si va a misurare il livello dell'intensità di ciò che trasmette il suono (di solito si tratta del livello del segnale elettrico). In pratica, è come ridurre un diagramma continuo, in un istogramma che ne approssima la forma. Questo procedimento è la campionatura (sampling).

Figura 528.4. Campionatura con valori numerici che possono essere sia positivi, sia negativi.

campionatura

Figura 528.5. Campionatura con valori numerici che possono essere solo positivi.

campionatura

La campionatura digitale si misura in quantità di campioni prelevati al secondo, pertanto si misura in hertz (simbolo: «Hz»).

Si comprende intuitivamente che la riproduzione di un suono digitalizzato comporta la ricostruzione di una vibrazione ottenuta per interpolazione dei valori dei vari campioni; di conseguenza: maggiore è la frequenza di campionamento (sampling rate), migliore è la qualità della riproduzione che si può ottenere; inoltre, maggiore è la precisione del campione, migliore è la qualità del suono.

Sul piano teorico, si afferma che la frequenza massima che si vuole poter riprodurre richiede una frequenza di campionamento maggiore del doppio di questa. Per esempio, per riprodurre vibrazioni fino a 20 000 Hz occorre una frequenza di campionamento superiore a 40 000 Hz.

528.3 Formati audio non compressi

I formati dei file audio non compressi, sono di tanti tipi, dove in particolare vanno considerate le caratteristiche dei campioni stessi. La tabella 528.6 descrive brevemente le caratteristiche di un file del genere.

Tabella 528.6. Caratteristiche di un file audio.

Caratteristica	Descrizione
dimensione del campione	La grandezza del campione, che di solito è in multipli di byte. Maggiore è la grandezza del campione, migliore è la qualità del suono memorizzato.
ordine dei byte	Il contenuto del campione va interpretato tenendo conto dell'ordine in cui vanno presi i byte, che possono essere nella sequenza normale (big endian) o a coppie scambiate (little endian).
codifica	Ogni campione rappresenta un numero, che può essere intero o a virgola mobile, da intendersi linearmente o come argomento di una funzione non lineare.
frequenza di campionamento	Il campionamento avviene a una frequenza regolare: maggiore è questa frequenza, migliore è la qualità del suono memorizzato.
numero di canali	Generalmente si memorizzano uno o due canali, per una registrazione monofonica o stereofonica, tuttavia questi possono essere anche di più. Per ogni canale viene memorizzato un campione separato a ogni ciclo della frequenza di campionamento.
intestazione	Un file audio può essere grezzo o con intestazione, a seconda che contenga semplicemente la sequenza dei campioni o che prima di questa contenga la descrizione del suo formato.

Una registrazione audio di qualità equivalente a quella dei CD audio è fatta a campioni di 16 bit, a una frequenza di 44 100 Hz; per arrivare al livello di un DAT (Digital audio tape) si passa a una frequenza di campionamento di 48 000 Hz. Pertanto, un secondo di registrazione a qualità CD, in stereofonia, comporta l'utilizzo di 2·16·44 100 = 1 411 200 bit, pari a 176 400 byte; così, un secondo di registrazione a qualità DAT, in stereofonia, comporta l'impiego di 192 000 byte.

È importante sottolineare la differenza che c'è tra un file audio con intestazione, rispetto a quello che non ne è provvisto: quando si passa un file audio grezzo a un programma che deve eseguirlo o elaborarlo, occorre specificare al programma tutte le caratteristiche del file, perché non può determinarle automaticamente. In particolare, occorre fare attenzione quando si trasferisce un file del genere da un'architettura a un'altra, dove nel passaggio può cambiare l'ordine dei byte.

528.4 Formati audio compressi

Dopo la campionatura di un'informazione sonora, è possibile applicare delle tecniche per ridurre le dimensioni dei dati, ovvero per ottenerne la compressione. Si distinguono due situazioni: la compressione senza perdita che consente la ricostruzione dei campioni originali, rispetto a una compressione con perdita di informazioni. I formati audio compressi sono diversi e si distinguono per l'algoritmo di compressione.

Nella realizzazione di un file audio compresso si stabilisce un parametro in più rispetto ai file non compressi: il flusso massimo di dati per unità di tempo, noto come bit rate. Naturalmente, maggiore è questo valore, migliore è la qualità del suono riprodotto. Generalmente, si ottiene una buona qualità di registrazione stereofonica con un tasso del flusso di dati di 128 kbit/s. In fase di creazione di un file audio di questo tipo, si può stabilire che il tasso del flusso di dati sia costante o variabile (nel secondo caso si parla di variable bit rate e si usa la sigla «VBR»); in particolare, in caso di tasso variabile potrebbe essere stabilito un valore medio o un intervallo di valori da rispettare.

Un file audio compresso, può limitarsi a contenere l'informazione sonora per la quale è stato realizzato, oppure può essere inserito in un «contenitore» (container), che consente l'inserimento di informazioni addizionali. Per esempio, il formato compresso Vorbis è contenuto normalmente in un formato Ogg, da cui il nome Ogg Vorbis. Per la stessa ragione, esiste un formato FLAC (normale) e un formato Ogg FLAC (FLAC contenuto in Ogg. Nel caso di MP3, il nome è ambiguo, perché può fare riferimento al contenitore o al contenuto audio compresso.

528.4.1 Informazioni di un contenitore MP3

Un file MP3 può includere delle informazioni importanti sul suo contenuto, oltre a ciò che è indispensabile per la riproduzione (come per esempio l'informazione sulla frequenza di campionamento). In generale, conviene stabilire questi dati nella fase di codifica del file stesso, mentre una parte di questi può essere modificata anche dopo.

Tabella 528.7. Informazioni comuni che possono essere inserite in un file MP3.

Informazione	Tipo	Significato
originale	booleano	Indica se il contenuto è originale.
copyright	booleano	Indica se il contenuto è coperto da copyright.
titolo	testo	Titolo della canzone o di ciò che è contenuto nel file.
artista	testo	Nome dell'artista o degli artisti.
album	testo	Nome dell'album di cui fa parte il contenuto del file.
anno	testo	Anno di edizione.
commento	testo	Commento aggiuntivo.
traccia	numero	Numero della traccia nel CD a cui si fa riferimento.
genere	numero	Genere, definito da un codice numerico prestabilito.

Tabella 528.8. Genere, secondo lo standard ID3.

Genere	Definizione	Genere	Definizione
0	Blues	1	Classic Rock
2	Country	3	Dance
4	Disco	5	Funk
6	Grunge	7	Hip-Hop
8	Jazz	9	Metal
10	New Age	11	Oldies
12	Other	13	Pop
14	R&B	15	Rap
16	Reggae	17	Rock
18	Techno	19	Industrial
20	Alternative	21	Ska
22	Death Metal	23	Pranks
24	Soundtrack	25	Euro-Techno
26	Ambient	27	Trip-Hop
28	Vocal	29	Jazz+Funk
30	Fusion	31	Trance
32	Classical	33	Instrumental
34	Acid	35	House
36	Game	37	Sound Clip
38	Gospel	39	Noise
40	Alt. Rock	41	Bass
42	Soul	43	Punk
44	Space	45	Meditative
46	Instrumental Pop	47	Instrumental Rock
48	Ethnic	49	Gothic
50	Darkwave	51	Techno-Industrial
52	Electronic	53	Pop-Folk
54	Eurodance	55	Dream
56	Southern Rock	57	Comedy
58	Cult	59	Gangsta Rap
60	Top 40	61	Christian Rap
62	Pop/Funk	63	Jungle
64	Native American	65	Cabaret
66	New Wave	67	Psychedelic
68	Rave	69	Showtunes
70	Trailer	71	Lo-Fi
72	Tribal	73	Acid Punk
74	Acid Jazz	75	Polka
76	Retro	77	Musical
78	Rock & Roll	79	Hard Rock
80	Folk	81	Folk/Rock
82	National Folk	83	Swing
84	Fast-Fusion	85	Bebob
86	Latin	87	Revival
88	Celtic	89	Bluegrass
90	Avantgarde	91	Gothic Rock
92	Progressive Rock	93	Psychedelic Rock
94	Symphonic Rock	95	Slow Rock
96	Big Band	97	Chorus
98	Easy Listening	99	Acoustic
100	Humour	101	Speech
102	Chanson	103	Opera
104	Chamber Music	105	Sonata
106	Symphony	107	Booty Bass
108	Primus	109	Porn Groove
110	Satire	111	Slow Jam
112	Club	113	Tango
114	Samba	115	Folklore
116	Ballad	117	Power Ballad
118	Rhythmic Soul	119	Freestyle
120	Duet	121	Punk Rock
122	Drum Solo	123	A Cappella
124	Euro-House	125	Dance Hall
126	Goa	127	Drum & Bass
128	Club-House	129	Hardcore
130	Terror	131	Indie
132	BritPop	133	Negerpunk
134	Polsk Punk	135	Beat
136	Christian Gangsta Rap	137	Heavy Metal
138	Black Metal	139	Crossover
140	Contemporary Christian	141	Christian Rock
142	Merengue	143	Salsa
144	Thrash Metal	145	Anime
146	JPop	147	Synthpop

Le informazioni più voluminose, come il titolo e le altre stringhe di testo, vanno aggiunte in coda al file MP3. Il modo in cui questi dati vengono segnalati nel file dipende da standard differenti che nel tempo sono stati aggiornati. In questo senso, alcuni programmi non aggiornati potrebbero anche non essere in grado di leggere ciò che viene scritto con standard più recenti.

528.5 Informazioni di un contenitore Ogg

Anche il contenitore Ogg consente l'inserimento di informazioni addizionali; in particolare un'intestazione composta da campi individuati da nomi. Non esistono campi descrittivi obbligatori e campi con lo stesso nome possono apparire più di una volta (per esempio nel caso dell'indicazione di più di un autore). La documentazione di Ogg propone uno standard nell'utilizzo dei campi descrittivi e in particolare vale la pena di considerare quelli seguenti:

Campo	Utilizzo
TITLE	titolo della traccia o dell'opera;
ALBUM	titolo della raccolta a cui appartiene la traccia;
TRACKNUMBER	numero della traccia, se si tratta di una raccolta;
ARTIST	artista esecutore o compositore dell'opera;
COPYRIGHT	informazioni sul diritto di autore relativo all'opera;
LICENSE	condizioni di utilizzo dell'opera;
GENRE	descrizione del genere dell'opera;
ISRC	numero ISRC di identificazione dell'opera (sezione 527.1).

Si può osservare in questo caso che non è stata prevista una classificazione preliminare dei generi.

Dovrebbe essere possibile fare riferimento a questa pagina anche con il nome concetti_generali_sui_formati_audio_digitali.htm

[successivo] [precedente] [inizio] [fine] [indice generale] [indice ridotto] [translators] [docinfo] [indice analitico]