Nuove Tecnologie e linguaggi Musicali - Conservatorio "A.Casella" L'Aquila
Scuola di Musica Elettronica

Attenzione, queste pagine saranno manutenute in futuro in questo nuovo sito

Voce e timbro: individualità, genere ed età

Le brevi note che seguono trattano di aspetti timbrici della voce umana dal punto di vista di segnale. Per gli aspetti fisiologici e specificamente acustici della voce umana, si rimanda al corso di psicoacustica e a testi generali (ad esempio, il Cap. 11 di Mario Uberti in "Acustica Musicale e Architettonica" - UTET).

La voce umana

Fisicamente, l'emissione vocale è il risultato della vibrazione delle corde vocali, che emettono una vibrazione eccitatoria la quale si propaga nelle cavità faringea, buccale e nasale. Queste cavità hanno modi di risonanza propri, che "plasmano" spettralmente il suono emesso, conferendogli un timbro.

Dal punto di vista di segnale, l'eccitazione emessa dalle corde vocali è schematizzabile come un dente di sega (le corde vocali si comportano all'incirca come un'ancia), ovvero come un segnale armonico con ampiezze decrescenti in funzione della frequenza.

 Se ci si limita a considerare l'emissione delle vocali (che sono peraltro quelle che identificano maggiormente il timbro specifico della voce, anche in senso individuale), l'effetto filtrante (o di plasmatura del profilo spettrale) delle cavità oro-rino-faringee si può riassumere nella esaltazione piuttosto selettiva di alcune precise frequenze (se ne considerano 6), dette "formanti". Ogni vocale ha la sua specifica sequenza di formanti, e il processo di identificazione delle vocali consiste proprio nel processo di identificazione (del tutto inconsapevole) delle formanti stesse.

Le frequenze formanti si indicano con la lettera F seguita da una cifra in ordine di frequenza crescente: F1, F2, F3, F4, F5 e F6. L'importanza delle formanti decresce con il crescere dell'ordine, e in effetti le vocali sono, ad un grado 0 di approssimazione,  identificate dalle prime due, ovvero dal loro rapporto (in frequenza), ovvero ancora  dall'intervallo (in senso musicale) tra le due..

Link

Un laboratorio virtuale sulla voce umana.

Grazie a Svante Granqvist, del KTH di Stoccolma, abbiamo a disposizione alcuni intelligenti (semplici, piccoli e leggeri) strumenti software per fare molti interessanti esperimenti. La pagina di link agli strumenti informatici per l'elaborazione del segnale audio       contiene anche il link a questi smptools.

Fissiamo l'attenzione su due di essi. Madde (un singing synthesizer, un sintetizzatore che canta), e RTSect, un oscilloscopio - analizzatore di spettro virtuale in tempo reale (fa anche altre cose, ma nel presente nostro cotesto queste sono le sue funzionalità interessanti). 

Madde produce una canto sintetizzato (in sintesi additiva), e RTSect può essere utiizzato per vedere in tempo reale i segnali prodotti da Madde.

Come utilizzare Madde e RTSect contemporaneamente

Uso di Madde

Uso di RTSect

La voce. Caratteristiche individuali, di genere, di età.

Cosa distingue le voci tra di loro? Cosa, in particolare, fa la distinzione tra una voce maschile, una femminile, una di un bambino?

Le formanti sono risonanze della cavità oro-rino-faringea (il tratto vocale), e dipendono in grande misura dalla forma assunta da queste cavità (nella misura in cui possiamo modificarle per modulare le vocali), e dalle loro dimensioni. Queste ultime sono immodificabili, ovviamente, e quindi "marcano" attraverso il profilo formantico in modo determinante la voce.

C'è quindi da aspettarsi formanti più alte per dimensioni più piccole. Quindi, formanti più alte per i bambini, ad esempio. Le donne hanno mediamente il tratto vocale più corto di circa 20 cm. rispetto agli uomini, e inferiori dimensioni delle altre cavità. Come conseguenza, le loro formanti si collocano più in alto rispetto a quelle degli uomini (mediamente, negli adulti, del 20%). E' questo che determina la differenza di genere (e di età) nel timbro della voce, e non tanto l'altezza della voce stessa (cioè della fondamentale). Un uomo in falsetto continua ad avere un timbro maschile (c'è differenza tra un soprano e un falsettista). In Madde, questo può essere sperimentato modificando il Factor nel riquadro delle formanti. Possiamo provare inoltre ad impostare le frequenze di formanti tratte dai dati forniti in alcuni dei link citati.

Link: Questo articolo è indirizzato ai consulenti dei transessuali, e invita a chiarire (a scanso di delusioni future) ai propri clienti che anche dopo l'intervento di cambiamento di sesso, il timbro della voce resterà quello originale e non potrà essere cambiato modificando semplicemente l'altezza del suono emesso (parlando cioè in falsetto): Acoustic Correlates of Speaker Sex Identification - Coleman.

Cos'è inoltre il timbro "nasale"?  L'apparire di formanti nasali  (200-300 Hz, 1 kHz e 2 kHz) e di diverse "antiformanti" (antirisonanze, cioè soppressione di frequenze), una globale perdita di potenza alla prima formante e alle alte frequenze, assieme ad una diminuzione del Q di tutte le formanti (Eric Keller, University of Lausanne: Tutorial Review:The Analysis of Voice Quality in Speech Processing).

Speech Analyzer

E' un programma gratuito per l'analisi del parlato messo a disposizione da SIL International (Summer Institute of Linguistics), un'organizzazione internazionale per la valorizzazione delle lingue poco conosciute o non scritte, fondata nel 1934 da William Cameron Townsend.

SIL mette a disposizione un ampio catalogo di programmi per la linguistica, molti dei quali gratuiti, per le più diverse piattaforme (Windows, MacOs, Linux, PalmOS, Unix).

WaveSurfer

Uno strumento alternativo (più potente e flessiile) per eseguire questo tipo di analisi è WaveSurfer, del KTH di Stoccolma, gratuito e multipiattaforma (Linux, Windows 95/98/NT/2K/XP, Macintosh, Sun Solaris, HP-UX, FreeBSD, and SGI IRIX ). basato su SNACK, il package per il suono per TclTk.

Questi strumenti possono essere ovviamente usati anche per analisi di suoni di rilevanza musicale, e non solo del canto. 

Un aspetto forense.

Nella pratica forense è usuale sottoporre a perizia le registrazioni effettuate mediante intercettazioni (anche telefoniche), per identificare il parlante. Dato che la collocazione delle formanti nello spettro dipende in grande misura dalle dimensioni delle cavità oro-faringee, è evidente che una cosa difficilmente modificabile o dissimulabile è proprio la collocazione delle formanti. Un parlante può quindi essere identificato in linea di principio da una statistica sulla collocazione delle sue formanti. Secondo Manfred Schroeder queste analisi sono valide per escludere un parlante, ma non per il contrario, a causa dell'incertezza nella determinazione. Come conseguenza, egli contesta l'uso del termine "impronte vocali" (in analogia ad "impronte digitali") come fuorviante.

Link: L'analisi LPC (Linear Predictive Coding) suddivide il segnale complessivo in una eccitazione e in un filtro formantico, ed è quindi particolarmente adatta al segnale vocale. Qui un tutorial (in inglese, introvabile in italiano niente di simile) sull'LPC.  Questo dispositivo invece utilizza questo tipo di analisi in tempo reale, e una corrispondente resintesi, per modificare le formanti (oltre al pitch) e, conseguentemente, il timbro della voce. Inoltre, aggiungiamo, può confondere totalmente qualunque sistema di identificazione del parlante, in un senso o  nell'altro. Può cioè servire sia a non farsi riconoscere, sia a farsi riconoscere come un'altra persona.

Link: Questo programma gratuito dell'Institute of Phonetic Sciences Olandese esegue una quantità di analisi e resintesi della voce, incluse la ricostruzione delle misure del tratto vocale dall'analisi delle formanti. Si tratta di Praat, uno dei migliori strumenti, se non il migliore, per questo genere di analisi.

La formante del cantante.

Cos'è una voce "impostata", come quella di un cantante d'opera?

Niente di meglio che tradurre qui lo abstract di un articolo di Johan Sundberg:

"La formante del cantante" è un picco che emerge nel profilo spettrale attorno ai  3 chilocicli, che si riscontra  tipicamente nelle vocalizzazioni prodotte da cantanti lirici classici. Secondo una ricerca precedente, si tratta  principalmente un fenomeno risonante prodotto dalla fusione (clustering) delle formanti 3, 4 e 5. Il suo livello, rispetto alla prima formante  varia a seconda della vocale, l'intensità della vocale ed altri fattori. Viene qui esaminata la sua dipendenza dalle frequenze delle formanti delle vocali. Applicando la teoria acustica sulla produzione della voce, viene calcolata  la differenza tra i livelli della prima e della terza formante per alcune vocali standard. Viene individuata la differenza fra i livelli osservati e quelli calcolati per  voci diverse. Si è trovato che questa varia considerevolmente tra le vocali cantate dai cantanti professionisti e quelle cantate da principianti.

Si è trovato che la frequenza centrale della formante del cantante, determinata mediante  analisi dello spettro di lungo periodo di registrazioni commerciali, aumenta leggermente con la tessitura della voce.

Johan Sundberg, Voice Research Centre, Department of Speech Music Hearing, KTH, Stockholm, Sweden, Level and Center Frequency of the Singer’s Formant, Journal of Voice, Vol. 15, No. 2, pp. 176–186

Secondo alcuni, la banda di frequenza della formante del cantante è quella dove si riscontra un basso profilo spettrale di lungo periodo ("medio") dell'orchestra lirica. L'impostazione della voce, la concentrazione della potenza sonora nella banda della formante del cantante, sarebbe dunque un mezzo per "emergere" rispetto all'orchestra

 (National Center for Voice and Speech, Iowa University)

Uno studio sulla voce della Sutherland e della Gruberova, all'Università di Ginevra.

Un articolo sulla preferenza nel canto corale per un ambiente risonante sulla formante del cantante, dello International Journal of Research in Choral Singing.

Complessità sottostante.

Questa rapida esposizione non deve trarre in inganno: quello qui affrontato è un tema tutt'altro che semplice e definitivamente chiarito. Anzitutto, quanto finora detto si limita alle vocali, ma l'individualità della voce si basa anche su altri elementi (di carattere transitorio, come le consonanti), non diversamente dagli strumenti musicali, nei quali il profilo formantico è solo uno degli elementi del timbro. Anche limitandosi alle vocali, bisogna bene intendere che queste sono assai di più di quelle che si possano frettolosamente elencare sulla base delle proprie conoscenze. Le vocali non sono un dato assoluto, e non dipendono solo dalla lingua. Vi sono innumerevoli varianti dialettali e sub-dialettali. Questo studio affronta le differenze tra le vocali pisane e quelle  fiorentine, e quest'altro fa un'ampia rassegna dei lavori in corso sullo studio delle vocali (e sulla loro rappresentazione formantica) in funzione di genere, età e dialetto. La determinazione del nesso formanti-vocali, al di là di suddivisioni grossolane, è piena di incertezze dovute all'alta variabilità e - probabilmente - all'intervento di altri meccanismi non puramente percettivi (ad esempio, semantici e cognitivi) nel processo umano di identificazione delle vocali.

Come spesso accade, le statistiche fanno fatica a descrivere e cogliere  fenomeni nei quali il comportamento umano (nelle sue diverse accezioni) sia presente in modo determinante. Questa complessità dà conto dell'estrema lentezza con la quale, dopo un exploit iniziale, progrediscono i sistemi di riconoscimento del parlato (STT - Speech To Text, o ASR - Automatic Speech Recognizer),i quali non si avvicinano nemmeno lontanamente alla robustezza di un "riconoscitore" umano (cioè di un interlocutore). 

Diverso  è invece lo stato dei sistemi inversi (TTS - Text to Speech), per leggere automaticamente un testo scritto, i quali hanno invece raggiunto un buon livello qualitativo. Merita di essere segnalata in questo campo l'azienda italiana "Loquendo" (ex CSELT del gruppo STET, oggi di Telecom Italia), che con il sistema "Actor" ha segnato un notevole progresso rispetto al precedente "Eloquens". Qui potete sperimentare le capacità del sistema, e confrontarlo con il precedente (che è "Mario, Robotic Voice" nel menu a discesa). 

Un laboratorio di analisi, oltre a quello di sintesi.

Ascolti suggeriti:

"Stimmung" di Karlheinz Stockhausen (1968).

"Aria" di John Cage (1958) [Suggerito da Walter Cianciusi]

(altri ascolti suggeriti?).

Lavori sul tema.

Walter Cianciusi, John  Cage "Aria" (1958)

Parole Chiave.

formants"formants determination" - formants analysis - formanti - analisi formanti

 

HOME

Link

News

Rassegna Stampa

Dipartimento

Il sito del Conservatorio

Le pagine dei docenti

Attività artistiche

Le pagine degli studenti

English version

Musica in audio-video

Storia musica elettronica

Come iscriversi ai corsi

Aiutateci ad investire nella cultura e nella musica.

Nella dichiarazione dei redditi assegnate il 5 per mille al Conservatorio de L'Aquila:

80007670666