QUESTA PAGINA
E' STATA MOSSA
click qui per andare nella nuova
pagina
Voce e timbro: individualità, genere ed età
Le brevi note che seguono trattano di aspetti timbrici della voce
umana dal punto di vista di segnale. Per gli aspetti fisiologici e
specificamente acustici della voce umana, si rimanda al corso di
psicoacustica e a testi generali (ad esempio, il Cap. 11 di Mario Uberti
in "Acustica
Musicale e Architettonica" - UTET).
La voce umana
Fisicamente, l'emissione vocale è il risultato della vibrazione
delle corde vocali, che emettono una vibrazione eccitatoria la quale si
propaga nelle cavità faringea, buccale e nasale. Queste cavità hanno
modi di risonanza propri, che "plasmano" spettralmente il
suono emesso, conferendogli un timbro.
Dal punto di vista di segnale, l'eccitazione emessa dalle corde
vocali è schematizzabile come un dente di sega (le corde vocali si
comportano all'incirca come un'ancia), ovvero come un segnale armonico con ampiezze decrescenti in funzione della
frequenza.
Se ci si limita a considerare l'emissione delle vocali (che
sono peraltro quelle che identificano maggiormente il timbro specifico
della voce, anche in senso individuale), l'effetto filtrante (o di
plasmatura del profilo spettrale) delle cavità oro-rino-faringee si
può riassumere nella esaltazione piuttosto selettiva di alcune precise
frequenze (se ne considerano 6), dette "formanti". Ogni vocale
ha la sua specifica sequenza di formanti, e il processo di
identificazione delle vocali consiste proprio nel processo di
identificazione (del tutto inconsapevole) delle formanti stesse.
Le frequenze formanti si indicano con la lettera F seguita da una
cifra in ordine di frequenza crescente: F1, F2, F3, F4, F5 e F6.
L'importanza delle formanti decresce con il crescere dell'ordine, e in
effetti le vocali sono, ad un grado 0 di approssimazione,
identificate dalle prime due, ovvero dal loro rapporto (in frequenza),
ovvero ancora dall'intervallo (in senso musicale) tra le
due..
Un laboratorio virtuale sulla voce umana.
Grazie a Svante Granqvist, del KTH di Stoccolma, abbiamo a
disposizione alcuni intelligenti (semplici, piccoli e leggeri) strumenti
software per fare molti interessanti esperimenti. La pagina di link agli
strumenti informatici per
l'elaborazione del segnale audio
contiene anche il link a questi smptools.
Fissiamo l'attenzione su due di essi. Madde (un singing
synthesizer, un sintetizzatore che canta), e RTSect, un
oscilloscopio - analizzatore di spettro virtuale in tempo reale (fa
anche altre cose, ma nel presente nostro cotesto queste sono le sue
funzionalità interessanti).
Madde produce una canto sintetizzato (in sintesi additiva), e RTSect
può essere utiizzato per vedere in tempo reale i segnali prodotti da
Madde.
Come utilizzare Madde e RTSect
contemporaneamente
Uso di
Madde
Uso di
RTSect
La voce. Caratteristiche individuali, di genere, di età.
Cosa distingue le voci tra di loro? Cosa, in particolare, fa la
distinzione tra una voce maschile, una femminile, una di un bambino?
Le formanti sono risonanze della cavità oro-rino-faringea (il tratto
vocale), e dipendono in grande misura dalla forma assunta da queste
cavità (nella misura in cui possiamo modificarle per modulare le
vocali), e dalle loro dimensioni. Queste ultime sono immodificabili,
ovviamente, e quindi "marcano" attraverso il profilo
formantico in modo determinante la voce.
C'è quindi da aspettarsi formanti più alte per dimensioni più
piccole. Quindi, formanti più alte per i bambini, ad esempio. Le donne
hanno mediamente il tratto vocale più corto di circa 20 cm. rispetto
agli uomini, e inferiori dimensioni delle altre cavità. Come
conseguenza, le loro formanti si collocano più in alto rispetto a
quelle degli uomini (mediamente, negli adulti, del 20%). E' questo che
determina la differenza di genere (e di età) nel timbro della voce, e
non tanto l'altezza della voce stessa (cioè della fondamentale). Un
uomo in falsetto continua ad avere un timbro maschile (c'è differenza
tra un soprano e un falsettista). In Madde, questo può essere
sperimentato modificando il Factor nel riquadro delle formanti. Possiamo
provare inoltre ad impostare le frequenze di formanti tratte dai dati
forniti in alcuni dei link citati.
Link: Questo articolo è indirizzato ai consulenti dei
transessuali, e invita a chiarire (a scanso di delusioni future) ai
propri clienti che anche dopo l'intervento di cambiamento di sesso, il
timbro della voce resterà quello originale e non potrà essere
cambiato modificando semplicemente l'altezza del suono emesso
(parlando cioè in falsetto):
Acoustic Correlates of Speaker Sex Identification - Coleman.
Cos'è inoltre il timbro "nasale"? L'apparire di
formanti nasali (200-300 Hz, 1 kHz e 2 kHz) e di diverse "antiformanti"
(antirisonanze, cioè soppressione di frequenze), una globale perdita di
potenza alla prima formante e alle alte frequenze, assieme ad una
diminuzione del Q di tutte le formanti (Eric Keller, University of
Lausanne: Tutorial
Review:The Analysis of Voice Quality in Speech Processing).
|
E' un programma gratuito per l'analisi del parlato messo a
disposizione da SIL
International (Summer Institute of Linguistics),
un'organizzazione internazionale per la valorizzazione delle
lingue poco conosciute o non scritte, fondata nel 1934 da William
Cameron Townsend.
SIL mette a disposizione un ampio catalogo
di programmi per la linguistica, molti dei quali gratuiti, per
le più diverse piattaforme (Windows, MacOs, Linux, PalmOS, Unix).
Uno strumento alternativo (più potente e flessiile) per
eseguire questo tipo di analisi è WaveSurfer, del KTH di
Stoccolma, gratuito e multipiattaforma (Linux, Windows 95/98/NT/2K/XP,
Macintosh, Sun Solaris, HP-UX, FreeBSD, and SGI IRIX ). basato su
SNACK, il package per il suono per TclTk.
Questi strumenti possono essere ovviamente usati anche per
analisi di suoni di rilevanza musicale, e non solo del
canto. |
Un aspetto forense.
Nella pratica forense è usuale sottoporre a perizia le registrazioni
effettuate mediante intercettazioni (anche telefoniche), per
identificare il parlante. Dato che la collocazione delle formanti nello
spettro dipende in grande misura dalle dimensioni delle cavità
oro-faringee, è evidente che una cosa difficilmente modificabile o
dissimulabile è proprio la collocazione delle formanti. Un parlante
può quindi essere identificato in linea di principio da una statistica
sulla collocazione delle sue formanti. Secondo Manfred
Schroeder queste analisi sono valide per escludere un parlante, ma
non per il contrario, a causa dell'incertezza nella determinazione. Come
conseguenza, egli contesta l'uso del termine "impronte vocali"
(in analogia ad "impronte digitali") come fuorviante.
Link: L'analisi LPC (Linear Predictive Coding) suddivide il
segnale complessivo in una eccitazione e in un filtro formantico, ed
è quindi particolarmente adatta al segnale vocale. Qui
un tutorial (in inglese, introvabile in italiano niente di
simile) sull'LPC. Questo
dispositivo invece utilizza questo tipo di analisi in tempo reale,
e una corrispondente resintesi, per modificare le formanti (oltre al
pitch) e, conseguentemente, il timbro della voce. Inoltre,
aggiungiamo, può confondere totalmente qualunque sistema di
identificazione del parlante, in un senso o nell'altro. Può
cioè servire sia a non farsi riconoscere, sia a farsi riconoscere
come un'altra persona.
Link: Questo programma gratuito dell'Institute of Phonetic
Sciences Olandese esegue una quantità di analisi e resintesi della
voce, incluse la ricostruzione delle misure del tratto vocale
dall'analisi delle formanti. Si tratta di Praat,
uno dei migliori strumenti, se non il migliore, per questo genere di
analisi.
La formante del cantante.
Cos'è una voce "impostata", come quella di un cantante
d'opera?
Niente di meglio che tradurre qui lo abstract di un articolo
di Johan
Sundberg:
"La formante del cantante" è un picco che
emerge nel profilo spettrale attorno ai 3 chilocicli, che si
riscontra tipicamente nelle vocalizzazioni prodotte da cantanti
lirici classici. Secondo una ricerca precedente, si tratta
principalmente un fenomeno risonante prodotto dalla fusione (clustering)
delle formanti 3, 4 e 5. Il suo livello, rispetto alla prima
formante varia a seconda della vocale, l'intensità della vocale
ed altri fattori. Viene qui esaminata la sua dipendenza dalle
frequenze delle formanti delle vocali. Applicando la teoria acustica
sulla produzione della voce, viene calcolata la differenza tra i
livelli della prima e della terza formante per alcune vocali standard.
Viene individuata la differenza fra i livelli osservati e quelli
calcolati per voci diverse. Si è trovato che questa varia
considerevolmente tra le vocali cantate dai cantanti professionisti e
quelle cantate da principianti.
Si è trovato che la frequenza centrale della formante
del cantante, determinata mediante analisi dello spettro di
lungo periodo di registrazioni commerciali, aumenta leggermente con la
tessitura della voce.
Johan Sundberg, Voice Research Centre, Department of
Speech Music Hearing, KTH, Stockholm, Sweden, Level and Center
Frequency of the Singer’s Formant, Journal of Voice, Vol. 15,
No. 2, pp. 176–186
Secondo alcuni, la banda di frequenza della formante del
cantante è quella dove si riscontra un basso profilo
spettrale di lungo periodo ("medio") dell'orchestra lirica.
L'impostazione della voce, la concentrazione della potenza sonora nella
banda della formante del cantante, sarebbe dunque un mezzo per
"emergere" rispetto all'orchestra

(National
Center for Voice and Speech, Iowa University)
Uno
studio sulla voce della Sutherland e della Gruberova, all'Università di
Ginevra.
Un
articolo sulla preferenza nel canto corale per un ambiente risonante
sulla formante del cantante, dello International Journal of Research
in Choral Singing.
Complessità sottostante.
Questa rapida esposizione non deve trarre in inganno: quello qui
affrontato è un tema tutt'altro che semplice e definitivamente
chiarito. Anzitutto, quanto finora detto si limita alle vocali, ma
l'individualità della voce si basa anche su altri elementi (di
carattere transitorio, come le consonanti), non diversamente dagli
strumenti musicali, nei quali il profilo formantico è solo uno degli
elementi del timbro. Anche limitandosi alle vocali, bisogna bene
intendere che queste sono assai di più di quelle che si possano
frettolosamente elencare sulla base delle proprie conoscenze. Le vocali
non sono un dato assoluto, e non dipendono solo dalla lingua. Vi sono
innumerevoli varianti dialettali e sub-dialettali. Questo
studio affronta le differenze tra le vocali pisane e quelle
fiorentine, e quest'altro
fa un'ampia rassegna dei lavori in corso sullo studio delle vocali (e
sulla loro rappresentazione formantica) in funzione di genere, età e
dialetto. La determinazione del nesso formanti-vocali, al di là di
suddivisioni grossolane, è piena di incertezze dovute all'alta
variabilità e - probabilmente - all'intervento di altri meccanismi non
puramente percettivi (ad esempio, semantici e cognitivi) nel processo
umano di identificazione delle vocali.
Come spesso accade, le statistiche fanno fatica a descrivere e
cogliere fenomeni nei quali il comportamento umano (nelle sue
diverse accezioni) sia presente in modo determinante. Questa
complessità dà conto dell'estrema lentezza con la quale, dopo un
exploit iniziale, progrediscono i sistemi di riconoscimento del parlato
(STT - Speech To Text, o ASR - Automatic Speech Recognizer),i
quali non si avvicinano nemmeno lontanamente alla robustezza di un
"riconoscitore" umano (cioè di un interlocutore).
Diverso è invece lo stato dei sistemi inversi (TTS - Text to
Speech), per leggere automaticamente un testo scritto, i quali hanno
invece raggiunto un buon livello qualitativo. Merita di essere segnalata
in questo campo l'azienda italiana "Loquendo" (ex CSELT del
gruppo STET, oggi di Telecom Italia), che con il sistema "Actor"
ha segnato un notevole progresso rispetto al precedente "Eloquens".
Qui
potete sperimentare le capacità del sistema, e confrontarlo con il
precedente (che è "Mario, Robotic Voice" nel menu a
discesa).
Un
laboratorio di analisi, oltre a quello di sintesi.
Ascolti suggeriti:
"Stimmung" di Karlheinz Stockhausen (1968).
"Aria" di John Cage (1958) [Suggerito da Walter Cianciusi]
(altri ascolti suggeriti?).
Lavori sul tema.
Walter Cianciusi, John Cage
"Aria" (1958)
Parole Chiave.
formants
- "formants
determination" - formants
analysis - formanti
- analisi
formanti
|