Breve storia della sintesi vocale e di noi voci della pubblicità e del doppiaggio

Era verso la fine degli anni ‘90. Eravamo in piena rivoluzione digitale per quanto riguarda l’audio. Sistemi di registrazione digitale erano entrati nel nostro quotidiano, con i grossi monitor a tubo catodico che prendevano spazio nelle scrivanie degli studi. Ricevo un’email da Londra. La Lucent Technologies è intenzionata a scritturarmi come voce narrante  per un progetto top secret della durata di diverse settimane. Un sistema di sintesi vocale innovativo, che avrebbe spazzato via i primi sistemi che rendevano le voci sintetiche spersonalizzate e spezzettate. Come quelle dei robot di letteratura degli anni ‘70 (anche se la mitica voce del doppiaggio che ha dato vita al personaggio italiano di Hal 9000 in Odissea nello spazio di Stanley Kubrick, Bellini, aveva donato al suo personaggio senza corpo un’anima veramente inquietante). Mi chiedono se conosco una collega famosa voce narrante disponibile a fare lo stesso lavoro: hanno bisogno di un uomo e una donna. Il contratto è pieno di clausole, compresa la liberatoria “ad omnia” sull’utilizzo della nostra impronta vocale. La mia collega, che non cito per non metterla in imbarazzo, accetta di buon grado e così faccio io: non ci pare vero di essere pagati l’equivalente di diversi mesi in sala di doppiaggio per poche settimane di lavoro davanti al microfono. Non sapevamo minimamente che quello che stavamo facendo rappresentava la più grande minaccia alla nostra professione in quanto voci famose della pubblicità. 

Nello studio di registrazione della voce ci fanno indossare le cuffie e uno strano microfono “a collare” che si stringe attorno al collo. Serve – ci spiegano – a raccogliere le vibrazioni della gola, che poi verranno messe al fianco della registrazione della voce narrante. Pensavamo che ci avrebbero dato da leggere parole, numeri, espressioni idiomatiche: niente di tutto questo. La nostra voce narrante  si è trovata davanti dei difoni: espressioni sillabate senza senso che si trovano generalmente all’interno delle parole. Nelle prime ore di registrazione ci sembrava di essere degli esseri extraterrestri che parlavano una lingua sconosciuta, fatta di espressioni come “ordit”, “ocal”, “avel”, “enti”, “timi” eccetera eccetera.

Dopo la prima fase di gioco, ci stavamo rendendo conto della portata dell’esperimento: gli algoritmi della Lucent avrebbero messo in relazione tra loro quei difoni (mi ricordano i trifidi delle relative invasioni) producendo voci assolutamente naturali.

La sintesi vocale è arrivata a livelli straordinari: sentire le voci di colleghi famosi esprimersi con idiomi a loro estranei fa un certo effetto…

Quell’incubo per me non si avverò, al contrario della famosa voce della pubblicità della collega coinvolta, che finì in tutti i navigatori satellitari dei dieci anni che seguirono, con grande disappunto della stessa. Le migliaia di euro che mi attribuirono per quel lavoro non si rivelarono “maledette” e la mia voce narrante per fortune misteriose, non si ritrovò in centinaia di migliaia di smartphone e navigatori. Ma la mia amica collega – che nel frattempo amica non è più – sentì rimbombare la propria voce del doppiaggio in risponditori telefonici, annunciatrici di negozi, voci degli ascensori, siti web eccetera eccetera. Potete immaginare che incazzatura…

Oggi non ci facciamo più caso. Le voci di Siri, come di Alexa, ci sembrano così naturali che parlare loro non ci crea più un particolare disagio. Il punto è che occorre stabilire un codice specifico per essere compresi. Non si possono formulare domande a caso, bisogna seguire un certo “protocollo”. E questo, al di là della naturalezza e freschezza delle voci narranti con le quali ci confrontiamo, ci tranquillizza di essere ancora noi umani a detenere il controllo delle relazioni.

Non ho chiesto alla voce di Siri, oggi famosa voce della pubblicità, e un tempo mia allieva in un seminario sulla voce, come si senta ad essere nominata da milioni di utenti dello smartphone della mela morsicata. Credo – spero per lei – che il contratto non sia di licenza illimitata e che valga a tempo, considerato che anche per Alexa o Siri, mantenere la stessa voce narrante sia un aspetto indispensabile di branding per la riconoscibilità e il rapporto con l’utente.

Di certo, sentendola al telefono, non mi aspetterò una sua risposta tipo “Uhm, mmh, puoi ripetere? Non ho ben capito”.

Assistenti vocali, smart speaker, stanno cercando una strada per entrare nelle nostre intimità: quanto siamo disposti a concedere?

Verso la fine di questo secondo decennio del secolo siamo oggetto di una nuova offensiva tecnologica da parte dei colossi del digitale. Gli smart speaker. Creati per automatizzare i dispositivi domestici a comando vocale (“accendi o spegni le luci”), si stanno attrezzando di contenuti per intrattenere pubblici annoiati che non sono più abituati a scegliere i contenuti di cui vogliono fruire. Tutto sta a quanto spazio della nostra intimità siamo disposti a lasciare alla gestione di queste realtà virtuali. Tra di loro la battaglia è in corso a colpi di contenuti esclusivi. Ma certamente non potremo avere in mano più di uno smartphone (ebbene si, alcuni con due telefoni li conosco di persona) o in casa più di un altoparlante cosiddetto intelligente. Sarebbe come riempire il proprio nido di presenze estranee parlanti e… ascoltanti!

La cosa mi lascia abbastanza ottimista per il futuro delle voci famose del doppiaggio on line. In fondo avremo sempre bisogno di qualcuno in grado di trasferire contenuti con una consapevolezza nei confronti dei contenuti che riesca a dare un senso a ciò che viene raccontato. 

Il tema – più che altro – si trasferisce al SENSO che tutto quanto stiamo producendo e raccontando abbia nei confronti di noi umani. Facciamo cose e spendiamo energie incredibili per fare azioni che di senso ne hanno molto poco. Avrete notato che persino in quest’articolo mi ritrovo a utilizzare espressioni improprie e a grassettarle per il solo scopo di farle notare agli spider di Google per facilitare l’indicizzazione nei motori di ricerca.

Lo so è da scemi. Passiamo ad altro.

L’intelligenza artificiale non potrà mai fare a meno delle voci del doppiaggio e della pubblicità: è una questione che attiene alle emozioni.

Ho appena affermato un concetto cui credo fermamente: la nostra capacità di voci della pubblicità e del doppiaggio, di trasferire emozioni ai nostri simili è assolutamente preclusa alle intelligenze artificiali. Si mettano il cuore (o ciò che hanno al suo posto) in pace una buona volta. Il nostro cervello ha caratteristiche cognitive e di pensiero che non rispondono alle logiche dei computer, che fanno cose meravigliose in un tempo straordinariamente breve, ma non sanno minimamente cosa significa stare “seduti sul molo della baia a perdere tempo”. Otis Redding mi perdonerà, ma non ho trovato altra espressione più efficace per rappresentare la vera essenza dell’uomo che sta un po’ perdendo: la capacità contemplativa di rappresentarsi nel mondo, di vedersi come un pezzo del tutto, la consapevolezza che il tempo, oggi considerata risorsa preziosa – e pertanto con un prezzo – possa essere dispersa come atto cosciente, deliberato, di riflessione sul nostro esistere e sul nostro finire.

Vi voglio bene. 

Leave a Reply