Vall-E, il nuovo chatbot vocale di OpenAI

di Maria Oberti

Valle-E potrebbe essere il nome del nuovo eroe spaziale della Marvel oppure del nuovo robottino aspiratutto da mettere in salotto. Si tratta, invece, di un software di sintesi vocale in grado di simulare la voce umana dopo appena tre secondi di ascolto. È l’ultimo tassello del sistema di intelligenza artificiale generativa sviluppato da Microsoft e da OpenAI, con la quale dal 2019 il colosso di Bill Gates è legato da una partnership pluriennale e multimiliardaria.

La startup, finanziata tra gli altri anche da Elon Musk e Sam Altman, vanta la creazione di ChatGPT, un chatbot in grado di sostenere una conversazione interattiva con gli utenti, ricordando e imparando dalle azioni e precedenti. Comportandosi appunto da umano. Insieme ai software GPT-3 per testo e Dall-E/Stable Diffusion per le immagini, il sistema audio Valle-E completa il trittico di ChatGPT e vuole rivoluzionare il campo dell’AI generativa.

AI generativa e funzionamento di VALL-E

Valle-E è uno strumento dell’AGI – Artificial General Intelligence -, cioè un’intelligenza artificiale “generale” o “forte”, in grado di emulare l’intelligenza umana, in contrapposizione quindi a quella che abbiamo conosciuto finora, ovvero l’AI “stretta” o “debole”. Quest’ultima è in grado di rispondere con azioni pre-impostate a compiti specifici, ma non di reagire a un’azione non programmata. Negli ultimi anni i chatbot AI non sono stati performanti come i suoi creatori si aspettavano perché si limitavano a mansioni ridotte e presentavano un alto tasso di errore.

Valle-E è stato sviluppato per essere utilizzato con strumenti di sintesi vocale di alta qualità e per creare audio originali a partire da un campione di esempio. OpenAI definisce Valle-E come un “modello di linguaggio codec naturale”, perché il suo funzionamento è basato su una tecnologia chiamata EnCodec. Come ChatGPT è in grado di generare autonomamente codici, anche Valle-E è stato progettato per creare codec audio discreti dall’ascolto di un campione audio.

Timbro, tono emotivo e editing audio

La sofisticatezza di questo strumento risiede nella capacità di Valle-E di riconoscere il timbro, l’inflessione e il tono emotivo della persona che sta parlando e di riproporla dopo soli tre secondi di ascolto. Le applicazioni nell’editing audio sono infinite, come lo sono anche le critiche sulla possibilità di manipolazione del software e sull’utilizzo improprio che se ne può fare. Non a caso, infatti, a differenza di quanto successo con ChatGPT, Microsoft non ha fornito il codice di Vall-E affinché altri potessero sperimentarlo.

Sul sito di Valle-E si possono trovare dei campioni di parlato già sintetizzato dal software. In particolare si possono ascoltare diverse varianti di campionamento: Speaker Prompt, Ground Truth, Baseline e Vall-E. La prima opzione è una clip audio di cui l’intelligenza artificiale deve riprodurre i connotati vocali, nella seconda viene pronunciata una frase di cui l’AI deve proporre un confronto, la terza è un esempio generato con le tecnologie di sintesi vocale attualmente disponibili e infine Vall-E è il parlato originale generato dal software di Microsoft.

Le controversie sul dataset e l’utilizzo di Vall-E

I ricercatori di Microsoft sembrano consapevoli dei potenziali danni di questa tecnologia e hanno comunicato in un documento pubblico che: “Dal momento che Vall-E potrebbe sintetizzare un discorso che mantiene l’identità del parlante, [tale tecnologia] potrebbe comportare rischi potenziali legati a un uso improprio del modello, come lo spoofing dell’identificazione vocale o il fatto di impersonare qualcuno. Per mitigare tali rischi è possibile costruire un modello di rilevamento per distinguere se una clip audio è stata sintetizzata da Vall-E. Metteremo in pratica anche i principi di intelligenza artificiale di Microsoft durante l’ulteriore sviluppo dei modelli”.

Ma il rischio di emulazione non è l’unico fattore a generare scetticismo. Vall-E è stato addestrato usando la libreria audio LibriLight realizzata da Meta, che contiene 60mila ore di discorsi in lingua inglese estratti per la maggior parte da audiolibri di pubblico dominio, registrati e letti da volontari, ma per incrementare la sua capacità di sintesi avrà bisogno di espandere il suo bacino di apprendimento a tutto l’Internet. Questo step successivo è ciò che ha permesso a GPT-3, il predecessore di ChatGPT, di raggiungere un’impressionante capacità di elaborazione, scrittura e assemblaggio di frasi.

Ma il software era anche incline a formulare contenuti violenti, sessisti e razzisti, proprio perché lavorava su esempi presi indistintamente dall’intero web. Questo potrebbe accadere anche per il neonato Vall-E e le operazioni di filtraggio richiederebbero l’impiego di numeroso personale umano che, al momento, i grandi colossi digitali non sembrano prevedere vista l’ondata di licenziamenti che sta interessando le big tech.

La corsa all’AI tra risorse e rischi

Il 2023 potrebbe essere un anno decisivo nello sviluppo dell’intelligenza artificiale: gli investimenti delle aziende tecnologiche si stanno intensificando, i settori di applicazione, tra app, servizi pubblici e assistenza personale si moltiplicano, così come i progetti di ricerca, più o meno efficaci.

A competere con Microsoft c’è Google che è pronto a presentare Bard, il chatbot di DeepMind, la società acquistata da Alphabet di Google, che si presenta come la copia esatta di ChatGPT, ma senza la falla negli aggiornamenti. Sundar Pichai, amministratore delegato di Google, ha presentato il nuovo software come uno strumento che “attinge informazioni dal web per fornire risposte fresche e di alta qualità”, e per “fresche” intende in continuo aggiornamento, cosa che l’AI di Microsoft non riesce ancora a fare.

Che siano assistenti virtuali per migliorare la vita delle persone o strumenti di controllo, i software di intelligenza artificiale sono una risorsa preziosissima nel campo dell’innovazione e anche Amazon, Meta e Apple non stanno di certo a guardare. La competizione è un grande acceleratore di ricerca, ma c’è il rischio che nella corsa alla migliore intelligenza artificiale vengano utilizzati sistemi fallati, che si portano dietro errori, limiti e rischi, senza farsi troppe domande. E anche la simulazione della voce umana sarebbe a questo proposito uno strumento molto rischioso.

Per altri contenuti iscriviti alla newsletter di Forbes.it CLICCANDO QUI .

Forbes.it è anche su WhatsApp: puoi iscriverti al canale CLICCANDO QUI .

AI generativa e funzionamento di VALL-E

Timbro, tono emotivo e editing audio

Le controversie sul dataset e l’utilizzo di Vall-E

La corsa all’AI tra risorse e rischi

Leggi anche