Intelligenza artificiale: un algoritmo potrebbe farci sentire meglio tra la folla

Immaginate di essere a una festa parecchio affollata, con la musica a tutto volume, circondati da gente che parla ad alta voce. Nonostante la confusione, però, riuscite comunque a concentrarvi sull’unica voce che volete sentire – magari l’amico che vi sta facendo una confessione, o il vostro partner che dalla cucina vi chiede se avete portato tutto a tavola. Questa capacità, piuttosto utile a dire il vero, del cervello di azzerare il rumore circostante e focalizzarsi su specifiche persone che vi stanno parlando viene chiamata dagli scienziati effetto cocktail party. È una funzione che molti di noi danno per scontata, ma per le persone che usano apparecchi acustici anche il minimo suono incongruo può rappresentare una fonte di disturbo.

Questo succede perché i dispositivi artificiali al momento in commercio non sono in grado di fare ciò che fa il cervello umano senza nessun aiuto, cioè discriminare quel preciso suono che vogliamo sentire dal resto dei suoni che entrano nelle nostre orecchie. Né, tantomeno, questi apparecchi sono in grado di farci restare concentrati su quel suono mentre altra gente chiacchiera intorno a noi. Poiché non vi è alcun modo per escludere totalmente certi suoni dalle nostre orecchie e farne passare altre, tutti i suoni di un ambiente entrano nelle nostre orecchie e vengono tradotti in segnali elettrici nel cervello. Questi segnali si muovono in diverse aree cerebrali prima di raggiungere la corteccia uditiva, ovvero la parte del cervello che elabora il suono. Non sempre il risultato è comprensibile.

Un nuovo dispositivo, potenzialmente rivoluzionario, sta per essere sviluppato dalla Columbia University per ovviare a tutto questo. Ne parla la rivista scientifica Science Advances nel numero di maggio. Lo farebbe piazzando degli elettrodi sotto la nostra corteccia uditiva – la sezione del cervello di poco dentro l’orecchio che processa i suoni. Nel momento in cui il nostro cervello verrebbe sommerso da rumori diversi, il dispositivo filtrebbe ciascuna voce amplificando quelle che corrispondono a specifiche onde celebrali. In pratica, si sintonizzerebbe con la nostra attenzione. L’audio ottenuto sarebbe comunque misto (rumori e voce principale insieme) ma il vantaggio evidente è che chi parla non avrebbe bisogno di un addestramento previo per farsi decifrare dall’apparecchio: avverebbe tutto in automatico.

La parte da leone, tanto per cambiare, nel matching tra attività neurale e suono proveniente dall’esterno, la farebbe un algoritmo, parte del cosiddetto sistema di deep-learning, vale a dire quel campo campo di ricerca dell’apprendimento automatico e dell’IA che si basa su diversi liveali di rappresentazione, corrispondenti a gerarchie di caratteristiche di fattori o concetti. L’algoritmo del super-apparecchio acustico sarà programmato dunque per passare al setaccio un’infinità di voci, accenti e tonalità differenti, capire cosa vogliamo davvero ascoltare e apprendere come farlo sempre meglio col passare del tempo. Secondo Behtash Babadi, che lavora al dipartimento di ingegneria elettronica della University of Maryland, per ora siamo a uno studio ancora embrionale del progetto, ma le potenzialità sono allettanti. “Nel giro di pochi secondi potrebbe silenziare tutti tranne quelli che vogliamo sentire”, spiega in un’intervista con Tecnology Review.

Un team della Columbia ha già testato il dispositivo su tre persone, che dovevano affrontare un’operazione chirurgica legata alla cura dell’epilessia. Il trattamento prevedeva infatti l’impianto di elettrodi nel loro cervello affinché i segnali neurali potessero essere monitorati. A quel punto i ricercatoria ne hanno approfittato e si sono inseriti nel percorso terapeutico, facendo ascoltare ai pazienti dotati del nuovo apparecchio una registrazione di quattro voci differenti, che parlavano l’una sull’altra. A un certo punto l’audio veniva interrotto e gli è stato chiesto di ripetere l’ultima frase prima della pausa, per essere certi che l’avessero decifrata correttamente. Il tasso di successo è stato del 91 per cento.

Ci sono ancora due ostacoli evidenti: il primo è che il sistema attuale rende indispensabile l’impiato di elettrodi dentro la calota cranica. I ricercatori, però, sostengono che le onde celebrali possono essere captate dal nuovo software anche soltanto con sensori piazzati all’esterno dei canali auditivi: in futuro, dunque, potrebbero essere inseriti in una nuova generazione di apparecchi acustici anziché direttamente nel nostro cervello. Un dispositivo esterno non sarebbe accurato quanto i sensori applicati direttamente sulla corteccia, ma avrebbe il vantaggio di poter essere usato anche da persone senza problemi all’udito, che vogliono semplicemente migliorare le proprie capacità di focus.

Il secondo ostacolo è rappresentato dallo scarto temporale – ridotto ma comunque significativo – tra il momento in cui il nostro cervello distoglie l’attenzione da un soggetto che sta parlando e si concentra su un’altra fonte che parla, e il momento in cui l’algoritmo se ne accorge. Solo pochi secondi, sufficienti a perdere l’inizio di una discussione, come spiega Nima Mesgarani, autore del paper della Neural Acoustic Processing Lab della Columbia University. In altre parole più si vuol rendere accurato un dispositivo, più bisogna dargli tempo. Secondo Mesgarani c’è bisogno di ulteriore ricerca da fare, ma il problema potrebbe essere risolto entro cinque anni – data entro la quale questi nuovi dispositivi potrebbero entrare in commercio.

Per altri contenuti iscriviti alla newsletter di Forbes.it CLICCANDO QUI .

Forbes.it è anche su WhatsApp: puoi iscriverti al canale CLICCANDO QUI .

Un algoritmo ci permetterà di ascoltare solo una persona tra la folla

Paolo Mossetti

Leggi anche