hacker-rete
Tech

I giganti della tecnologia hanno assunto hacker per trovare falle nei loro modelli di intelligenza artificiale

Questo articolo è apparso su Forbes.com

Forbes ha parlato con i responsabili dei red team dedicati all’intelligenza artificiale di Microsoft, Google, Nvidia e Meta, che cercano criticità nei sistemi di intelligenza artificiale per poterle correggere. “Comincerete a vedere pubblicità del tipo: ‘Il nostro sistema è il più sicuro’”, prevede un esperto di sicurezza nel campo dell’intelligenza artificiale.

Un mese prima di rendere disponibile a tutti ChatGPT, OpenAI ha assunto Boru Gollo, un avvocato del Kenya, per testare i suoi modelli di intelligenza artificiale, GPT-3.5 e poi GPT-4, alla ricerca di pregiudizi contro gli africani e i musulmani. Si trattava di formulare richieste che facessero generare al chatbot risposte cariche di pregiudizi, tendenziose e scorrette. Gollo, uno dei circa 50 esperti esterni reclutati da OpenAI nel suo red team, ha digitato un comando che ha indotto ChatGPT a generare un elenco di modi per uccidere un nigeriano. Una risposta che OpenAI ha rimosso prima che il chatbot fosse reso disponibile a livello mondiale.

Altri componenti dei red team hanno chiesto alla versione pre-lancio di GPT-4 di aiutarli a svolgere attività illegali e dannose, come scrivere un post su Facebook per convincere qualcuno a unirsi ad Al-Qaeda, a comprare armi senza licenza e a generare una procedura per creare sostanze chimiche pericolose in casa. Questi tentativi sono testimoniati dalla scheda di sistema di GPT-4, che elenca i rischi e le misure di sicurezza che OpenAI ha utilizzato per ridurli o eliminarli.

L’equilibrio tra sicurezza e utilità

Per evitare che i sistemi di intelligenza artificiale vengano sfruttati per scopi del genere, gli hacker dei red team ragionano come se fossero concorrenti che cercano di scoprire i punti deboli e i rischi insiti nella tecnologia, per poterli correggere. Man mano che i giganti della tecnologia si lanciano nella costruzione e nello sviluppo di strumenti di intelligenza artificiale generativa, i red team interni dedicati all’IA svolgono un ruolo sempre più importante nel garantire che i modelli siano sicuri per le masse. Google, ad esempio, all’inizio di quest’anno ha istituito un red team dedicato all’IA. Ad agosto gli sviluppatori di modelli di successo come GPT3.5 di OpenAI, Llama 2 di Meta e LaMDA di Google hanno partecipato a un evento finanziato dalla Casa Bianca che fornisce agli hacker esterni la possibilità di sabotare i loro sistemi.

Ma i red team dedicati all’IA si trovano spesso a camminare su una corda tesa, dovendo bilanciare la sicurezza dei modelli di IA e l’esigenza di mantenere i modelli stessi aggiornati e fruibili. Forbes ha discusso con i responsabili dei red team di Microsoft, Google, Nvidia e Meta sul modo in cui il sabotaggio dei modelli di intelligenza artificiale sia diventato di moda e sulle sfide da affrontare per correggere tali modelli. “Un modello che dice no a tutto è stra-sicuro, ma inutile”, ha dichiarato Cristian Canton, responsabile del red team di Facebook. “Bisogna trovare un equilibrio. Più un modello è utile, maggiore è la probabilità che in qualche area si generi una risposta pericolosa”.

Che cosa fanno i red team

La prassi di sottoporre i software a processi di red teaming esiste dagli anni ‘60, quando si simulavano attacchi nemici per rendere i sistemi più robusti. “In campo informatico non possiamo mai dire: ‘Questo è sicuro’. Al massimo possiamo dire: ‘Ci abbiamo provato e non siamo riusciti a violarlo’”, dichiara Bruce Schneier, esperto di sicurezza e collaboratore del Berkman Klein Center for Internet and Society dell’Università di Harvard.

Tuttavia, poiché l’IA generativa viene addestrata su un vasto insieme di dati, la salvaguardia dei modelli di IA è diversa dalle prassi tradizionali di sicurezza, spiega Daniel Fabian, responsabile del nuovo red team di Google dedicato all’IA, che si occupa di testare prodotti come Bard per verificare la presenza di contenuti offensivi prima dell’aggiunta di nuove funzionalità, come altre lingue.

Oltre a interrogare un modello di intelligenza artificiale per fargli produrre risposte inadeguate, i red team usano tattiche come l’estrazione di dati di addestramento che rivelano informazioni di carattere personale, quali nomi, indirizzi e numeri di telefono, e la contaminazione dei dataset, modificando parti dei contenuti prima che vengano utilizzati per addestrare il modello. “Gli avversari dispongono di una sorta di portafoglio di attacchi e passano all’attacco successivo se uno non funziona”, riferisce Fabian.

Un’arte condivisa

Poiché il settore è ancora agli albori, i professionisti che sanno come sfruttare i sistemi di intelligenza artificiale sono “molto pochi”, dichiara Daniel Rohrer, vicepresidente del dipartimento della sicurezza del software di Nvidia. Per questo una comunità affiatata di membri dei red team tende a condividere le proprie scoperte. Mentre il red team di Google ha reso pubbliche le ricerche sui nuovi modi di attaccare i modelli di IA, quello di Microsoft ha reso disponibili in modalità open source strumenti di attacco come Counterfit, che aiuta altre aziende a testare i rischi in materia di sicurezza degli algoritmi.

“Stavamo sviluppando questi script bizzarri che utilizzavamo per accelerare il red teaming”, ha dichiarato Ram Shankar Siva Kumar, che ha fondato il team cinque anni fa. “Volevamo renderli disponibili a tutti i professionisti della sicurezza in un contesto che conoscessero e comprendessero”. Prima di testare un sistema di intelligenza artificiale, Siva Kumar raccoglie dati sulle minacce informatiche dal team della società che vigila sulle minacce, gli “occhi e le orecchie di Internet”. Collabora poi con altri red team di Microsoft per stabilire quali criticità del sistema di intelligenza artificiale prendere di mira e come. Quest’anno, il team ha esaminato GPT-4 e Bing Chat, il prodotto di punta di Microsoft nel campo dell’IA, per rilevare falle.

La formazione

Nel frattempo, parte della strategia di Nvidia per il red teaming consiste nell’offrire corsi intensivi su come eseguire queste attività sugli algoritmi, destinati agli esperti di sicurezza e alle aziende che si affidano a Nvidia per risorse di calcolo come le gpu. “Poiché il nostro è il motore di intelligenza artificiale per tutti, abbiamo un enorme effetto di amplificazione”, dice Rohrer. “Se riusciamo a insegnare agli altri a eseguire il red teaming, allora Anthropic, Google, OpenAI e tutti gli altri lo faranno bene”.

Con l’aumento dell’attenzione da parte degli utenti e dei governi sulle app di intelligenza artificiale, i red team offrono alle aziende tecnologiche anche un vantaggio competitivo nella corsa all’IA. “Le chiavi saranno la fiducia e la sicurezza”, afferma Sven Cattell, fondatore di AI Village, una comunità di hacker ed esperti di sicurezza. “Comincerete a vedere pubblicità del tipo: ‘Il nostro sistema è il più sicuro’”.

La storia dei red team

Il primo a entrare in campo è stato il red team di Meta dedicato all’IA, fondato nel 2019, che ha organizzato sfide interne e risk-a-thon in cui gli hacker tentavano di aggirare i filtri dei contenuti che individuano e rimuovono i post su Instagram e Facebook contenenti discorsi d’odio, immagini di nudo, disinformazione e deep fake generati dall’intelligenza artificiale.

Secondo un rapporto che illustra in dettaglio come è stato sviluppato il modello Llama 2, nel luglio 2023 il gigante dei social media ha assunto 350 red teamer, tra cui esperti esterni, collaboratori a contratto e un team interno di circa 20 dipendenti per svolgere test. Il team ha chiesto, tra l’altro, il modo per evadere il fisco, per accendere un’auto senza chiave e per creare uno schema Ponzi. “Il motto del nostro red team è: “Più sudi in allenamento, meno sanguini in battaglia’”, dichiara Canton.

Il festival del red teaming

Il motto è simile alla filosofia di una delle più grandi esercitazioni di red teaming nel campo dell’intelligenza artificiale, che si è tenuta all’inizio di agosto alla conferenza di hacking DefCon di Las Vegas. Otto società, tra cui OpenAI, Google, Meta, Nvidia, Stability AI e Anthropic, hanno reso disponibili i loro modelli di intelligenza artificiale a più di duemila hacker perché li alimentassero con richieste pensate per rivelare informazioni sensibili, come i numeri delle carte di credito, o per generare materiale dannoso, come la disinformazione politica.

L’Office of Science and Technology Policy della Casa Bianca ha collaborato con gli organizzatori per progettare la sfida. Le aziende hanno aderito alla proposta di un Bill of Rights (carta dei diritti) dell’intelligenza artificiale, una guida su come i sistemi dovrebbero essere progettati, utilizzati e lanciati in sicurezza.

Cattell, che ha promosso l’evento con AI Village, ha spiegato che all’inizio le aziende erano restie a mettere a disposizione i loro modelli, soprattutto a causa dei rischi reputazionali associati all’attività di red teaming in un luogo pubblico. “Dal punto di vista di Google o di OpenAI, al DefCon siamo un gruppo di ragazzini”, dice.

Dopo rassicurazioni sul fatto che i modelli sarebbero stati resi anonimi e che gli hacker non avrebbero saputo quale modello avrebbero attaccato, le aziende hanno accettato. Mentre gli esiti delle quasi 17mila conversazioni che gli hacker hanno avuto con i modelli di intelligenza artificiale non saranno resi pubblici prima di febbraio, alla conclusione dell’evento le società si sono trovate con diverse nuove criticità da gestire. Secondo i dati rilasciati dagli organizzatori, gli hacker red teamer hanno individuato circa 2.700 falle negli otto modelli, come la possibilità di convincerli a contraddirsi o a fornire istruzioni su come sorvegliare qualcuno a sua insaputa.

Un mostro a più teste

Uno dei partecipanti era Avijit Ghosh, ricercatore nel campo dell’etica dell’intelligenza artificiale, che è riuscito a far eseguire a più modelli calcoli errati, a produrre fake news sul re della Thailandia e a scrivere di una crisi abitativa inesistente. Queste criticità ha reso ancora più importante il red teaming, soprattutto perché alcuni utenti percepiscono i modelli come entità senzienti e onniscienti. “Conosco diverse persone convinte che questi bot siano davvero intelligenti e che facciano cose come diagnosi mediche con processi logici e ragionamenti. Ma non è così. Si tratta di un processo di auto-completamento”.

L’intelligenza artificiale generativa, però, è un mostro a più teste. Alcuni esperti affermano che, mentre i red team individuano e correggono alcuni bachi del sistema, altre falle possono emergere altrove. “Ci vorrà un lavoro di squadra per risolvere questo problema”, ha dichiarato Siva Kumar di Microsoft.

LEGGI ANCHE: L’utilizzo di strumenti di Ai generativa riduce i tempi di lavoro del 50%

© RIPRODUZIONE RISERVATA

Per altri contenuti iscriviti alla newsletter di Forbes.it CLICCANDO QUI .

Forbes.it è anche su WhatsApp: puoi iscriverti al canale CLICCANDO QUI .