Nel cuore dell’ecosistema tecnologico italiano, Clearbox AI sta rivoluzionando l’approccio delle aziende all’intelligenza artificiale attraverso l’uso innovativo dei dati sintetici per lanciare progetti di AI. Fondata nel 2019 sotto l’ala dell’Incubatore del Politecnico di Torino, Clearbox AI ha fatto emergere la sua missione di superare le sfide legate alla raccolta e all’utilizzo dei dati, aprendo nuove frontiere per l’innovazione aziendale.

La nascita di una visione

Il nucleo di Clearbox AI è un team con una sinergia di competenze nata a Torino, un punto di convergenza per un obiettivo comune: creare valore per le imprese attraverso l’applicazione delle tecnologie di intelligenza artificiale. L’idea nasce da 4 co-fondatori (Luca Gilli, Matteo Giovannetti, Shalini Kurapati, Federico Tommassetti) che si sono uniti dopo una lunga esperienza di ricerca e professionale in diversi paesi europei. Le aree di competenza del team spaziano tra machine learning, data science, data privacy, uncertainty quantification, project management, innovazione e sviluppo software, e sono state fondamentali per creare una visione condivisa.

Dopo un periodo iniziale di trasferimento tecnologico e di customer discovery, ovvero la ricerca e comprensione di cosa il mercato avesse bisogno e come soddisfare questo bisogno, il focus è atterrato sul mercato dei dati sintetici a inizio 2022.

La missione di Clearbox AI

Clearbox AI vende le proprie soluzioni e servizi ad aziende di grandi dimensioni sul mercato europeo. Cosa significa? Spesso le aziende si trovano davanti a problema comune che rende difficili processi molto importanti per il business: l’accesso ai dati e la privacy legata ad essi, che ostacola la condivisione delle informazioni all’interno e all’esterno delle aziende.

La missione di Clearbox AI è comprendere queste sfide che le aziende incontrano nello sviluppo e messa in produzione di progetti di intelligenza artificiale. Molto spesso questi ostacoli sono legati ai dati, quando questi sono sensibili e difficili da gestire a livello di privacy, la loro quantità non è sufficiente per o non sono abbastanza rappresentativi per tutte le fasce di popolazione per garantire risultati di successo.

I dati sintetici sono una soluzione nata proprio per risolvere questo tipo di problemi. Sono dati artificiali, generati da algoritmi, però con un seme di realtà. Non vengono cioè dal nulla, ma ricreano in modo matematico situazioni della vita vera partendo da dati reali, mantenendo le stesse proprietà statistiche e predittive di quelli originali. Essendo simili ma non uguali ai dati reali, non contengono informazioni personali e possono essere condivisi rispettando i regolamenti di privacy, come il GDPR.

In concreto, i benefici sono quattro: permettono di tutelare la privacy e allo stesso tempo sviluppare modelli, forniscono più dati quando questi sono quantitativamente limitati mantenendone l’utilità, correggono i dataset che sono sbilanciati a favore di un gruppo e possono ridurre i costi e migliorare l’efficienza dei processi aziendali.

Le applicazioni

Clearbox AI offre un prodotto/software basato su tecnologia proprietaria che genera dati sintetici di alta qualità per le aziende che vogliono iniziare e accelerare il loro percorso di Intelligenza artificiale. I dati sintetici di Clearbox AI possono essere utili a diverse professionalità nelle aziende: reparti di data science ed AI, innovazione, software engineering e privacy.

Il Data Engine di Clearbox AI è basato su modelli generativi avanzati, è agnostico e può essere utilizzato orizzontalmente in vari settori. Il prodotto, Enterprise Solution, è basato su questa tecnologia ed è già utilizzato in diverse collaborazioni in ambito finanziario, sanitario, retail, energetico e della mobilità. Il prodotto si integra ai processi aziendali già in essere senza rivoluzionarne le procedure, e può essere installato sull’infrastruttura del cliente o in cloud. Fornisce inoltre una reportistica approfondita sulle metriche dei dati generati.

Alcuni casi d’uso dei dati sintetici

In campo finanziario si può usare per migliorare l’individuazione delle frodi. Fortunatamente, i casi di frode sono meno rappresentati nei dati rispetto ai casi di transazioni normali perché accadono raramente. I dataset alla base di queste analisi possono quindi essere sbilanciati e i modelli a cui vengono sottoposti soffrono di importanti problemi di affidabilità. I dati sintetici possono aiutare a rendere questi dati più robusti ed equilibrati andando a riequilibrare gli sbilanciamenti.

Quando si parla di salute, i dati sintetici facilitano e velocizzano molti processi che richiedono una grande mole di dati, spesso sensibili riguardando aspetti clinici dei pazienti. Per esempio, il registro nazionale olandese sul cancro fornisce dataset clinici sintetici per favorire l’avanzamento della ricerca che può essere bloccato dai vincoli dei dati personali.

I dati sintetici sono un nuovo paradigma in campo innovazione di processi e prodotto, in particolare per i processi di testing del software. Tutte le grandi aziende organizzano i propri dati in ambienti di produzione e ambienti di test. Gli ambienti di produzione sono quelli che raccolgono i dati dei clienti dell’azienda, quindi ambienti critici e molto sensibili in ottica privacy. Le aziende devono però poter testare il proprio software per evitare che questo presenti delle falle, delle anomalie o possa avere dei problemi di scalabilità. Il Gdpr non permette di utilizzare i dati di produzione per effettuare questi test, quindi le aziende hanno difficoltà a creare delle batterie di dati di partenza. I dati sintetici sono perfetti anche in questo caso, perchè grazie all’innovazione tecnologica si possono utilizzare modelli generativi come quello di Clearbox AI per generare dati finti ma rappresentativi di quelli reali.

Può essere usata per favorire l’innovazione responsabile/etica: i dati sintetici sono infatti utili a colmare bias e mitigare la discriminazione che alcuni dataset basati su dati storici possono perpetuare. Ad esempio, se basiamo un modello AI su dati di impiego storici in cui gli uomini lavoravano più delle donne, il modello potrà tendere a favorire il genere maschile in un possibile processo di recruitment. I dati sintetici possono aiutare a ribilanciare questi dataset e renderli più fair e aderenti al mondo in cui viviamo oggi.

L’etica al centro

Clearbox AI si impegna non solo a fornire soluzioni tecnologiche all’avanguardia ma anche a farlo in modo etico e conforme alle normative vigenti. La startup è stata selezionata per il progetto Women TechEU della Commissione Europea, per l’impegno nella valorizzazione del talento femminile nell’ecosistema tech. Inoltre, Clearbox AI è partner del progetto europeo DCODE Network focalizzato sul design dell’Intelligenza Artificiale antropocentrica.

Progetti futuri

Con sei clienti già a bordo (di cui, oltre alle italiane, ci sono un’azienda francese e una tedesca) e una pipeline commerciale nutrita di aziende che vogliono sperimentare e testare i dati sintetici, la previsione è di una crescita significativa, trainata dall’adozione crescente della tecnologia e da fattori macroeconomici come l’AI Act e nuovi paradigmi nel software testing.

Clearbox AI sta plasmando il futuro dell’intelligenza artificiale, mettendo al centro la qualità dei dati e l’etica. L’azienda è pronta a guidare l’innovazione, offrendo alle imprese la chiave per sbloccare il potenziale completo dell’intelligenza artificiale in modo sostenibile e responsabile.

