GenAI e dati: le difficoltà per i CIO di oggi. Tra privateness, compliance e anonimizzazione – Cyber Tech

Nel pieno del clamore suscitato dall’intelligenza artificiale generativa – complici gli entusiastici annunci dei large tecnologici e le applicazioni shopper entrate rapidamente nel lavoro in azienda – non stupisce che la GenAI sia risultata la prima tipologia di soluzione AI implementata nelle aziende in un sondaggio [in inglese] condotto da Gartner alla tremendous del 2023 e pubblicato nelle scorse settimane. Il 29% dei 644 supervisor interpellati all’interno di imprese di Stati Uniti, Germania e Regno Unito ha affermato di aver già in uso soluzioni di intelligenza artificiale generativa. La GenAI è risultata più diffusa di altre tecnologie legate all’intelligenza artificiale, come algoritmi di ottimizzazione, sistemi rule-based, pure language processing (elaborazione del linguaggio naturale) e altri tipi di machine studying.

La vera sfida, però, è “dimostrare e stimare” il valore dei progetti (è il 49% delle risposte nel sondaggio) non solo rispetto al Whole Price of Possession e ai benefici advert ampio spettro che si possono ottenere, ma di fronte advert ostacoli come la mancanza di fiducia negli aspetti tecnologici dell’AI (indicata dal 40%) e la difficoltà di avere volumi di dati sufficienti (39%). Ma non si tratta di sfide insormontabili.

GenAI, opzione dati sintetici per proteggere la privateness

Il primo passo nei progetti AI e GenAI è sempre ottenere i dati. Come spiega Vincenzo Laveglia, Ph.D. (con tesi di ricerca sulle reti neurali dinamiche) e Tecnologo presso l’Università di Firenze, “Nei casi in cui la privateness è imprescindibile si cerca di anonimizzarli quanto più possibile per poi passare advert addestrare il modello. Occorre un bilanciamento tra privateness e utilità: se dopo l’anonimizzazione il livello di informazione del dato è lo stesso, il dato è ancora utile; se invece, una volta tolti i riferimenti personali o sensibili, il dato non è più efficace si crea un problema. I dati sintetici evitano queste difficoltà, ma non sono esenti dalla necessità del trade-off: dovremo accertarci di avere un equilibrio tra le varie classi di informazioni, altrimenti il modello diventerà molto esperto su un tema e molto incerto su un altro”.

Sotto l’ombrello dei dati sintetici rientrano quelli generati con metodi di information augmentation, ovvero il processo di generazione artificiale di nuovi dati a partire da quelli esistenti, con cui si addestrano i modelli di machine studying.

“Quando è possibile applicarla, la information augmentation risolve il problema dell’insufficienza di dati o della compliance alle norme sulla privateness e la proprietà intellettuale”, afferma Laveglia.

Anche secondo Gartner i dati sintetici possono aiutare a risolvere il problema della disponibilità di dati per i prodotti AI, nonché le sfide della privateness, della conformità e dell’anonimizzazione delle informazioni. I dati sintetici, infatti, possono essere generati per rispecchiare le stesse caratteristiche statistiche dei dati reali, ma senza rivelare informazioni personali identificabili, quindi rispettosi delle norme sulla privateness by design, e altri dettagli riservati. L’alternativa ai dati sintetici è rendere anonimi e de-identificare manualmente i set di dati, ma ciò richiede più tempo e lavoro e comporta un tasso di errore più elevato.

Di dati sintetici parla anche l’AI Act europeo, citandoli come misura possibile per mitigare i rischi connessi all’uso di dati personali per l’addestramento di sistemi di intelligenza artificiale.

“Il livello di attenzione sulla tutela dei dati personali in ambito AI si è notevolmente alzato negli ultimi mesi, anche grazie a specifici interventi delle autorità garanti, inclusa quella italiana”, evidenzia Chiara Bocchi, avvocata in ambito TMT/Commerciale/Protezione dei dati e counsel dello studio legale Dentons. “Guardando ai modelli di AI per finalità generali, al momento i riflettori sono puntati in particolare sul information scraping, sia dal punto di vista di chi effettua scraping, sia dal punto di vista di chi lo subisce. L’autorità italiana ha adottato una nota informativa su internet scraping e intelligenza artificiale generativa indicando proprio alcune misure che possono essere prese in considerazione per prevenire questa attività”.

Da dove vengono i dati: le complessità della compliance

In questa nota informativa dello scorso maggio, il Garante italiano per la protezione dei dati personali ha evidenziato come l’addestramento dei modelli su cui si basano i sistemi di GenAI richiede sempre “una mole ingente di dati (anche di carattere personale)” e che questi sono spesso ottenuti con la tecnica del internet scraping, ovvero “una raccolta massiva ed indiscriminata effettuata sul internet”. L’attività di internet scraping può essere diretta (effettuata dallo stesso soggetto che sviluppa il modello) o indiretta (effettuata su dataset creati mediante tecniche di internet scraping da soggetti terzi rispetto allo sviluppatore del modello, quindi attingendo a information lake di terze parti precedentemente creati mediante scraping).

Per i CIO diventa complicato accertarsi che i dati siano stati raccolti in modo conforme e, soprattutto, di poterli a sua volta usare in piena compliance.

“Dal punto di vista della normativa in materia di tutela dei dati personali e di tutela del diritto d’autore, non è complesso capire se un dato è protetto; la complessità, in particolare sul versante privateness, è garantire un uso del dato pubblico o pubblicamente accessibile anche per fini diversi da quelli che ne hanno determinato la diffusione”, sottolinea l’avvocata Bocchi. “Guardando solo alla base giuridica del trattamento, ottenere il consenso di tutti i soggetti ai quali possono essere raccolti i dati personali con la tecnica dello scraping è sostanzialmente impossibile”.

Per questo le autorità per la privateness stanno cercando di trovare delle linee guida.

“In particolare l’interrogativo, e la valutazione, è se la base giuridica del legittimo interesse possa essere applicabile per il trattamento di dati personali, raccolti con la tecnica dello scraping, a fini dell’addestramento di sistemi di AI”, prosegue Bocchi. “Il garante italiano ha annunciato, in sede di pubblicazione della propria nota informativa su internet scraping e intelligenza artificiale generativa, che si pronuncerà a breve sulla liceità del internet scraping di dati personali basato sul legittimo interesse”. 

Su questo tema sono già intervenuti il Garante privateness olandese e il Garante privateness francese (Cnil [in inglese]); quest’ultimo ha indicato, ancora una volta, nei dati sintetici e nelle tecniche di anonimizzazione e pseudonimizzazione una misura valida per limitare i rischi connessi al trattamento di dati personali per l’addestramento dei sistemi di GenAI.

“Uno dei rischi derivanti dall’uso di sistemi di GenAI oggi è la difficoltà di assicurarne la conformità con il GDPR, la normativa copyright e, a tendere, l’AI Act per quel che riguarda l’AI e l’AI generativa, con conseguenti sanzioni”, osserva Bocchi.

Le strategie per mitigare i rischi dell’AI

Tra tante complessità, come capitalizzare sulle potenzialità della GenAI mitigando i rischi?

“Sicuramente una strategia vincente è definire delle soluzioni che assicurino la conformità alla normativa privateness fin dalla fase di design del sistema di GenAI, partendo dalla base dati di addestramento”, afferma Bocchi. “L’AI Act entrerà a breve in vigore e, con esso e con riferimento specifico ai modelli di intelligenza artificiale per finalità generali, l’obbligo di adottare politiche per adempiere alla normativa in materia di diritto d’autore e di redigere, rendendola pubblica, una sintesi dettagliata dei contenuti usati per l’addestramento dei modelli di intelligenza artificiale e, quindi, anche dei dati”.

Un’altra iniziativa efficace è strutturare l’azienda in modo da garantire la collaborazione tra various determine manageriali, creando un dialogo continuo e costante tra il CIO e le altre funzioni, così da unire competenze tecniche e giuridiche. Non solo: “Per incrementare la fiducia nelle nuove tecnologie, molte società anche parte di gruppi internazionali si stanno attivando con la creazione di comitati etici interni, ai quali sono attribuite anche funzioni di sostegno e promozione di una governance dell’innovazione”, sottolinea l’avvocata.

Sull’addestramento dei modelli AI e la conservazione dei dati, il Garante francese Cnil suggerisce alle imprese anche di concentrarsi sullo sviluppo trasparente dei sistemi di intelligenza artificiale e sulla loro auditability, ovvero la possibilità che siano verificati da terze parti, e che le tecniche di sviluppo dei modelli siano sottoposte a un’efficace peer assessment.

Fidarsi della GenAI: come muoversi tra tecnologia e change administration

Per quanto riguarda il belief nella tecnologia dell’intelligenza artificiale, i CIO temono soprattutto le allucinazioni e i rischi di discriminazione: per potersi “fidare” del risultato, è, ancora una volta, necessario assicurare la qualità del dataset, nonché limitare opportunamente la memorizzazione dei dati per evitare che le informazioni personali o sensibili siano riportate alla superficie.

Con queste premesse, afferma Laveglia, l’AI è uno strumento del tutto affidabile: l’importante è che il sistema sia costruito bene, ovvero che le efficiency sui dati di take a look at siano rassicuranti, e che il dataset usato sia molto rappresentativo della vera distribuzione dei dati.

“Un esempio è Alpha Fold, molto usato nell’ambito della biologia strutturale e bioinformatica in generale”, riferisce il ricercatore. “Si tratta di un programma basato interamente su tecniche di intelligenza artificiale sviluppato da DeepMind per predire la struttura tridimensionale delle proteine a partire dalla loro sequenza aminoacidica: è rivoluzionario perché accelera il lavoro delle persone, svolgendo in una giornata compiti che ai ricercatori richiederebbero mesi o anni, con un tasso di errore bassissimo. Il modello è ben fatto e il risultato è assolutamente affidabile, anche se il dataset per l’addestramento, il protein information financial institution PDB, è grande (ci sono various centinaia di migliaia di esempi), ma non ha certo un ordine di grandezza paragonabile ai dataset usati per addestrare i Giant Language Mannequin moderni”.

Le aziende possono muoversi in modo simile, partendo da un modello pre-addestrato, che assicura una configurazione ottimale, e svolgere su questo il tremendous tuning, adattandolo al proprio caso d’uso. Partire da zero con un proprio modello, infatti, richiede molto più lavoro di raccolta dati e molte competenze (infatti, è l’opzione meno frequente nel citato sondaggio di Gartner); usare i prodotti incorporati nelle suite delle large tech, d’altro lato, è una soluzione più immediata (e, infatti, è la più frequente), ma meno personalizzabile: potrebbe costringere i CIO nei confini definiti di alcune applicazioni. Scaricare un modello pre-formato e raffinarlo poi con i propri dati è il giusto compromesso per la creatività del group IT, purché, insieme al enterprise, si siano prima individuati i casi d’uso che hanno il potenziale di portare vantaggio in azienda.

Adottare l’AI in azienda in modo maturo vuol dire, infatti, diffondere questa tecnologia su vasta scala nei processi e nelle funzioni, cercando di generare benefici che vanno oltre l’aumento della produttività. Occorre anche un focus dell’IT sull’engineering dell’AI, ovvero lo sviluppo tecnologico e l’implementazione concreta: oggi solo il 48% dei progetti AI entra in produzione, con un tempo medio di 8 mesi per uscire dalla fase del prototipo.

I progetti, infine, vanno accompagnati da un aggiornamento delle competenze (upskilling) delle persone e da attività di change administration, perché il modo di organizzare i group e il lavoro è destinato a cambiare significativamente: secondo lo studio “PwC AI Jobs Barometer”, la domanda di competenze che fanno uso dell’AI sono in rapida crescita sul mercato (+25%) e ciò significa che – più che essere sostituiti dall’AI – dovremo imparare a lavorarci insieme. Lo confermano i risultati di un altro studio di PwC, il “International CEO Survey 2024”: per il 69% del campione l’intelligenza artificiale richiederà alla maggioranza dei loro dipendenti di sviluppare nuove competenze.

Add a Comment

Your email address will not be published. Required fields are marked *

x