cybersecurity

L’inconsapevole fuga di dati: come l’uso aziendale di ChatGPT espone a rischi di riservatezza



Indirizzo copiato

L’adozione dell’AI generativa nelle aziende spesso avviene senza la consapevolezza dei rischi connessi. Dall’immissione di codice proprietario a strategie finanziarie, le imprese stanno involontariamente “addestrando” i modelli con i loro segreti aziendali. Cosa fare

Pubblicato il 18 nov 2025

Andrea Carobene

AI Ethicist and Specialist



Protezione dati aziendali: cosa fare
Protezione dati aziendali: cosa fare

Nell’aprile del 2023, la divisione semiconduttori di Samsung Electronics ha registrato tre fughe di dati riservati. In due casi, alcuni dipendenti avevano caricato parti di codice sorgente su ChatGPT per effettuarne il debug; nel terzo caso si trattava invece della minuta di un meeting, caricata per generare un resoconto dell’incontro. A seguito di questi episodi, Samsung ha deciso di proibire l’uso di strumenti come ChatGPT all’interno dell’azienda, prima di predisporre adeguate contromisure.

L’avvento dell’intelligenza artificiale generativa, guidata da Modelli Linguistici di Grandi Dimensioni (LLM, dall’inglese Large Language Models), come ChatGPT di OpenAI, Copilot di Microsoft e Gemini di Google, ha segnato un punto di svolta nella produttività aziendale. Dalla redazione di codice alla creazione di campagne di marketing, fino alla sintesi di complessi documenti legali, la promessa è quella di un’efficienza senza precedenti. Tuttavia, sotto la superficie di questa rivoluzione tecnologica, si annida un rischio significativo e spesso sottovaluto: la fuga involontaria di informazioni riservate, proprietà intellettuale e dati sensibili.

Una conversazione su dieci diffonde dati sensibili

Secondo un’analisi di Cyberhaven (società americana specializzata nella protezione dei dati aziendali), già nel 2023 l’11% delle informazioni che i dipendenti caricavano su ChatGPT era di tipo confidenziale: informazioni interne, codice sorgente proprietario, dati dei clienti, progetti di sviluppo e persino informazioni sanitarie personali.

La situazione oggi non è molto diversa, soprattutto per le piccole e medie imprese. Le grandi aziende, infatti, hanno adottato politiche di controllo sull’uso degli LLM e, in alcuni casi, si affidano a modelli installati localmente (on-premise) che non inviano dati al di fuori delle mura aziendali. Queste precauzioni, tuttavia, non sono adottate altrettanto di frequente nelle realtà più piccole.

L’utilizzo degli LLM avviene quindi spesso in un vuoto di policy, senza una chiara comprensione di come questi modelli gestiscano i dati immessi. Il risultato è un fenomeno crescente di “Shadow IT”, dove i dipendenti utilizzano account personali o versioni gratuite di questi strumenti per svolgere compiti lavorativi, esponendo l’azienda a vulnerabilità critiche.

Il meccanismo del rischio: l’addestramento dei modelli con i dati degli utenti

Il cuore del problema risiede nel modello di business e nell’architettura tecnica della maggior parte delle IA generative accessibili al pubblico. Come dichiarato esplicitamente nei termini di servizio di molte piattaforme, i dati immessi dagli utenti – “prompt” e conversazioni – possono essere utilizzati per addestrare e migliorare i modelli futuri.

Questo significa che un dipendente che, in buona fede, incolla un blocco di codice sorgente proprietario per chiedere all’LLM di “trovare un bug”, o che carica una bozza di contratto per chiederne una sintesi, sta di fatto consegnando quella proprietà intellettuale al fornitore del servizio AI. Una volta che tali informazioni sono assorbite nel processo di addestramento, diventano parte della “conoscenza” del modello.

Esiste la possibilità teorica, dimostrata in diverse ricerche sulla sicurezza dei sistemi di IA generativa, che il modello possa riprodurre frammenti di quei dati sensibili in risposta alle richieste di un altro utente, potenzialmente un concorrente. Sebbene gli LLM siano progettati per non ripetere testualmente i dati di addestramento, studi di sicurezza hanno dimostrato che i modelli possono “memorizzare” e, in determinate circostanze, “rigurgitare” dati specifici, inclusi nomi, numeri di telefono e altre informazioni sensibili.

Nonostante i fornitori di AI stiano implementando misure di sicurezza per prevenire la “rigurgitazione” diretta dei dati, il rischio non è mai nullo.

La tipologia di dati a rischio

L’entità del rischio diventa chiara quando si analizza la natura dei dati che i dipendenti sono tentati di inserire in questi strumenti. Secondo il rapporto di Cyberhaven, le categorie di informazioni più a rischio includono:

  • Proprietà intellettuale (IP): Codice sorgente, algoritmi proprietari, progetti di ricerca e sviluppo, formule e progetti di design. Per un’azienda, la perdita di questi dati equivale a cedere il proprio vantaggio competitivo.
  • Dati finanziari: Report trimestrali non ancora pubblici, previsioni di budget, strategie di prezzo, analisi di fusioni e acquisizioni (M&A).
  • Dati personali e dei clienti: Elenchi di clienti, informazioni di identificazione personale (PII), dettagli di contratti, cronologie mediche o finanziarie. L’immissione di questi dati costituisce una potenziale violazione diretta del Regolamento europeo sulla protezione dei dati personali (GDPR).
  • Strategie aziendali: Piani di marketing, analisi SWOT interne, bozze di comunicati stampa sotto embargo, appunti di riunioni del consiglio di amministrazione.
  • Documentazione legale: Bozze di contratti, pareri legali coperti da segreto professionale, documentazione relativa a contenziosi in corso.

Oltre alla perdita di competitività, comportamenti di questo tipo possono avere, soprattutto nel contesto europeo, conseguenze legali, poiché la questione si intreccia indissolubilmente con il GDPR. L’utilizzo di strumenti AI per elaborare dati personali (come quelli di clienti o dipendenti) solleva questioni legate alla base giuridica del trattamento e al trasferimento di dati al di fuori dell’UE.

Non a caso, nel marzo 2023 il Garante per la protezione dei dati personali impose un blocco temporaneo a ChatGPT sul territorio nazionale. Le motivazioni principali erano la mancanza di un’idonea base giuridica per la raccolta massiccia di dati personali usati per l’addestramento e l’assenza di sistemi efficaci per la verifica dell’età dei minori. Questa posizione del Garante ha stabilito un principio importante: un’azienda che immette dati personali dei propri clienti in un LLM, senza il consenso esplicito e informato degli interessati per quello specifico trattamento, rischia di commettere una violazione del GDPR, con sanzioni che possono arrivare fino al 4% del fatturato annuo globale.

Protezione dati aziendali: la via d’uscita

La consapevolezza di questi rischi non implica che le aziende debbano rinunciare ai benefici dell’IA generativa.

La prima azione riguarda la formazione: è essenziale che le aziende attivino corsi per rendere edotti i collaboratori dei rischi insiti nell’uso di questi strumenti. Un obbligo di alfabetizzazione (AI literacy) che, non a caso, è richiamato dallo stesso Regolamento europeo sull’intelligenza artificiale. Inoltre, diventa essenziale, a tutela delle aziende, elaborare policy interne che disciplinino l’uso di questi strumenti, in modo da distinguere tra ciò che si può fare e ciò che è vietato.

Da un punto di vista tecnico, molti LLM permettono di scegliere se rendere disponibili le proprie conversazioni per l’addestramento. Si può quindi optare di non contribuire, diminuendo il rischio di diffusione non controllata dei dati.

Inoltre, diversi fornitori (principalmente nelle versioni a pagamento) dichiarano esplicitamente che le informazioni inviate tramite API o utilizzate nelle versioni Enterprise non sono usate per l’addestramento e sono conservate solo temporaneamente, con policy di ritenzione molto più stringenti.

Per le aziende con esigenze di sicurezza massima, la soluzione è infine l’implementazione di modelli open-source (come Llama o Mistral) su infrastrutture private (on-premise o in cloud privati). In questo modo si garantisce che i dati non lascino mai il perimetro aziendale. Ovviamente, tale soluzione ha dei costi e richiede uno sforzo costante di aggiornamento dei modelli.

Protezione dati aziendali: la governance come soluzione

Per le aziende, dunque, la produttività offerta dall’intelligenza artificiale è troppo grande per essere ignorata. Tuttavia, permettere ai dipendenti di utilizzare versioni pubbliche e gratuite con dati aziendali è l’equivalente digitale di lasciare documenti strategici incustoditi in un luogo pubblico.

Il rischio di perdita di informazioni non risiede comunque nella tecnologia in sé, ma nel suo utilizzo inconsapevole. La soluzione si riassume quindi in tre concetti: policy chiare, formazione dei dipendenti e adozione di soluzioni tecniche.

guest

0 Commenti
Più recenti Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x