La diffusione dell’intelligenza artificiale sta creando un divario crescente tra soluzioni realmente solide e tecnologie che non dispongono di basi difendibili. Mentre modelli, agenti e piattaforme diventano sempre più complessi, cresce anche il rischio di adottare sistemi che presentano vulnerabilità strutturali, costi non sostenibili o claim non verificati. È per questo che la due diligence AI sta diventando un passaggio fondamentale per chi investe, seleziona fornitori o integra l’AI nei processi aziendali.
Indice degli argomenti
Perché la due diligence AI diventa centrale nelle scelte strategiche
Secondo Gartner (Gartner, Is Your AI Unicorn Actually a Donkey? An Investor Playbook for Finding Potential Unicorns), oggi la differenza tra un’AI realmente solida e una tecnologia destinata a non scalare si gioca su alcuni fattori chiave: proprietà dei dati, sostenibilità dei costi, integrazione profonda nei workflow e maturità della governance. È da questi elementi che emergono capacità di generare valore duraturo, mentre le soluzioni prive di basi robuste si collocano nelle “commodity plays”, caratterizzate da alta sostituibilità, bassa difendibilità e rischi elevati di AI washing .
In questo scenario, la due diligence AI non è più un controllo di conformità o una valutazione della qualità del modello: è un processo sistemico che incrocia sicurezza, dati, compliance, architetture, capacità agentiche e roadmap computazionale. Un elemento sempre più decisivo per evitare investimenti sbagliati, rispettare la normativa, ridurre i rischi operativi e garantire continuità di business.
I cinque pilastri universali della due diligence AI
La due diligence efficace sulle soluzioni di intelligenza artificiale poggia su un set di verifiche fondamentali e trasversali a tutte le categorie di AI — dalla traditional AI alla generative AI, fino ai sistemi agentici. Questi pilastri consentono di separare rapidamente le tecnologie realmente mature da quelle esposte a rischi strutturali.
Governance e conformità
Una piattaforma AI matura deve dimostrare di avere regole chiare su come l’AI viene progettata, testata e gestita. Questo include l’allineamento a standard riconosciuti e la capacità di rispettare i requisiti del nuovo quadro normativo europeo. Se il fornitore non ha documentazione o percorsi certificabili, è un segnale d’allarme.
Sicurezza dell’AI
Oggi i rischi non riguardano solo la cybersicurezza tradizionale: i modelli possono essere manipolati con input malevoli, dati corrotti o azioni non intenzionali. È importante che il fornitore dimostri di avere processi, controlli e test per prevenire questi attacchi e per gestire eventuali incidenti.
Trasparenza su dati e diritti
Per addestrare i modelli servono enormi quantità di dati. La due diligence deve verificare che il vendor conosca esattamente da dove provengono, abbia le licenze necessarie e garantisca meccanismi di opt-out. Una scarsa trasparenza sui dati è un rischio sia legale sia reputazionale.
Sostenibilità dei costi e delle prestazioni
Un sistema di AI deve essere efficace ma anche sostenibile nel tempo. È necessario verificare come si evolvono i costi di utilizzo, se la tecnologia è ottimizzata per le infrastrutture attuali e se il vendor ha una roadmap credibile per mantenere prestazioni alte senza far crescere la spesa.
Verifica delle promesse (anti AI-washing)
In un mercato pieno di claim aggressivi, è fondamentale controllare che le funzionalità promesse siano reali e misurabili. I fornitori più affidabili eseguono periodicamente audit interni e mettono a disposizione KPI verificabili, evitando rischi regolatori e aspettative irrealistiche.
Due diligence sui modelli: Traditional AI, GenAI e RAG
La due diligence sui modelli richiede un’analisi che vada oltre l’accuratezza dichiarata. È necessario valutare elementi che dimostrano solidità tecnica, affidabilità operativa e sostenibilità nel lungo periodo. Gartner identifica diversi indicatori utili per distinguere soluzioni realmente maturate da implementazioni ancora fragili o poco difendibili.
Traditional AI: il valore dei dati e dell’integrazione nei processi
Un modello tradizionale risulta credibile quando mostra un vantaggio concreto derivante da elementi proprietari e difficilmente replicabili. In particolare, andrebbero verificati:
- Feature engineering e ontologie specifiche che producono un miglioramento misurabile rispetto ai baseline.
- Evidenze tecniche, come ablation study o valutazioni comparative replicabili.
- Stabilità delle pipeline (monitoraggio di drift, gestione dei dati, MLOps maturi).
- Integrazione nei workflow con reali switching cost che rendono la soluzione difficile da sostituire.
Questi aspetti indicano una tecnologia che genera valore perché progettata per un contesto specifico.
Generative AI: qualità, trasparenza e sostenibilità economica
La due diligence su sistemi generativi richiede un focus su tre dimensioni:
- Qualità delle risposte, verificata tramite benchmark aggiornati e test indipendenti o replicabili (es. MMLU-Pro).
- Gestione del retrieval nei sistemi RAG, con attenzione a precisione delle citazioni, coerenza con le fonti e riduzione delle allucinazioni.
- Controllo dei costi, attraverso metriche come il cost-per-correct-answer (CPCA) e strategie di bilanciamento tra modelli più leggeri e modelli frontier.
Una piattaforma matura deve poter esibire evidenze di performance, non solo dichiarazioni.
Sistemi RAG: coerenza tra contenuti e risposte
Nei sistemi che combinano recupero e generazione (RAG), l’obiettivo principale è garantire che le risposte siano realmente fondate sulle fonti aziendali. Gli elementi da valutare includono:
- Trasparenza delle fonti, con citazioni verificabili e un recupero disciplinato.
- Isolamento dei dati, fondamentale nei contesti multi-tenant.
- Qualità dell’indicizzazione, con meccanismi efficaci di chunking, ranking e gestione del contesto.
- Stabilità operativa, in termini di latenza, throughput e coerenza anche sotto carico.
Due diligence per l’Agentic AI: cosa verificare davvero
L’Agentic AI rappresenta la nuova frontiera dell’intelligenza artificiale: sistemi capaci non solo di generare contenuti, ma di prendere decisioni, coordinare strumenti e eseguire azioni in autonomia. Questa evoluzione apre grandi opportunità in termini di efficienza e automazione, ma introduce anche rischi completamente nuovi rispetto ai modelli generativi tradizionali.
Per questo la due diligence deve concentrarsi soprattutto sulla struttura che governa il comportamento dell’agente, più che sul modello linguistico che lo alimenta. Gartner definisce questa componente control plane: l’insieme di policy, identità, autorizzazioni e log che regolano ogni azione dell’agente. È qui che si gioca la credibilità di una soluzione agentica.
Ci sono tre aree chiave da valutare:
1. Autonomia dichiarata vs autonomia reale
Molti fornitori parlano di agenti “autonomi”, ma la vera domanda è: in quali condizioni l’agente decide da solo?
La due diligence deve verificare:
- quali azioni richiedono intervento umano
- quali strumenti o API l’agente può usare autonomamente
- se esistono limiti chiari alle sue iniziative
2. Robustezza delle policy e dei meccanismi di controllo
La credibilità di un agente si misura nei dettagli dei suoi controlli:
- sistemi di approvazione (HITL) con soglie configurabili
- policy che definiscono cosa può fare e cosa non può fare
- gestione delle identità con privilegi minimi
- registri delle attività immutabili e verificabili
Una soluzione è realmente enterprise-ready quando dimostra come impedisce comportamenti indesiderati e come mantiene trasparenza sulle azioni eseguite.
3. Resilienza operativa
Gli agenti operano su più strumenti, integrano API diverse e gestiscono flussi complessi. Un errore in uno di questi elementi può bloccare l’intero processo o generare output incoerenti.
La due diligence deve quindi valutare:
- come l’agente gestisce errori o ritardi di un tool
- se sono previsti fallback sicuri
- come viene garantita la continuità dei flussi operativi
- che tipo di simulazioni, test o red-teaming il vendor ha effettuato
In sintesi, la valutazione dell’Agentic AI non riguarda “quanto è intelligente il modello”, ma quanto è controllabile, sicuro e affidabile il sistema che lo guida. È questa distinzione che determina se l’agente può essere inserito in processi sensibili o se richiede ancora un forte presidio umano.
Il framework AML (Agentic Maturity Levels) come strumento di valutazione
Il framework AML (Agentic Maturity Levels) proposto da Gartner è uno dei modi più efficaci per valutare rapidamente il livello di autonomia di un agente AI e, di conseguenza, il suo profilo di rischio. Non si tratta solo di classificazione tecnica, ma di uno strumento utile per la due diligence: permette di capire cosa un agente può fare realmente, quali controlli richiede e quali scenari possono diventare critici.
Ecco come leggere ciascun livello in chiave operativa:
AML 1 – Advisory
L’agente suggerisce piani o azioni, ma non ne esegue nessuna.
È il livello più sicuro e più prevedibile: utile per supporto decisionale, meno per automazione.
AML 2 – Assistive
L’agente può eseguire singole azioni, ma solo dopo l’approvazione dell’utente.
In fase di due diligence è importante verificare che:
- l’approvazione umana sia obbligatoria e non bypassabile
- le azioni siano ben delimitate e non includano task sensibili
- i meccanismi di notifica siano chiari e tracciabili
È un livello adatto alle realtà che iniziano a introdurre automazione controllata.
AML 3 – Autonomous
L’agente è in grado di orchestrare più passaggi e integrare diversi strumenti seguendo policy predefinite.
Qui la due diligence deve valutare:
- la qualità delle policy e dei flussi autorizzativi
- la gestione degli errori durante workflow complessi
- la presenza di log immutabili e verificabili
- la separazione netta tra cosa può fare l’agente e cosa richiede HITL
Questo è il livello in cui l’agente inizia a generare reale valore operativo, ma anche uno dei più delicati da governare.
AML 4 – Assumptive
L’agente può iniziare azioni di propria iniziativa, basandosi su pattern e obiettivi.
È il livello più avanzato – e più rischioso – perché richiede:
- policy estremamente granulari
- sistemi di controllo continui
- identità con privilegi minimi e rigidi
- un solido framework di auditing e tracciabilità
Nella due diligence, claim troppo generici su “piena autonomia” senza prove sono una red flag immediata. Ogni claim di “full autonomy” senza controllo dimostrabile è una red flag critica.
Governance, sicurezza e controlli: la checklist finale della due diligence AI
La solidità di una soluzione di intelligenza artificiale non si misura solo sulle performance del modello o sulla qualità dell’orchestrazione: i pilastri più determinanti per l’adozione enterprise sono governance, sicurezza, compliance e verificabilità. Questi aspetti condizionano l’accesso al mercato, la readiness regolatoria e la capacità di scalare in contesti critici.
La governance diventa un parametro discriminante: più una piattaforma dimostra allineamento concreto a framework come NIST AI Risk Management Framework, ISO/IEC 42001 e alle soglie normative del GPAI (General-Purpose AI) dell’AI Act, maggiore è la probabilità che venga inclusa in RFP enterprise e mantenuta nel lungo periodo. L’assenza di un piano documentato è già di per sé un campanello d’allarme per investitori e aziende.
Sul fronte sicurezza, si richiede che la due diligence includa test basati sugli standard OWASP LLM Top 10 e MITRE ATLAS, oltre a verifiche sul least-privilege, sull’identità delle credenziali e sulla resilienza dell’agente ai failure delle API .
Infine, i controlli sui dati — dagli inventari completi delle fonti di training ai meccanismi di opt-out — e la trasparenza sulle claim rappresentano elementi essenziali per prevenire rischi legali e casi di AI washing. Anche la roadmap hardware (Ad esempio con il passaggio da Nvidia H100 a GB200/Maia) e la gestione della compute economics rientrano in questa area: senza una strategia credibile, il modello non potrà mantenere margini sostenibili nel tempo.
In sintesi, governance, sicurezza e controlli sono ciò che determina se un’AI può operare in processi ad alta esposizione e se può essere adottata da aziende che devono rispettare regole severe su compliance, auditing e accountability.





