È cominciata l'era dell'immagine di sintesi

Il Papa in piumino bianco da trapper e Donald Trump in carcere: due fake che hanno fatto il giro del mondo, creati dall’intelligenza artificiale. Ma come funziona l’immagine di sintesi? Quali rischi comporta e cosa serve per “governarla”. Lo abbiamo chiesto al filosofo del digitale Cosimo Accoto

Siamo entrati nell’era dell’immagine di sintesi. Prima Donald Trump in carcere, come Putin. Poi Papa Francesco con il piumino bianco da trapper. In un primo momento molti hanno creduto che la foto del Pontefice fosse vera. Poi si è capito che si tratta di uno straordinario fake creato con un’intelligenza artificiale generativa. Dopo i testi di ChatGPT, adesso dobbiamo imparare a conoscere e a capire le immagini sintetiche e la loro potenza. Abbiamo chiesto di aiutarci al filosofo del digitale Cosimo Accoto. Ecco il suo intervento.

♦

Indice degli argomenti

Dalla parola all’immagine di sintesi

Insieme alla parola (qui puoi leggere l’analisi di Cosimo Accoto su ChatGPT e la parola sintetica, ndr.) l’immagine sintetica rappresenta l’altra espressione letteralmente più visibile e oggi sempre più presente della capacità generativa dell’AI. Quella del processamento macchinico delle immagini (image processing) è stata un’evoluzione storica lunga: scientifica, industriale e artistica insieme. A partire dagli anni Venti del Novecento, è stato un percorso che ha portato l’immagine ad essere prima digitalmente processata e poi, col primo decennio degli anni Duemila, ad essere generativamente sintetizzata.

Così, nel tempo, attraverso una serie di discontinuità ontologiche (Nail, Theory of the Image, 2019; Thomson-Jones, Image in the Making, 2021), quello che chiamiamo “immagine” è stato prima ri-rappresentato con produzioni, strutture e interfacce digitali e poi, infine, da ultimo proprio ri-creato attraverso l’impiego di reti neurali artificiali profonde.

Ma cosa rappresentano filosoficamente le immagini sintetiche tipo quelle prodotte dai modelli di diffusione stabile (SDM, stable diffusion model come per Stable Diffusion), ma anche quelle create in forme generative varie da DALL-E, Midjourney, Imagen? E come si producono poi tecnicamente? Possiamo iniziare allora da questa ultima domanda. Dunque, qual è l’ingegneria di un’immagine di sintesi?

Le meccaniche di una genAI visuale

Un modello generativo a diffusione stabile ha in genere all’origine un’immagine (interpretata dalla macchina come trasposizione numerica che è poi il “suo” modo di “vedere” il mondo) corrotta e degradata progressivamente iniettando del rumore gaussiano. L’iniezione diffusiva di rumore nei dati dell’immagine continua fino alla distruzione totale della stessa che diviene, a quel punto, interamente rumore (processo di forward diffusion).

Una volta terminata questa diffusione degradativa dell’immagine scomposta in pixel caotizzati, la tecnica generativa capovolge il processo addestrando invece una rete neurale artificiale a ricreare l’immagine impiegata in ingresso e prima “rumoreggiata” (processo di reverse diffusion).

Così, attraverso l’operazione di denoising (eliminazione del rumore) si procede a invertire la fase di perturbazione al fine di generare inedite immagini a partire dallo stato di rumore casuale. Se il processo di denoising avviene impiegando lo “spazio latente” di un’immagine (come in Stable Diffusion) piuttosto che l’immagine in sè si parla di modello a diffusione latente (LDM o latent diffusion model).

Come vedremo ora, la potenza inflattiva dell’immagine sintetica deriva da questa capacità macchinica di scandagliare e valorizzare lo spazio latente del dato osservato, ma invisibile all’umano. Così, in un flusso operativo text-to-image (dal prompt all’output) il processo macchinico generativo inverte tecnicamente il processo classificatorio. Il modello non classifica immagini date assegnandole ad una categoria (classifier), ma dato un input testuale genera (generator) una nuova immagine.

Dai token linguistici ai pixel grafici

L’assemblaggio computazionale che genera l’immagine a partire da un testo è variamente composto: text prompt, tokenization, embedding, text transformer, noise predictor e molto altro.

Ciascuno di questi momenti e tecnicalità del flusso generativo ha funzioni specifiche come, ad esempio, convertire il prompt testuale iniziale in token linguistici comprensibili dalla macchina (che non riconosce le parole umane in quanto tali), ridurre la dimensionalità rappresentativa vettoriale dei dati ricercandone e preservandone le similarità contestuali (come le prossimità semantiche e di senso), predire il rumore latente nell’immagine latente per poi sottrarlo in maniera iterata e campionata per step (producendo così una nuova immagine latente), trasformare infine l’immagine latente in immagine-pixel e restituirla al prompt iniziale come nuovo prodotto visivo di sintesi.

Come si può intuire da questa semplificazione illustrativa, la trasformazione dei “token linguistici” in “pixel grafici” è un’operazione stratificata di assemblaggi algoritmici che prima decostruiscono e poi ricostruiscono in forma nuova un’immagine.

In questo modo da un prompt testuale (es. “donna che raccoglie fiori nello stile di Picasso”) ma anche sempre più multimodale, si creerà un’immagine visivamente nuova. Questo approccio è destinato strategicamente ad allargarsi a vari domini: voce, suoni e musica, diagnostica medica per immagini, robotica sociale e collaborativa, design industriale per la prototipazione ingegneristica generativa (MIT Technology Review, Generative AI in Industrial Design, 2023).

Il valore strategico dello spazio latente

Questo nuovo rapporto tra segnale (immagine) e rumore (degradazione) è decisivo. Per un’immagine digitale classica il rumore è il disturbo causato dalla totalità delle varie degradazioni fisiche del segnale.

Se in un’immagine digitale si procede semplicemente alla sua rimozione, nell’immagine sintetica (e in particolare nel suo spazio latente) il rumore prima si aggiunge e poi si sottrae. Si procede in questo modo perché è più facile per le reti neurali artificiali ricostruire partendo da una struttura d’immagine degradata piuttosto che costruire da zero.

Inoltre, lavorare sullo spazio latente delle immagini (che è ridotto rispetto allo spazio ad alta dimensionalità delle immagini originarie) consente di contenere e efficientare lo sforzo computazionale dell’iniezione di rumore. Naturalmente non è solo una questione di efficienza. È rilevante anche dal punto di vista dell’esplorazione e dell’esercizio artistico ed economico della creatività (Art in the Age of Machine Learning, Audry 2021; Latent Spaces: A Creative Approach, Yee-King, 2022; Navas, The Rise of Metacreativity, 2023). Ma è importante anche e soprattutto da un punto di vista più culturale e filosofico.

Lo spazio latente è lo spazio che ospita e mappa tutte le dimensioni (features) possibili dei dati in input. Sono le dimensioni (pattern come colore, angolatura, grandezza, orientamento, ecc.) estratte automaticamente da una rete neurale artificiale addestrata. Per mercati e imprese sarà allora vitale esplorare, competitivamente e filosoficamente, questo “spazio im/possibile dell’inosservato latente” (Accoto).

Arriva l’era dell’immagine di sintesi

Anche da questa veloce ricognizione è evidente che l’immagine di sintesi non è più semplicemente una “trascrizione isomorfica del reale” come è, invece, un’immagine fotorealistica (Rodowick). Non è più, cioè, la rappresentazione realistica visuale di oggetti, ambienti o persone reali.

Con l’AI generativa (GenAI), l’immagine sta continuando a ritmo accelerato il suo cammino trasformativo verso nuove nature, culture, statuti e domini. L’idea di una “immagine tecnica” (technical image, Flusser) o di una “immagine operativa” (operative image, Farocki) aveva già cominciato a circolare negli anni passati. Ora diversi saggi in uscita torneranno a riflettere più direttamente su questo passaggio inflattivo epocale all’immagine sintetica. E sulle sue caratteristiche di novità (immagini di macchine solo per macchine, natura operazionale e non rappresentazionale del visivo, finalità mediali simulativo-predittive).

Ne cito tre rilevanti. Nel suo saggio in uscita Operational Images (2023) Parikka narra di questa trasformazione prodotta da una visualità divenuta oramai postumana (post-human visuality). Zylinska continua il lavoro iniziato con Nonhuman Photography nel suo prossimo The Perception Machine (2023) analizzando l’impatto delle tecnologie generative nella costruzione delle immagini e nella nostra percezione delle stesse. Anche Computational Formalism (Wasielewski, 2023) affronterà la questione in particolare con riferimento alle tecniche di deep learning e computer vision nell’arte visiva e alle implicazioni storiografiche ed epistemiche connesse.

L’innovazione culturale necessaria

Non dobbiamo farci trarre in inganno: le immagini future avranno un’ontologia diversa da quella del passato pur restando in superficie, all’inizio almeno, simili a quelle di una volta. Al punto che forse dovremo cominciare a usare anche dei neologismi come “algorealismo” in luogo del più classico “fotorealismo” quando, ad esempio, visualizzeremo volti ultra-realistici di umani inesistenti.

Per questo, attraversare e abitare l’uncanny valley (sexy e risky insieme) dell’immagine sintetica richiederà uno sforzo culturale. Accogliere dentro le nostre società in maniera sicura, prospera, inclusiva e solidale questi sviluppi tecnologici non sarà semplice. Le vulnerabilità sono molteplici e significative a partire dalla proliferazione dei “deep fakes” (Lyon, Tora, 2023) e, più in generale, delle implicazioni critiche connesse (politica, sicurezza, lavoro per citarne alcune).

Come ha scritto Parikka “…ci sono immagini che principalmente operano; non sono necessariamente rappresentative o pittoriche. Le immagini operative mettono in crisi ciò che è un’immagine nella misura in cui passano dalla rappresentazione alla non-rappresentazione, dal primato della percezione umana di corpi, movimenti e cose alla misurazione, al modello, all’analisi, alla navigazione e altro ancora. Cambiano le scale e i termini di riferimento…” (2023, preface).

Siamo dentro una nuova era mediale inflazionaria, quella dell’AI generativa. E se è vero che le ere mediali inflazionarie (dalla parola sintetica all’immagine sintetica) sono tali non semplicemente perché arrivano nuove tecnologie espansive di produzione e circolazione della conoscenza, ma “quando la portata della loro rappresentazione del mondo minaccia i confini delle precedenti nozioni culturali di realtà” (Castillo, Egginton, Medialogies, 2017), allora regolamenti giuridici e principi etici non saranno sufficienti. Saranno necessari, ma non sufficienti. Avremo bisogno anche e soprattutto allora di (fare) vera “innovazione culturale” (Accoto, 2023).

Riferimenti su AI e immagine sintetica

MIT Technology Review, Generative AI in Industrial Design, 2023
Nail, Theory of the Image, 2019
Thomson-Jones, Image in the Making, 2021
Audry, Art in the Age of Machine Learning, 2021
Yee-King, Latent Spaces: A Creative Approach, 2022
Parikka, Operational Images, 2023 (forthcoming)
Zylinska, The Perception Machine, 2023 (forthcoming)
Wasielewski, Computational Formalism, 2023 (forthcoming)
Castillo, Egginton, Medialogies, 2017
Navas, The Rise of Metacreativity, 2023
Lyon, Tora, Deep Fakes, 2023
Nyholm, This is Technology Ethics, 2023
Accoto, Simulacri dell’umana intelligenza, HBR, 2023

Cosimo Accoto, filosofo del digitale

Filosofo, research affiliate e fellow al MIT (Boston), adjunct professor (UNIMORE), startup advisor e instructor, Cosimo Accoto è autore di un’originale trilogia filosofica sulla civiltà digitale (Il mondo in sintesi, Il mondo ex machina, Il mondo dato). Ha pubblicato su Economia & Management (Bocconi), Harvard Business Review, Sole 24Ore, Sistemi & Impresa, Aspenia. È speaker nei convegni Ambrosetti, Aspen Institute, Harvard Business Review e ospite frequente di trasmissioni televisive e radiofoniche (Codice, Rai1 e Smart City, Radio24).

Seguimi su