Nel 2016 Cathy O’ Neil pubblicò il saggio Weapons of Math Destruction, “Armi di distruzione matematica”, il cui titolo poteva sembrare una provocazione: l’autrice intendeva denunciare come l’uso di algoritmi rischi di amplificare le disuguaglianze sociali, agendo come un’arma che colpisce le categorie più vulnerabili. A dieci anni di distanza, questo titolo descrive la nostra società più a fondo di quanto non sembri. Infatti è un algoritmo a decidere i contenuti proposti agli utenti delle piattaforme, a valutare scoring creditizi e candidature lavorative, tanto che oggi viviamo, più o meno consapevolmente, in un mondo strutturato da procedure statistiche.
L’integrazione dei modelli di AI nei processi decisionali rappresenta un deciso cambio di direzione nel nostro rapporto con la produzione della tecnologia. È sempre stato naturale per l’uomo costruire una macchina e comprenderne il funzionamento; i sistemi contemporanei, al contrario, operano spesso in una condizione di opacità anche dal punto di vista degli sviluppatori. Con opacità si intende la mancanza di trasparenza o comprensibilità riguardo al modo in cui un algoritmo elabora i dati per arrivare a una specifica decisione: si fa riferimento in particolare ai sistemi di apprendimento automatico, che imparano in maniera parzialmente autonoma dai dati su cui vengono addestrati. Questo apprendimento semi-indipendente rende le decisioni della macchina difficili da motivare e spiegare anche per i suoi stessi creatori.
Un sistema il cui funzionamento interno è oscuro per l’osservatore, che vede solo gli input e gli output senza comprendere la logica di trasformazione, viene definito black box, comparando i modelli a delle scatole nere. Nello sviluppo dell’AI, il fenomeno comporta una mancanza di trasparenza che aumenta il rischio di ottenere risultati falsati e ostacola i programmatori nella rilevazione di errori e nella correzione degli esiti. Come accennato sopra, l’adozione di algoritmi nei processi decisionali trasforma il problema della black box in un rischio sociale concreto: Frank Pasquale, in The Black Box Society, sottolinea come coloro che utilizzano questi algoritmi possiedano “una conoscenza senza precedenti dei dettagli delle nostre vite quotidiane, mentre noi sappiamo poco o nulla di come utilizzino queste conoscenze per influenzare le decisioni importanti che noi – e loro – prendiamo” (Frank Pasquale, The Black Box Society: The Secret Algorithms That Control Money and Information, 2015). L’indecifrabilità dei modelli che regolano il merito creditizio o l’accesso al lavoro finisce così per sottrarre tali scelte al vaglio pubblico: dietro la cortina della complessità tecnologica o del segreto industriale si consolidano asimmetrie di potere in cui l’individuo è privato della possibilità di comprendere o contestare i principi che, ormai, determinano la sua esistenza sociale e digitale.
L’Explainable AI (XAI) è il campo di ricerca che tenta di fornire strumenti per comprendere le decisioni prese dagli algoritmi, in favore di un’intelligenza artificiale più affidabile e trasparente. Utilizza infatti un insieme di tecniche per descrivere un determinato modello, gli effetti previsti e i potenziali bias, per spiegare in che modo l’algoritmo ha restituito determinati risultati e verificare che il sistema funzioni come ipotizzato. La XAI si basa su due concetti fondamentali: l’interpretabilità del modello, ovvero la possibilità, in principio, di comprendere il processo decisionale di un sistema di AI, e la spiegabilità, che indica la possibilità di comunicare tale processo in modalità accessibili all’utente finale.
Tecniche di XAI
Il tentativo di portare luce nella black box si è articolato attorno a diversi metodi. Uno dei più rilevanti è il proxy modeling, o metodo dei modelli surrogati. L’idea alla base è intuitiva: poiché il modello originale è troppo complesso per essere compreso, se ne costruisce un secondo che sia interpretabile, ad esempio un albero di decisione o una regressione lineare. Il secondo modello viene addestrato per mimare il comportamento del primo – per fare da proxy, appunto – cercando di approssimare le risposte di quest’ultimo in una forma che la mente umana possa decodificare. Il rischio di questa tecnica è di creare una spiegazione fedele a un modello che funziona diversamente: il modello proxy è una semplificazione e, nel ridurre la complessità, può omettere proprio quelle sfumature o distorsioni che rendevano critica la versione originale.
Un metodo alternativo, che utilizza tecniche simboliche, è detto design interpretability, e sposta la soluzione a monte: invece di spiegare un sistema complesso, si sceglie di utilizzare solo modelli “trasparenti per progettazione”. È una scelta sicura ma spesso costosa in termini di performance: in molti domini, come il riconoscimento di immagini o il linguaggio naturale, i modelli semplici non riescono a raggiungere la precisione necessaria, costringendo a un compromesso tra l’accuratezza del risultato e la sua comprensibilità.
Negli ultimi anni, l’attenzione si è spostata invece su tecniche di spiegazione post-hoc come SHAP e LIME, diventate ormai lo standard industriale. LIME lavora sulla singola decisione: perturba i dati in ingresso per analizzare come varia l’output e costruisce una spiegazione valida solo per quel caso specifico. SHAP, basandosi sulla teoria dei giochi, assegna a ogni parte dell’input un valore che indica il suo contributo rispetto all’output, spiegando quindi cosa abbia maggiormente influito sulla decisione finale del modello AI.
Nonostante la loro eleganza matematica, queste tecniche di spiegazione soffrono di un limite strutturale: offrono spiegazioni standardizzate che non tengono conto di chi sia l’utente. Questi sistemi, infatti, si limitano a mostrare i fenomeni che hanno influenzato il calcolo senza spiegare in modo comprensibile perché esso debba essere o meno accettabile. In altri termini, il limite delle tecniche post-hoc è quello di trattare la comprensione umana come un processo privo di interazioni. Da qui nasce l’esigenza di superare la staticità dei modelli tradizionali verso paradigmi personalizzati e adattivi, per ottenere una spiegazione non solo corretta rispetto al modello, ma calibrata sul profilo dell’utente, e che tenga conto della distinzione tra l’esigenza tecnica di uno sviluppatore e il bisogno pratico di un cittadino. Senza questa flessibilità, la XAI rischia di rimanere un esercizio di retorica computazionale che, seppur utileper chi ha competenze tecniche, è incapace di colmare davvero il divario tra sistema e utente.
Mismatch cognitivo e AI interattiva
Il limite strutturale delle attuali tecniche di spiegazione emerge con chiarezza nella rassegna di Kim, Maathuis e Sent (Jenia Kim, Henry Maathuis, Danielle Sent, Human-centered evaluation of explainable AI applications: a systematic review, 2024). Gli autori sollevano qui una questione fondamentale: alla XAI si è pensato finora come a un problema di “ingegneria del software”, trascurando che la spiegazione è, prima di tutto, un atto comunicativo tra due agenti con strutture cognitive diverse. Nella rassegna, ricercatori documentano quello che definiscono un mismatch cognitivo: la tendenza a confondere la trasparenza tecnica del modello con l’intellegibilità da parte dell’utente.
Nello specifico, Kim, Maathuis e Sent osservano che sottoporre un utente non esperto a dati che richiedono una competenza specifica per essere compresi (come i valori di SHAP o i risultati ottenuti mediante le perturbazioni di LIME) non produce una comprensione reale, ma genera un sovraccarico informativo: l’eccesso di dettagli tecnici impedisce all’utente di applicare i propri schemi mentali invece di guidarlo verso la comprensione. Una spiegazione troppo complessa può infatti indurre una fiducia ingiustificata da parte dell’utente che, lungi dall’essere critico e consapevole, viene intimidito e delega la responsabilità alla macchina e alla spiegazione ricevuta, assumendo che dietro tale complessità debba celarsi una verità che non può contestare.
Per superare questo divario è necessario un cambio di paradigma che sposti l’attenzione dall’output al processo. In questa direzione si muove il lavoro di Raees et al. (Muhammad Raees, Inge Meijerink, Ioanna Lykourentzou, Vassilis-Javed Khan, Konstantinos Papangelis, From Explainable to Interactive AI: A Literature Review on Current Trends in Human-AI Interaction, 2024), che propone il superamento della XAI passiva in favore dell’Interactive AI. Se la panoramica di Kim, Maathuis e Sent evidenzia il fallimento della spiegazione intesa come un prodotto preconfezionato e uguale per tutti, Raees et al. suggeriscono che la vera trasparenza risiede nella costruzione di una reale agencydell’utente, in cui l’interattività sia intesa come un rifacimento della relazione di potere tra utente e algoritmo. In un sistema di AI interattiva, l’utente diventa un partecipante attivo all’interno di un ciclo di feedback continuo. Questo metodo permette di affrontare il mismatch cognitivo in tempo reale: l’utente ha la possibilità di interrogare il modello, chiedendo chiarimenti su punti specifici, esplorando scenari alternativi e correggendo la logica interna del modello durante l’interazione.
Per comprendere come la Interactive AI possa superare i limiti della spiegazione tradizionale, consideriamo l’integrazione di un sistema algoritmico in un reparto oncologico.
Nello scenario della XAI passiva, il medico carica la scansione delle immagini diagnostiche relative a un paziente e il sistema restituisce la probabilità che il tumore studiato sia maligno, accompagnata da una saliency map che evidenzia quali pixel dell’immagine hanno portato l’algoritmo a quell’output. Qui scatta il mismatch cognitivo: la spiegazione è puramente visiva e statistica, non spiega perché quei pixel siano rilevanti da un punto di vista clinico. Questa opacità può portare a un eccessiva fiducia o, al contrario, a un totale rifiuto da parte del medico.
Il paradigma di Raees et al. intende, invece, la spiegazione come un processo interattivo tra utente e algoritmo, trasformando l’AI da oracolo a consulente. Tornando all’esempio di prima, il medico dovrebbe avere a disposizione un’interfaccia per interrogare l’algoritmo e verificare in tempo reale il mutamento della risposta in base alla variazione dei parametrici clinici del paziente.
Secondo Raees et al. questo passaggio trasforma la spiegazione da un report statico a un processo di co-creazione della conoscenza. La trasparenza, da semplice requisito tecnico, diventa una proprietà emergente della collaborazione, così che la spiegazione sia un processo adattivo calibrato sulle competenze, sul linguaggio e sulle necessità specifiche dell’interlocutore. Restituire agency all’utente significa, quindi, riconoscere che l’intelligenza artificiale deve essere in grado tanto di fornire risposte quanto di negoziarne il senso con l’essere umano.
Sparse Autoencoders e Neuro-symbolic AI
Se la XAI tradizionale cerca di spiegare la decisione dall’esterno, nuove tecniche mirano a rendere l’architettura stessa dell’AI più vicina ai concetti umani. Una delle innovazioni più recenti e discusse riguarda l’applicazione degli Sparse Autoencoders (SAE) ai grandi modelli linguistici (Large Language Models).
Gran parte dei sistemi attuali si basa su reti neurali artificiali, modelli computazionali ispirati alla struttura del cervello umano dove l’informazione viene elaborata attraverso strati di nodi interconnessi: i neuroni. Il problema dei neuroni artificiali è che sono spesso “polisemantici”. Un singolo neurone non contribuisce alla rappresentazione di un concetto unico, ma può contribuire alla rappresentazione di concetti totalmente diversi, rendendo impossibile un’interpretazione precisa del suo ruolo nel calcolo; ciò accade perché i modelli vengono costruiti in modo da essere in grado elaborare enormi quantità di dati facendo economia delle risorse a disposizione. I SAE risolvono questo problema: decompongono infatti le attivazioni caotiche della rete neurale in migliaia di concetti singoli e interpretabili, permettendo di mappare il funzionamento interno della macchina su concetti semantici familiari all’uomo. Questo processo è fondamentale per l’interpretabilità poiché in un’ottica interattiva significa che l’utente può, teoricamente, togliere un concetto dall’equazione per vedere come cambia il comportamento del modello, esercitando quella agencymenzionata da Raees et al.
In continuità con la scomposizione concettuale operata dagli Sparse Autoencoders, la Neuro-symbolic AI è un approccio che permette di raccordare queste scoperte in una struttura di pensiero coerente. Se le tecniche precedenti si limitano a estrarre frammenti di senso dal caos dei dati, l’approccio neuro-simbolico tenta di unire i due grandi rami storici dell’intelligenza artificiale: la potenza di apprendimento statistico delle reti neurali e il rigore logico dei sistemi simbolici. In questo modello ibrido, la componente neurale gestisce la percezione e il riconoscimento di pattern complessi, mentre quella simbolica organizza tali informazioni secondo regole logiche.
Il vantaggio della Neuro-symbolic AI per l’utente finale risiede nella natura della spiegazione prodotta. Essa non è più un’approssimazione statistica calcolata a posteriori, ma il tracciato logico effettivo del ragionamento compiuto dalla macchina: in un contesto decisionale, il sistema XAI può esporre i passaggi deduttivi seguiti, utilizzando simboli e categorie familiari all’uomo. Questa convergenza trasforma l’AI da una black box a una struttura trasparente dove ogni conclusione è vagliabile e, soprattutto, contestabile attraverso la logica, offrendo finalmente una base di razionalità condivisa.
Conclusione
In ultima analisi, è importante che in futuro l’Explainable AI inserisca tra i suoi obiettivi la risoluzione del divario comunicativo che ancora separa gli utenti comuni e gli sviluppatori. Come osservato, la trasparenza tecnica non è di per sé garanzia di utilità; affinché l’AI diventi uno strumento davvero integrato nella società è necessario passare da una logica di esposizione dei dati a una di personalizzazione del senso. Cardine di questo cambiamento sono gli strumenti emergenti, come gli Sparse Autoencoders e l’AI neuro-simbolica, che trasformano calcoli astratti in concetti comprensibili. Progettare la XAI del futuro significa, dunque, immaginare sistemi che non si limitino a fornire passivamente un verdetto, ma che abilitino un’interazione dinamica, superando la rigidità delle tecniche tradizionali in favore di un approccio interattivo e basato sull’agency dell’utente.
Benedetta Bonomi


