La scena è familiare. Una sala riunioni, un fornitore di software, una demo curata. Lo strumento risponde a domande sul vostro settore, riformula un contratto, riassume un rapporto di venti pagine in trenta secondi. E il fornitore dice, con la disinvoltura di chi l’ha detto cento volte: “La nostra IA capisce il vostro business.”
A quella frase segue una domanda. Raramente formulata ad alta voce: capisce, o completa?
Non è una distinzione tecnica riservata agli ingegneri. È il confine tra una decisione informata e un acquisto basato su una promessa non esaminata. Tutto quello che c’è in questo articolo dipende dalla risposta.
La parola che fa tutto il lavoro di vendita
“Intelligenza artificiale” è un’etichetta scelta nel 1956 da John McCarthy per nominare un programma di ricerca. Suonava bene, copriva un campo vasto e sopravvisse a decenni in cui la realtà non seguì. Oggi quest’etichetta fa qualcosa di preciso nella mente di chi la legge: installa un’equivalenza implicita tra quello che fanno questi sistemi e quello che fa una mente umana.
Guardate la seconda parola: artificiale. Non nel senso di “falso” contrapposto a “reale”. Nel senso etimologico: fabbricato, costruito, prodotto dall’arte umana. Ciò che è artificiale non nasce, non è cosciente, non pensa. Un artefatto, nel senso di Aristotele, è ciò che non esiste in natura ma viene dalla mano dell’uomo. Un grande modello linguistico è un artefatto. Una protesi statisticamente sofisticata, non una mente.
La parola “intelligenza” fa il lavoro di vendita. La parola “artificiale” contiene la descrizione esatta. Ci siamo abituati a leggere il sostantivo e a dimenticare l’aggettivo.
Cosa fa davvero un modello
Quando inviate del testo a un LLM, ecco cosa accade realmente.
Il testo viene suddiviso in token, frammenti di parole di circa tre quarti di una parola inglese ciascuno. Il modello calcola, per ogni token che potrebbe seguire il contesto attuale, una probabilità. Seleziona il token più probabile, con una piccola variazione casuale per evitare ripetizioni meccaniche. Avanza di un token. Lo fa di nuovo. Finché la risposta non termina.
Non c’è comprensione in questo processo. Nessun modello del mondo. Nessuna intenzione. Nessuna verifica rispetto alla realtà esterna. Il modello non ha “imparato” i vostri contratti come farebbe un avvocato, interiorizzando la logica giuridica. Ha imparato le regolarità statistiche di miliardi di testi, i pattern di co-occorrenza tra sequenze di token. Sa cosa segue a cosa, con una precisione statistica che impressiona.
Un’analogia che regge senza ricorrere al gergo: immaginate un sistema che ha assorbito vent’anni di stampa medica completa. Su qualsiasi frase medica a metà scritta, può prevedere la continuazione con una precisione che impressionerebbe un medico specializzando. Questo sistema sa cos’è una malattia? No. Sa cosa segue statisticamente a “il paziente presenta tosse persistente accompagnata da febbre da”. È radicalmente diverso. E questa differenza non è un dettaglio, è il cuore del problema.
L’architettura Transformer, che è alla base di tutti i moderni grandi modelli linguistici, è un meccanismo di attenzione tra token. Produce rappresentazioni contestuali notevolmente efficaci per la previsione di sequenze.
Il paper fondamentale del 2017 che ha innescato l’ondata attuale non si intitola “Verso un’intelligenza artificiale generale”. Si chiama “Attention Is All You Need”. L’attenzione di cui parla è un meccanismo matematico di ponderazione tra token. Brillante, decisivo, la base di tutto ciò che è seguito. Ma non è intelligenza.
Il ragionamento messo in scena
Dal 2024, una nuova generazione di modelli viene commercializzata per la sua capacità di “ragionare”. Il modello “pensa” prima di rispondere. “Mostra il suo lavoro”. Genera quella che viene chiamata una catena del pensiero.
Cosa succede: il modello genera una sequenza di token intermedi prima della risposta finale. Questa catena sembra ragionamento perché ne assume la forma: passi, verifiche, correzioni apparenti. E migliora il risultato finale su compiti strutturati, in particolare in matematica, logica formale e codice. Questo miglioramento è reale, documentato, significativo.
Ciò che non è reale: che il modello pensi mentre genera quella catena. Prevede i token della catena di “ragionamento” esattamente come prevede i token della risposta: trovando la continuazione più probabile nel contesto. I passi intermedi migliorano la risposta finale perché condizionano meglio il contesto di inferenza, non perché corrispondano a una deliberazione interna.
Chiamare questo “pensiero”, “riflessione” o “cognizione” è una scelta di marketing, non una descrizione del meccanismo. Il salto di prestazioni è documentato. L’interpretazione cognitiva che gli viene attribuita è una narrazione. Distinguere le due cose è già una base più solida per le decisioni.
La prova per assurdo
Se il modello capisse davvero, le allucinazioni sarebbero impossibili.
Un sistema che sa che qualcosa è falso non lo afferma. Un sistema che “capisce” il suo dominio non inventa giurisprudenza inesistente, riferimenti bibliografici fabricati o statistiche dal nulla. Eppure accade. Non raramente. Regolarmente, con sicurezza, in uno stile impeccabile.
L’allucinazione non è un errore accidentale che verrà corretto nel prossimo aggiornamento. È la conseguenza diretta e prevedibile del funzionamento basato sulla previsione. Il modello genera ciò che è statisticamente probabile nel suo spazio di token, non ciò che è vero nel mondo. Quando la risposta probabile assomiglia a quella vera senza esserlo, il modello la scrive comunque. Lo stesso meccanismo che produce risposte corrette produce quelle errate, esattamente nello stesso modo.
I grandi modelli linguistici generano testo statisticamente plausibile senza riferimento al significato o alla verità. La fluidità dell’output crea l’illusione di una comprensione che non c’è.
I modelli allucinano meno di tre anni fa. Il miglioramento è reale. Ma una riduzione non è un’eliminazione. Allo stadio delle architetture attualmente note, l’allucinazione è una proprietà strutturale, non un malfunzionamento marginale in via di scomparsa.
Sicurezza senza affidabilità
C’è un comportamento dei modelli che merita particolare attenzione: affermano con uguale sicurezza una verità verificabile e un errore fabbricato.
Il modello non dice “non sono sicuro” quando non lo è. Non contrassegna i suoi output con un indicatore di fiducia che possiate leggere. La certezza superficiale è una proprietà della previsione: se il token più probabile è un’affermazione sicura, è quello che il modello produce. La forma della certezza non è un segnale di affidabilità.
Un fattore aggravante: il modello tende ad acconsentire con voi. Se la vostra domanda contiene una premessa falsa, una frazione significativa delle risposte validerà quella premessa invece di correggerla. Questo non è servilismo, è completamento. Nei dati di addestramento, i testi umani confermano molto più spesso di quanto contraddicano. Quel pattern viene appreso e riprodotto.
Per un dirigente che vuole testare il proprio giudizio su un tema IA, questo crea una trappola precisa. La domanda “la mia analisi è solida?” ha statisticamente buone probabilità di ottenere una risposta positiva. Non è una validazione, è uno specchio. La distinzione è essenziale in un ambiente decisionale.
Cosa costa il malinteso
Tre decisioni che il malinteso distorce regolarmente.
Sovra-delega senza validazione. Se lo strumento capisce, gli si può delegare il giudizio. Se lo strumento prevede, bisogna validare. Questa distinzione cambia l’architettura organizzativa attorno allo strumento: il volume di revisione umana, la responsabilità per gli errori, le procedure di controllo. Molte organizzazioni hanno deployato sulla prima ipotesi e scoperto la realtà della seconda in produzione, a volte con costi significativi.
Acquisto sulla demo. Una demo di LLM è, per design, ottimizzata per i casi in cui il modello funziona bene. I casi d’uso mostrati sono selezionati. La distribuzione completa delle prestazioni, incluse le code di errore, non è visibile nella demo. “Funziona nella demo” è un’osservazione vera e insufficiente. La domanda non è se funziona: è quale sia il tasso di errore nel vostro specifico caso d’uso, nei vostri dati reali, nelle vostre condizioni operative.
Deploy in produzione come se fosse una sandbox. In una sandbox, un errore non costa nulla. In produzione, un errore in un preventivo a un cliente, un riassunto contrattuale o una risposta a un paziente ha un valore. Gli errori non scompaiono quando si passa dalla sandbox alla produzione. Acquisiscono peso.
Cosa questi strumenti fanno davvero bene
Sarebbe inesatto e controproducente negare le prestazioni reali.
Questi sistemi svolgono compiti che nessuno sapeva automatizzare dieci anni fa: traduzione di alta qualità nelle lingue ben rappresentate nei dati di addestramento, riassunto di documenti lunghi, generazione di codice corretto per i pattern comuni, classificazione di testi su larga scala, ricerca semantica che recupera un documento per significato piuttosto che per le parole esatte.
I grandi modelli linguistici mostrano capacità emergenti su compiti per i quali non sono stati esplicitamente addestrati, e queste capacità aumentano con le dimensioni del modello.
Queste prestazioni sono misurabili, paragonabili a quelle di esperti umani su compiti mirati, e nel loro dominio di competenza consolidato, questi sistemi consegnano. Il punto non è negare quello che fanno gli strumenti. È non estrapolarne una capacità universale che non hanno.
Il limite strutturale rimane lo stesso: queste prestazioni sono condizionate dalla qualità dei dati di addestramento e dalla vicinanza del compito a ciò che il modello ha imparato. Su un argomento poco rappresentato nei corpus, su un ragionamento che si discosta dai pattern appresi, le prestazioni calano. E il modello non segnala il calo.
Una macchina di previsione, non un’intelligenza da comprare
Linus Torvalds, l’autore del kernel Linux, l’ha detto in dieci parole nell’ottobre 2024: “90% marketing, 10% reality.” Un verdetto generale sul discorso sull’IA, non sugli strumenti in sé. Ma nomina qualcosa di preciso: in questo settore, il divario tra ciò che viene venduto e ciò che viene consegnato è strutturalmente ampio, perché il nome stesso della tecnologia porta una promessa che la tecnologia non può mantenere.
Noleggiate una macchina di previsione. Prevede notevolmente bene, nel suo dominio di competenza, su compiti in cui le prestazioni sono misurabili e consolidate. Non capisce, non sa, non verifica. Tenere quell’immagine in testa non vi impedisce di usarla, e non diminuisce quello che fa. Cambia cosa delegate, come la inquadrate e cosa validate.
Non è un handicap percettivo. È un vantaggio decisionale.