Avete ricevuto venti proposte di AI nel corso dell’anno. Forse di più. Tutte promettevano più o meno la stessa cosa: costi ridotti del 40%, tempi di elaborazione ridotti del 30%, maggiore autonomia per i team. Alcuni di loro dicevano la verità. La maggior parte ha riconfezionato un’API pubblica con un livello di prompt del sistema e un logo blu nell’angolo in alto a destra. Ecco le frasi che dovrebbero mettervi in allerta e la domanda precisa da porre dietro ciascuna di esse.

La demo che funziona al primo colpo

Un venditore vi mostra una demo. Il modello produce una resa impeccabile. “Guarda, è perfetto. Sei impressionato.

Quello che non si vede: le dieci iterazioni di prompt engineering che hanno preceduto questa demo. I casi di test scelti con cura per garantire le prestazioni del modello. L’assenza dei vostri dati reali nella demo. Il fatto che sui vostri dati, il tasso di “risposta corretta al primo tentativo” sarà diverso, e non avete modo di saperlo prima di pagare.

Chiedete di eseguire la dimostrazione sui vostri dati. Non su dati generici, né su casi ideali. Sui vostri documenti, sulle vostre convenzioni, sui vostri formati. Se il fornitore si rifiuta o non è in grado di farlo, probabilmente il prodotto non può essere industrializzato nel vostro contesto.

Il modello che conosce il vostro settore

Espressioni comuni: “conosce il vostro settore”, “capisce le normative”, “padroneggia il vostro gergo commerciale”.

Ciò che un LLM “conosce” è ciò che era presente nei suoi dati di addestramento. I dati pubblici attuali fino a una certa data. Non conosce i vostri regolamenti interni. Non conosce i vostri contratti standard. Non conosce la giurisprudenza recente che non è stata documentata pubblicamente. Quando risponde su questi argomenti, estrapola. E l’estrapolazione può essere sbagliata con grande sicurezza.

Chiedete casi di test su punti specifici del vostro settore, con verifica da parte di un esperto interno. Documentate i fallimenti, non solo i successi.

Lo strumento che risolve i vostri tre principali problemi

La versione più grandiosa del lancio dell’intelligenza artificiale. Il vostro problema di produttività: l’IA lo risolve. Il vostro problema di qualità: l’IA lo risolve. Il vostro problema di reclutamento: l’IA lo risolve.

Uno strumento che promette di risolvere tutto in un determinato campo non risolve nulla. L’IA si comporta bene su compiti ben definiti, con input ben strutturati, nei domini coperti dai suoi dati. È mediocre su compiti ambigui, con input rumorosi e domini poco rappresentati.

Chiedete qual è il compito specifico che il modello risolve, qual è la misura delle prestazioni su questo compito e qual è la procedura quando il modello è sbagliato.

Provate, vedremo

In un contesto di sviluppo o prototipazione: frase legittima. La sperimentazione è il modo giusto per valutare un LLM.

In un contesto di implementazione su processi reali con una posta in gioco reale: una frase pericolosa. “Vedremo” è accettabile quando l’errore costa un prompt fallito. Non lo è quando l’errore costa una decisione legale errata. Una diagnosi medica mancata. Un trasferimento fraudolento che passa inosservato.

La tolleranza all’errore non rilevato dipende dal contesto. In contesti in cui è alta, è opportuno “provare e vedere”. In contesti in cui è bassa, un piano di validazione e revisione è obbligatorio prima di qualsiasi implementazione.

Cosa dovete richiedere contrattualmente

Ci sono quattro cose che dovreste chiedere contrattualmente al fornitore. In primo luogo, il modello sottostante: quale LLM è in esecuzione sotto il cofano e cosa succede quando cambia versione. Poi il tasso di errore misurato su casi di test rappresentativi del vostro contesto, non su casi dimostrativi. La destinazione dei dati inviati (UE, non UE, uso per la formazione). E lo SLA se le prestazioni diminuiscono dopo un aggiornamento del modello sottostante. Il resto (politica di conservazione, perimetro dell’AI Act, ecc.) è trattato nelle appendici. Ma questi quattro punti sono la condizione di partenza.

Se un fornitore non è in grado di rispondere a queste quattro domande, non si tratta di una soluzione industriale. Si tratta di una dimostrazione travestita da prodotto.