Il dibattito «open source contro proprietario» sull’IA viene spesso affrontato come una questione ideologica. Ma non è questo il punto. Si tratta di una questione strategica: cosa si controlla e cosa no?

Cominciamo col fare chiarezza sul vocabolario.

La confusione terminologica

Open source in senso stretto (Open Source Initiative): il codice, i dati di addestramento e i pesi sono pubblici e liberamente riutilizzabili, anche a fini commerciali. Quasi nessun grande modello di IA raggiunge oggi questo livello.

Open weights: i pesi del modello sono pubblicati, ma non necessariamente il codice di addestramento né i dati. È possibile scaricare il modello, eseguirlo, modificarlo ed eventualmente distribuirlo a fini commerciali (a seconda della licenza). È il caso di Llama 3, Mistral, Mixtral, DeepSeek e Qwen.

Proprietario: il modello gira sui server del fornitore, a cui si accede tramite API. Non si ha alcun controllo sui pesi, sull’inferenza né sulle versioni future. GPT-4o, Claude 3.5 e Gemini 1.5 Pro rientrano in questa categoria.

Cosa si controlla realmente con i pesi liberi

Con un modello open weights implementato localmente:

  • Avete il controllo sulla versione (non subite aggiornamenti indesiderati)
  • I tuoi dati non escono dalla tua infrastruttura
  • Il costo marginale dell’inferenza è dato dai costi di infrastruttura, non da una tariffa per token
  • Puoi effettuare una messa a punto sui tuoi dati proprietari
  • Puoi verificare il comportamento del modello sui tuoi casi di test

Ciò che non potete controllare: la qualità del modello di base (dipendete da Meta, Mistral o da chiunque abbia pubblicato i pesi). Se Meta decidesse di non pubblicare più i pesi, potreste continuare a utilizzare la versione attuale, ma non avreste più accesso a quelle successive.

Cosa si controlla realmente con un’API proprietaria

In sostanza: l’interfaccia. Sei tu a scegliere quale prompt inviare e come gestire la risposta. Tutto il resto è sotto il controllo del fornitore.

Cosa significa in pratica:

  • OpenAI ha deprecato GPT-3.5 alla fine del 2024, costringendo gli sviluppatori a migrare
  • Il comportamento dei modelli cambia con gli aggiornamenti (un prompt che funzionava bene potrebbe non funzionare più)
  • I prezzi possono variare (nel complesso sono diminuiti, ma non vi è alcuna garanzia che la tendenza si mantenga)
  • Il fornitore può decidere di limitare determinati utilizzi (filtri di contenuto in evoluzione)

Il vero compromesso

Non è che «open source = bene, proprietario = male». È piuttosto:

Per un utilizzo critico, con dati sensibili e nel lungo periodo: le soluzioni open source on-premise offrono maggiore controllo e prevedibilità, a fronte di un impiego di risorse interne e di prestazioni leggermente inferiori nelle attività generiche.

Per la prototipazione rapida, dati non sensibili e risorse tecniche limitate: un’API proprietaria è più accessibile, più veloce da implementare e spesso più efficiente nelle attività generiche.

La strategia ibrida (la più diffusa nella pratica): API proprietaria per gli utilizzi non sensibili e lo sviluppo, OpenWeights on-premise per gli utilizzi sensibili o ad alto volume.

DeepSeek e la competizione globale

Nel dicembre 2024, DeepSeek ha pubblicato V3, un modello cinese open weights che raggiunge prestazioni paragonabili a quelle di GPT-4o in diversi benchmark, con un costo di addestramento dichiarato di 6 milioni di dollari, ovvero da 10 a 30 volte inferiore rispetto a un modello statunitense di livello equivalente.

Questo articolo dimostra che la concorrenza sui modelli di fondazione è globale. Le pretese di leadership tecnologica duratura avanzate dagli attori statunitensi sono fragili. Inoltre, l’ecosistema open source può evolversi rapidamente, ampliando così le alternative disponibili.

Il rovescio della medaglia: le questioni relative alla fiducia e alla governance in un modello di società cinese sono legittime in determinati contesti (difesa, istituzioni pubbliche, dati sensibili). Questo non è un motivo per scartarlo in ogni contesto, ma è un fattore da valutare in modo esplicito.