Le débat « open source vs propriétaire » sur l’IA est souvent mené comme une question idéologique. Ce n’est pas la bonne grille. C’est une question stratégique : qu’est-ce que vous contrôlez, et qu’est-ce que vous ne contrôlez pas ?

Commençons par nettoyer le vocabulaire.

La confusion terminologique

Open source au sens strict (Open Source Initiative) : le code, les données d’entraînement et les poids sont publics et librement réutilisables, y compris commercialement. Presque aucun grand modèle IA n’atteint ce niveau aujourd’hui.

Open weights : les poids du modèle sont publiés, mais pas nécessairement le code d’entraînement ni les données. Vous pouvez télécharger le modèle, le faire tourner, le modifier, éventuellement le déployer commercialement (selon la licence). C’est le cas de Llama 3, Mistral, Mixtral, DeepSeek, Qwen.

Propriétaire : le modèle tourne sur les serveurs du fournisseur, vous y accédez via API. Vous ne contrôlez ni les poids, ni l’inférence, ni les futures versions. GPT-4o, Claude 3.5, Gemini 1.5 Pro sont dans cette catégorie.

Ce que vous contrôlez vraiment avec les open weights

Avec un modèle open weights déployé en local :

  • Vous contrôlez la version (vous ne subissez pas les mises à jour non voulues)
  • Vos données ne quittent pas votre infrastructure
  • Le coût marginal d’inférence est vos coûts d’infrastructure, pas un tarif par token
  • Vous pouvez fine-tuner sur vos données propriétaires
  • Vous pouvez auditer le comportement du modèle sur vos cas de test

Ce que vous ne contrôlez pas : la qualité du modèle de base (vous dépendez de Meta, Mistral ou qui que ce soit a publié les poids). Si Meta décide de ne plus publier de poids, vous gardez la version actuelle mais vous n’avez plus accès aux suivantes.

Ce que vous contrôlez vraiment avec une API propriétaire

Essentiellement : l’interface. Vous choisissez quel prompt envoyer et comment traiter la réponse. Tout le reste est sous le contrôle du fournisseur.

Ce que cela implique en pratique :

  • OpenAI a déprécié GPT-3.5 fin 2024, forçant les développeurs à migrer
  • Les comportements des modèles changent avec les mises à jour (un prompt qui marchait bien peut se dégrader)
  • Les prix peuvent changer (ils ont globalement baissé, mais rien ne garantit la tendance)
  • Le fournisseur peut décider de restreindre certains usages (filtres de contenu qui évoluent)

Le vrai compromis

Ce n’est pas « open source = bien, propriétaire = mal ». C’est :

Pour un usage critique, avec des données sensibles, sur le long terme : les open weights on-premise donnent plus de contrôle et de prévisibilité, au prix de ressources internes et de performances légèrement inférieures sur les tâches générales.

Pour un prototypage rapide, des données non sensibles, avec des ressources techniques limitées : une API propriétaire est plus accessible, plus rapide à déployer, et souvent plus performante sur les tâches générales.

La stratégie hybride (la plus courante en practice) : API propriétaire pour les usages non sensibles et le développement, open weights on-premise pour les usages sensibles ou à fort volume.

DeepSeek et la compétition globale

En décembre 2024, DeepSeek publie V3, un modèle open weights chinois qui atteint des performances comparables à GPT-4o sur plusieurs benchmarks, avec un coût d’entraînement déclaré de 6 millions de dollars, soit 10 à 30 fois moins qu’un modèle frontière américain équivalent.

Cette publication illustre que la compétition sur les modèles de fondation est globale. Les claims de lead technologique durable des acteurs américains sont fragiles. Et l’écosystème open weights peut progresser rapidement, ce qui améliore les alternatives disponibles.

La contrepartie : les questions de confiance et de gouvernance sur un modèle d’une société chinoise sont légitimes dans certains contextes (défense, institutions publiques, données sensibles). Cette légitimité varie selon le contexte, elle n’en fait pas un veto universel. À évaluer explicitement, dossier par dossier.