Le mot est partout dans les annonces depuis 2024 : les nouveaux modèles « raisonnent ». OpenAI appelle sa lignée o1, o3. Anthropic parle de « extended thinking ». Google a son mode Gemini Thinking. DeepSeek a publié R1. L’idée vendue : des modèles qui réfléchissent avant de répondre.

Les performances mesurables s’améliorent vraiment sur certaines tâches. C’est la partie honnête du discours. Le reste mérite d’être ouvert.

Ce qui change techniquement

La technique sous-jacente s’appelle chain-of-thought (chaîne de pensée). Elle a été décrite dans un article de Google Brain en 2022 : au lieu de demander directement la réponse, on demande au modèle de décrire les étapes intermédiaires. Les performances sur les tâches de raisonnement mathématique et logique augmentent significativement.

Fournir des exemples de raisonnement pas-à-pas dans le prompt améliore les performances sur les benchmarks de raisonnement mathématique et de bon sens de façon spectaculaire, pour les modèles à partir d’une certaine taille.

Chain-of-Thought Prompting, Wei et al. (2022)

Ce que font o1, R1 et leurs équivalents : ils internalisent cette chaîne de pensée. Au lieu que vous la demandiez dans votre prompt, le modèle la génère automatiquement comme tokens intermédiaires (souvent cachés à l’utilisateur) avant d’arriver à la réponse finale. Les tokens de « réflexion » conditionnent mieux le contexte et permettent d’arriver à une réponse finale plus précise.

L’amélioration est réelle. Sur des problèmes mathématiques formels, des problèmes de code, des puzzles logiques structurés, ces modèles font mieux que leurs prédécesseurs. Les benchmarks MATH, AIME, et d’autres en témoignent.

Ce qui ne change pas

Le modèle génère toujours des tokens, l’un après l’autre, basé sur des probabilités. La chaîne de pensée est une séquence de tokens prédits, pas une trace d’un processus cognitif. Le modèle n’a pas de représentation interne du problème. Il n’a pas d’hypothèses qu’il teste et abandonne. Il génère du texte qui ressemble à un raisonnement parce qu’il a été entraîné sur des traces de raisonnement humain.

Cette distinction importe dans les contextes où la robustesse hors distribution est nécessaire. Les modèles de raisonnement excellent sur les types de problèmes bien représentés dans leurs données d’entraînement. Sur des problèmes structurellement différents, les performances chutent. Un vrai système de raisonnement formel (un prouveur de théorèmes, par exemple) ne présente pas ce comportement : il démontre ou il échoue, sans halluciner une démonstration incorrecte.

Le cas DeepSeek-R1 : une fissure dans le mythe de l’opacité

En janvier 2025, DeepSeek publie R1, un modèle de raisonnement open weights qui atteint des performances comparables à o1 d’OpenAI sur plusieurs benchmarks, à une fraction du coût d’entraînement déclaré.

DeepSeek-R1 atteint des performances comparables à OpenAI-o1 sur des benchmarks de raisonnement mathématique et de code, en utilisant des techniques de renforcement pur (sans supervision humaine intensive) pendant la phase de réflexion.

DeepSeek-R1 Technical Report (2025)

Ce moment est révélateur à deux niveaux. D’abord, il montre que les techniques de raisonnement ne sont pas l’exclusivité des acteurs disposant de budgets de plusieurs milliards. Ensuite, il montre que la compétition est globale et que les claims de lead technologique durable sont fragiles.

Ce que ça change (et ne change pas) pour vos projets

Si vous évaluez des modèles pour des tâches d’analyse ou de résolution de problèmes, les modèles de raisonnement méritent d’être testés. Sur les tâches structurées (extraction avec logique conditionnelle, validation de règles, génération de code avec tests), ils surperforment souvent les modèles standards.

Les limites persistent. Ils coûtent plus cher (plus de tokens générés pour la chaîne de pensée). Ils sont plus lents. Ils ne sont pas plus fiables sur les faits (le raisonnement améliore la structure de la réponse, pas la véracité des faits utilisés). Et ils peuvent « raisonner » vers une conclusion fausse avec autant de confiance qu’une vraie.

La règle reste la même : testez sur vos données, pas sur les benchmarks publiés par les constructeurs.