Les modèles d’IA à source ouverte peuvent entraîner des coûts globaux plus élevés en raison de l’inefficacité des jetons.

Nombreux sont ceux qui pensent que les modèles d’IA à code source ouvert sont moins chers. C’est souvent vrai, du moins si vous ne considérez que le prix par jeton. Mais lorsque vous faites un zoom arrière et que vous analysez les performances réelles de ces modèles dans des charges de travail typiques, la situation change.

Nous Research a récemment mené une étude sur 19 modèles d’IA et a constaté que les modèles à code source ouvert consommaient de 1,5 à 4 fois plus de jetons que leurs homologues à code source fermé lorsqu’ils effectuaient la même tâche. Pour de simples requêtes de connaissances, comme demander la capitale d’un pays, les modèles à code source ouvert ont parfois consommé jusqu’à dix fois plus. Cela signifie qu’il peut être plus coûteux d’obtenir le même résultat, même si chaque jeton est techniquement moins cher.

Cela est important si vous construisez à grande échelle. Si votre équipe traite des millions de requêtes d’IA par mois, ces inefficacités s’accumulent rapidement. Vous brûlez essentiellement de l’espace de calcul dont vous n’avez pas besoin, ce qui peut peser lourd sur les budgets de l’entreprise.

Lors de l’évaluation des outils d’IA, le coût par jeton n’est plus une mesure suffisante. Vous devez évaluer le nombre de jetons dont le modèle a besoin pour accomplir des tâches spécifiques dans le monde réel. Sans ces données, vous prenez des décisions budgétaires avec des informations partielles.

L’efficacité des jetons est un indicateur essentiel du déploiement de l’IA

La plupart des personnes qui évaluent l’IA s’intéressent à la précision ou à la latence. L’efficacité des jetons, c’est-à-dire le nombre de jetons dont un modèle a besoin pour parvenir à une solution, ne reçoit pas autant d’attention qu’elle le devrait. Il s’agit pourtant d’un élément clé de l’équation si vous souhaitez mettre l’IA à l’échelle de manière abordable.

Nous Research l’a clairement indiqué dans son évaluation. Ils ont comparé un large éventail de modèles pour différents types de tâches : questions de connaissances simples, problèmes mathématiques et énigmes logiques. Ils ont constaté que l’utilisation des jetons varie considérablement, même si la précision des résultats est la même. Cette variation a un impact direct sur vos coûts d’inférence, et elle est proportionnelle à l’utilisation.

Si vous êtes DSI ou directeur technique et que vous cherchez à déployer des outils d’IA au sein d’équipes ou de lignes de produits, l’efficacité des jetons vous donne une idée beaucoup plus claire du coût réel. Un modèle plus précis, mais beaucoup moins efficace, pourrait coûter plus cher au final. En sachant cela dès le départ, vous pouvez sélectionner des modèles qui sont à la fois prêts pour la performance et économes en ressources.

Les dirigeants s’interrogent souvent sur le « coût total de possession de l’IA ». L’efficacité des jetons devrait être au cœur de cette réponse. Elle influe sur l’économie d’aujourd’hui et sur la durabilité d’une mise en œuvre plus large de l’IA dans l’ensemble de votre pile.

Les modèles à source fermée font preuve d’une efficacité supérieure en matière de jetons

Beaucoup de gens associent encore les modèles à source fermée à des coûts plus élevés. Certes, le prix de l’API par jeton est généralement plus élevé. Mais Nous Research a montré que lorsque vous tenez compte de l’efficacité avec laquelle ces modèles utilisent les jetons, l’économie change rapidement.

Les modèles o4-mini et gpt-oss d’OpenAI se sont distingués dans l’étude par leur extrême efficacité. Pour les problèmes mathématiques, tâches qui poussent généralement les modèles à raisonner étape par étape, les modèles d’OpenAI ont utilisé jusqu’à trois fois moins de jetons que les autres concurrents commerciaux. C’est une grande victoire en termes de coût et de rapidité.

Les fournisseurs de logiciels fermés optimisent clairement leurs architectures pour minimiser l’utilisation des jetons. Ils compriment les chaînes de raisonnement internes et les modèles d’ingénierie afin de réduire le nombre d’étapes nécessaires pour parvenir à des conclusions. Il s’agit d’un choix de conception intentionnel qui améliore l’efficacité de l’inférence à grande échelle.

Pour les dirigeants, en particulier ceux qui déploient l’IA sur des systèmes à haut volume, ce niveau d’optimisation se traduit directement par une réduction des coûts de calcul sans sacrifier la précision. Vous obtenez plus de performances par dollar, et vous n’avez pas besoin de faire des compromis sur les résultats pour y parvenir.

Les grands modèles de raisonnement (LRM) sont sujets à une consommation excessive de jetons, même pour des tâches simples.

Les grands modèles de raisonnement sont conçus pour penser en séquences. Cela peut s’avérer utile pour les problèmes complexes, mais l’inconvénient est qu’ils ne savent souvent pas quand s’arrêter. Même pour des questions élémentaires, comme l’identification d’une capitale, ces modèles peuvent générer des centaines, voire des milliers, de jetons en raisonnant sur ce qui devrait être une réponse simple.

L’étude de Nous Research a mis en évidence ce problème. Ces GRL peuvent fournir des réponses précises, mais elles le font avec un traitement interne excessif qui augmente l’utilisation des jetons. Cela augmente considérablement les coûts sans aucune valeur ajoutée pour les tâches simples. Imaginez que vous payez un supplément pour obtenir la même réponse que d’autres, plus succincte.

Il y a là une implication pratique pour les environnements d’entreprise. Si vous utilisez ces modèles pour les requêtes courantes des utilisateurs, l’assistance à la clientèle ou toute autre tâche à haute fréquence, vous vous exposez à des frais généraux inutiles. Cela gonfle votre facture informatique, ralentit le temps de réponse et réduit l’efficacité de l’ensemble.

Il ne s’agit pas d’un défaut de modèle, mais d’un compromis de conception. Mais il est essentiel que les responsables technologiques comprennent le comportement des coûts avant de concevoir des systèmes autour de ces modèles.

L’efficacité des jetons varie considérablement d’un modèle d’IA à l’autre.

Les modèles d’IA en libre accès ne sont pas tous construits de la même manière. Certains sont bien optimisés, d’autres brûlent les jetons beaucoup trop facilement. Cette différence peut avoir un impact majeur sur votre stratégie de calcul et vos coûts opérationnels.

Selon Nous Research, le modèle llama-3.3-nemotron-super-49b-v1 de Nvidia était le modèle open-weight le plus efficace dans tous les domaines testés. Il a toujours utilisé moins de jetons par tâche que ses homologues à code source ouvert. À l’opposé, les nouveaux modèles d’entreprises telles que Mistral ont été considérés comme aberrants, car ils consommaient beaucoup plus de jetons que nécessaire pour résoudre les problèmes de base ou intermédiaires.

Ce type de disparité est essentiel lors de la sélection d’un modèle. Si vous supposez que tous les outils open-source ont le même profil de performance, vous risquez de prendre les mauvaises décisions en matière d’infrastructure et de mise à l’échelle. Le bon modèle peut vous offrir à la fois la vitesse et l’accessibilité financière. Le mauvais modèle peut épuiser rapidement votre budget informatique.

Pour les dirigeants qui supervisent l’adoption de l’IA, ces résultats montrent que l’analyse comparative de l’efficacité des jetons est une exigence pratique, et non un détail technique. Vous devez savoir quels modèles offrent des performances sans utilisation excessive des ressources, en particulier lorsque vous déployez l’IA dans plusieurs départements ou services en contact avec la clientèle.

L’optimisation de l’efficacité reste un objectif stratégique pour les fournisseurs de solutions d’IA fermées

Les entreprises d’IA à source fermée ne se contentent pas d’accorder la priorité à la précision, elles optimisent activement l’utilisation des ressources. Cette orientation stratégique donne des résultats clairs dans les études comparatives.

Nous Research a constaté que les modèles fermés ont connu des améliorations constantes dans la manière dont ils compriment et rationalisent les processus de raisonnement. Ces fournisseurs réinventent la façon dont leurs modèles abordent la résolution de problèmes étape par étape afin de réduire le nombre de jetons nécessaires. Même si leur prix par jeton reste plus élevé que les alternatives ouvertes, ces gains d’efficacité modifient l’équation de la valeur globale.

Ce qui se passe ici va au-delà de l’amélioration des résultats pour l’utilisateur. C’est une question d’architecture. Ces entreprises conçoivent des modèles qui en font plus avec moins de données et moins de cycles de calcul. En conséquence, le coût total de l’inférence diminue et les entreprises qui les déploient à grande échelle en tirent profit.

Cet aspect devrait être pris en compte par tous les dirigeants qui se demandent s’ils doivent acquérir des licences pour des outils à code source fermé ou construire avec une infrastructure ouverte. L’efficacité est désormais un facteur de différenciation concurrentielle. Payer plus par jeton ne signifie pas nécessairement dépenser plus globalement.

La mesure de l’efficacité des jetons présente des défis méthodologiques uniques

Il n’est pas facile de mesurer l’efficacité des jetons, en particulier lorsqu’il s’agit de modèles à source fermée. Souvent, ces modèles ne montrent pas leurs processus de raisonnement internes. Au lieu de cela, ils génèrent des résumés compressés, des représentations plus courtes et nettoyées de la chaîne de raisonnement, ce qui rend plus difficile l’évaluation de la quantité de calcul réel qui a eu lieu derrière le résultat.

L’équipe de recherche de Nous a comblé cette lacune en utilisant les jetons d’achèvement, un décompte du nombre total de jetons facturés par requête, comme indicateur de l’effort de raisonnement. Ce n’est pas une solution parfaite, mais c’est actuellement l’un des indicateurs les plus fiables disponibles. Ils ont également ajusté les ensembles de problèmes standard en modifiant des tâches connues, par exemple en modifiant les questions des concours de mathématiques, afin de s’assurer que les modèles ne se contentaient pas de rappeler des réponses mémorisées.

Cette approche leur a permis de comparer plus précisément l’utilisation des jetons dans les systèmes d’IA ouverts et fermés. Sans cela, la compréhension de l’efficacité par le marché serait faussée. Les modèles fermés peuvent sembler plus efficaces simplement parce que nous mesurons des résultats incomplets. Avec les données relatives à l’utilisation des jetons, nous commençons à avoir une vision plus claire et plus objective de la situation.

Pour les dirigeants qui prennent des décisions d’investissement, cela rappelle que l’évaluation des outils d’IA ne se limite pas à la lecture des déclarations des fournisseurs. Des pratiques d’analyse comparative cohérentes et transparentes sont nécessaires pour éclairer une véritable analyse coût-performance, et cela est d’autant plus vrai que ces outils s’intègrent de plus en plus dans les systèmes critiques.

L’efficacité des jetons apparaît comme un avantage concurrentiel clé dans le paysage de l’IA

Lorsque les modèles d’IA sont en concurrence, il ne s’agit plus seulement d’intelligence, mais aussi d’efficacité. Les derniers modèles gpt-oss d’OpenAI sont un bon exemple de ce changement. Ils offrent des performances élevées à des niveaux d’efficacité de pointe et, surtout, ils rendent leurs processus de raisonnement plus transparents et accessibles en vue d’une optimisation plus poussée.

Les conclusions de Nous Research indiquent une direction que l’industrie suit déjà : Les modèles d’IA doivent trouver un équilibre entre la précision et l’utilisation des ressources, et ceux qui réussiront à faire les deux domineront. L’efficacité des jetons n’est plus seulement une mesure technique. Elle commence à façonner les priorités des feuilles de route des produits et à influencer les décisions d’achat des entreprises.

Pour les dirigeants, cela marque un tournant dans la courbe de maturité de l’IA. À mesure que les organisations passent de l’expérimentation au déploiement en entreprise, la prévisibilité des coûts et l’efficacité opérationnelle passent au premier plan. Les modèles qui peuvent fonctionner correctement dans le cadre de contraintes d’efficacité strictes offriront un meilleur retour sur investissement, évolueront de manière plus durable et s’intégreront de manière plus transparente dans les pipelines de produits ou de données.

En conclusion

Si vous êtes à la tête d’une stratégie d’IA, l’efficacité des jetons devrait déjà être dans votre ligne de mire. Il ne s’agit pas seulement d’un détail technique, mais d’un facteur de coût, d’un levier de performance et, bientôt, d’un critère de compétitivité. L’hypothèse selon laquelle les logiciels libres sont moins chers n’est plus fiable. Certains modèles ouverts fonctionnent bien, mais beaucoup consomment rapidement des jetons, ce qui fait grimper les coûts de calcul dans le monde réel.

Les fournisseurs de logiciels à code source fermé, en particulier ceux comme OpenAI, donnent la priorité à l’efficacité. Cela se traduit par des performances prévisibles à grande échelle et une économie plus solide au fil du temps, sans compromettre la qualité des résultats.

À mesure que le paysage de l’IA évolue, vos modèles devront faire plus avec moins. Il ne s’agit pas de dépenser plus, mais de dépenser plus intelligemment. Une inférence allégée, une meilleure conception et un raisonnement optimisé ne sont pas seulement des objectifs techniques, c’est une stratégie d’entreprise.

Alexander Procter

août 29, 2025

12 Min