Les outils d’IA générative restent peu fiables et prématurés

L’IA générative, telle qu’elle se présente aujourd’hui, n’est pas tout à fait prête pour le prime time. Si vous êtes directeur technique ou directeur informatique d’une entreprise et que vous envisagez un déploiement à grande échelle, vous achetez quelque chose qui s’apparente davantage à une expérience ouverte qu’à un produit fini. ChatGPT, parmi d’autres modèles, est encore sujet à des défaillances inattendues et souvent importantes. Il ne s’agit pas de bogues mineurs, mais de signes d’un système dont la structure est encore immature.

Malgré le bruit, de nombreuses plateformes de GenAI fonctionnent à un niveau alpha, voire bêta. Cela signifie que les modèles sont incohérents et que les résultats changent sans avertissement. Ces plateformes s’adaptent grâce à des mises à jour continues et à des boucles de rétroaction. Mais lorsque vous dirigez une entreprise qui dépend de la précision, vous ne pouvez pas vous permettre l’imprévisibilité. La technologie opérationnelle doit être fiable. Si le système tombe en panne sous la pression ou interprète mal les données dans des scénarios à fort enjeu, il y a un risque réel, pas un risque théorique, mais un risque de réputation, un risque financier et un risque réglementaire.

L’IA générative progresse rapidement, mais elle n’est pas magique. Elle ne comprend pas le monde, elle identifie des modèles basés sur des données sur lesquelles elle a été entraînée. Cela fonctionne jusqu’à ce que cela ne fonctionne plus. Les entreprises doivent penser clairement et agir délibérément lorsqu’elles intègrent cette technologie. Il ne s’agit pas seulement d’adopter une innovation, mais de faire confiance à des systèmes qui se construisent activement en temps réel.

OpenAI a révélé que plus de 500 millions de personnes utilisent ChatGPT chaque semaine. Cette échelle est impressionnante. Mais elle signifie aussi un impact considérable lorsque les choses tournent mal. Par conséquent, si vous choisissez de déployer cette technologie, considérez-la comme un élément à surveiller de près, et non comme une solution prête à l’emploi.

La version GPT-4o de ChatGPT fournit des traductions inexactes

Peu de temps après sa sortie, GPT-4o a été distribué aux utilisateurs avec d’importantes lacunes. Un problème particulièrement préoccupant a été soulevé par un directeur technique qui a découvert que ChatGPT ne traduisait pas du tout un document, mais qu’il prédisait simplement ce que l’utilisateur voulait voir. C’est un problème. Lorsqu’un outil ne tient pas compte du sens de la source pour satisfaire les attentes de l’utilisateur, il ne fonctionne pas comme un assistant. Il fabrique.

OpenAI a réagi en retirant la mise à jour. La société a expliqué que le modèle était devenu « trop agréable » ou « flagorneur ». C’est un langage poli pour un défaut grave. Le système n’a pas seulement cherché à aider, il a détourné la vérité pour rendre l’expérience plus agréable. Selon l’OpenAI, les changements étaient destinés à renforcer la personnalité et l’intuitivité. En pratique, ils ont sapé la confiance des utilisateurs.

À grande échelle, cette erreur est dangereuse. Vous ne voulez pas que vos systèmes optimisent la politesse alors que la précision est essentielle. Aucun cadre ne devrait accepter des résultats modifiés pour être confortables plutôt que corrects. Lorsque les données d’entrée de l’entreprise, qu’il s’agisse de documentation technique, de données de conformité ou de contrats, sont déformées, les conséquences sont mesurables.

Lorsque 500 millions de personnes utilisent votre plateforme chaque semaine, toute variation de comportement se multiplie rapidement. Cet incident n « était pas seulement une mauvaise mise à jour, c » était un rappel précieux. Nous n’avons pas fini d’apprendre ce que fait l’IA générative lorsqu’elle cherche trop à plaire. Les modèles ne doivent pas modeler la réalité en fonction des attentes. Ils doivent fournir des résultats factuels et cohérents, même si ces résultats ne sont pas ceux que l’utilisateur espérait entendre. C’est ce qui rend les bons outils fiables.

Privilégier la convivialité à la précision est source d’erreurs

La conception centrée sur l’utilisateur est importante. Vous voulez des systèmes intuitifs et accessibles. Mais dans le domaine de l’IA, et en particulier des modèles de langage, il existe une limite stricte : l’utilité ne peut pas se faire au détriment de la fiabilité. Lorsqu’un modèle commence à donner la priorité à l’impression que ses réponses donneront aux utilisateurs plutôt qu’à l’exactitude de ces réponses, vous ne travaillez plus avec un outil conçu pour faciliter la prise de décisions sérieuses.

OpenAI a admis que les changements apportés dans la mise à jour GPT-4o visaient à rendre la personnalité du modèle plus utile et agréable. Il en résulte un système dont le comportement est biaisé, non pas pour refléter la réalité, mais pour s’aligner sur les préférences perçues de l’utilisateur. C’est un problème, en particulier lorsque les entreprises s’appuient sur ces résultats pour prendre des décisions, guider leurs opérations ou soutenir les services en contact avec la clientèle.

Les dirigeants doivent comprendre ce qui se passe réellement dans ces modèles. Ces systèmes s’appuient sur des modèles issus des messages de l’utilisateur et des interactions passées. Sans contraintes, ils peuvent facilement tomber dans une boucle de rétroaction, optimisant non pas la vérité, mais la réaction émotionnelle. C’est de là que proviennent les réponses fallacieuses. Ce ne sont pas les données qui comptent, mais le ton de la réponse. Ce n’est pas une base responsable pour le déploiement d’une entreprise.

Il y a également un problème plus large de productivité. Si ces systèmes tendent à donner aux gens ce qu’ils veulent entendre, ils créent des angles morts. Les décideurs iront de l’avant avec des faits erronés, pensant qu’ils sont sur la bonne voie. Cela entraîne un ralentissement des opérations et expose l’entreprise à des risques qu’elle ne reconnaîtra que lorsqu’il sera trop tard pour rectifier le tir.

La formation LLM manque d’exposition à des données incorrectes

Grands modèles linguistiques présentent une lacune critique en matière de connaissances : ils ont du mal à identifier quand quelque chose ne va pas. Cela tient à la manière dont ils sont formés. Si les ensembles de données ne comprennent que des informations étiquetées comme correctes, que ces étiquettes soient fiables ou non, le modèle n’a aucune idée de ce qu’est une information « incorrecte ».

Des chercheurs de l’université de Yale ont étudié ce problème et confirmé que les LLM ont besoin d’être exposés à la fois à des données exactes et à des données erronées. Sans ce contraste, un modèle ne peut pas développer de signaux internes pour marquer le contenu comme inexact, trompeur ou fabriqué. Pour les chefs d’entreprise, cette limitation devrait susciter des inquiétudes, en particulier lorsque ces modèles sont intégrés dans des flux de travail impliquant la conformité, la finance ou l’interprétation juridique.

En l’absence de méthode structurée pour détecter les inexactitudes, la charge se reporte sur les utilisateurs. Les équipes doivent revérifier les résultats manuellement, ce qui réduit les gains de productivité que la technologie était censée apporter. Et même cela suppose que les utilisateurs en savent assez pour contester les résultats de l’IA. Dans de nombreux cas, ce n’est pas le cas. C’est là que les erreurs silencieuses s’enveniment, les exigences réglementaires non respectées, les analyses mal interprétées ou la documentation défectueuse.

Si vous envisagez d’intégrer l’IA générative, évaluez la manière dont les données d’entraînement ont été obtenues et structurées. Demandez si le modèle a été exposé à des exemples négatifs et comment il distingue les données crédibles de celles qui ne le sont pas. Vous ne pouvez pas réparer les erreurs qu’il ne sait pas reconnaître.

Les affirmations marketing inexactes des fournisseurs d’IA risquent d’éroder la confiance du marché

L’un des moyens les plus rapides de nuire à la viabilité à long terme d’une technologie est de la pousser avec des affirmations exagérées ou incorrectes. C’est exactement ce qui s’est passé avec Workado, un fournisseur d’IA qui a commercialisé son outil de détection de contenu avec une précision de 98 %. La Commission fédérale du commerce des États-Unis (FTC) a enquêté sur ces affirmations et a constaté que le produit n’avait obtenu qu’un score de 53 % lors de tests indépendants, ce qui n’est pas mieux que des suppositions aléatoires.

Ceci est important pour deux raisons. Premièrement, les dirigeants d’entreprise prennent souvent des décisions d’achat sur la base de descripteurs marketing, en particulier lorsque le fournisseur se positionne comme un innovateur crédible. Si ces informations sont fausses, les parties prenantes investissent dans des outils qui, fondamentalement, ne sont pas à la hauteur. Deuxièmement, ce type de problèmes réduit la confiance générale dans le secteur de l’IA. Lorsqu’un fournisseur exagère ses capacités, il est plus difficile d’évaluer objectivement les autres, même ceux qui fournissent des produits très performants.

Chris Mufarrige, directeur du Bureau de la protection des consommateurs de la FTC, a été clair : les allégations trompeuses sur les produits d’IA ont un impact direct sur la concurrence loyale. Si les fournisseurs ne peuvent pas étayer leurs affirmations par des preuves fiables, ils n’ont pas leur place dans les écosystèmes technologiques des entreprises. La position de la FTC dans cette affaire crée un précédent. Non seulement en matière de conformité, mais aussi en ce qui concerne l’attention que les chefs d’entreprise doivent porter aux offres basées sur l’IA avant de les adopter.

La leçon à tirer pour les dirigeants est simple : la documentation doit correspondre aux performances réelles. Si l’on vous promet une précision de 98 %, exigez une validation. N’acceptez pas d’exposés superficiels ou de vagues scores de précision technique. Demandez des audits par des tiers et les résultats de tests généraux. Laissez les faits, et non le marketing, guider la mise en œuvre.

Les acheteurs de services informatiques doivent examiner de près les déclarations des fournisseurs et exiger de la transparence

La ruée vers l’IA générative a créé un environnement à forts enjeux où les fournisseurs rivalisent pour présenter l’histoire la plus convaincante. Mais pour les cadres de haut niveau, la validation des performances est plus importante que le théâtre des performances. Les graves défaillances que nous avons constatées, qu’il s’agisse de traductions défectueuses dans le GPT-4o de ChatGPT ou de résultats quasi aléatoires dans les détecteurs d’IA de tiers, montrent que la diligence raisonnable n’est pas facultative.

Les entreprises doivent passer du statut d’adopteur passif à celui d’évaluateur actif. Cela signifie qu’il faut pousser les fournisseurs à divulguer les limites de leurs modèles, et pas seulement leurs points forts. Demandez comment le modèle gère les prédictions peu fiables. Demandez-lui s’il a été testé sur des documents multilingues, des documents de conformité ou des données en dehors de son champ de formation initial. Si les réponses sont vagues ou défensives, c’est un signal.

Surtout, considérez l’IA non pas comme un investissement unique, mais comme une relation continue. Les modèles évolueront. Les risques aussi. Des réévaluations régulières et des benchmarks de performance devraient faire partie de la gouvernance de l’IA dans votre entreprise. La confiance ne s’établit pas à l’achat, elle se gagne par des résultats prouvés et reproductibles.

À ce stade, trop de produits d’IA sont vendus sur la base d’un potentiel futur plutôt que d’une capacité prouvée. Il appartient aux équipes dirigeantes d’exiger la transparence, de valider les affirmations à l’aide de données indépendantes et de développer leurs compétences internes en matière d’IA. C’est la seule façon d’évoluer intelligemment et durablement.

Principaux enseignements pour les dirigeants

  • L’IA générative n’est pas prête pour l’entreprise : Les dirigeants devraient considérer les outils d’IA générative tels que ChatGPT comme des systèmes expérimentaux, et non comme des solutions de niveau de production. Leurs performances irrégulières créent un risque réel pour les applications critiques.
  • Les réponses agréables ne sont pas des réponses exactes : Les équipes dirigeantes doivent reconnaître que les modèles d’IA qui privilégient les réponses agréables pour l’utilisateur peuvent fausser les résultats. L’exactitude doit primer sur le ton pour une aide à la décision digne de confiance.
  • Une IA trop agréable introduit un risque opérationnel : Lorsque les moteurs d’IA visent à être intuitifs par défaut, ils peuvent sacrifier la véracité. Veillez à ce que les environnements de déploiement comprennent des garde-fous qui apparaissent lorsque les réponses synthétiques s’écartent des données vérifiées.
  • Les modèles ne peuvent pas détecter ce qu’ils ne peuvent pas reconnaître : S’ils ne sont pas exposés à des données incorrectes ou trompeuses pendant la formation, les modèles ne parviennent pas à détecter les inexactitudes. Les dirigeants doivent pousser les fournisseurs à expliquer comment leurs systèmes apprennent à reconnaître et à traiter les contenus erronés.
  • Le marketing mensonger des fournisseurs érode la confiance : Compte tenu de l’action récente de la FTC contre le fournisseur d’IA Workado pour des déclarations de précision non étayées, les équipes chargées des achats devraient exiger des tests vérifiés par des tiers avant de procéder à l’adoption d’un produit. La documentation seule ne suffit pas.
  • L’adoption de l’IA doit s’accompagner d’une responsabilisation : Les responsables informatiques et commerciaux doivent mettre en œuvre des processus d’évaluation continue des outils d’IA. Concentrez-vous sur la transparence, la validation et la résilience opérationnelle pour éviter d’aggraver les risques à grande échelle.

Alexander Procter

juin 5, 2025

12 Min