Les grands modèles linguistiques (LLM) sont sujets aux erreurs et peu fiables pour les tâches complexes comportant plusieurs étapes.
La récente étude préliminaire de Microsoft, intitulée « LLMs Corrupt Your Documents When You Delegate » (Les grands modèles linguistiques altèrent vos documents lorsque vous leur déléguez des tâches), met fin au battage médiatique entourant les capacités de l’IA. Les résultats sont sans appel : les grands modèles linguistiques actuels commettent encore des erreurs graves et cumulatives lorsqu’ils gèrent des flux de travail complexes. L’équipe de recherche, dirigée par Philippe Laban, Tobias Schnabel et Jennifer Neville, a utilisé un test de performance appelé DELEGATE‑52, qui simulait des environnements de travail réels dans 52 domaines professionnels. Ce test a évalué la manière dont 19 modèles linguistiques de grande envergure (LLM) différents géraient des tâches comportant plusieurs étapes, soit précisément le type d’opérations que les travailleurs du savoir effectuent quotidiennement.
Les résultats montrent que les modèles de langage de grande envergure (LLM) ont tendance à voir leurs performances se dégrader lorsqu’on modifie ou peaufine à plusieurs reprises les mêmes documents. Les modèles de pointe tels que Gemini 3.1 Pro, Claude 4.6 Opus et GPT 5.4 ont perdu environ 25 % du contenu des documents après seulement 20 interactions déléguées. Sur l’ensemble des modèles testés, la dégradation moyenne a atteint environ 50 %. Il s’agit là d’une perte considérable, en particulier pour les entreprises qui dépendent de la précision des documents dans des domaines tels que les contrats, les bases de code ou les documents de conformité.
Pour les dirigeants, cela ne doit pas être décourageant, mais instructif. Le message n’est pas que les systèmes d’IA échouent, mais que leur conception actuelle n’est pas encore suffisamment fiable pour permettre des flux de travail entièrement autonomes. Déléguer trop de tâches à un modèle non validé revient à confier à un stagiaire la gestion de vos principaux flux de données sans surveillance : cela ne peut pas bien se terminer. Ces conclusions soulignent que la précision nécessite toujours une supervision humaine et des contrôles automatisés. L’automatisation en entreprise est un outil puissant, mais la précision des documents critiques pour la prise de décision reste non négociable.
Lorsque vous évaluez des outils d’IA, privilégiez la fiabilité mesurable. Les entreprises les plus performantes déploieront des modèles de langage à grande échelle (LLM) dans des environnements structurés, où la transparence, le suivi et l’intégrité des révisions sont intégrés. Grâce à des cadres plus rigoureux et à des processus de validation plus intelligents, cette technologie comblera ce déficit de fiabilité. D’ici là, une approche équilibrée, alliant l’utilité de l’IA à une supervision rigoureuse, s’avérera toujours la plus efficace.
La programmation en Python est le seul domaine dans lequel la plupart des modèles de langage de grande envergure (LLM) se montrent prêts
Cette même étude de Microsoft a révélé un élément important : les systèmes d’IA actuels ne peuvent fonctionner de manière fiable que dans des domaines spécifiques et structurés. Parmi les 52 domaines testés, la programmation en Python s’est démarquée comme le seul domaine dans lequel la plupart des grands modèles linguistiques ont produit des résultats cohérents et précis. Le meilleur modèle n’a réussi à fournir des performances satisfaisantes que dans 11 domaines sur 52, ce qui signifie que l’IA n’est tout simplement pas encore prête à être déployée à grande échelle.
Sanchit Vir Gogia, analyste en chef chez Greyhound Research, a souligné que cette lacune constituait un signe clair indiquant que les entreprises devaient faire preuve de sélectivité : la réussite dépend en effet de la capacité à associer les atouts technologiques des modèles de langage de grande envergure (LLM) aux cas d’utilisation appropriés. Concrètement, cela signifie qu’il faut automatiser des tâches précises et clairement définies, telles que les suggestions de code ou la vérification syntaxique, avant de confier à ces systèmes des tâches plus abstraites ou plus nuancées, comme la rédaction juridique, les synthèses comptables ou la gestion des données d’archives.
Pour les dirigeants, l’enseignement stratégique à retenir est la hiérarchisation des priorités. Déployez l’IA là où son efficacité est avérée et évitez de l’imposer dans des contextes où le risque d’erreur ou de perte de contexte est élevé. Les modèles excellent dans des environnements hautement structurés et régis par des règles, comme la programmation, mais ils peinent dans des contextes qui exigent une interprétation subtile, un jugement ou un raisonnement interdisciplinaire. L’écart de maturité entre les domaines est important, et le comprendre permet d’éviter des erreurs de mise en œuvre coûteuses.
Les dirigeants devraient y voir un atout en matière de planification plutôt qu’une contrainte. En alignant l’adoption des technologies sur le niveau de préparation de chaque domaine, les entreprises peuvent développer progressivement leurs stratégies d’IA, en commençant par des tâches stables et vérifiables, puis en s’étendant progressivement vers des opérations plus complexes. C’est ainsi que l’on met en place une automatisation fiable : un domaine validé à la fois.
Un projet en tête ?
Planifiez un appel de 30 minutes avec nous.
Des experts senior pour vous aider à avancer plus vite : produit, tech, cloud & IA.
Le principal défi de l’IA réside dans la préservation de l’intégrité des documents au cours des révisions successives, plutôt que dans la création de contenu
Les conclusions de l’étude de Microsoft intitulée « Les grands modèles de langage (LLM) de Microsoft altèrent vos documents lorsque vous leur confiez des tâches » révèlent une réalité importante concernant la génération actuelle de modèles d’IA. Bien qu’ils excellent dans la génération de contenu inédit, ils peinent à préserver la précision à mesure que les tâches deviennent itératives. Chaque modification introduit de légères incohérences, qui se multiplient au fil du temps. Le problème s’aggrave à mesure que la taille des documents, leur complexité et le bruit contextuel augmentent, ce qui correspond exactement aux conditions que l’on retrouve dans les environnements d’entreprise réels.
Sanchit Vir Gogia, analyste en chef chez Greyhound Research, souligne que le problème ne réside pas dans l’effet dit d’« hallucination », dont on parle tant, mais dans un aspect plus fondamental : l’incapacité à préserver l’intégrité des données. Les grands modèles de langage (LLM) remplacent souvent la précision par une plausibilité superficielle, ce qui entraîne une altération subtile des faits, de la structure ou de la logique. Les résultats générés par l’IA semblent ainsi corrects à première vue, mais s’avèrent peu fiables lorsqu’on les examine de plus près.
Pour les dirigeants, cette constatation est importante car elle permet d’identifier où se situent les risques liés à l’automatisation. La plupart des organisations traitent des documents qui évoluent au fil de multiples itérations : contrats, dossiers de conformité, notes techniques ou projets de politique. Si le système sous-jacent n’est pas en mesure de préserver de manière cohérente le sens ou l’exactitude d’origine de ces documents, la prise de décision qui s’appuie sur ces derniers peut s’en trouver compromise.
Les décideurs devraient exiger la mise en place d’indicateurs de transparence pour les flux de travail basés sur l’IA, c’est-à-dire des systèmes capables de signaler en temps réel toute dégradation ou tout écart de contenu. Les entreprises doivent investir dans des couches de contrôle permettant de surveiller la cohérence des résultats au fil du temps. À mesure que l’IA continuera à mûrir, la préservation de l’intégrité des documents deviendra un critère de performance majeur, au même titre que la créativité et la précision logique.
L’IA déléguée n’est pas encore suffisamment fiable pour permettre un fonctionnement entièrement autonome des entreprises
Le niveau actuel des capacités de l’IA ne permet pas encore une autonomie totale dans les environnements d’entreprise. Selon les recherches menées par Microsoft, même les modèles les plus avancés commettent des erreurs qui s’accumulent et endommagent discrètement des documents critiques. Si l’IA peut contribuer à l’automatisation des flux de travail, le fait de confier à un modèle de langage de grande envergure (LLM) des tâches sans supervision expose les organisations à des risques affectant la précision, la conformité et l’intégrité des données.
Brian Jackson, directeur principal de la recherche chez Info-Tech Research Group, a souligné que les systèmes d’automatisation nécessitaient des mesures de protection. Il fait remarquer que, pour réussir, les déploiements exigent des « garde-fous plus solides », c’est-à-dire des processus permettant de vérifier, de corriger et de valider les résultats générés par l’IA avant qu’ils n’atteignent les systèmes d’enregistrement. Plutôt que de miser sur une automatisation totale, les entreprises devraient concevoir des processus dans lesquels l’IA et les humains se partagent la responsabilité : l’IA se charge de l’exécution des tâches routinières, tandis que des vérificateurs humains garantissent la fiabilité et l’exactitude du contexte.
Pour les dirigeants chargés de superviser la transformation numérique, le message est clair : l’IA autonome n’est pas encore prête à être déployée en entreprise sans une architecture rigoureuse pour la soutenir. La génération actuelle de modèles donne le meilleur d’elle-même lorsqu’elle fonctionne au sein de cadres qui encadrent et valident ses actions. Ces cadres doivent définir les limites de l’autonomie, inclure des contrôles des résultats à plusieurs niveaux et garantir la traçabilité, des données d’entrée jusqu’aux résultats.
Les organisations qui doivent garantir une production sans erreur, telles que celles chargées de la gestion des registres financiers, des politiques ou des données de conformité, doivent maintenir des contrôles humains jusqu’à ce que les systèmes d’IA fassent la preuve d’une résilience avérée dans le cadre d’interactions longues et complexes. Les entreprises peuvent néanmoins réaliser des gains opérationnels en combinant le déploiement d’une IA supervisée avec une refonte des processus, ce qui leur permet d’assurer la cohérence sans renoncer au contrôle.
Pour atténuer efficacement les erreurs liées à l’IA, il est nécessaire de mettre en place des approches structurelles renforcées
L’étude de Microsoft montre clairement qu’une intégration fiable de l’IA nécessite une conception réfléchie, et non une confiance aveugle. Les entreprises peuvent limiter la dégradation des modèles en améliorant les structures de soutien entourant les flux de travail liés à l’IA. Cela inclut un réglage fin avancé à l’aide de données spécifiques au domaine, des protocoles de test rigoureux et des systèmes de vérification intelligents qui recoupent les résultats des modèles. Une boucle de rétroaction bien conçue est essentielle pour garantir la stabilité au fil des interactions répétées.
Brian Jackson, directeur principal de la recherche chez Info-Tech Research Group, a souligné que, si les systèmes multi-agents, dans lesquels un modèle exécute une tâche et un autre la vérifie, peuvent réduire certains risques, une mauvaise configuration peut au contraire aggraver les problèmes. Le document de Microsoft a mis en évidence que même une configuration multi-agents défaillante générait davantage d’erreurs qu’un modèle unique fonctionnant de manière autonome. Par conséquent, ces architectures doivent être conçues avec une logique de vérification précise, plutôt que de partir du principe qu’elles se corrigent d’elles-mêmes.
Pour les dirigeants d’entreprise, le message est clair : la personnalisation est essentielle. Les modèles entraînés de manière générale dans de nombreuses disciplines ne donnent pas automatiquement de bons résultats lorsqu’il s’agit de tâches d’entreprise spécialisées. L’utilisation de données d’entraînement internes améliore la précision et garantit que l’IA respecte le langage, les flux de travail et les priorités propres à l’entreprise. Les plateformes prenant en charge la vérification déterministe, c’est-à-dire les méthodes mathématiques permettant de confirmer l’exactitude des résultats, doivent également être privilégiées dans les domaines sensibles tels que la finance, la santé et la conformité.
Les dirigeants doivent considérer la vérification comme une fonction opérationnelle essentielle, et non comme une mesure de sécurité facultative. La mise en place de niveaux de validation structurés, d’audits réguliers des modèles et de cycles de formation continue fondés sur des indicateurs de performance mesurables permettra de rendre les résultats générés par l’IA fiables et explicables. Grâce à cette approche, l’entreprise pourra accroître ses capacités d’automatisation sans compromettre ni le contrôle ni la crédibilité.
L’expertise humaine reste indispensable à mesure que l’IA passe d’un rôle de production à un rôle de supervision et de responsabilité
Cette étude soulève un point réaliste qui devrait trouver un écho auprès des dirigeants d’entreprise : plus l’IA gagne en sophistication, plus le besoin d’une supervision humaine se fait sentir. À mesure que l’IA prend en charge certaines tâches intellectuelles, les rôles humains évoluent plutôt que de disparaître. Des professionnels qualifiés sont indispensables pour surveiller, valider et demander des comptes aux systèmes d’IA quant à leurs résultats. Cette évolution fait passer les humains de la création à la supervision, mais renforce la valeur des connaissances spécialisées au sein des processus d’entreprise.
Sanchit Vir Gogia, analyste en chef chez Greyhound Research, a fait remarquer que les personnes les mieux à même de détecter les erreurs introduites par l’IA sont souvent les mêmes experts que les organisations envisagent de remplacer. Lorsque les entreprises réduisent trop fortement l’expertise métier, elles suppriment le dernier rempart capable d’identifier une corruption subtile des données ou une dérive logique. Même les modèles de pointe altèrent parfois les faits, le ton ou le contexte d’une manière difficile à détecter sans une compréhension approfondie du sujet.
Pour les dirigeants, ce constat souligne la nécessité de repenser les stratégies relatives aux effectifs. Les objectifs de réduction des effectifs doivent céder la place au renforcement des compétences. Les entreprises doivent investir dans la formation continue de leurs collaborateurs afin qu’ils soient en mesure d’effectuer des validations techniques, des analyses contextuelles et un suivi de la conformité des résultats générés par l’IA. Ces rôles redéfinis garantissent que la gouvernance et la responsabilité restent du ressort du jugement humain, préservant ainsi la confiance envers la marque et la fiabilité opérationnelle.
Les dirigeants visionnaires intégreront la gouvernance de l’IA directement dans la conception de leur organisation, en associant le suivi des performances des modèles à une supervision humaine. Ce niveau de responsabilité structuré garantit une qualité constante sans freiner l’innovation. Les entreprises les plus compétitives de la prochaine décennie ne se contenteront pas d’adopter l’IA ; elles sauront trouver le juste équilibre entre la rapidité de l’automatisation et le discernement humain.
Principaux enseignements pour les dirigeants
- Les performances de l’IA manquent encore de fiabilité pour les flux de travail complexes : une étude de Microsoft a révélé que les principaux modèles linguistiques de grande envergure perdent jusqu’à la moitié de l’intégrité des documents après des modifications répétées. Les dirigeants devraient maintenir des contrôles humains et des niveaux de vérification avant de déployer l’IA à grande échelle dans les processus critiques pour l’entreprise.
- Python est actuellement le domaine le plus fiable pour l’IA : les modèles de langage de grande envergure (LLM) ont obtenu les meilleurs résultats en Python, mais ont échoué dans 41 des 52 domaines testés. Les dirigeants devraient commencer par déployer l’IA dans des domaines structurés et basés sur le code, où la précision peut être mesurée et démontrée, avant d’étendre son rôle à des opérations plus larges.
- La conservation des documents reste le principal point faible de l’IA : celle-ci est certes capable de générer efficacement du contenu, mais la qualité et l’intégrité de celui-ci se dégradent au fil des révisions successives. Les dirigeants devraient exiger la mise en place de pistes d’audit et d’un suivi de l’intégrité au sein des flux de travail basés sur l’IA afin de préserver la confiance et la responsabilité en matière d’archives institutionnelles.
- L’IA autonome doit continuer à fonctionner sous contrôle humain : l’IA déléguée reste sujette à des erreurs silencieuses qui compromettent la conformité et la fiabilité. Les décideurs doivent concevoir des processus de travail intégrant une validation humaine aux étapes critiques et définir des limites claires pour le fonctionnement autonome.
- L’ajustement et la vérification des modèles constituent des mesures de sécurité essentielles : les systèmes multi-agents et l’entraînement sur mesure réduisent le risque de dégradation, mais doivent être conçus avec précision. Les dirigeants devraient investir dans des outils d’ajustement spécifiques à chaque domaine et de vérification déterministe afin de maintenir la précision à l’échelle de l’entreprise.
- Le contrôle exercé par des experts prend de l’importance à mesure que l’IA évolue : une IA de pointe nécessite des évaluateurs humains tout aussi qualifiés pour détecter les distorsions subtiles. Les dirigeants devraient s’entourer d’experts du domaine, les former à des rôles de supervision et présenter le contrôle humain comme un avantage stratégique dans les opérations pilotées par l’IA.
Un projet en tête ?
Planifiez un appel de 30 minutes avec nous.
Des experts senior pour vous aider à avancer plus vite : produit, tech, cloud & IA.


