Les défaillances d’agents d’IA non suivies échappent aux cadres d’incidents existants
Les systèmes d’IA sont déjà intégrés au cœur des opérations des entreprises. Pourtant, la plupart des organisations ne réalisent pas que certains de leurs incidents les plus perturbateurs sont déclenchés par des agents autonomes agissant dans des contextes incomplets. Ces agents prennent des mesures qui semblent correctes, sur la base des données qu’ils voient, mais cette même vision limitée leur permet d’amplifier de petites tensions dans le système et de provoquer des défaillances en cascade. Lorsque ces défaillances se produisent, les équipes internes les classent dans la catégorie des interruptions de service classiques. Il en résulte un angle mort : les incidents continuent de se produire et personne ne les relie aux décisions de l’IA qui les ont déclenchés.
Cette omission est structurelle. Les cadres d’analyse post mortem des entreprises ont été conçus pour les erreurs humaines ou les défauts d’infrastructure, et non pour les décisions prises par des systèmes autonomes. Ces cadres doivent évoluer. Sinon, les dirigeants construisent l’automatisation sur des risques invisibles. Pour les dirigeants, la conclusion est simple : la gouvernance doit rattraper le déploiement. Si une organisation n’est pas en mesure de déterminer clairement quand et comment un agent d’IA contribue à une défaillance, elle ne peut pas gérer efficacement le risque opérationnel.
Aujourd’hui, l’ampleur de l’adoption de l’IA rend ce problème urgent. Soixante-dix-neuf pour cent des entreprises utilisent déjà des agents d’IA en production. Quatre-vingt-seize pour cent prévoient d’étendre leur utilisation. Gartner prévoit qu’un tiers de tous les logiciels d’entreprise incluront l’IA agentique d’ici 2028, mais prévient que 40 % de ces projets échoueront en raison de la faiblesse des contrôles des risques. Dans le même temps, la base de données des incidents liés à l’IA a enregistré une augmentation de 21 % des incidents liés à l’IA. d’incidents liés à l’IA de 2024 à 2025. Ces chiffres mettent en évidence un fossé entre l’adoption et la responsabilité. Les chefs d’entreprise qui s’attaquent rapidement à ce fossé ne réduiront pas seulement les risques, ils obtiendront également un avantage concurrentiel grâce à la résilience opérationnelle.
Des agents d’IA contournent le jugement humain dans des expériences de chaos, créant ainsi un risque non surveillé
Dans les environnements d’ingénierie matures, le test du chaos sont délibérés. Les ingénieurs vérifient les performances du système, évaluent les objectifs de niveau de service (SLO) et s’assurent de la stabilité avant de lancer les tests de stress. Ce point de contrôle humain est important car il permet d’aligner les activités de chaos sur la capacité du système à absorber les risques. Lorsque des agents autonomes prennent en charge le contrôle opérationnel, cette étape disparaît. Ils détectent un problème et agissent instantanément, en redémarrant les services, en redimensionnant l’infrastructure ou en réacheminant le trafic, sans évaluer si le système peut absorber un stress supplémentaire à ce moment-là.
Le problème n’est pas que ces agents sont négligents. C’est qu’ils n’ont pas une vue d’ensemble. Par exemple, un agent qui redémarre un service pour résoudre un problème de latence peut ne pas savoir que d’autres systèmes sont fortement sollicités ou que les dépendances partagées sont saturées. Dans les environnements fonctionnant à grande échelle, une telle action peut créer une réaction en chaîne de pannes au lieu de résoudre les problèmes de performance. Le système doit faire face aux retombées d’une « optimisation » effectuée sans contexte humain.
Pour les décideurs, le risque va au-delà du temps d’arrêt du système. Ce comportement révèle comment l’automatisation sans contexte introduit de nouvelles responsabilités opérationnelles. Ces défaillances sont souvent invisibles dans les rapports post-incidents parce qu’elles ressemblent à des événements techniques standard. Pour établir une certitude durable autour des opérations automatisées, les dirigeants doivent redéfinir la propriété des processus. Les agents d’IA ne devraient jamais agir comme des entités isolées ; leurs actions doivent s’inscrire dans des cadres contrôlés qui incluent une connaissance de l’environnement en temps réel et une supervision humaine si nécessaire. L’automatisation réalisée de manière responsable est une force. Si elle est pratiquée à l’aveuglette, elle devient une responsabilité silencieuse.
Un projet en tête ?
Planifiez un appel de 30 minutes avec nous.
Des experts senior pour vous aider à avancer plus vite : produit, tech, cloud & IA.
L’absence d’un modèle commun de « capacité d’absorption » nuit à la gestion de la résilience.
La plupart des entreprises n’ont pas une compréhension commune de la quantité de stress que leurs systèmes peuvent supporter avant de rompre leurs engagements en matière de performance. Ce concept manquant, appelé « capacité d’absorption », devrait indiquer aux équipes jusqu’où elles peuvent pousser leurs systèmes en temps réel sans franchir les seuils de défaillance. À l’heure actuelle, les programmes d’ingénierie du chaos s’appuient largement sur des indicateurs statiques et sur l’intuition humaine pour gérer cette marge. Cette approche s’effondre lorsque plusieurs équipes, couches d’automatisation et agents d’intelligence artificielle agissent indépendamment sur des dépendances partagées.
La réponse proposée consiste à mettre en œuvre un budget de résilience, une mesure vivante et consommable qui s’ajuste en permanence en fonction des signaux opérationnels. Il suit quatre entrées critiques : la vitesse à laquelle les SLO sont consommés, l’évolution des tendances en matière de latence, la saturation des dépendances du système et la manière dont les utilisateurs interagissent avec les applications soumises à des contraintes. Chaque action d’un agent ou expérience de chaos consomme une partie de ce budget partagé. Traiter la résilience comme une ressource mesurable et limitée permet de responsabiliser et de coordonner les équipes.
Pour les dirigeants, l’adoption de ce modèle se traduit directement par une fiabilité opérationnelle. En donnant aux équipes une vision unifiée et fondée sur des données des contraintes du système, l’entreprise évite les temps d’arrêt coûteux et les perturbations imprévues. Il permet également d’établir un lien entre la résilience technique et les résultats globaux en matière de performances. Une recherche structurée avec des ingénieurs de fiabilité de site et de plateforme chez Intuit et GPTZero démontre que cette approche peut être mise à l’échelle dans de grandes organisations. Un modèle partagé de capacité d’absorption fait de la résilience un atout commercial quantifiable plutôt qu’une hypothèse cachée dans des mesures techniques.
Les grands modèles de langage (LLM) améliorent la génération d’hypothèses de chaos mais sont confrontés à des données incomplètes ou obsolètes.
Les LLM sont de plus en plus utilisés pour cartographier les scénarios de défaillance potentielle des systèmes sur la base de graphiques de dépendance et de données d’incidents historiques. Ces modèles accélèrent la découverte en produisant rapidement des hypothèses que les équipes peuvent tester. Dans les premières applications, ils ont mis en évidence des modèles de défaillance crédibles que les ingénieurs humains auraient mis plus de temps à identifier. Cependant, ils dépendent entièrement de la qualité et de l’actualité des données qu’ils traitent. Lorsque les graphiques de dépendance deviennent obsolètes ou incomplets, les modèles produisent en toute confiance des hypothèses inexactes sur les relations entre les systèmes, ce qui conduit à un mauvais ciblage expérimental et à un gaspillage de ressources.
Les données post-mortem sont plus performantes car elles reflètent des incidents réels dont les résultats ont été validés. Les hypothèses dérivées de ces sources sont donc plus fiables. Cependant, même avec de meilleures données d’entrée, la prudence est de mise. Le Trustworthy AI Research Lab de Stanford a constaté que les attaques de réglage fin contournaient les mesures de sécurité des meilleurs modèles dans la plupart des cas de test. Cela signifie que l’on ne peut pas se fier uniquement aux garde-fous au niveau des modèles pour prévenir totalement les comportements à risque lors de la génération ou de l’exécution d’expériences de chaos.
La conclusion pour les dirigeants est claire : les LLM peuvent améliorer la rapidité et la profondeur de la découverte des risques, mais ils ne peuvent pas remplacer une supervision technique disciplinée. Les modèles doivent fonctionner à partir de données vérifiées, de graphes de dépendance mis à jour et de processus de révision établis. La génération d’hypothèses par l’IA est utile lorsqu’elle est soumise à une vérification humaine et à des contrôles stricts de l’intégrité des données. Sans ces conditions, les organisations introduisent de l’incertitude dans les systèmes mêmes qu’elles cherchent à rendre plus fiables.
Dans les contextes ambigus, les décisions d’exécution autonomes doivent s’en remettre au jugement humain.
Lorsque les systèmes d’exploitation atteignent des états incertains, après des déploiements récents, pendant des périodes de charge fluctuante, ou lorsque les données de surveillance donnent des signaux contradictoires, les agents autonomes ne peuvent pas déterminer de manière fiable le plan d’action correct. Leurs cadres décisionnels fonctionnent dans des limites définies par des mesures observables, mais ne tiennent pas compte de facteurs situationnels non enregistrés, tels que la disponibilité de l’équipe, les obligations contractuelles ou le calendrier d’autres changements dans le système. Ces lacunes créent des moments où une réponse entièrement automatisée pourrait aggraver un problème au lieu de le résoudre.
La solution consiste à introduire une escalade structurée. Lorsque les signaux sont ambigus, les agents doivent marquer une pause et confier le contrôle à des opérateurs humains disposant d’un contexte et d’une autorité plus larges. Ce mécanisme de rupture de circuit garantit que chaque décision prise dans l’incertitude inclut une connaissance de la situation qui n’est pas visible par les machines. Il renforce également la responsabilité et s’aligne sur les cadres de risques opérationnels établis.
Pour les dirigeants, il s’agit d’une garantie qui préserve la confiance dans un fonctionnement autonome à grande échelle. Les organisations performantes séparent les réponses bien définies et automatisables de celles qui exigent un jugement discrétionnaire. Cette structure permet aux entreprises d’exploiter la vitesse de réaction des machines tout en conservant l’adaptabilité de la supervision humaine. À mesure que la technologie évolue, ces flux de travail hybrides resteront essentiels pour garantir que l’automatisation agit comme un stabilisateur dans les environnements de production.
Les cadres de gouvernance doivent classer les actions des agents comme des événements chaotiques et appliquer des contrôles basés sur la résilience.
Alors que de plus en plus d’entreprises intègrent des agents autonomes dans leur infrastructure, la gouvernance doit fonctionner avec le même niveau de précision que celui utilisé dans l’ingénierie du chaos. Chaque décision prise par un agent, qu’il s’agisse de redémarrer un service, de redimensionner des ressources ou de réacheminer des données, doit être suivie, analysée et limitée par les mêmes signaux opérationnels que ceux qui guident les expériences menées par des humains. Cela permet de s’assurer que les actions de l’agent n’ont lieu que lorsque les conditions du système permettent une exécution sûre.
Les organisations qui intègrent des contrôles de résilience directement dans leurs cadres de gouvernance des agents peuvent évaluer en permanence l’impact des actions autonomes. En enregistrant chaque action de l’agent par rapport aux taux de combustion des SLO, aux tendances de latence et aux états de dépendance, les dirigeants bénéficient d’une visibilité sur les effets locaux et les conséquences à l’échelle du système. Traiter l’activité des agents comme des expériences structurées, plutôt que comme de simples événements, permet aux données post-incident d’alimenter la prise de décision future, améliorant ainsi à la fois les agents et les systèmes qu’ils gèrent.
Pour les chefs d’entreprise, cette approche est synonyme de maturité opérationnelle. Elle renforce la transparence, établit une norme mesurable pour une automatisation sûre et convertit l’activité de l’IA en données opérationnelles analysables. Les entreprises qui effectuent des audits réguliers des agents actifs et les comparent à des mesures de résilience en temps réel découvriront des automatismes à haut risque fonctionnant en dehors des garde-fous approuvés. Le fait de placer ces systèmes sous le contrôle de la gouvernance réduit l’exposition et renforce la confiance des dirigeants. L’autonomie stable et contrôlée n’est pas un idéal futur, c’est une nécessité opérationnelle actuelle qui détermine si les entreprises développent l’IA avec succès ou si elles ne parviennent pas à la contrôler.
Faits marquants
- Les défaillances d’agents d’IA non suivies nécessitent une surveillance immédiate : La plupart des entreprises ne reconnaissent pas quand les agents d’IA déclenchent des problèmes d’infrastructure en cascade. Les dirigeants devraient mettre à jour les cadres d’incidents pour identifier les événements induits par les agents et rendre la responsabilité mesurable dans l’ensemble des opérations.
- L’automatisation sans contexte augmente le risque opérationnel : Les agents d’IA agissent souvent sans le jugement humain qui stabilise les expériences de chaos. Les dirigeants doivent s’assurer que chaque action autonome est évaluée en fonction de l’état du système avant d’être exécutée.
- Les budgets de résilience transforment le chaos en un contrôle mesurable : L’absence d’un modèle partagé de « capacité d’absorption » rend les systèmes vulnérables à la surcharge. Les dirigeants devraient mettre en place des budgets de résilience qui quantifient et limitent le stress qu’un environnement peut supporter en toute sécurité.
- Les LLM accélèrent la découverte des risques mais nécessitent des données vérifiées : Les grands modèles de langage génèrent des hypothèses utiles pour les tests, mais ils reposent sur des données système précises. Les dirigeants doivent associer ces outils à des mises à jour fréquentes des dépendances et à une validation humaine stricte.
- Le jugement humain doit intervenir en cas d’incertitude : Les décisions entièrement autonomes prises dans des conditions ambiguës conduisent à des échecs qui pourraient être évités. Les dirigeants doivent imposer une escalade vers les opérateurs humains chaque fois que les signaux sont incomplets ou contradictoires.
- La gouvernance des agents doit refléter la discipline de l’ingénierie du chaos : Chaque action d’un agent d’IA doit être traitée comme une expérience contrôlée régie par des mesures de résilience en temps réel. Les dirigeants doivent appliquer des cadres politiques qui enregistrent, examinent et contrôlent les actions des agents en fonction de la stabilité du système.
Un projet en tête ?
Planifiez un appel de 30 minutes avec nous.
Des experts senior pour vous aider à avancer plus vite : produit, tech, cloud & IA.


