Les modèles utilisés sur ordinateur manquent de fiabilité au niveau de la production

La prochaine grande étape de l’automatisation des navigateurs ne consiste pas à imiter les humains, mais à atteindre une précision de niveau production. Quelques concepts solides ont fait surface, comme celui d’OpenAI, Operator, au début de l’année 2025. Il s’agissait d’une IA utilisant un navigateur comme une personne. Mouvements de souris, clics, entrées, interaction entièrement simulée avec un site web. Cela a attiré beaucoup d’attention.

Mais lorsque vous mettez à l’échelle des millions de sessions, les choses commencent à se gâter. C’est exactement ce qui s’est passé. OpenAI a discrètement abandonné Operator huit mois seulement après son lancement. Il s’est avéré que le système ne pouvait pas gérer les incohérences du monde réel, comme les retards de rendu, les changements de mise en page ou les pages qui se chargent d’une certaine manière aujourd’hui et différemment le lendemain. Les modèles basés sur la vision, qui s’appuient sur des captures d’écran et la reconnaissance d’images pour agir, peuvent manquer des signaux critiques. Et lorsque vous exécutez des milliers de sessions de navigation automatisées dans une entreprise, un taux de défaillance de 1 % n’est pas seulement gênant, il est aussi coûteux.

À l’heure actuelle, les modèles d’utilisation des ordinateurs ne peuvent pas répondre aux seuils de fiabilité des entreprises. Ils sont fragiles en cas de variation et trop lents pour les tâches à haut débit. Jusqu’à ce qu’ils s’accélèrent et se stabilisent, ils restent au stade de la démonstration et non du déploiement. Pour les dirigeants de C-suite qui souhaitent développer l’automatisation en toute confiance, c’est le signal : ne misez pas encore sur les agents à vision seule. La technologie est impressionnante, mais la production exige de la résilience, pas de la nouveauté.

Le pivot d’OpenAI vers un modèle hybride dans ChatGPT Agent Mode est une décision pragmatique. Elle reconnaît que le mimétisme brut ne suffit pas. La fiabilité et le contrôle sont plus importants, en particulier lorsqu’il s’agit d’automatiser des flux de travail critiques.

Les agents basés sur les DOM offrent la précision nécessaire à la production

Les approches basées sur le DOM sont plus contrôlées et plus rapides. Elles ne devinent pas où cliquer. Elles lisent les couches structurées de la page, le DOM (Document Object Model). Il s’agit d’inspecter le plan sous-jacent d’une page web pour décider comment agir. Ce processus élimine une grande partie des conjectures et, surtout, il est très reproductible.

Ces agents ne se contentent pas de lire du HTML brut. Ils utilisent des instantanés prétraités qui transforment chaque section d’une page en texte propre et étiqueté. Microsoft a bien préparé le terrain avec son serveur Playwright MCP, qui est devenu un standard pour convertir le DOM chaotique en quelque chose sur lequel les modèles peuvent raisonner. Cela accélère l’exécution et réduit les erreurs. Une section d’une page devient structurée, par exemple : navigation, lien « About »-lien « Store »-champ de formulaire « Search »-bouton « Search by voice ». L’agent voit cet instantané et peut alors dire : « cliquez sur ref=e47 ». Pas d’estimations. Pas de confusion dans le rendu. Juste une action directe.

Cette chose est évolutive. Avec le contrôle basé sur le DOM, l’automatisation devient rapide, stable et déterministe, trois mots auxquels les dirigeants devraient accorder une grande importance lorsqu’ils construisent des systèmes à haute fiabilité. Alors que les modèles basés sur la vision sont encore en train de comprendre ce qui est cliquable et quand, les agents basés sur le DOM le savent déjà.

Au fur et à mesure que l’automatisation des navigateurs évolue, la structure gagne dans les environnements axés sur la précision tels que la finance, la santé, la logistique, des domaines où un mauvais clic coûte de l’argent. Pour l’instant, si vous avez besoin de précision à grande échelle, les agents DOM sont la solution.

Les systèmes hybrides constituent l’approche d’automatisation la plus fiable en 2025

Dans les opérations réelles, aucune approche n’est suffisante en soi. Les agents basés sur la vision offrent de la flexibilité, en particulier avec des interfaces très visuelles ou non structurées. Les agents basés sur le DOM apportent précision et rapidité lorsque la structure de la page est propre et stable. Mais l’avenir de l’automatisation des navigateurs, du moins en 2025, n’est pas de choisir entre les deux. Il s’agit d’utiliser les deux.

Les agents de navigation hybrides sont conçus pour gérer la variabilité. Ils utilisent par défaut le chemin structuré, le DOM, lorsqu’une page le permet. S’il manque des éléments clés dans le DOM ou si l’interface est basée sur des images, ils passent à un modèle visuel pour interpréter l’interface. Ce double processus donne aux systèmes la souplesse nécessaire pour traiter un large éventail d’interfaces sans sacrifier la fiabilité. C’est pourquoi OpenAI a transféré les capacités de l’opérateur dans le mode agent de ChatGPT. Au lieu de s’appuyer uniquement sur la vision, l’agent ChatGPT fonctionne avec des navigateurs visuels et textuels, choisissant celui qui est le plus performant en fonction des exigences spécifiques de la tâche.

Du point de vue de la direction, cette approche hybride réduit considérablement le risque opérationnel. Vous n’espérez pas que votre choix d’automatisation s’adapte, vous déployez la méthode qui fonctionne le mieux dans le contexte. Les échecs diminuent. L’évolutivité s’améliore. Les entreprises qui gèrent des milliers de sessions par jour ne peuvent pas se permettre d’avoir des systèmes fragiles. Les agents hybrides assurent la cohérence dans des environnements très dynamiques.

À l’heure actuelle, il s’agit de la seule solution pratique qui fonctionne en production à grande échelle. Ce n’est pas une idée expérimentale, c’est la véritable norme pour 2025.

L’automatisation doit apprendre, s’adapter et s’améliorer au fil du temps

L’exécution d’une tâche ponctuelle n’est pas l’objectif de l’automatisation. La valeur réelle apparaît lorsque les agents deviennent plus rapides et plus précis à chaque cycle. Pour y parvenir, les agents navigateurs doivent apprendre à fonctionner, à s’adapter et à affiner leur comportement au fil du temps. Nous commençons à voir cette évolution.

Les agents ne se contentent pas d’exécuter une tâche et de s’arrêter. Les systèmes les plus solides commencent par explorer. Ils naviguent dans de nouvelles interfaces, tentent des flux de travail et enregistrent les parcours réussis. Ces informations sont converties en scripts structurés, en instructions déterministes à l’aide d’outils tels que Playwright, Selenium ou le protocole Chrome DevTools. Ces scripts ne sont pas statiques. Les nouveaux modèles de langage à grande échelle peuvent maintenant itérer sur eux après chaque exécution : optimiser la logique, nettoyer les étapes inutiles et traiter les cas limites que l’agent peut avoir initialement manqués.

Ce cycle d’auto-amélioration est ce qui fait passer l’automatisation d’un territoire réactif à un territoire proactif. La phase d’exploration permet de se familiariser avec le système. La phase d’exécution permet d’obtenir des performances. Au fil du temps, les agents deviennent plus rapides et plus cohérents, non pas grâce à des réglages humains, mais grâce à leur propre perfectionnement progressif.

Pour les chefs d’entreprise, c’est important. L’automatisation qui s’adapte réduit les coûts d’assistance. Elle évolue sans supervision directe. Elle s’améliore au fil du temps, par conception et non par accident. Si votre stratégie d’automatisation repose uniquement sur des scripts fixes ou des flux de travail traditionnels, elle ne peut pas rivaliser avec des systèmes qui s’optimisent d’eux-mêmes. Les gagnants de l’automatisation seront ceux qui s’engagent non seulement à être performants, mais aussi à apprendre.

Les systèmes orchestrés définiront l’avenir de l’automatisation des navigateurs

La question ne devrait pas être de savoir si ce sont les agents basés sur la vision ou les agents basés sur les DOM qui l’emporteront. La réponse est déjà claire : les deux sont importants, mais aucun n’est suffisant en soi. Les systèmes qui s’imposeront à l’avenir seront orchestrés, conçus pour combiner la vision, la structure et les scripts déterministes, en choisissant le bon outil pour chaque interface et chaque contexte, étape par étape.

Ceci n’est pas hypothétique. ChatGPT Agent fonctionne déjà en mode DOM et en mode visuel. Il décide en temps réel de l’approche à utiliser, en fonction des performances, de la mise en page et de la clarté structurelle. L’ancrage visuel s’améliore. Des systèmes comme Claude 4 et opencua-72b-preview progressent tous les mois. Alors oui, les modèles visuels deviennent plus rapides. Mais en 2025, la fiabilité totale de la production nécessite toujours une orchestration structurée, et non une substitution modulaire.

Les environnements d’entreprise l’exigent. Si un formulaire se charge de manière incohérente ou si un tableau de bord ne respecte pas les normes HTML, l’agent doit disposer d’une méthode de repli qui assure la continuité. Cette méthode de repli doit être intégrée au système et invoquée automatiquement en cas de besoin. Le contrôle structuré du DOM gère les éléments prévisibles. Vision gère les exceptions. Les scripts déterministes garantissent des rediffusions fiables une fois que les flux de travail ont été appris. Cette orchestration en trois parties est ce qui assure la stabilité de bout en bout des flux de travail.

Pour les dirigeants, l’idée stratégique est simple : n’investissez pas dans des modèles isolés ou des solutions temporaires. Investissez dans des cadres d’orchestration qui combinent la logique, la vision et l’exécution du code sous une couche de contrôle unifiée. Ces systèmes terminent complètement les flux de travail, se rétablissent lorsque les interfaces changent et apprennent au fur et à mesure. C’est ainsi que l’automatisation des navigateurs devient opérationnelle, et pas seulement une aspiration.

Faits marquants

  • Les modèles d’utilisation informatique manquent de fiabilité à grande échelle : Les agents de navigation basés sur la vision, comme l’opérateur d’OpenAI, restent trop fragiles pour la production en raison des incohérences de rendu et de la variabilité de l’interface utilisateur. Les dirigeants devraient éviter de s’appuyer uniquement sur ces modèles jusqu’à ce que leur taux d’erreur et la rigidité de leur système soient considérablement améliorés.
  • Les agents basés sur le DOM offrent précision et cohérence : Les agents qui naviguent à l’aide de données de page structurées (DOM) fournissent des résultats plus rapides, reproductibles et déterministes. Les dirigeants qui automatisent des flux de travail à grande échelle devraient privilégier les systèmes basés sur les DOM afin d’optimiser la vitesse et la précision.
  • Les agents de navigation hybrides offrent la meilleure fiabilité actuelle : La combinaison des méthodes DOM et de la vision en cas de besoin garantit une plus grande fiabilité sur diverses interfaces. Les responsables qui déploient l’automatisation dans des environnements web mixtes devraient adopter les agents hybrides comme stratégie par défaut.
  • L’automatisation doit apprendre et s’auto-optimiser : Les agents qui convertissent les sessions exploratoires en scripts reproductibles et qui affinent les flux de travail à l’aide de modèles générateurs de code assurent une efficacité à long terme. Les équipes de la suite devraient investir dans des systèmes d’automatisation capables d’apprentissage et d’itération continus.
  • Les systèmes prêts pour l’avenir nécessitent une orchestration entre les modèles : Les agents les plus évolutifs en 2025 utilisent un mélange de vision, de structure et de script intelligemment coordonné avec des voies de repli. Les décideurs devraient donner la priorité aux plateformes orchestrées plutôt qu’aux outils cloisonnés pour garantir que l’automatisation résiste à la variabilité du monde réel.

Alexander Procter

décembre 19, 2025

10 Min