Les architectures de recherche classiques limitent le raisonnement des agents

La plupart des gens pensent que lorsqu’un agent d’intelligence artificielle échoue, le problème réside dans son intelligence. En réalité, le problème commence souvent par la manière dont il récupère les informations. Les systèmes traditionnels tels que Retrieval-Augmented Generationsouvent appelés RAG, dépendent du regroupement des données, de leur intégration sous forme numérique et de leur filtrage à travers des modèles de classement. Ce processus simplifie l’accès à l’information mais en limite la compréhension. Il décide trop tôt des informations que l’agent est « autorisé » à voir.

Pour la plupart des tâches d’entreprise, c’est acceptable. Mais lorsque votre objectif est la précision, la recherche de nombres exacts, de chemins de fichiers ou d’identifiants de versions, cela devient un sérieux goulot d’étranglement. Ces systèmes sont conçus pour un rappel sémantique large, et non pour la recherche de données fines dont dépendent les décisions. Si un agent oublie un détail petit mais important, aucun raisonnement ne pourra le récupérer plus tard. Il s’agit là d’une faille critique.

Les dirigeants doivent reconnaître que ces limites affectent directement les performances de l’entreprise. Lorsque vos systèmes d’IA ne peuvent pas retracer des preuves précises, ils perdent la capacité d’exécuter des raisonnements complexes en plusieurs étapes de manière fiable. Dans les secteurs réglementés ou à fort enjeu, cela peut fausser les analyses, affaiblir les pistes d’audit et dégrader la précision opérationnelle. Les entreprises qui s’appuient uniquement sur des méthodes de recherche sémantique entraînent leurs agents à accepter des informations incomplètes.

Selon les chercheurs à l’origine de l’article Direct Corpus Interaction (DCI) dans leurs commentaires à VentureBeat, la recherche dense « décide trop tôt de ce que l’agent est autorisé à voir ». Cette idée recadre un problème fondamental dans la manière dont les entreprises envisagent les pipelines de recherche d’IA. À mesure que les systèmes d’IA se transforment en agents autonomes, la couche de recherche devient une limite à l’intelligence elle-même.

L’interaction directe avec le corpus (DCI) utilise les commandes brutes des terminaux plutôt que des modèles d’intégration.

L’ICD emprunte une voie plus simple et plus directe. Elle supprime entièrement la dépendance à l’égard des modèles d’intégration et permet aux agents d’effectuer des recherches dans le texte brut lui-même. Au lieu de demander à un récupérateur de décider de ce qui est pertinent, l’agent utilise des outils de ligne de commande directe – grep, find, cat, sed et autres – pour interroger les données. L’agent peut ainsi contrôler la manière dont il récupère, filtre et vérifie les preuves en temps réel.

La différence est structurelle. L’ICD fait de la recherche un processus vivant. L’agent peut combiner des commandes, appliquer des contraintes logiques et faire évoluer sa stratégie de recherche à mesure qu’il trouve de nouveaux indices. Par exemple, il peut repérer des modèles spécifiques dans les répertoires, restreindre les résultats à des types de fichiers particuliers ou se concentrer sur une année ou un mot-clé donné. Il vérifie les faits en accédant aux correspondances lexicales exactes.

Pour les dirigeants, cette approche modifie la façon dont vos systèmes d’IA interagissent avec les données de l’entreprise. Elle introduit la flexibilité et l’adaptabilité en temps réel, des éléments essentiels lorsqu’il s’agit d’opérer dans des environnements riches en données et en constante évolution. Au lieu de se fier à un index fixe construit quelques jours plus tôt, votre IA peut interroger directement l’environnement de données de votre entreprise. Il s’agit d’une refonte de la manière dont les systèmes intelligents se connectent aux données que vous possédez déjà.

Les chercheurs décrivent le cadre de DCI comme une « interaction directe avec le corpus ». Le système est documenté dans une publication sur arXiv, qui propose de contourner complètement les encastrements vectoriels. En pratique, l’ICD permet aux agents de réfléchir pendant qu’ils cherchent, plutôt qu’après avoir cherché. C’est ce qui fait sa force. Il redonne le pouvoir de décision à l’agent lui-même, transformant la recherche de données d’un processus de consultation passif en une capacité de raisonnement actif.

Experts Okoone
PARLONS-EN !

Un projet en tête ?
Planifiez un appel de 30 minutes avec nous.

Des experts senior pour vous aider à avancer plus vite : produit, tech, cloud & IA.

Veuillez saisir une adresse email professionnelle valide.

L’ICD s’attaque à la stagnation des données de l’entreprise et aux sources de données dynamiques.

Toutes les grandes entreprises sont confrontées à la même contrainte : les données changent plus vite que les systèmes ne peuvent les indexer. L’infrastructure traditionnelle basée sur l’intégration fige les données dans des instantanés qui vieillissent rapidement. La reconstruction de ces index est lente et gourmande en ressources informatiques. Cela signifie qu’une grande partie de votre intelligence d’entreprise fonctionne sur l’état du monde d’hier.

L’ICD élimine ce décalage. En permettant à l’agent d’accéder directement aux environnements réels, il fournit un accès continu aux informations actuelles, aux rapports financiers, aux tickets d’assistance actifs, au code nouvellement validé ou aux fichiers de configuration en cours d’évolution. Il ne s’appuie pas sur des éléments intégrés prétraités qui doivent être reconstruits à chaque fois que quelque chose change. Le résultat est un système qui raisonne sur ce qui existe maintenant, et non sur ce qui existait lorsque le dernier index a été exécuté.

Pour les dirigeants d’entreprise, cela a une valeur directe. La qualité des décisions dépend de la fraîcheur des données. Dans des environnements où des millions d’enregistrements changent chaque jour, un contexte obsolète conduit à de mauvaises prévisions, à des risques réglementaires et à des opportunités manquées. La capacité de l’ICD à fonctionner sur des données vivantes et modifiables résout ce problème en alignant la vision de l’IA de votre entreprise sur les conditions réelles en temps réel.

Les auteurs de l’ICD ont déclaré à VentureBeat que les données d’entreprise « ne sont pas un ensemble de documents stables ». Elles évoluent constamment. En se connectant directement à cette cible mouvante, l’ICD garantit que le raisonnement et la recherche restent synchronisés avec la réalité opérationnelle. Cette perspective en temps réel fait de cette technologie le fondement des systèmes d’intelligence d’entreprise de la prochaine génération.

Deux implémentations de l’ICD offrent des compromis entre le coût, la performance et la gestion du contexte.

L’ICD a été conçu dans un souci d’évolutivité et d’accessibilité, ce qui a donné lieu à deux implémentations spécifiques. La première est DCI-Agent-Lite, un modèle léger basé sur GPT-5.4 nano. Il se concentre uniquement sur l’exécution de commandes de terminal brutes et la lecture de fichiers de base. Il utilise des techniques d’optimisation de la mémoire pour maintenir de longues recherches sans surcharger la capacité du contexte. Cette version est conçue pour être rentable et pour des opérations à plus petite échelle lorsque la puissance de calcul disponible est limitée.

La seconde implémentation, DCI-Agent-CC, est conçue pour des performances plus élevées. Elle fonctionne sur Claude Code, alimenté par Claude Sonnet 4.6, développé par Anthropic. Cette version intègre une meilleure gestion des invites, une orchestration plus stable de plusieurs outils et une meilleure gestion des fenêtres contextuelles. L’avantage est la résilience dans les tâches à étapes multiples qui couvrent de nombreux ensembles de données, journaux ou bases de code. Il peut supporter des sessions de raisonnement plus longues sans perdre en précision.

Pour les dirigeants de C-suite, ces deux modèles représentent un choix. Vous pouvez déployer une version légère et abordable pour les analyses quotidiennes ou investir dans une configuration plus performante pour les flux de travail critiques. Les deux versions sont modulaires, ce qui permet aux organisations d’adapter la profondeur technique aux besoins de l’entreprise.

L’équipe de l’ICD privilégie l’équilibre pratique à la perfection théorique. Atteindre des performances de raisonnement élevées à faible coût n’est plus un objectif abstrait, c’est une décision configurable. Pour les entreprises qui utilisent l’IA dans des environnements réels et sensibles aux coûts, il s’agit d’un avantage significatif.

L’ICD améliore la précision et la rentabilité par rapport aux systèmes de recherche traditionnels.

Les résultats des performances de l’ICD sont éloquents. Sur des benchmarks tels que BrowseComp-Plus et la réponse à des questions multi-sauts, les agents de l’ICD ont constamment fourni une plus grande précision et des coûts opérationnels inférieurs à ceux des systèmes de recherche traditionnels. Cette amélioration est due au fait que l’agent est capable d’extraire beaucoup plus de valeur de chaque document qu’il trouve. Une fois qu’un fichier pertinent est localisé, chaque ligne, numéro de version ou référence peut être vérifié sur place sans se baser sur des scores d’intégration probabilistes.

Sur le benchmark BrowseComp-Plus, la précision est passée de 69,0 % en utilisant un récupérateur sémantique Qwen3 à 80,0 % sur un backbone Claude Sonnet 4.6 avec DCI. Le même test a permis de réduire les coûts d’API de 1 440 à 1 016 dollars. Dans les tests d’assurance qualité multi-sauts, la version DCI-Agent-CC a atteint une précision moyenne de 83,0 %, soit 30,7 points de plus que la principale solution de référence à poids ouvert. Ces chiffres témoignent d’une efficacité mesurable : de meilleurs résultats à moindre coût.

Pour les dirigeants qui gèrent des opérations à grande échelle, ces gains se traduisent directement en valeur financière et stratégique. Une plus grande précision signifie moins d’idées manquées et moins de vérifications humaines. Une utilisation moindre du calcul signifie une réduction des dépenses d’infrastructure et de la consommation d’énergie. À mesure que les entreprises intègrent des flux de travail d’IA de plus en plus complexes, la capacité d’améliorer la précision sans augmenter les exigences budgétaires devient un avantage concurrentiel.

L’équipe de recherche de l’ICD insiste sur le fait que ces améliorations proviennent de l’efficacité structurelle. En modifiant la façon dont l’agent interagit avec les données, l’ICD fournit plus d’intelligence sans plus de calcul. Ce changement rend la précision et l’évolutivité réalisables dans le même système, ce que les pipelines de recherche traditionnels parviennent rarement à faire.

Les cas d’utilisation idéaux pour l’ICD comprennent les domaines nécessitant une traçabilité exacte des preuves

L’architecture de DCI est conçue pour les contextes où la localisation des preuves est importante. Cela inclut le débogage de la production, l’audit du système, l’analyse du code, l’investigation des journaux, la surveillance de la conformité et tout autre domaine qui repose sur la précision des faits. Ces tâches exigent un processus d’extraction capable de confirmer des détails directement plutôt que de les déduire sémantiquement.

Lors de l’évaluation, les chercheurs ont testé DCI sur des défis de raisonnement complexes. Dans une tâche de recherche approfondie, l’agent devait trouver un match de football spécifique en utilisant douze indices interconnectés, l’assiduité, les cartons jaunes, les remplacements et les dates de naissance des joueurs. Les systèmes de recherche traditionnels ont fourni des bribes décousues et n’ont pas pris en compte les éléments clés. L’agent DCI a accompli la tâche en enchaînant les commandes de terminal, en vérifiant les chiffres ligne par ligne dans plusieurs fichiers. Cette démonstration pratique a mis en évidence le véritable atout de DCI : il ne perd pas la trace des informations critiques une fois qu’elles ont été découvertes.

Pour les chefs d’entreprise, cette capacité a une importance opérationnelle évidente. Qu’il s’agisse d’assurer la conformité réglementaire, de réaliser un audit interne ou d’examiner le code pour détecter des anomalies de sécurité, la possibilité de retrouver et de confirmer des faits avec précision réduit le risque organisationnel. Elle introduit un niveau d’auditabilité et de transparence que les systèmes d’intégration traditionnels ne peuvent pas supporter.

Les auteurs de l’article de l’ICD ont souligné que la méthode est particulièrement utile dans les environnements où les données changent constamment et où la preuve est importante. Pour les entreprises disposant de données complexes, l’adoption de cette méthode de recherche permet de s’assurer que chaque réponse à une requête est fondée sur des preuves vérifiables.

L’ICD présente des compromis en termes d’évolutivité, de rappel et de surcharge opérationnelle.

Bien que l’ICD excelle en précision, il ne s’adapte pas linéairement à toutes les charges de travail. Lors des tests, lorsque le corpus est passé de 100 000 à 400 000 documents, les performances ont diminué et la fréquence d’appel des outils a augmenté. Ce coût de mise à l’échelle reflète la complexité accrue de l’exploration d’un vaste ensemble de données sans raccourcis sémantiques. Une fois qu’un document pertinent est trouvé, l’ICD extrait efficacement des informations de grande valeur. Cependant, la localisation de ce premier document d’ancrage devient de plus en plus gourmande en ressources au fur et à mesure que l’espace de recherche s’agrandit.

Ce compromis entre précision et rappel a des implications pratiques pour les grandes entreprises. La profondeur de recherche de l’ICD est inégalée, mais l’étendue reste limitée. Si les flux de travail de l’entreprise exigent une découverte exhaustive de millions d’enregistrements, les modèles d’extraction denses offrent tout de même un rappel plus élevé et une sélection initiale plus rapide. Pour les cas d’utilisation centrés sur la vérification ou l’alignement des preuves, l’ICD offre une précision supérieure, mais demande plus de patience en matière de calcul.

Il existe également des considérations opérationnelles. Donner à l’IA un contrôle terminal direct sur les données brutes de l’organisation introduit un risque. Les appels d’outils en grand nombre peuvent augmenter la latence et consommer une quantité importante de mémoire. Les entreprises doivent mettre en place un bac à sable, des politiques d’autorisation strictes et une surveillance de l’exécution pour protéger les systèmes sensibles. Les chercheurs ont constaté que l’application d’une troncature et d’une compression modérées permet de maintenir les performances tout en empêchant le débordement du contexte. Cependant, un résumé excessif réduit la capacité de l’agent à se souvenir ultérieurement des éléments pertinents.

Les décideurs devraient considérer l’ICD comme un instrument de précision et non comme un substitut complet à une recherche sémantique plus large. Il s’adapte parfaitement en profondeur, mais pas en largeur. Les entreprises qui souhaitent le déployer doivent prévoir un contrôle supplémentaire de la mémoire, une sécurité d’accès et une gouvernance des processus. Il s’agit de problèmes d’ingénierie qui peuvent être résolus, mais qui nécessitent une discipline de mise en œuvre ciblée.

Une approche hybride intégrant la recherche sémantique et l’ICD maximise l’efficacité

Les auteurs de l’ICD recommandent une stratégie équilibrée plutôt que l’exclusivité. Ils proposent de combiner la recherche sémantique traditionnelle avec l’ICD pour obtenir à la fois rappel et précision. Dans ce modèle hybride, les moteurs de recherche basés sur l’intégration effectuent une recherche générale dans de vastes ensembles de données, en identifiant les documents ou les sections candidats probables. L’ICD prend ensuite le relais, en appliquant des recherches lexicales pour confirmer les détails, appliquer des contraintes strictes et étendre l’analyse au-delà de ces candidats initiaux.

Cette intégration joue sur les points forts de chaque système. La recherche sémantique offre rapidité et couverture, tandis que l’ICD ajoute la vérification et la fiabilité des faits. Le résultat est un flux de travail qui accélère la découverte initiale tout en garantissant que les résultats finaux sont fondés sur des données concrètes et vérifiables. Il répond aux deux aspects de l’intelligence d’entreprise, à savoir la découverte d’informations évolutives et la confirmation de preuves fiables.

Pour les dirigeants, cette approche offre une voie de déploiement claire. Elle évite le risque de mettre au rebut l’infrastructure existante tout en incorporant les avantages de précision qu’apporte l’ICD. Les systèmes hybrides peuvent évoluer progressivement, en connectant les pipelines de recherche sémantique établis avec l’accès direct au corpus de l’ICD afin d’améliorer la transparence et l’utilisation des données. Cette conception en couches garantit la compatibilité avec les budgets et les politiques informatiques actuels tout en améliorant la qualité de la recherche.

Selon les auteurs de l’article de DCI, les ingénieurs en orchestration et les architectes de données devraient adopter cette stratégie hybride pour les mises en œuvre à court terme. Leur point de vue est pragmatique : laissez la recherche sémantique rapprocher l’agent de ce qui compte, puis laissez l’ICD terminer le travail avec précision. Au fil du temps, cette combinaison constituera la base des systèmes d’IA d’entreprise conçus pour penser, vérifier et agir directement sur leurs données, avec précision et fiabilité à grande échelle.

Réflexions finales

L’évolution de la recherche en IA passe de systèmes statiques à une intelligence active. L’interaction directe avec le corpus (DCI) n’est pas une fonctionnalité supplémentaire, c’est un changement structurel. En donnant aux agents un accès direct aux données, les entreprises permettent un raisonnement opportun, vérifiable et rentable.

Pour les dirigeants, le message est simple : les systèmes intelligents ne peuvent pas fonctionner efficacement si leur vision des données est partielle ou obsolète. L’ICD répond à ce problème en supprimant les barrières entre l’information et l’action. Il améliore la précision, la transparence et l’adaptabilité, qui sont les caractéristiques essentielles d’une IA d’entreprise performante.

L’adoption ne doit pas être brutale. Un modèle hybride permet aux organisations d’intégrer progressivement l’ICD, en combinant la découverte large de la recherche sémantique avec la précision fine de l’ICD. Cette approche permet de conserver l’infrastructure existante tout en améliorant la qualité des décisions dans les flux de travail.

Alors que l’IA continue de façonner l’avantage concurrentiel, les dirigeants qui s’assurent que leurs systèmes voient clairement la réalité avanceront plus rapidement et prendront de meilleures décisions. DCI repousse cette frontière, transformant la récupération d’un processus d’arrière-plan en une fonction stratégique qui génère une intelligence commerciale mesurable.

Alexander Procter

mai 28, 2026

16 Min

Experts Okoone
PARLONS-EN !

Un projet en tête ?
Planifiez un appel de 30 minutes avec nous.

Des experts senior pour vous aider à avancer plus vite : produit, tech, cloud & IA.

Veuillez saisir une adresse email professionnelle valide.