Les applications LLM ont du mal à gérer efficacement la mémoire

L’IA générative n’apprend pas des utilisateurs comme beaucoup le pensent. La plupart des dirigeants de C-suite pensent que ces systèmes s’affinent automatiquement, s’améliorant à chaque interaction. Ce n’est pas le cas. Les modèles tels que GPT-4 et Claude ne conservent pas la mémoire comme le font les humains. Ils ne savent pas ce que vous leur avez dit il y a cinq minutes, à moins que ce contexte ne soit rechargé manuellement. Chaque demande est en fait un nouveau départ.

Cette limitation affecte la cohérence des performances. Vous pouvez demander à ChatGPT de supprimer un morceau de code ou une bibliothèque spécifique, et il en prend acte. Puis, quelques réponses plus tard, il le réintègre dans la conversation, comme si l’interaction n’avait jamais eu lieu. Il s’agit d’un défaut structurel dans la manière dont la mémoire est gérée dans ces outils.

La mémoire des grands modèles linguistiques est gérée de manière externe. Vous utilisez des fenêtres à court terme, ou « fenêtres contextuelles », qui stockent une quantité fixe d’historique de conversation. GPT-4o peut gérer environ 128 000 jetons, ce qui est considérable, mais reste limité et n’est pas assez intelligent pour donner la priorité à ce qui est important. Claude fonctionne avec une taille de 200 000 jetons. C’est utile, mais même avec plus d’espace, le problème persiste si nous ne pouvons pas contrôler ce qui est stocké et ce qui est supprimé.

Le problème fondamental est que ces plateformes traitent les informations sans contexte, à moins que les développeurs ne les contournent. Cela crée des incohérences, en particulier lorsque ces outils sont intégrés dans les flux de travail de l’entreprise. Ils semblent intelligents dans des tâches isolées, mais affichent des performances erratiques à grande échelle si la mémoire n’est pas systématiquement gérée.

Si vous souhaitez que les systèmes d’IA se comportent de manière fiable, en particulier lors de longues sessions ou de conversations à plusieurs tours, l’infrastructure de la mémoire doit évoluer. S’appuyer sur des modèles sans état et des solutions de mémoire disparates n’est pas viable.

Les techniques traditionnelles de mémorisation entraînent des pertes de mémoire

Il y a un autre aspect du problème. Les LLM peuvent soit oublier trop facilement, soit s’accrocher à des choses qu’ils sont censés abandonner. Nous avons tous connu des situations où un outil comme ChatGPT s’accroche à une instruction obsolète, faisant référence à une bibliothèque dépréciée alors que vous lui avez déjà dit que vous l’aviez supprimée. Ce n’est pas un comportement sémantiquement intelligent. C’est le symptôme d’un mauvais filtrage.

Ce qui se passe en coulisses, c’est que le système stocke le contexte mais n’a aucun moyen de le classer en fonction de sa valeur. Les déchets restent donc dans le système avec les informations, et tout est mélangé. Ce n’est pas ainsi que les systèmes intelligents doivent fonctionner. Le problème se présente sous la forme d’erreurs répétitives, comme le fait de suggérer la même mauvaise solution alors que vous l’avez déjà corrigée. Il ne s’agit pas d’une hallucination, mais d’une défaillance dans la hiérarchisation de la mémoire.

Claude by Anthropic tente d’aller dans la bonne direction avec la mémoire persistante et la mise en cache rapide. En théorie, cela rend les conversations plus efficaces en se référant à des fragments précédemment validés. Cela réduit les répétitions, mais n’aborde pas complètement ce qui doit être mémorisé ou oublié. L’efficacité dans la fourniture de contexte n’est pas la même chose que l’intelligence dans la gestion de la mémoire.

Si votre système d’IA réutilise constamment des données non pertinentes ou ignore des corrections récentes, l’expérience de l’utilisateur s’en trouve perturbée. Pire encore, l’inexactitude persistante nuit à la crédibilité. Cela crée un risque opérationnel dans les outils de contact avec la clientèle ou les systèmes internes d’aide à la décision. Si la mémoire n’est pas gérée correctement, le système perd de son utilité au fur et à mesure que vous l’utilisez.

C’est exactement le contraire de ce que l’IA d’entreprise devrait faire. À l’échelle, la valeur des outils génératifs dépend de la pertinence. Et la pertinence dépend de la capacité du système de mémoire à savoir ce qu’il faut prioriser, conserver ou rejeter. Sans cela, nous nous retrouvons avec une vitesse sans direction.

Les architectures de mémoire LLM actuelles se répartissent en deux catégories défectueuses

Mémoire dans les systèmes systèmes LLM se présente sous deux formes : soit elle est totalement absente, soit elle est implémentée d’une manière qui n’aide pas. Le premier cas est le modèle sans état, dans lequel l’IA oublie tout entre les messages à moins que vous ne lui fournissiez l’historique à chaque fois. Les développeurs doivent transmettre manuellement les messages précédents ou recréer le contexte en permanence. Cette méthode est inefficace et fait peser la charge de la cohérence sur le développeur, et non sur le système.

L’autre forme est l’IA augmentée par la mémoire, où les modèles conservent certaines informations des sessions précédentes, généralement par le biais d’incrustations ou d’invites mises en cache. Le problème est que cette mémoire n’est pas intelligente. Elle stocke et rappelle sans comprendre quelles parties de l’information sont obsolètes, lesquelles sont utiles ou lesquelles doivent être ignorées. Il n’y a pas de hiérarchie inhérente ou de classement par pertinence. Cela signifie que les données obsolètes ou de faible valeur remontent souvent à la surface, tandis que les mises à jour importantes sont enfouies ou perdues.

Aucune de ces approches ne s’adapte bien, en particulier dans les cas d’utilisation en entreprise où le contexte est très complexe. Si vous gérez un assistant d’assistance à la clientèle, un contrôleur de conformité ou un copilote de codage, vous ne voulez pas que l’IA régurgite à chaque fois des transcriptions complètes ou prenne des décisions sur la base d’un contexte périmé. Vous voulez qu’elle s’adapte, qu’elle reste à jour et qu’elle fonctionne avec précision. À l’heure actuelle, l’architecture ne le permet pas. La plupart des systèmes sont soit trop vides, soit trop encombrés.

D’un point de vue exécutif, cela devrait indiquer la nécessité d’investir davantage dans l’infrastructure de base de l’IA, en particulier en ce qui concerne l’orchestration de la mémoire. Si vous déployez des outils d’IA internes ou des agents en contact avec la clientèle, vous ne pouvez pas vous fier à la structure de mémoire par défaut et vous attendre à ce que les performances restent constantes. Une meilleure mémoire n’est pas une amélioration. C’est une exigence.

Une mémoire LLM efficace doit imiter l’oubli sélectif de type humain

Si vous voulez une IA performante dans le temps, le système de mémoire ne doit pas se contenter de stocker et d’extraire des informations. Il doit filtrer, pondérer et mettre à jour les informations en fonction de leur pertinence. La mémoire humaine fonctionne par ordre de priorité : les informations utiles restent actives et celles qui ne sont pas pertinentes s’effacent ou sont complètement oubliées. Ce n’est pas le cas de la plupart des systèmes d’IA à l’heure actuelle.

Les LLM ont besoin de couches de mémoire contextuelle capables de s’adapter au flux d’une interaction en cours. Cela signifie qu’il faut résumer de longues transcriptions en informations significatives, identifier ce qui compte le plus dans une session et recharger sélectivement ces informations dans les interactions futures. Les limites de jetons rendent cet aspect encore plus critique. Vous ne pouvez pas continuer à tout charger, et vous ne devez pas le faire. Si vous chargez tout à chaque fois, le système ralentit, les coûts augmentent et la précision diminue.

La mémoire persistante doit également fonctionner différemment. Il ne suffit pas d’indexer les conversations précédentes dans une base de données et d’effectuer une recherche par mot-clé ou par similarité. Si le système de recherche n’a aucun concept de pertinence lié à la tâche ou au contexte actuel, il continuera à obtenir des résultats non pertinents. Ce qu’il faut, ce sont des contrôles basés sur l’attention qui savent comment faire remonter à la surface ce qui est important maintenant, tout en permettant aux données moins pertinentes de se dégrader ou d’être supprimées.

D’un point de vue commercial, cela crée un véritable effet de levier. De meilleurs systèmes de mémoire permettent des assistants plus précis, moins d’erreurs dans les flux de travail automatisés et une plus grande confiance de la part des utilisateurs. Si vos outils d’IA peuvent répondre avec des informations actuelles, précises et concises, tout en laissant de côté les contextes obsolètes ou non pertinents, ils deviennent plus utiles d’un point de vue opérationnel. Cela se traduit par des gains de productivité, une meilleure expérience client et une réduction des frais généraux de support.

Il s’agit d’améliorations stratégiques, et non de mises à niveau marginales. Les outils d’IA qui se souviennent des bonnes choses, et qui oublient les mauvaises, sont ceux qui s’adapteront avec succès à l’échelle de l’entreprise.

Il ne suffit pas d’augmenter la capacité de la mémoire, il faut aussi oublier plus intelligemment.

Certains pensent qu’il suffit d’augmenter la taille de la fenêtre contextuelle d’un LLM pour résoudre les problèmes de mémoire. Ce n’est pas le cas. L’ajout de mémoire sans un meilleur contrôle de ce qui est stocké et récupéré ne fait qu’amplifier le bruit. GPT-4o, par exemple, autorise jusqu « à 128 000 jetons dans sa fenêtre contextuelle, et Claude supporte jusqu » à 200 000 jetons. Ce sont de grands nombres, mais sans mécanismes de récupération sélectifs, ils n’améliorent pas la pertinence. Ils signifient simplement que vous transportez plus de données, et non de meilleures données.

La clé de l’utilité de la mémoire n’est pas la capacité, mais la sélectivité. Les systèmes de gestion du cycle de vie doivent être capables de faire la différence entre ce qui est important aujourd’hui, ce qui pourrait l « être plus tard et ce qu’il convient d » écarter. Cela nécessite des outils de rétention sélective, de rappel basé sur la pertinence et d’effacement de l’information en fonction du temps. Sans ces capacités, les modèles continuent à répéter des codes obsolètes, à mal interpréter le contexte actuel ou à ignorer les corrections.

Certaines équipes appliquent la recherche sémantique et l’intégration vectorielle pour retrouver des fragments de conversations antérieures. C’est un début. Mais à moins que cette récupération ne s’inscrive dans un cadre tenant compte de la pertinence, vous obtiendrez toujours des inadéquations de contexte. Ce qui compte, ce n’est pas seulement de faire correspondre des contenus similaires, c’est de faire correspondre le bon contenu à la bonne tâche au bon moment.

Si vous construisez des outils d’entreprise alimentés par des LLM, le fait de pousser plus de données dans des fenêtres de contexte plus longues sans un oubli plus intelligent conduit à l’inefficacité et au coût. Le système peut sembler plus performant, mais il dépense des ressources informatiques pour faire apparaître des données non pertinentes. Une mauvaise mémoire se traduit par des réponses plus lentes, des taux d’erreur plus élevés et une confiance moindre de la part de l’utilisateur.

Pour que les outils d’IA puissent s’adapter à l’échelle de l’entreprise, la mémoire doit être conçue en fonction de la fonction, et pas seulement de la taille. Vous devez commencer petit, au niveau de la mémoire de travail, donner la priorité à ce qui est important et construire des systèmes persistants autour de cela. Les modèles qui oublient les mauvaises choses deviennent des passifs. Les modèles qui oublient les bonnes choses, au bon moment, deviennent des atouts. C’est la différence entre la capacité expérimentale et l’utilité prête à la production.

Faits marquants

  • La conception sans état limite la fonctionnalité des LLM : Les LLM tels que GPT-4o et Claude fonctionnent sans véritable mémoire entre les interactions, ce qui nécessite une gestion manuelle du contexte. Les dirigeants devraient investir dans une infrastructure qui prenne en charge des systèmes de mémoire structurés afin de garantir la cohérence et de réduire les frictions avec l’utilisateur.
  • Une mauvaise mémoire entraîne des erreurs répétées : En l’absence de filtrage basé sur la pertinence, les LLM conservent des données obsolètes ou oublient des mises à jour essentielles, ce qui conduit à des échecs répétés. Les dirigeants doivent faire pression pour obtenir des systèmes capables de hiérarchiser et d’écarter le contexte de manière dynamique afin de maintenir l’intégrité des résultats.
  • Les systèmes de mémoire actuels sont structurellement défectueux : Les modèles oublient tout ou conservent les informations sans les classer en fonction de leur valeur, ce qui les rend peu fiables à grande échelle. Les organisations devraient exiger des architectures de mémoire hybrides qui prennent en charge la récupération en fonction de la pertinence et le rappel adaptatif.
  • L’oubli sélectif est un impératif stratégique : Une mémoire efficace n’est pas seulement une rétention, c’est aussi un filtrage, une attention et une désintégration des données non pertinentes. Les dirigeants devraient guider les équipes d’IA pour qu’elles construisent des couches de mémoire contextuelle qui fonctionnent sur la pertinence de la tâche, et non sur le nombre de jetons.
  • La mise à l « échelle nécessite une mémoire plus intelligente, et pas seulement des fenêtres plus grandes : L » élargissement des limites du contexte ne suffit pas à améliorer les performances du modèle et augmente le gaspillage informatique. Les décideurs doivent investir dans des mécanismes d’oubli plus intelligents pour améliorer l’efficacité et la fiabilité des déploiements d’IA.

Alexander Procter

juin 16, 2025

12 Min