Les solutions classiques de mémoire à long terme pour les agents d’intelligence artificielle sont inefficaces et peu fiables.
Les agents d’intelligence artificielle ont la mémoire courte. Ils peuvent traiter rapidement des quantités massives d’informations, mais ont tendance à perdre le contexte au fil des interactions. Dans ce cas, l’IA doit retraiter ce qu’elle a déjà vu, ce qui augmente le temps de latence et les coûts. Les solutions de contournement habituelles, telles que l’élargissement de la fenêtre contextuelle ou l’ajout d’un plus grand nombre d’éléments de contexte, peuvent être mises en œuvre. modules de génération (RAG) – ne s’adaptent pas bien. Elles sollicitent les GPU, augmentent l’utilisation des jetons et n’offrent pas la cohérence que les entreprises attendent de systèmes intelligents fonctionnant jour après jour.
La plupart des systèmes actuels traitent la gestion de la mémoire comme un problème de stockage plutôt que comme un processus d’apprentissage adaptatif. C’est là que réside le problème principal. Comme l’explique Jingdi Lei, co-auteur de l’étude et chercheur au Mind Lab, « soit nous élargissons sans cesse la fenêtre contextuelle, soit nous récupérons davantage de documents par le biais du RAG ». Mais aucune de ces deux méthodes ne permet une formation de la mémoire véritablement « humaine », c’est-à-dire que le système développe sa compréhension au fil du temps sans avoir à recharger à plusieurs reprises des ensembles de données entiers.
Les dirigeants doivent reconnaître l’impact opérationnel. Des systèmes de mémoire inefficaces se traduisent directement par des coûts d’infrastructure plus élevés et des flux de travail itératifs plus lents. Lorsqu’une IA oublie les préférences d’un utilisateur ou les détails d’un projet à mi-chemin d’une interaction à plusieurs étapes, la productivité chute. Il ne s’agit pas seulement d’un inconvénient technique, mais aussi d’un problème de mise à l’échelle qui empêche les systèmes d’IA d’entreprise de maintenir la continuité entre les interactions ou les clients.
Les mécanismes d’attention dans les grands modèles consomment également plus de puissance de calcul à mesure que la longueur de la séquence augmente, un problème connu sous le nom d’échelle de calcul quadratique. Cela signifie que même avec des modèles capables de traiter un million de jetons, les performances se dégradent au fur et à mesure que des données sont ajoutées. Du point de vue de l’entreprise, c’est un signal d’alarme pour la rentabilité et la fiabilité. L’IA se souvient techniquement mais oublie fonctionnellement.
Les décideurs qui envisagent l’adoption de l’IA à long terme doivent donner la priorité à l’innovation en matière de mémoire. L’objectif n’est pas de créer des modèles qui voient plus, mais de créer des modèles qui se souviennent mieux au fil du temps tout en restant efficaces.
Delta-Mem présente un complément de mémoire à paramètres épars très efficace
Des chercheurs de Mind Lab et de plusieurs universités ont mis au point Delta-Mem, une solution légère qui aide les modèles d’intelligence artificielle à construire et à conserver une mémoire opérationnelle. Au lieu d’augmenter le nombre de jetons ou de s’appuyer sur des systèmes de récupération externes, Delta-Mem compresse l’historique des interactions d’un modèle dans un petit « état en ligne de la mémoire associative », ou OSAM. Il s’attache directement au modèle et conserve la mémoire active à l’intérieur d’une matrice de taille fixe. Cela signifie que l’IA peut se référer instantanément à des interactions antérieures, sans jamais avoir à recharger le texte ou à récupérer des documents.
L’efficacité des performances est frappante. Delta-Mem n’ajoute que 0,12 % des paramètres du modèle, soit 4,87 millions de paramètres entraînables, alors que les systèmes alternatifs en nécessitent jusqu’à 3 milliards, soit 76,40 % du modèle de base. Bien qu’il soit plus de 600 fois plus léger, Delta-Mem a surpassé ces solutions lourdes sur de nombreux critères de référence. Il ne s’agit pas seulement d’une prouesse technique, mais d’un avantage opérationnel pour les entreprises qui dépendent de la vitesse, de la rentabilité et de la fiabilité à grande échelle.
Cette approche élimine un point de friction majeur dans les flux de travail de l’IA d’entreprise. Un modèle intégré à Delta-Mem n’a pas besoin de rejouer un texte historique pour maintenir sa pertinence. Il peut fonctionner en continu, en apprenant et en s’affinant à chaque interaction. Pour les assistants de codage ou les agents analytiques qui gèrent des projets en cours, cela signifie un comportement cohérent, des mises à jour plus rapides et des résultats plus personnalisés sans coûts matériels excessifs.
Pour les dirigeants de C-suite, la conclusion est simple : l’efficacité est un effet de levier. Lorsque la mémoire peut être préservée de manière dynamique sans que l’ensemble du système ne soit modifié, vous réduisez simultanément la latence, les coûts d’infrastructure et la complexité de l’intégration. Avec une mise en œuvre mesurée en mégaoctets et non en gigaoctets, Delta-Mem établit une nouvelle référence technique pour le déploiement durable de l’IA.
Le changement de paradigme ne concerne pas seulement la mémoire, mais aussi la manière dont les systèmes d’IA gèrent le temps. Au lieu de reprendre chaque interaction à zéro, ils construisent une continuité. C’est le fondement de l’intelligence à long terme, dans le monde réel, au sein des environnements d’entreprise.
Un projet en tête ?
Planifiez un appel de 30 minutes avec nous.
Des experts senior pour vous aider à avancer plus vite : produit, tech, cloud & IA.
Le mécanisme d’apprentissage Delta-Rule de Delta-Mem permet des mises à jour contrôlées et continues de la mémoire.
La plupart des systèmes d’IA actuels mettent à jour leur mémoire de manière brutale, soit en conservant tout, soit en oubliant trop vite. Delta-Mem résout ce problème par la précision. Il utilise une technique appelée « règle delta », un processus d’apprentissage qui compare en permanence ce que le modèle prédit avec ce qui se passe réellement, puis ajuste sa mémoire interne en fonction de cette différence. Le système n’est pas réentraîné ; il s’adapte en temps réel, en retenant sélectivement ce qui est important et en filtrant le bruit à court terme.
Le cadre prend en charge trois types de mise à jour : les écritures à l’état de jeton, les écritures à l’état de séquence et les écritures à plusieurs états. L’état token capture un contexte à grain fin mais peut inclure des fluctuations temporaires. L’état séquentiel fait la moyenne des entrées entre les segments, ce qui offre une stabilité pour les grands modèles où la mémoire constante est plus précieuse que le rappel détaillé. Les écritures multi-états divisent la mémoire en sections spécialisées, telles que les faits ou la progression des tâches, ce qui réduit les interférences pour les modèles de petite taille ou de faible capacité. Cette modularité permet aux organisations d’ajuster les performances en fonction du cas d’utilisation et de la capacité du matériel.
Pour les décideurs, l’avantage commercial est évident. L’évolution contrôlée de la mémoire minimise la dérive des données et réduit les cycles de recyclage. Lorsque votre modèle peut s’adapter à de nouvelles entrées tout en préservant un comportement cohérent, vous réduisez les coûts d’exploitation et préservez la fiabilité des processus à long terme. Ce type de mise à jour adaptative et sans friction prend également en charge les applications critiques en matière de conformité, pour lesquelles la prévisibilité des résultats est aussi importante que les performances.
Jingdi Lei, chercheur au Mind Lab et coauteur de l’article, a souligné que cette conception rapproche la gestion de la mémoire de l’IA d’une boucle d’apprentissage continu plutôt que d’un processus de stockage statique. Elle permet aux modèles d’évoluer et de conserver naturellement un contexte pertinent au fil du temps, ce que les architectures conventionnelles peinent à réaliser efficacement.
Les tests empiriques ont confirmé que la stratégie d’apprentissage a un impact sur les résultats en fonction de la taille du modèle. Les modèles les plus puissants, comme Qwen3-8B, ont obtenu les meilleurs résultats avec les mises à jour de l’état séquentiel, tandis que les systèmes plus petits, comme SmolLM3-3B, ont obtenu des gains significatifs avec les écritures multi-états. Pour les équipes dirigeantes qui coordonnent le déploiement de l’IA dans des environnements mixtes, cette flexibilité signifie que la technologie peut être appliquée à grande échelle sans nécessiter de lourdes charges de personnalisation ou de recyclage.
Amélioration des tâches de raisonnement général et de mémoire à long terme avec Delta-Mem
Les chercheurs ont validé Delta-Mem en procédant à des analyses comparatives approfondies. Ils l’ont testé sur des défis majeurs tels que HotpotQA, GPQA-Diamond, IFEval, LoCoMo et Memory Agent Bench. Dans tous les cas, le cadre a surpassé à la fois les modèles de base et les solutions de mémoire existantes, démontrant une meilleure rétention, une meilleure précision de rappel et un meilleur apprentissage pendant les tests.
Sur l’épine dorsale Qwen3-4B-Instruct, la configuration à l’état de jeton de Delta-Mem a atteint un score moyen de 51,66 %, bien au-dessus du modèle vanille figé (46,79 %) et du modèle Context2LoRA, très performant (44,90 %). Sur le banc de l’agent de mémoire, la performance globale est passée de 29,54 % à 38,85 %, et ses scores d’apprentissage pendant les tests ont presque doublé, passant de 26,14 à 50,50. Ces résultats illustrent des performances mesurables avec un surcroît de paramètres minimal.
L’un des résultats les plus importants est la résilience opérationnelle. Même lorsque les chercheurs ont supprimé tous les textes historiques de l’entrée du modèle, l’exécutant essentiellement sans contexte visible, Delta-Mem a toujours récupéré des informations pertinentes pour le contexte lors de tâches de raisonnement à plusieurs étapes. Cela signifie que le modèle peut rappeler des connaissances antérieures utiles sans ingérer de manière répétée des messages massifs, ce qui réduit la charge de calcul.
Pour les cadres, les implications sont simples. Une meilleure efficacité de la mémoire signifie des modèles plus précis, des cycles de déploiement plus longs et des circuits de décision plus rapides à moindre coût. Les systèmes d’IA capables de conserver les informations pertinentes d’une session à l’autre réduisent les coûts de maintenance et d’exécution, ce qui est précieux pour des secteurs tels que la finance, la logistique ou l’assistance à la clientèle, où le raisonnement en plusieurs étapes est la norme.
Jingdi Lei, du Mind Lab, a souligné que ces avancées ne sont pas théoriques. Elles sont directement liées à des gains opérationnels dans le monde réel, à des systèmes qui maintiennent la précision et la continuité sans sacrifier la vitesse ou nécessiter une mise à l’échelle inutile. Les entreprises qui adoptent Delta-Mem peuvent s’attendre à des performances de mémoire cohérentes et fiables dans le cadre de flux de travail complexes, même dans des conditions de forte intensité de données.
Delta-Mem offre une efficacité opérationnelle et une intégration transparente pour les systèmes d’IA d’entreprise
Pour les équipes d’entreprise, Delta-Mem offre un équilibre pratique entre capacité et simplicité. Il s’intègre directement dans les grandes architectures de modèles linguistiques existantes sans reconfiguration importante. Les ingénieurs n’ont qu’à attacher de petits modules adaptateurs à des couches d’attention spécifiques et à former ces adaptateurs sur des données multi-tours ou à contexte long pertinentes pour le domaine. Il n’est pas nécessaire de procéder à un réentraînement à grande échelle ou de disposer d’ensembles de données de préentraînement massifs. Une fois intégrée, la mémoire du modèle se met à jour automatiquement pendant l’exécution, ce qui permet au système de rester efficace et adaptatif.
Les performances restent stables même en cas de charge de travail élevée en matière d’inférence. Lors des évaluations impliquant des longueurs d’invite allant jusqu’à 32 000 tokens, l’empreinte mémoire du GPU est restée presque identique à celle d’un modèle de base non modifié. Les systèmes concurrents, y compris MemGen et MLP Memory, ont généré des surcharges significatives dans les mêmes conditions. Cette faible consommation de ressources rend Delta-Mem très pratique pour les applications qui ont besoin de continuité, d’assistants de codage, de moteurs analytiques ou d’agents conversationnels, sans amplifier les coûts d’infrastructure.
Pour les dirigeants, les implications commerciales sont directes. Cette technologie prolonge la durée de vie des modèles, simplifie la maintenance et permet aux entreprises d’améliorer les résultats de l’IA sans devoir procéder à des mises à niveau coûteuses du matériel. Elle offre le type de flexibilité opérationnelle qui permet de passer de petits déploiements pilotes à des plateformes d’entreprise complètes. Lorsque la persistance de la mémoire devient plus efficace, la productivité globale s’améliore dans de multiples flux de travail.
Jingdi Lei, chercheur au Mind Lab, souligne que la mise en œuvre est simple : « Une équipe d’ingénieurs partirait d’un système de base d’instructions existant, attacherait les modules adaptateurs Delta-Mem à des couches d’attention sélectionnées, n’entraînerait que les paramètres de l’adaptateur sur des données pertinentes pour le domaine, et exécuterait l’inférence avec la mémoire mise à jour en ligne ». Cette conception garantit que l’évolution de la mémoire se fait de manière transparente au fur et à mesure que le système fonctionne, offrant ainsi une boucle d’amélioration continue sans effort manuel supplémentaire.
Les gains d’efficacité générés par cette approche renforcent l’agilité de l’organisation. En éliminant la nécessité de cycles de recyclage lourds et d’une gestion excessive du contexte, les entreprises peuvent concentrer leurs ressources sur l’innovation plutôt que sur l’entretien de l’infrastructure. Le cadre adaptable de Delta-Mem crée un chemin significatif vers la mise à l’échelle des systèmes intelligents avec des coûts prévisibles et une stabilité technique.
Une architecture de mémoire hybride combinant Delta-Mem et des systèmes basés sur la récupération est la stratégie d’entreprise la plus efficace.
Les développeurs de Delta-Mem insistent sur le fait qu’il ne s’agit pas d’une solution universelle. Il se spécialise dans le maintien d’une continuité comportementale dynamique, en se souvenant des modèles, des flux de travail et des préférences de l’utilisateur qui évoluent avec chaque interaction. Cependant, lorsque les systèmes exigent un rappel exact des faits, une précision juridique ou des références vérifiables, les cadres de génération augmentée par récupération (RAG) restent essentiels. L’architecture d’IA d’entreprise la plus efficace combine les deux.
Dans ce modèle en couches, Delta-Mem joue le rôle de mémoire interne à court terme, continuellement mise à jour, tandis que RAG s’occupe de la récupération des connaissances à long terme et de haute fidélité. Cette répartition des fonctions garantit que les modèles fonctionnent efficacement pendant les interactions en direct, mais qu’ils peuvent toujours accéder à des données externes vérifiables en cas de besoin. Pour les piles d’IA d’entreprise, cet équilibre signifie une amélioration des performances sans compromettre la conformité ou la traçabilité.
Jingdi Lei, co-auteur du Mind Lab, a clairement établi la distinction : « Delta-Mem est utile lorsque le système a besoin d’un état comportemental rapide, en ligne et continuellement mis à jour. RAG est préférable lorsque le système a besoin d’un rappel factuel exact, d’une citation, d’une conformité ou d’un accès à une vaste base de connaissances externe. » Pour les dirigeants technologiques, cela signifie que la conception d’une infrastructure d’IA ne doit pas être un choix entre deux options ; le véritable avantage réside dans la combinaison des deux en un système cohésif.
D’un point de vue commercial, cette structure hybride répond à diverses exigences opérationnelles. Les modèles orientés client bénéficient d’une mémoire immédiate et adaptative, tandis que les départements axés sur la conformité conservent un accès transparent à des sources vérifiables. Au fil du temps, cette approche conduit à une hiérarchie interne de gestion de la mémoire, à des modules actifs pour les flux de travail actuels et à des couches d’extraction pour les bases de données factuelles à fort volume.
À l’avenir, les entreprises qui adoptent une approche de la mémoire en couches peuvent obtenir une stabilité à long terme du système, un meilleur contrôle des coûts et une plus grande précision des décisions. Delta-Mem garantit l’adaptabilité en temps réel, tandis que les couches de récupération externes préservent la précision et la traçabilité. Ensemble, elles créent une base pratique pour une intégration évolutive et fiable de l’IA dans l’ensemble de l’entreprise.
Principaux enseignements pour les dirigeants
- Repensez les stratégies de mémoire de l’IA : L’élargissement des fenêtres contextuelles ou l’ajout de modules RAG supplémentaires augmentent les coûts et la complexité sans offrir une mémoire durable. Les dirigeants devraient donner la priorité aux technologies qui permettent un rappel efficace et une continuité contextuelle entre les interactions.
- Investissez dans des modules de mémoire efficaces : Delta-Mem permet une rétention dynamique de la mémoire avec une charge de calcul minimale, n’ajoutant que 0,12 % aux paramètres du modèle tout en étant plus performant que les systèmes plus lourds. Les dirigeants devraient envisager de telles innovations légères pour améliorer les performances et réduire les frais d’infrastructure.
- Adoptez l’apprentissage adaptatif pour plus de stabilité : La règle delta de Delta-Mem affine la mémoire en continu, en conservant un contexte précis et pertinent au fil du temps. Les organisations devraient intégrer des systèmes qui équilibrent la rétention à long terme et l’adaptation en temps réel pour maintenir la fiabilité.
- Faites confiance aux gains de performance garantis par les données : Les benchmarks montrent que Delta-Mem surpasse toutes les lignes de base testées, en doublant l’apprentissage pendant le temps de test et en maintenant la précision sans rejouer les invites. Les décideurs peuvent s’attendre à un meilleur raisonnement, à un traitement plus rapide et à un meilleur retour sur investissement en adoptant de telles architectures.
- Simplifiez le déploiement et réduisez les coûts d’exploitation : L’intégration ne nécessite que de petits adaptateurs modulaires et une formation minimale sur les données spécifiques au domaine. Les dirigeants devraient considérer cette intégration comme une amélioration à faible risque et à haute efficacité qui étend les capacités des modèles existants sans nécessiter de refonte majeure.
- Construisez des architectures de mémoire hybrides pour l’IA : Delta-Mem et RAG sont plus performants ensemble, l’un pour la continuité du comportement, l’autre pour le rappel précis des connaissances. Les dirigeants devraient mettre en œuvre des systèmes de mémoire en couches qui combinent vitesse dynamique et intégrité factuelle pour obtenir des performances d’IA évolutives et conformes.
Un projet en tête ?
Planifiez un appel de 30 minutes avec nous.
Des experts senior pour vous aider à avancer plus vite : produit, tech, cloud & IA.


