Les agents LLM sont moins performants dans la gestion de tâches complexes de CRM nécessitant plusieurs étapes

À l’heure actuelle, les grands modèles de langage, comme les systèmes basés sur GPT, peuvent gérer assez bien des tâches simples et clairement définies. Vous donnez au modèle une commande unique, il s’exécute et fait le travail la plupart du temps. En fait, l’étude interne de Salesforce, dirigée par le chercheur en IA Kung-Hsiang Huang, a révélé un taux de réussite de 58 % pour ces interactions en une seule étape. Elles ne sont donc pas parfaites, mais suffisantes dans des environnements peu complexes.

Maintenant, étendez cette tâche à plusieurs étapes, à un problème de client qui doit être clarifié, à des données supplémentaires et à des allers-retours. C’est là que le bât blesse. Les performances chutent à 35 % seulement pour les demandes à plusieurs étapes. Pourquoi ? Ces systèmes posent rarement les bonnes questions de suivi et ne savent pas s’il leur manque des informations essentielles. Ils ne tiennent pas compte du contexte lors de dialogues prolongés. Lorsque la tâche est ambiguë ou sous-spécifiée, ce qui est souvent le cas des tâches CRM complexes, les modèles se bloquent ou se trompent complètement.

Cela représente une réelle limitation pour l’utilisation en entreprise. De nombreuses demandes de service à la clientèle ne sont pas clairement définies au départ. Elles doivent être clarifiées par le dialogue, ce que les agents d’IA ne savent pas très bien faire aujourd’hui. Il ne s’agit pas seulement d’un problème technique. Pour les entreprises, cela signifie que confier l’expérience client à ces outils pourrait nuire à votre marque si les demandes ne sont pas traitées avec une compréhension élémentaire des nuances.

C’est un problème que nous allons résoudre au fil du temps. Les modèles s’amélioreront en matière d’interaction dynamique grâce à des mises à jour et à une meilleure formation. Mais pour l’instant, il n’est pas judicieux de confier à une IA non supervisée la communication complexe avec les clients, la gestion de la relation client à plusieurs tours.

Les cadres qui évaluent ces technologies doivent comprendre clairement les limites actuelles. Ces outils sont efficaces dans des environnements linéaires et peu contextuels. Mais pour l’instant, les scénarios évolutifs et à contexte élevé ont toujours besoin du jugement humain au centre. Jusqu’à ce que les agents d’IA puissent égaler les humains dans la création de sens, la gestion de la relation client à grande échelle restera un jeu hybride.

Les agents LLM font preuve d’une grande performance dans l’exécution de flux de travail bien définis et à tour unique.

Lorsque la tâche est simple, clairement définie et ne nécessite pas plus d’une étape, les grands modèles de langage fonctionnent bien. Dans le cadre de la même étude de Salesforce menée par Kung-Hsiang Huang, scientifique spécialisé dans l’IA, les agents d’IA les plus performants ont affiché un taux de réussite de 83 % pour les tâches de flux de travail à rotation unique. Ce taux est suffisamment élevé pour être réellement utile dans un environnement de production, en particulier pour les actions prévisibles et routinières.

Dans ces scénarios, le modèle n’a pas besoin de faire beaucoup d’interprétation. Il reçoit une instruction claire et fournit une réponse qui répond aux attentes. Il n’y a pas de confusion, il n’est pas nécessaire de demander des éclaircissements aux utilisateurs et il n’y a pas d’écart par rapport à l’objectif initial. C’est là que les agents LLM actuels donnent le meilleur d’eux-mêmes : une grande précision dans le cadre de commandes très précises.

Ce niveau de performance a une valeur évidente. Pour les chefs d’entreprise, cela signifie qu’il y a un retour sur investissement immédiat lorsque l’on place ces modèles dans des rôles où les limites des tâches sont claires et les résultats cohérents. Pensez-y : le déclenchement de rapports, la mise à jour d’un champ CRM, la programmation de suivis, des tâches où la rapidité et la répétabilité comptent plus que le raisonnement adaptatif.

Mais l’efficacité dépend entièrement de la réduction de l’ambiguïté dès le départ. Si les entrées ne correspondent pas à la structure attendue, même légèrement, la précision du modèle diminue. Les LLM ne comprennent pas vraiment le contexte ; ils correspondent à des modèles. Votre taux de réussite est donc étroitement lié au degré de prévisibilité de l’entrée de la tâche et à la manière dont les flux de travail sont conçus en fonction des capacités actuelles de l’IA.

Pour les dirigeants, il s’agit d’identifier les segments de votre flux de travail client qui sont propres et reproductibles. C’est là que l’automatisation avec les LLM peut être déployée en toute confiance aujourd’hui. Tout le reste, en particulier les tâches nécessitant un jugement, une inférence ou un changement induit par l’utilisateur, doit encore faire l’objet d’une surveillance humaine. Automatisez ce qui est étroit, pas ce qui est nuancé.

Les LLM n’ont pas un sens inhérent de la confidentialité, ce qui présente des risques importants pour la vie privée et la sécurité.

Soyons directs : les grands modèles linguistiques actuels ne comprennent pas la confidentialité. Ils peuvent traiter des données, mais ils ne savent pas ce qui doit rester confidentiel, sauf indication contraire. Il s’agit d’un point d’échec critique, en particulier dans les contextes commerciaux où les données des clients, les données financières ou les informations exclusives doivent être protégées par défaut, et non par exception.

L’étude de Salesforce, dirigée par Kung-Hsiang Huang, spécialiste de l’IA, l’a mis en évidence : Les agents LLM sont peu performants lorsqu’il s’agit de gérer des informations sensibles. Vous pouvez leur demander d’éviter de partager ou d’agir sur des données confidentielles par le biais d’invites spécifiques. Cela fonctionne sur de courtes périodes. Mais sur des conversations plus longues, ces instructions perdent de leur force et le modèle a tendance à oublier ce qu’on lui a dit. En d’autres termes, votre protection de la vie privée s’estompe au fur et à mesure que l’agent parle, et la gestion de la relation client implique presque toujours un dialogue permanent.

Le risque s’accroît lorsque vous travaillez avec des modèles à source ouverte. Ils ont souvent encore plus de mal à gérer des instructions complexes ou en couches, ce qui les rend moins aptes à préserver la confidentialité dans des scénarios nuancés. Ces outils ne disposent pas d’un cadre intégré pour identifier les informations confidentielles des clients ou les données commerciales internes, ce qui pose un sérieux problème.

Pour les dirigeants, il ne s’agit pas seulement d’un problème technologique. Il s’agit d’une responsabilité. En l’absence de protocoles de sécurité structurels, l’utilisation de LLM pour les flux de travail sensibles fait peser de réelles menaces : fuites de données, violations de la réglementation et atteinte à la marque. La plupart des organisations ne peuvent pas se permettre une telle bataille si quelque chose tourne mal à l’échelle.

Vous avez besoin de contrôles, de contrôles stricts. Si vous envisagez d’intégrer l’IA dans des environnements contenant des données sensibles sur des clients ou des organisations, mettez en place des mesures de protection. Et si ces mesures de protection n’ont pas fait leurs preuves sous la pression, attendez. Il ne s’agit pas d’être prudent, mais d’être rationnel. Sans sensibilisation native à la confidentialité, l’IA d’aujourd’hui n’est pas digne de confiance dans les environnements où les données sont sensibles.

Les LLM restent inadaptés aux applications de gestion de la relation client (CRM) à fort enjeu et à forte intensité de données.

La réalité est simple. Les grands modèles de langage ne sont pas encore prêts à jouer un rôle essentiel dans la gestion de la relation client. Ils manquent encore de capacités essentielles telles que le raisonnement stable sur de longues conversations, le maintien de la cohérence des instructions et la distinction fiable entre les données sensibles et les données publiques. C’est un problème si vous envisagez de déployer ces systèmes dans des points de contact avec la clientèle où la nuance et la protection des données sont importantes.

Les recherches menées par Salesforce, sous la direction de Kung-Hsiang Huang, l’ont clairement démontré. Lorsque vous essayez de combler ces lacunes par une l’ingénierie rapideen ajoutant des mesures de protection manuellement à l’aide d’instructions, les performances se dégradent. Non seulement les modèles deviennent moins efficaces dans l’accomplissement des tâches, mais ces messages de sécurité perdent également de leur efficacité au fil du temps dans le cadre d’interactions plus longues. Ce n’est pas extensible, et certainement pas fiable lorsque les enjeux sont importants.

Cela plaide fortement en faveur d’une résistance des dirigeants à une adoption trop rapide. Vous pouvez utiliser les LLM dès maintenant, mais ils doivent être placés dans des environnements bien contrôlés et bien définis. Les scénarios à fort enjeu impliquant des données clients, un risque juridique ou un impact sur la marque exigent une architecture de sécurité plus performante que celle que ces modèles prennent actuellement en charge.

Les capacités s’amélioreront. L’itération rapide dans le développement de l’IA est réelle, et les lacunes de raisonnement que nous observons actuellement se combleront avec le temps grâce à de meilleurs outils, des fenêtres contextuelles plus longues et des architectures de modèles mises à jour. Mais dès aujourd’hui, il est prématuré de confier à ces systèmes des rôles de gestion de flux de travail sensibles sans supervision approfondie.

La démarche intelligente pour les dirigeants est l’adoption stratégique, l’utilisation des LLM là où ils apportent déjà de la valeur, et l’abstention là où l’équation du risque ne permet pas d’atteindre les limites actuelles de la technologie. Laissez les normes de performance et de sécurité définir le calendrier de déploiement.

Principaux faits marquants

  • L’IA a du mal à gérer les tâches de gestion de la relation client en plusieurs étapes : Les agents LLM ne réussissent que 35 % du temps dans les actions complexes de gestion de la relation client en plusieurs étapes, en raison d’un raisonnement limité et d’une faible capacité de clarification. Les dirigeants devraient éviter de confier à l’IA des tâches non supervisées qui dépendent d’un dialogue dynamique ou d’une saisie incomplète de la part de l’utilisateur.
  • L’IA réussit dans des flux de travail simples et structurés : Avec un taux de réussite de 83 % dans les tâches à rotation unique, les LLM sont efficaces dans les flux de travail prévisibles. Les dirigeants devraient concentrer le déploiement de l’IA sur des fonctions CRM clairement définies et répétitives afin d’améliorer l’efficacité à court terme.
  • La confidentialité est un point faible des LLM actuels : La plupart des agents d’IA n’ont pas une conscience inhérente de ce qui est confidentiel, ce qui pose des risques en matière de confidentialité des données et de conformité. Les entreprises qui traitent des informations sensibles devraient retarder l’intégration de l’IA jusqu’à ce que des garanties plus solides et testées soient en place.
  • Les modèles actuelsne sont pasadaptés aux entreprises pour les tâches sensibles : Les solutions de sécurité basées sur des invites se dégradent avec le temps et nuisent à la précision, ce qui fait que les LLM ne sont pas fiables pour les CRM à fort enjeu. Les décideurs devraient adopter une stratégie de déploiement sélective, en utilisant l’IA uniquement dans des environnements à faible risque jusqu’à ce que le raisonnement et la sécurité s’améliorent.

Alexander Procter

juillet 31, 2025

10 Min