Les modèles d’IA à poids ouvert qui donnent de bons résultats lors de tests isolés s’effondrent en cas d’attaques adverses soutenues et multi-tours.
La façon dont la plupart des organisations évaluent aujourd’hui la sécurité de l’IA comporte un angle mort. évaluent la sécurité de l’IA aujourd’huiet c’est dangereux. Les modèles d’IA obtiennent souvent de bonnes notes lorsqu’ils sont testés avec des requêtes malveillantes ponctuelles. C’est logique. La plupart des tests de référence sont basés sur ces attaques à tour unique. Mais les adversaires du monde réel ne s’arrêtent pas après un seul essai. Ils continuent à pousser, à sonder, à s’adapter.
L’équipe de recherche sur les menaces liées à l’IA de Cisco l’a clairement démontré. En moyenne, les modèles à poids ouvert bloquent 87 % des attaques à tour unique. Mais lorsqu’un attaquant poursuit la conversation sur plusieurs tours, en reformulant, en intensifiant ou en recadrant le même objectif, ce taux de réussite s’effondre. Le taux de réussite moyen des attaques passe de 13 % à 64 %. Pour certains modèles, comme le Large-2 de Mistral, il atteint presque 93 %.
La sécurité de l’IA ne consiste pas à gérer la première mauvaise alerte. Il s’agit de gérer toutes celles qui suivront. La plupart des RSSI et des directeurs techniques n’en ont pas tenu compte. Ils testent encore des défaillances isolées au lieu de rechercher des faiblesses persistantes qui se développent phrase par phrase.
Les dirigeants doivent comprendre ceci : si vos systèmes d’IA ne réussissent que des évaluations à tour de rôle, ils vous donnent un faux sentiment de sécurité. Le véritable test est de savoir si ce système tient le coup dans une véritable conversation. Si ce n’est pas le cas, il ne survivra pas dans des environnements de production où les défaillances ont des conséquences sur la réputation et la réglementation. Le danger n’est pas seulement théorique. Il est mesurable.
Comme l’a déclaré DJ Sampath, vice-président du groupe de plateformes logicielles d’IA de Cisco, « lorsque vous passez d’un seul tour à plusieurs tours, ces modèles commencent soudain à afficher des vulnérabilités où les attaques réussissent, à près de 80 % dans certains cas ». Il ne s’agit pas d’un oubli mineur, mais d’une faille structurelle. Et c’est maintenant qu’il faut s’en préoccuper, pas après le déploiement.
Les stratégies d’attaque à plusieurs tours s’appuient sur la dynamique naturelle de la conversation pour contourner systématiquement les mécanismes de sécurité de l’IA.
Les attaquants n’utilisent pas de tours de magie. Ils se comportent simplement comme des humains. C’est là le problème fondamental. Ils divisent les demandes nuisibles en petits morceaux, étendent leurs objectifs sur de longues conversations ou reformulent les demandes rejetées jusqu’à ce que l’IA cède. Les méthodes d’attaque sont familières car elles sont basées sur la manière dont les gens communiquent, clarifient, établissent un rapport, reformulent, escaladent. Et pour l’instant, la plupart des modèles tombent dans le panneau.
Cisco a testé cinq méthodes d’attaque à plusieurs tours : décomposer le message en plusieurs parties (décomposition de l’information), être délibérément vague (ambiguïté contextuelle), escalader lentement vers des fins nuisibles (crescendo), se faire passer pour quelqu’un d’autre (jeu de rôle) et recadrer constamment jusqu’à ce que le succès soit au rendez-vous (recadrage du refus). Chacune de ces méthodes a fonctionné, de manière fiable. Face à un modèle comme le Mistral Large-2, ces approches ont obtenu des taux de réussite supérieurs à 89 %, certains atteignant même 95 %.
Il ne s’agit pas de complexité. Les attaques ne sont pas complexes. Les stratégies de défense sont faibles parce que les modèles actuels ne sont pas conçus pour maintenir le contexte dans le temps. Ils sont optimisés pour paraître intelligents un message à la fois, et non pour résister à une pression constante sur plusieurs échanges. C’est là le vrai problème.
Pour les chefs d’entreprise, voici ce qui compte : la menace n’est pas exotique. Elle est persistante. Et si vos outils d’IA peuvent être contournés par une personne se comportant naturellement pendant suffisamment longtemps, alors vos mesures de protection ne sont pas vraiment des mesures de protection. Ce ne sont que des retards temporaires.
Tout modèle déployé par votre équipe doit être évalué non seulement en fonction de son QI, mais aussi de son endurance. Peut-il maintenir sa position lorsqu’il est sondé à plusieurs reprises de manière légèrement différente ? Car c’est ainsi qu’opèrent les adversaires modernes. Tout déploiement sérieux doit intégrer la résilience à plusieurs tours dès le premier jour. Pas après avoir fait la une des journaux.
La disparité des lacunes de sécurité entre les modèles d’IA est étroitement liée aux philosophies de développement
La différence d’efficacité en matière de sécurité entre les modèles d’IA n’est pas le fruit du hasard, elle dépend de la personne qui les a conçus et des priorités qu’elle s’est fixées. Certaines entreprises investissent massivement dans les protocoles de sécurité au cours du développement. D’autres se concentrent sur les capacités brutes et la flexibilité, laissant au client le soin de régler les questions de sécurité après le déploiement.
Les recherches de Cisco mettent clairement en évidence cette tendance. Les modèles construits par les laboratoires qui mettent l’accent sur l’alignement et l’utilisation responsable, comme Gemma-3-1B-IT de Google, montrent des différences minimes entre les vulnérabilités à un seul tour et celles à plusieurs tours. Gemma n’affiche qu’un écart de 10,53 % entre ces profils de menace, ce qui correspond à ce que l’on peut attendre lorsque la sécurité est structurée et vérifiée au cours du développement.
D’autre part, les modèles « capability-first » présentent des baisses de sécurité spectaculaires. Le Llama 3.3-70B-Instruct de Meta avait un écart de 70,32 %. Le Qwen3-32B d’Alibaba est le plus élevé avec 73,48 %. Le Large-2 de Mistral, qui manque ouvertement de mécanismes de modération, affiche un écart de 70,81 %. Ce n’est pas une coïncidence. Ces modèles sont construits rapidement et optimisés pour la flexibilité, le réglage fin et la performance. La sécurité est laissée en option.
Du point de vue de la direction, il n’y a rien de mal à choisir un modèle à haute capacité. Mais vous devez y aller les yeux ouverts. Si vous choisissez ce type de modèle, vous assumez également la responsabilité de la couche de sécurité. Attendre que quelqu’un d’autre règle le problème, après le lancement ou après un incident, ne fonctionne pas. Ces lacunes sont des résultats de la conception. La seule question est de savoir si votre équipe dispose des ressources nécessaires et si elle est prête à les combler au moment de l’exécution.
Les modèles d’IA à poids ouvert conservent une valeur stratégique, mais nécessitent des mesures de sécurité supplémentaires
Les modèles d’IA à poids ouvert deviennent rapidement des technologies de base dans tous les secteurs. Ils sont personnalisables, rapides à déployer et évitent le verrouillage des fournisseurs. Il s’agit là de véritables avantages opérationnels, en particulier pour les entreprises qui évoluent rapidement dans des espaces concurrentiels. Leur ouverture est la raison pour laquelle l’adoption par les entreprises s’accélère.
Mais soyons honnêtes, l’ouverture crée aussi de l’exposition. Ce que vous gagnez en flexibilité, vous le perdez en protection. Cela ne signifie pas qu’ils ne valent pas la peine d’être utilisés. Cela signifie qu’il ne faut pas les déployer à l’aveuglette.
Cisco ne se contente pas de pointer du doigt. Elle a elle-même publié des modèles à poids ouvert, comme Foundation-Sec-8B, par l’intermédiaire de plates-formes telles que Hugging Face. DJ Sampath, SVP chez Cisco, a été clair : « L’open source a ses propres inconvénients. Lorsque vous commencez à utiliser un modèle à poids ouvert, vous devez réfléchir aux implications en termes de sécurité et vous assurer que vous placez constamment les bons types de garde-fous autour du modèle ».
Les dirigeants doivent considérer les modèles à pondération libre comme des outils puissants qui nécessitent une gestion consciente des risques. Ces outils vous permettront de commercialiser vos produits plus rapidement et de vous adapter. Mais comme ils n’intègrent pas de défenses robustes, votre équipe de sécurité doit compenser cela par des protections d’exécution, une surveillance en temps réel et des stratégies de déploiement renforcées.
Si votre équipe compte uniquement sur les filtres déjà intégrés dans ces modèles ouverts, vous avez des problèmes. La protection n’est pas intégrée. Cependant, s’ils sont conçus correctement, les modèles ouverts peuvent être déployés en toute sécurité. La clé est de s’approprier pleinement l’architecture de sécurité, dès le départ.
Un ensemble limité de catégories de sous-menaces est à l’origine de la majorité des vulnérabilités dans les modèles d’IA à poids ouvert.
Toutes les menaces ne sont pas égales. Dans l’étude de Cisco, 15 sous-catégories seulement étaient responsables de la plupart des attaques réussies sur l’ensemble des modèles testés. C’est ce qu’il faut faire. Si vous utilisez l’IA en production, voici les cibles prioritaires pour l’atténuation des risques.
Les principales vulnérabilités sont les opérations d’infrastructure malveillante (taux de réussite moyen de 38,8 %), le trafic d’or (33,8 %), les opérations d’attaque de réseau (32,5 %) et la fraude à l’investissement (31,2 %). Ces types de menaces n’étaient pas susceptibles au hasard, ils ont montré des résultats constamment élevés dans tous les domaines. Ils constituent donc un point de départ logique pour le réglage défensif, le filtrage préemptif et l’application des politiques.
Concrètement, cela signifie que les entreprises n’ont pas besoin de résoudre tous les cas d’utilisation abusive possibles dès le premier jour. Vous pouvez au contraire adopter une approche ciblée : identifiez les éléments sur lesquels le modèle est le plus susceptible d’échouer et déployez des mesures de protection ciblées dans ces domaines. Cela a un impact immédiat sur votre profil de risque sans exiger une couverture de sécurité complète dès le départ.
Pour les dirigeants, cela permet d’orienter la conversation. Il ne s’agit pas de grandes hypothèses. Il s’agit de points faibles connus. Classez-les par ordre de priorité et mettez la pression là où cela compte le plus. Des gains disproportionnés en matière de sécurité résultent d’efforts concentrés dans les zones à haut risque. C’est là que vous commencez à combler le fossé qui sépare la conformité aux normes de référence de la résilience de niveau de production.
Une sécurité robuste contre les attaques multitours exige une stratégie de défense à multiples facettes
La plupart des modèles d’IA disponibles sur le marché aujourd’hui n’ont pas été conçus pour se défendre lors d’interactions prolongées. Il ne s’agit pas d’un bogue, mais d’un compromis de développement. Cela signifie que la responsabilité de la sécurité vous incombe, à vous et à votre équipe. La bonne nouvelle : il existe un ensemble de tactiques claires que vous pouvez appliquer dès maintenant pour renforcer vos systèmes.
L’étude de Cisco met en évidence six défenses de haut niveau auxquelles il faut donner la priorité :
- Des garde-fous contextuels, afin que le modèle suive l’état et le sens de la conversation au fil des tours de parole.
- Protections d’exécution agnostiques, couches externes qui bloquent les contenus nuisibles quelle que soit l’architecture du modèle.
- Une équipe d’experts en continu, pour simuler le comportement d’un adversaire à plusieurs tours et découvrir les vraies faiblesses avant les attaquants.
- Les messages-guides du système ont été renforcés afin de résister à l’écrasement des instructions lors de sessions plus longues.
- Enregistrement judiciaire complet, pour un suivi et un audit complets des incidents.
- Des mesures d’atténuation spécifiques aux menaces, ciblant les sous-catégories les plus vulnérables, telles qu’elles ressortent des données récentes.
Il ne s’agit pas de cases à cocher facultatives. Il s’agit de composants fondamentaux pour tout système d’IA de production fonctionnant à grande échelle. Et ils doivent fonctionner de concert, non pas comme des compléments isolés, mais dans le cadre d’une posture intégrée.
Les dirigeants doivent cesser de considérer la sécurité de l’IA comme une réflexion après coup ou une responsabilité secondaire. Si vous voulez déployer l’IA à grande échelle dans votre organisation, pour stimuler la productivité, améliorer les opérations, réduire la latence, vous devez sécuriser cette utilisation de l’intérieur. DJ Sampath l’a dit clairement : « Si nous avons la capacité de voir les attaques par injection rapide et de les bloquer, je peux alors débloquer et libérer l’adoption de l’IA d’une manière fondamentalement différente. »
La sécurité n’est pas un goulot d’étranglement. C’est elle qui rend possible l’adoption à grande échelle.
Les entreprises doivent passer de mesures réactives à des stratégies de défense proactives et en temps réel pour protéger les déploiements d’IA.
De nombreuses organisations sont encore dans l’expectative en ce qui concerne l’IA. C’est une erreur. Le paysage des menaces ne ralentit pas, il évolue toutes les quelques semaines. Si vous attendez qu’il y ait une « version finale » de l’IA ou une norme de référence à laquelle vous pouvez vous comparer, vous vous méprenez sur le rythme et la nature de cet espace.
Les techniques adverses ne sont pas statiques. Les attaquants s’adaptent rapidement, et les modèles qui semblent sûrs selon les critères actuels peuvent être exposés du jour au lendemain. Les recherches de Cisco ont montré à quelle vitesse des modèles précédemment inconnus, comme la persistance multi-tours, peuvent submerger les protections des modèles. Si la stratégie d’IA de votre entreprise n’inclut pas l’adaptation en temps réel et les tests continus, vous n’êtes pas prêt.
L’attente est une source d’exposition. Chaque conversation non surveillée, chaque charge de travail non testée, est un point de risque. Vous avez besoin d’une validation de sécurité continue, et non d’une certification unique. Vous avez besoin d’équipes qui simulent des attaques persistantes en interne avant de les utiliser dans la nature. Partir du principe que votre IA échouera sous la pression, jusqu’à preuve du contraire, est le bon état d’esprit.
DJ Sampath, SVP chez Cisco, l’a dit clairement : « Beaucoup de gens attendent que l’IA se stabilise. Ce n’est pas la bonne façon de voir les choses. Toutes les deux semaines, il se produit un événement spectaculaire qui remet les pendules à l’heure. Choisissez un partenaire et commencez à mettre les bouchées doubles ».
Si vous voulez faire évoluer l’IA dans votre entreprise, à travers les opérations, l’expérience client ou la productivité interne, elle doit être sécurisée au niveau du système. Cet effort ne peut pas être reporté. Plus un modèle d’IA fonctionne longtemps en production sans défenses complètes, plus la surface d’apprentissage des adversaires est grande. Les entreprises qui retardent la sécurité donnent aux attaquants une longueur d’avance.
C’est maintenant qu’il faut agir. Pas quand le modèle sera parfait. Pas lorsqu’un consensus se dégage. C’est maintenant, pendant que vous contrôlez encore le rythme.
Récapitulation
Si vous êtes chargé de déployer l’IA au sein de votre entreprise, sachez que vos modèles sont plus vulnérables qu’il n’y paraît. Les résultats obtenus à l’aide d’un seul message semblent clairs sur le papier, mais les attaquants n’opèrent pas de manière isolée. Ils persistent, s’intensifient et s’adaptent. Vos défenses doivent faire de même.
Le véritable fossé n’est pas seulement technique. Il est stratégique. La plupart des benchmarks vous indiquent si un modèle fonctionne une fois, mais pas s’il tient la route sur la durée. Il s’agit là d’une grave lacune, en particulier pour les entreprises qui développent l’IA au sein d’équipes, de clients et de systèmes.
La sécurité n’est pas un obstacle. C’est un facilitateur. Sans garde-fous protégeant l’ensemble des conversations, vous exploitez des systèmes instables à l’échelle de la production. C’est un mauvais compromis, tant pour la sécurité que pour la continuité de l’activité. Mais la bonne nouvelle, c’est que vous n’êtes pas bloqué. Les correctifs sont connus, les modèles sont clairs et les outils pour renforcer votre pile sont déjà sur le marché.
Une adoption forte commence par une défense forte. Construisez pour la persistance, pas seulement pour la performance. Et arrêtez de croire que vos repères signifient que vous êtes protégé. En réalité, une invite bloquée n’a pas d’importance si dix autres passent.


