Microsoft annonce PyRIT pour une défense proactive de l'IA générative

Microsoft a lancé PyRIT, un cadre d’automatisation ouvert dédié à l’identification des risques dans les systèmes d’IA générative. PyRIT, abréviation de Python Risk Identification Toolkit, pour des mesures de sécurité proactives pour l’IA.

Son développement découle de la complexité croissante et de l’adoption à grande échelle des technologies d’IA générative, qui nécessitent des outils sophistiqués pour l’évaluation des risques. PyRIT vise à doter les professionnels de la sécurité et les ingénieurs en apprentissage automatique d’une solide boîte à outils pour détecter et atténuer les menaces potentielles dans les systèmes d’IA, en veillant à ce que ces technologies restent sûres et dignes de confiance.

Reconnaissant les défis posés par les systèmes d’IA avancés, Microsoft a appelé à un front uni, dans lequel les organisations, les experts en sécurité et les développeurs d’IA travaillent en tandem pour sécuriser l’IA contre les menaces potentielles – sur la base de la conviction qu’un environnement collaboratif favorise l’innovation, le partage des meilleures pratiques et le développement de mesures de sécurité plus robustes.

La complexité du Red Teaming de l’IA

Microsoft s’engage avec un groupe diversifié d’experts dans les domaines de la sécurité, de l’apprentissage automatique antagoniste et de l’IA responsable, impliquant une collaboration entre des spécialistes de différentes divisions de Microsoft, telles que le Fairness center de Microsoft Research, AETHER (AI Ethics and Effects in Engineering and Research), et le Bureau de l’IA responsable.

Cette équipe interdisciplinaire se concentre sur un cadre stratégique permettant de cartographier, de mesurer et d’atténuer efficacement les risques liés à l’IA. Leur approche méthodique garantit un examen approfondi des systèmes d’intelligence artificielle afin d’identifier et de corriger les vulnérabilités potentielles avant leur déploiement.

Défis uniques de l’IA générative Red Teaming

Les systèmes d’IA générative Red Teaming de Microsoft sont confrontés à des défis qui ne se posent pas dans le cadre d’un red teaming traditionnel de logiciels ou de systèmes d’IA classiques. Trois différences principales mettent en évidence ces défis :

Une double approche de la sécurité et des risques liés à l’intelligence artificielle : Contrairement au red teaming traditionnel, qui cible principalement les défaillances de sécurité, le red teaming de l’IA générative englobe à la fois les risques liés à la sécurité et les risques liés à l’IA responsable. Ces risques peuvent aller de la production d’un contenu partial à la production d’informations non fondées ou inexactes. Par conséquent, les « red teamers » doivent gérer ce risque plus large, en évaluant simultanément les vulnérabilités potentielles dans les dimensions de sécurité et d’éthique de l’IA.
Nature probabiliste de l’IA générative : Les systèmes d’IA générative sont intrinsèquement imprévisibles, contrairement aux systèmes traditionnels où des données d’entrée similaires produisent généralement des données de sortie cohérentes. La nature probabiliste de l’IA générative signifie que des entrées identiques peuvent conduire à des sorties variées, influencées par des facteurs tels que les mécanismes internes du modèle d’IA, la logique propre à l’application et la couche d’orchestration contrôlant la génération des sorties. Cette variabilité nécessite des stratégies qui tiennent compte du comportement non déterministe des systèmes d’intelligence artificielle.
Diverses architectures de systèmes : Les architectures des systèmes d’IA générative varient considérablement, qu’il s’agisse d’applications autonomes ou d’intégrations dans des logiciels existants, ou encore de différentes modalités d’entrée/sortie comme le texte, l’audio, les images et la vidéo. Cette diversité architecturale signifie que les équipes « rouges » doivent sonder et découvrir les vulnérabilités dans un large éventail de configurations de systèmes et de scénarios d’utilisation.

Les défis de l’équipe rouge manuelle

L’un des principaux problèmes du red teaming manuel est qu’il prend beaucoup de temps. Les professionnels de la sécurité doivent concevoir, exécuter et analyser chaque test individuellement, un processus qui devient extrêmement lent lorsqu’il s’agit de couvrir l’ensemble des vulnérabilités potentielles des systèmes d’IA complexes.

Une autre limite majeure est le risque d’erreur humaine et de partialité. Même les professionnels les plus expérimentés peuvent négliger ou mal interpréter des risques subtils, ce qui conduit à des évaluations incomplètes. La diversité et la complexité des systèmes d’IA générative nécessitent l’apport d’un large éventail de compétences, ce qui fait qu’il est difficile pour une seule personne ou une petite équipe d’évaluer de manière exhaustive tous les aspects de la sécurité du système.

Pour ajouter à la complexité, la nature itérative de l’équipe rouge manuelle signifie que chaque cycle de test et d’analyse peut prendre un temps considérable, ce qui retarde la manière dont les vulnérabilités critiques sont identifiées et atténuées. Les systèmes d’IA générative évoluant rapidement, ce retard peut les exposer à des menaces émergentes.

L’importance de l’automatisation dans le Red Teaming

Des outils comme PyRIT permettent aux professionnels de la sécurité d’automatiser des tâches de routine, telles que la génération et le test de nombreux vecteurs d’attaque, qu’il serait impossible d’effectuer manuellement. L’automatisation permet de s’assurer qu’une exploration plus systématique et exhaustive des vulnérabilités potentielles est effectuée, réduisant ainsi le risque d’oubli.

Par exemple, PyRIT peut générer automatiquement des milliers de messages malveillants et évaluer les réponses d’un système d’intelligence artificielle en une fraction du temps qu’il faudrait à une équipe humaine, ce qui représente un gain d’efficacité considérable. Lors d’un exercice, PyRIT a permis à l’équipe rouge d’évaluer rapidement un système Copilot, en générant et en évaluant plusieurs milliers de messages en l’espace de quelques heures – une tâche qui aurait traditionnellement pris des semaines.

Le passage de Counterfit à PyRIT a constitué une évolution stratégique dans l’approche de Microsoft en matière d’équipe rouge, reconnaissant les défis uniques posés par l’IA générative. Alors que Counterfit était efficace pour les systèmes classiques d’apprentissage automatique, PyRIT est spécifiquement conçu pour répondre à la nature probabiliste et aux architectures variées de l’IA générative, offrant des stratégies de test plus nuancées et adaptables.

L’automatisation complète l’expertise humaine en mettant en évidence les zones de risque potentiel, ce qui permet aux professionnels de la sécurité de concentrer leur attention sur les problèmes les plus critiques. Bien qu’elle ne remplace pas encore de manière totalement autonome le jugement nuancé des professionnels expérimentés, l’automatisation s’appuie sur leur capacité à identifier et à traiter les vulnérabilités plus rapidement et avec plus de précision.

Plongée dans PyRIT

L’aventure de Microsoft avec PyRIT a commencé en 2022, sous la forme d’une série de scripts ponctuels pour les systèmes d’IA générative de l’équipe rouge. Au fil du temps, alors que l’équipe rencontrait une variété de systèmes d’IA générative et identifiait une série de risques, PyRIT a évolué, intégrant de nouvelles fonctionnalités qui ont amélioré son utilité.

Par exemple, lors d’un récent exercice impliquant un système Copilot, l’équipe a utilisé PyRIT pour catégoriser un préjudice, générer plusieurs milliers d’invites malveillantes et évaluer les résultats du système en quelques heures – un processus qui aurait traditionnellement pris des semaines.

Fonctionnalités de PyRIT

La conception de PyRIT permet aux professionnels de la sécurité d’automatiser les tâches de routine et de se concentrer sur les domaines plus critiques nécessitant une analyse approfondie. PyRIT aide à la génération et à la notation des invites et adapte sa stratégie en fonction des réponses du système d’IA pour un processus de red teaming plus dynamique.

Composants PyRIT

Cibles: PyRIT s’adapte à un large éventail de systèmes d’IA générative, qu’ils soient intégrés dans des applications ou fournis en tant que services web – supportant facilement les entrées textuelles et offrant des extensions pour d’autres modalités pour un red teaming plus complet à travers différentes interfaces d’IA.
Ensembles de données: Au cœur des capacités de sondage de PyRIT se trouvent les ensembles de données qui définissent les aspects que le système doit tester. Il peut s’agir de séries statiques d’invites ou de modèles dynamiques, ce qui permet d’effectuer un large éventail d’évaluations des risques dans le cadre de diverses fonctionnalités de l’IA.
Moteur de notation: PyRIT utilise un moteur de notation polyvalent pour évaluer les réponses du système d’IA, en utilisant un classificateur traditionnel d’apprentissage automatique ou un point final LLM, afin de fournir une flexibilité dans la façon dont les équipes évaluent les résultats de l’IA et exploitent ces évaluations pour des sondages ultérieurs.
Stratégie d’attaque: La boîte à outils permet aux professionnels de la sécurité de simuler des interactions adverses réalistes avec le système d’IA à l’aide de stratégies à un ou plusieurs tours. Cette flexibilité permet une évaluation plus nuancée de la manière dont les systèmes d’intelligence artificielle pourraient réagir à une série de facteurs adverses.
Mémoire: Une caractéristique essentielle de PyRIT est son composant mémoire, qui enregistre les interactions pendant le processus de red teaming – facilitant une analyse plus approfondie après l’exercice et enrichissant la capacité de la boîte à outils à mener des conversations étendues et nuancées avec le système d’IA cible.