Les grands modèles de langage (LLM) transforment les capacités de l’IA en matière de traitement du langage
L’un des développements les plus avancés de la technologie moderne est la montée en puissance des grands modèles de langage, ou LLM, tels que GPT et BERT. Cela signifie qu’ils peuvent générer des réponses, traduire des langues, résumer des documents complexes et répondre à des questions nuancées. Ils apprennent des modèles et s’adaptent sur la base de milliards d’exemples du monde réel.
Ce bond en avant s’explique par l’accès à d’énormes ensembles de données et par une augmentation considérable de la puissance de traitement. Les unités de traitement graphique (GPU) et les microprocesseurs spécialisés comme les TPU ont accéléré la vitesse à laquelle nous pouvons entraîner et mettre à l’échelle ces modèles. En conséquence, nous pouvons construire des systèmes qui comprennent le langage humain et qui continuent à s’améliorer au fil du temps, à mesure qu’ils sont exposés à davantage de données. Ces performances se traduisent par des applications commerciales tangibles dans tous les secteurs, notamment l’assistance à la clientèle, la création de contenu, la recherche juridique et la génération de code.
Il convient de noter que ce changement ne s’est pas produit du jour au lendemain. Des années de recherche fondamentale ont convergé vers une infrastructure prête à être commercialisée et des outils de développement faciles à utiliser. Ce qui se trouvait auparavant derrière des documents de recherche trouve aujourd’hui sa place dans les systèmes d’entreprise, aidant les sociétés à automatiser intelligemment, à augmenter leur productivité et à prendre de meilleures décisions, sans qu’il soit nécessaire d’avoir un expert en langues au sein de chaque équipe.
L’obscurcissement des logiciels malveillants modernes nécessite des techniques de désobfuscation avancées.
Les logiciels malveillants d’aujourd’hui s’adaptent, se superposent et sont délibérément difficiles à repérer. L’obscurcissement est devenu une stratégie par défaut pour les attaquants. Le code est emballé, les variables sont remplacées par des étiquettes aléatoires, du code mort est injecté pour dérouter les analystes et des algorithmes de génération de domaines sont utilisés pour dissimuler les connexions avec des serveurs de contrôle à distance. Ces attaquants itèrent, faisant évoluer leurs méthodes de manière cohérente et délibérée.
Cette sophistication bouleverse les modèles de sécurité traditionnels. Les méthodes de détection statiques qui fonctionnaient autrefois, telles que les systèmes basés sur les signatures ou les moteurs de règles prédéfinis, sont aujourd’hui rapidement dépassées lorsqu’elles sont confrontées à de petites modifications de la base de code du logiciel malveillant. Les définitions de règles telles que Yara, ou les outils tels que CyberChef qui s’appuient sur des modèles prévisibles, s’effondrent dès que le code est modifié, même légèrement. Ce qui était détectable la semaine dernière devient invisible aujourd’hui.
La rétro-ingénierie de ce type de logiciel malveillant n’est pas une mince affaire. Les analystes doivent généralement convertir le code machine en quelque chose de lisible, ne serait-ce que pour commencer leur enquête. Souvent, ils doivent creuser à travers des couches de bruit pour trouver seulement quelques lignes d’instructions malveillantes. Même lorsque des outils comme IDA Pro ou Ghidra sont utiles, ils reposent encore trop sur l’analyse manuelle. Et juste au moment où des modèles sont identifiés, les auteurs de logiciels malveillants lancent une nouvelle version, contournant à nouveau les règles et les filtres.
Pour les dirigeants responsables des risques, cela devrait souligner un fait simple : les défenses statiques ne suffisent pas lorsque les logiciels malveillants sont conçus pour éviter précisément ces défenses. L’itération rapide des attaquants signifie que votre équipe de sécurité doit disposer d’outils qui s’adaptent tout aussi rapidement. Investir dans des capacités qui évoluent en temps réel, en particulier celles qui sont alimentées par l’IA ou l’apprentissage automatique, est le seul moyen de rester dans la course.
Les campagnes de logiciels malveillants utilisent désormais régulièrement des algorithmes de génération de domaines pour dissimuler l’infrastructure C2, tandis que les modèles de détection statiques tels que Yara et les scripts automatisés de CyberChef sont facilement contournés. Ces tactiques sont claires : les attaquants comprennent les lacunes des outils défensifs actuels et les optimisent. Les organisations ne peuvent pas se permettre de réagir, elles doivent anticiper et évoluer.
Les LLM offrent une solution prometteuse pour l’automatisation de la désobfuscation des logiciels malveillants.
Les grands modèles de langage sont conçus pour traiter et comprendre des modèles complexes de langage et de code. Cela ne se limite pas au langage humain, mais inclut les langages de programmation, les environnements de script et la logique obscurcie. Cela en fait un candidat logique pour la désobfuscation des logiciels malveillants, où les outils traditionnels ont du mal à s’adapter aux changements de structure, de dénomination ou de syntaxe.
Les LLM ne se contentent pas de lire du code. Ils l’interprètent. Lorsqu’ils reçoivent un script obscurci ou rempli de variables trompeuses, de code mort ou de bruit, ils peuvent isoler la logique réelle, identifier les parties suspectes et rendre ce code à nouveau compréhensible. Ils ne s’appuient pas sur des règles fixes ou une cartographie statique comme les désobfuscateurs traditionnels. Au contraire, ils apprennent à partir d’exemples et appliquent le contexte. Ils s’adaptent, même lorsque le format du logiciel malveillant change.
Cela permet aux analystes d’identifier plus rapidement les principaux indicateurs de menace, tels que les adresses de commande et de contrôle (C2), le comportement des chargeurs ou la mise en place de charges utiles basées sur des scripts. L’extraction d’indicateurs de compromission (IOC) dépend moins d’une analyse manuelle approfondie ou d’outils spécialisés nécessitant des mises à jour constantes des règles. Les LLM aident à combler le fossé entre la détection et l’action, ce qui permet d’étendre la veille sur les menaces à un plus grand nombre de vecteurs d’attaque et de variantes.
Pour les responsables de la sécurité, les LLM réduisent le temps de visibilité, mettent en évidence les menaces cachées et ajoutent un niveau d’adaptabilité que les systèmes basés sur des règles n’offrent tout simplement pas. Et comme ils s’intègrent à des plateformes comme Ida et Ghidra, ils s’intègrent aux flux de travail existants de rétro-ingénierie sans obliger les équipes à reconstruire leur outillage.
Validation empirique des LLM dans la désobfuscation de logiciels malveillants réels
Les forces théoriques sont importantes, mais ce qui compte le plus, c’est la performance dans le monde réel. C’est exactement ce que l’étude récente sur les LLM et la désobfuscation des logiciels malveillants a cherché à tester, à savoir comment ces modèles se comportent lorsqu’ils sont exposés à un code malveillant réel. L’approche s’est concentrée sur les scripts PowerShell, qui sont courts, faciles à gérer et courants dans les charges utiles des logiciels malveillants, ce qui les rend compatibles avec les contraintes et les capacités d’entrée des LLM.
L’ensemble de données est centré sur Emotet, une souche de logiciels malveillants précédemment identifiée par Europol comme « le logiciel malveillant le plus dangereux ». Elle est connue pour son utilisation de l’obscurcissement, du polymorphisme et de l’enchaînement rapide de composants. L’utilisation des scripts PowerShell d’Emotet comme scénario de test a permis de créer un environnement authentique et à fort enjeu pour évaluer les performances du modèle. L’étude a analysé la capacité des LLM à analyser, nettoyer et résumer ces scripts afin d’en extraire des informations exploitables sur les menaces.
Les résultats ont été solides, même sans ajustement spécifique à la tâche. Les LLM ont réussi à désobfusquer des scripts complexes et à extraire des indicateurs critiques, ce qui suggère une forte généralisation à partir de la formation préalable. Cela signifie qu’ils peuvent être déployés avec un minimum de frais généraux dans des environnements de menace réels et qu’ils continuent à apporter de la valeur. Cela réduit la dépendance à l’égard d’un remaniement constant des règles ou d’outils étroits qui s’arrêtent dès que les attaquants itèrent.
Pour la stratégie de sécurité, il s’agit d’un changement. Il s’agit d’automatiser des flux de travail qui nécessitaient auparavant l’intervention d’analystes spécialisés. Lorsque les LLM sont intégrés dans le pipeline d’analyse des menaces, ils agissent comme des multiplicateurs de force : ils accélèrent les enquêtes, réduisent la fatigue des analystes et augmentent la fidélité de la détection. Ils aident les équipes à aller plus vite sans compromettre les détails ou la précision.
Principaux faits marquants
- Les LLM redéfinissent la compréhension du langage et du code : Les grands modèles de langage tels que GPT et BERT sont allés au-delà du NLP de base pour traiter des codes et des logiques complexes, permettant une automatisation pratique et évolutive dans des domaines tels que la traduction, l’interaction avec les clients et, désormais, l’analyse des menaces.
- Les logiciels malveillants modernes surpassent les outils de sécurité statiques : Les auteurs de logiciels malveillants développent rapidement des tactiques d’obscurcissement telles que la randomisation des variables et la génération de domaines, rendant obsolètes les méthodes de détection basées sur des règles. Les dirigeants doivent investir dans la détection des menaces adaptable et pilotée par l’IA pour garder une longueur d’avance.
- Les LLM débloquent une désobfuscation évolutive et automatisée des logiciels malveillants : Contrairement aux outils statiques, les LLM peuvent interpréter des scripts obfusqués et extraire des identifiants de menaces à partir de charges utiles indéchiffrables. Les équipes de sécurité devraient intégrer les LLM pour réduire les tâches manuelles et accélérer les enquêtes.
- Les tests en conditions réelles prouvent que les LLM sont prêts à affronter les menaces : Les LLM ont été efficaces contre les données du logiciel malveillant Emotet sans formation personnalisée, démontrant ainsi leur valeur immédiate dans une application réelle. Les dirigeants devraient envisager l’intégration des LLM pour renforcer les pipelines de renseignements sur les cybermenaces à grande échelle.