Grâce à la technologie, nos vies sont souvent plus pratiques et plus sûres. Dans le même temps, toutefois, ces avancées ont permis aux cybercriminels de trouver des moyens plus sophistiqués de nous attaquer et de corrompre nos systèmes de sécurité, ce qui les rend impuissants.


L’intelligence artificielle (IA) peut être utilisée aussi bien par les professionnels de la cybersécurité que par les cybercriminels ; de même, les systèmes d’apprentissage automatique peuvent être utilisés à la fois pour le bien et pour le mal. Cette absence de boussole morale a fait des attaques adverses dans le domaine de l’intelligence artificielle un défi de plus en plus important. Qu’entend-on par « attaques adverses » ? Quel est leur objectif ? Et comment s’en protéger ?

Que sont les attaques adverses dans l’apprentissage automatique ?

La vraie autruche regarde la fausse de l'autre côté de la clôture.

Les attaques adverses sont des cyberattaques qui visent à tromper un modèle d’apprentissage automatique avec des données malveillantes, ce qui entraîne une baisse de la précision et des performances. Ainsi, malgré son nom, l’apprentissage automatique accusatoire n’est pas un type d’apprentissage automatique mais une variété de techniques que les cybercriminels – ou adversaires – utilisent pour cibler les systèmes d’apprentissage automatique.

L’objectif principal de ces attaques est généralement d’inciter le modèle à divulguer des informations sensibles, à ne pas détecter des activités frauduleuses, à produire des prédictions incorrectes ou à corrompre des rapports d’analyse. Bien qu’il existe plusieurs types d’attaques adverses, elles ciblent fréquemment la détection de spam basée sur l’apprentissage profond.

Vous avez probablement entendu parler d’une attaque de type « adversaire au milieu », qui est une nouvelle technique d’hameçonnage sophistiquée et plus efficace qui implique le vol d’informations privées, de cookies de session et même le contournement des méthodes d’authentification multifactorielle (MFA). Heureusement, vous pouvez lutter contre ces attaques grâce à une technologie d’authentification multifactorielle résistante à l’hameçonnage.

Types d’attaques adverses

Découpage en carton d'une femme regardant par la fenêtre.

La manière la plus simple de classer les types d’attaques adverses est de les diviser en deux catégories principales : les attaques de type « pirate » et les attaques de type « pirate ».les attaques ciblées et attaques non ciblées. Comme on le suggère, les attaques ciblées ont une cible spécifique (comme une personne en particulier) alors que les attaques non ciblées n’ont personne en tête : elles peuvent viser presque n’importe qui. Il n’est pas surprenant que les attaques non ciblées prennent moins de temps, mais qu’elles soient également moins fructueuses que leurs homologues ciblées.

Ces deux types d’attaques peuvent être subdivisés en boîte blanche et boîte noire les attaques adverses, où la couleur suggère la connaissance ou le manque de connaissance du modèle ML ciblé. Avant de nous pencher plus avant sur les attaques de type boîte blanche et boîte noire, jetons un coup d’œil rapide aux types d’attaques adverses les plus courants.

  • Évasion: Principalement utilisées dans les scénarios de logiciels malveillants, les attaques par évasion tentent d’échapper à la détection en dissimulant le contenu des courriels infestés de logiciels malveillants et des courriels de spam. En utilisant la méthode essai-erreur, l’attaquant manipule les données au moment du déploiement et corrompt la confidentialité d’un modèle ML. L’usurpation de données biométriques est l’un des exemples les plus courants d’attaque par évasion.
  • Empoisonnement des données: Également connues sous le nom d’attaques par contamination, ces attaques visent à manipuler un modèle de ML pendant la période de formation ou de déploiement, et à diminuer la précision et les performances. En introduisant des données malveillantes, les attaquants perturbent le modèle et empêchent les professionnels de la sécurité de détecter le type d’échantillon de données qui corrompt le modèle ML.
  • Défauts byzantins: Ce type d’attaque entraîne la perte d’un service système en raison d’une faute byzantine dans les systèmes qui nécessitent un consensus entre tous les nœuds. Une fois que l’un des nœuds de confiance devient un voyou, il peut lancer une attaque par déni de service et arrêter le système en empêchant les autres nœuds de communiquer.
  • Extraction de modèles: Dans une attaque par extraction, l’adversaire sonde un système de ML en boîte noire pour en extraire les données d’entraînement ou, dans le pire des cas, le modèle lui-même. Ensuite, avec une copie d’un modèle de ML entre les mains, un adversaire pourrait tester son logiciel malveillant contre l’antimalware/antivirus et trouver comment le contourner.
  • Attaques par inférence: Comme pour les attaques par extraction, l’objectif est ici de faire fuir des informations sur les données d’entraînement d’un modèle de ML. Cependant, l’adversaire essaiera ensuite de découvrir quel ensemble de données a été utilisé pour former le système, afin d’en exploiter les vulnérabilités ou les biais.

Attaques adverses boîte blanche/boîte noire/boîte grise

Ce qui différencie ces trois types d’attaques adverses, c’est la quantité de connaissances que les adversaires possèdent sur le fonctionnement interne des systèmes de ML qu’ils prévoient d’attaquer. Alors que la méthode de la boîte blanche nécessite des informations exhaustives sur le modèle de ML ciblé (y compris son architecture et ses paramètres), la méthode de la boîte noire ne nécessite aucune information et ne peut qu’observer ses sorties.

Le modèle boîte grise, quant à lui, se situe au milieu de ces deux extrêmes. Selon ce modèle, les adversaires peuvent disposer de certaines informations sur l’ensemble des données ou d’autres détails sur le modèle de ML, mais pas de toutes.

Comment défendre l’apprentissage automatique contre les attaques adverses ?

Une bande de casse-noix à l'air furieux, armés d'épées.

Si l’homme reste l’élément essentiel du renforcement de la cybersécurité, L’IA et le ML ont appris à détecter et à prévenir les attaques malveillantes. améliorer la précision de la détection des menaces malveillantes, surveiller l’activité des utilisateurs, identifier les contenus suspects, et bien plus encore. Mais peuvent-elles repousser les attaques adverses et protéger les modèles de ML ?

L’un des moyens de lutter contre les cyberattaques consiste à entraîner les systèmes de ML à reconnaître les attaques adverses à l’avance en ajoutant des exemples à leur procédure d’entraînement.

Contrairement à cette approche de force brute, la méthode de distillation défensive propose d’utiliser le modèle primaire, plus efficace, pour déterminer les caractéristiques critiques d’un modèle secondaire, moins efficace, puis d’améliorer la précision du modèle secondaire à l’aide du modèle primaire. Les modèles ML formés avec la distillation défensive sont moins sensibles aux échantillons adverses, ce qui les rend moins susceptibles d’être exploités.

Nous pourrions également modifier constamment les algorithmes que les modèles ML utilisent pour la classification des données, ce qui pourrait rendre les attaques adverses moins fructueuses.

Une autre technique notable est la compression des caractéristiques, qui réduira l’espace de recherche disponible pour les adversaires en « éliminant » les caractéristiques d’entrée inutiles. L’objectif est ici de minimiser les faux positifs et de rendre plus efficace la détection des exemples d’attaques.

Protéger l’apprentissage automatique et l’intelligence artificielle

Les attaques adverses nous ont montré que de nombreux modèles d’apprentissage automatique peuvent être détruits de manière surprenante. Après tout, l’apprentissage automatique par les adversaires est encore un nouveau domaine de recherche dans le domaine de la cybersécurité, et il s’accompagne de nombreux problèmes complexes pour l’IA et l’intelligence artificielle.

Bien qu’il n’existe pas de solution magique pour protéger ces modèles contre toutes les attaques adverses, l’avenir apportera probablement des techniques plus avancées et des stratégies plus intelligentes pour s’attaquer à ce terrible adversaire.