La popularité des grands modèles de langage (LLM) monte en flèche, et de nouveaux modèles font continuellement leur apparition. Ces modèles, comme ChatGPT, sont généralement formés à partir de diverses sources Internet, notamment des articles, des sites Web, des livres et des médias sociaux.
Dans une démarche sans précédent, une équipe de chercheurs sud-coréens a développé DarkBERT, un LLM formé sur des ensembles de données provenant exclusivement du dark web. Leur objectif était de créer un outil d’IA qui surpasse les modèles de langage existants et aide les chercheurs en menaces, les forces de l’ordre et les professionnels de la cybersécurité à lutter contre les cybermenaces.
Qu’est-ce que DarkBERT ?
DarkBERT est un modèle de codeur à transformateur basé sur l’architecture RoBERTa. Le LLM a été entraîné sur des millions de pages Web sombres, y compris des données provenant de forums de piratage, de sites Web d’escroquerie et d’autres sources en ligne associées à des activités illégales.
Le terme « dark web » fait référence à une section cachée de l’internet inaccessible via les navigateurs web standard. Cette sous-section est réputée pour abriter des sites web anonymes et des places de marché tristement célèbres pour leurs activités illégales, telles que le commerce de données volées, de drogues et d’armes.
Pour entraîner DarkBERT, les chercheurs ont accédé au dark web via le réseau Tor et ont collecté des données brutes. Ils ont soigneusement filtré ces données en utilisant des techniques telles que la déduplication, l’équilibrage des catégories et le prétraitement pour créer une base de données raffinée du dark web, qui a ensuite été transmise à RoBERTa pendant environ 15 jours pour créer DarkBERT.
Utilisations possibles de DarkBERT dans le domaine de la cybersécurité
DarkBERT a une compréhension remarquable du langage des cybercriminels et excelle à repérer des menaces potentielles spécifiques. Il peut effectuer des recherches sur le dark web et identifier et signaler avec succès les menaces de cybersécurité telles que les fuites de données et les ransomwares, ce qui en fait un outil potentiellement utile pour lutter contre les cybermenaces.
Pour évaluer l’efficacité de DarkBERT, les chercheurs l’ont comparé à deux modèles NLP renommés, BERT et RoBERTa, en évaluant leurs performances dans trois cas d’utilisation cruciaux liés à la cybersécurité, indique la recherche, publiée sur arxiv.org.
1. Surveiller les forums du Dark Web à la recherche de fils de discussion potentiellement dangereux
La surveillance des forums du dark web, couramment utilisés pour l’échange d’informations illicites, est essentielle pour identifier les fils de discussion potentiellement dangereux. Cependant, l’examen manuel de ces fils peut prendre beaucoup de temps, ce qui rend l’automatisation du processus bénéfique pour les experts en sécurité.
Les chercheurs se sont concentrés sur les activités potentiellement dommageables dans les forums de piratage, en élaborant des directives d’annotation pour les fils de discussion dignes d’intérêt, notamment le partage de données confidentielles et la distribution de logiciels malveillants ou de vulnérabilités critiques.
DarkBERT a surpassé les autres modèles de langage en termes de précision, de rappel et de score F1, s’imposant comme le meilleur choix pour identifier les fils de discussion dignes d’intérêt sur le dark web.
2. Détecter les sites qui hébergent des informations confidentielles
Les pirates et les groupes de ransomware utilisent le dark web pour créer des sites de fuites, où ils publient des données confidentielles volées à des organisations qui refusent de se plier aux demandes de rançon. D’autres cybercriminels se contentent de télécharger sur le dark web des données sensibles ayant fait l’objet d’une fuite, comme des mots de passe et des informations financières, dans l’intention de les vendre.
Dans leur étude, les chercheurs ont recueilli des données auprès de groupes de ransomware notoires et analysé les sites de fuite de ransomware qui publient les données privées des organisations. DarkBERT a surpassé les autres modèles de langage en identifiant et en classant ces sites, démontrant ainsi sa compréhension du langage utilisé dans les forums de piratage clandestins sur le dark web.
3. Identifier les mots-clés liés aux menaces sur le Dark Web
DarkBERT exploite la fonction « fill-mask », une caractéristique inhérente aux modèles de langage de la famille BERT, pour identifier avec précision les mots-clés associés à des activités illégales, notamment la vente de drogue sur le dark web.
Lorsque le mot « MDMA » a été masqué dans une page de vente de drogue, DarkBERT a généré des mots liés à la drogue, alors que d’autres modèles ont suggéré des mots généraux et des termes sans rapport avec la drogue, comme diverses professions.
La capacité de DarkBERT à identifier des mots-clés liés à des activités illicites peut s’avérer précieuse pour suivre et traiter les cybermenaces émergentes.
DarkBERT est-il accessible au grand public ?
DarkBERT n’est actuellement pas accessible au public, mais les chercheurs sont ouverts aux demandes d’utilisation à des fins académiques.
Exploiter la puissance de l’IA pour la détection et la prévention des menaces
DarkBERT a été pré-entraîné sur des données du dark web et surpasse les modèles de langage existants dans de multiples cas d’utilisation en cybersécurité, se positionnant comme un outil crucial pour faire avancer la recherche sur le dark web.
L’IA formée sur le dark web peut être utilisée pour diverses tâches de cybersécurité, notamment l’identification des sites web qui vendent des fuites de données confidentielles, la surveillance des forums du dark web pour détecter le partage d’informations illicites et l’identification de mots-clés liés aux cybermenaces.
Mais il faut toujours garder à l’esprit que, comme d’autres LLM, DarkBERT est un travail en cours, et que ses performances peuvent être améliorées grâce à une formation continue et à des ajustements précis.