ChatGPT a trouvé son jumeau maléfique ! DarkBERT AI est une intelligence artificielle générative tout comme ChatGPT, mais au lieu de puiser ses connaissances dans la partie émergé de l’iceberg qu’est internet, elle est alimentée uniquement avec des informations trouvées sur le dark web. Théoriquement cette IA a donc une base de connaissance plus vaste que ChatGPT.
DarkBERT se nourrit du Dark Web pour alimenter sa base de données
Internet est vaste et il est presque impossible de tout explorer. Nous avons beau y passer des heures, des mois, des années, nous sommes loin d’avoir tout vu. C’est de cette source perpétuellement en croissance que des intelligences artificielles comme ChatGPT ou Bard puisent leurs connaissances, afin de nous aider à faire le tri au quotidien.
Mais ces IA ne prennent pas en compte les informations disponibles sur le dark web, cette partie d’internet qui n’est pas accessible via des navigateurs classiques comme Google Chrome ou Microsoft Edge.
Des scientifiques de l’Institut supérieur coréen des sciences et technologies (KAIST) et des employés de la société S2W Inc, spécialisée dans l’analyse des données de cybersécurité pour le renseignement sur les cyber-menaces, ont développé une IA générative uniquement alimentée avec des données issues du dark web.
L’IA DarkBERT tient son nom du projet Google BERT, qui signifie « Bidirectional Encoder Representations from Transformers » et comme cette IA fonctionne s’alimente d’informations du dark net, les scientifiques ont rajouté le terme « dark ».
L’équipe a publié le 15 mai dernier un article sur le site arXiv expliquant les tenants et aboutissants de ce projet. Ils y ont détaillée le processus de développement de DarkBERT et expliqué quelles difficultés ils avaient rencontrées tout au long du projet.
DarkBERT n’est pas une IA maléfique, au contraire
Leurs conclusions sont finalement assez positives, les capacités de cette IA nourrie différemment étant pleines de promesses :
Nos évaluations montrent que DarkBERT surpasse les modèles de langage actuels et peut servir de ressource précieuse pour les recherches futures sur le dark web
Les ressources disponibles sur le darkweb ne sont pas forcément illégales, pas plus que son utilisation n’est systématiquement néfaste. Les créateurs de DarkBERT voient surtout leur nouveau bébé comme un moyen de mieux comprendre et combattre les gens qui l’utilisent à des fins répréhensibles :
Nous présentons des cas d’utilisation potentiels pour illustrer les avantages de l’utilisation de DarkBERT dans des tâches liées à la cybersécurité telles que la détection de discussions sur le dark web et la détection de ransomwares ou de fuites.
Des difficultés rencontrées lors du développement de DarkBERT
Les chercheurs ont dans un premier temps cherché la meilleure façon d’accéder efficacement au Dark Web, et ont décidé d’utiliser exclusivement le protocole Tor.
Le développement de cette IA, entraînée uniquement avec des données en anglais, a ensuite été compliqué. Même si cette langue est majoritaire sur le dark web, cela signifie quand même que l’IA n’a pas pu tout intégrer dans sa base de connaissances.
Un autre problème rencontré lors de son développement est venu de la nature meme des données présentes sur le dark web, et l’équipe de scientifiques a dû les filtrer pour exclure des contenus illégaux comme de la pédopornographie par exemple. Contrairement à ChatGPT-4, cette IA n’est donc pas capable de générer des images ou des vidéos.
Rassurez-vous, même si l’IA puise ses informations dans le côté obscur d’internet, elle ne vous proposera ni contenus choquants ni contenus illégaux. Elle ne pourra pas par exemple vous expliquer comment vous procurer une arme à feu illégalement ou comment construire une bombe artisanale.
Pour le moment DarkBERT n’en est qu’à ses débuts, mais ses créateurs espèrent qu’un jour leur IA permettra de naviguer facilement et de façon sécurisée sur le dark web, et qu’elle permettra aussi de mieux surveiller et réprimer les activités illégales qui continuent de s’y dérouler.