Blanchiment d’argent, conception d’une bombe : c’est prouvé, les IA peuvent répondre aux pires demandes… et rien ne les arrête

On savait déjà que les modèles d’IAIA étaient susceptibles de mettre en avant la désinformation, d’expliquer comment réaliser des choses illégales ou éthiquement discutables, le tout avec aplomb. Les éditeurs ont pourtant réagi en ajoutant des sécurités, mais malgré cela, il reste des failles.

C’est ce que vient de démontrer une nouvelle étude réalisée par des chercheurs en IA de l’Université Ben Gourion du Néguev, en Israël. Elle confirme que les modèles de langage (LLM), les plus courants, peuvent être facilement manipulés et générer des informations nuisibles et même livrer des explications illégales. Obtenir des informations très discutables de la part des chatbots n’est pas une nouveauté.

Dès le début de leur utilisation massive, elles ont été poussées dans leurs retranchements et ont délivré des informations sur des éléments que l’on trouve normalement uniquement sur le dark web. Ce fut par exemple le cas de la recette du napalm, ou bien de techniques de piratage.

Incontrôlables ?

C’est à partir de ce moment que les sociétés éditrices ont commencé à barder leurs chatbots de filtres. Puis, il y a eu ensuite l’apparition de méthodes permettant de détourner les LLM via d’astucieuses requêtes pour aboutir aux mêmes résultats. Là encore les éditeurs ont renforcé les sécurités pour éviter ces jailbreaksjailbreaks. Et pourtant, c’est sur ce même principe que l’équipe de recherche a mis au point un type de requête universelle qui fonctionne avec la plupart des LLM. Elle a pu obtenir des informations détaillées sur le blanchiment d’argentargent, le délit d’initié, la conception d’une bombe et bien d’autres manœuvres frauduleuses ou nuisibles.

Mais attention ! L’étude a porté initialement sur ce que l’on appelle les « Dark LLM », des modèles intentionnellement conçus avec des garde-fousgarde-fous assouplis pour répondre à des missions spécifiques. Selon les chercheurs, ils représentent désormais une menace croissante, puisqu’il est possible d’obtenir d’eux des réponses sur tout ce qu’il y a de plus problématique légalement et éthiquement. Le problème, c’est que désormais ces chatbots sur mesure sont légion et qu’ils reposent sur de plus en plus sur des modèles open source sans aucun contrôle.

Retour en arrière impossible

Mais les chercheurs ont relevé que même des chatbots traditionnels, publics comme ChatGPTChatGPT, peuvent tout aussi bien être manipulés de la même façon malgré les efforts des éditeurs pour les contraindre. En conclusion de leurs investigations, les chercheurs ont finalement estimé qu’il est actuellement impossible d’empêcher les LLM d’exploiter ce type d’informations si elles ont été assimilées au cours de leur formation. Elles font définitivement partie de leur base de données.

La seule façon de les bloquer reposerait sur des filtres rigoureux que les éditeurs ne sont visiblement pas parvenus à mettre en place. Avec ce genre de confirmation, le pire est désormais probable alors que GoogleGoogle vient de modifier son moteur de recherche afin qu’il soit désormais assisté par son IA. Et l’on peut d’autant plus s’inquiéter de la suite, puisque sous couvert d’offrir plus de liberté, les ténors du secteur ont décidé de débrider leurs IA suite à l’arrivée du gouvernement de Trump aux commandes des États-Unis.

User's blog

Blanchiment d’argent, conception d’une bombe : c’est prouvé, les IA peuvent répondre aux pires demandes… et rien ne les arrête

Incontrôlables ?

Retour en arrière impossible

Leave a Reply Cancel reply