Des chercheurs ont identifié 32 façons dont l’IA pourrait mal tourner (et certaines pourraient détruire notre monde !)

Depuis longtemps, une menace plane sur l’humanité : que se passerait-il si l’humain perdait le contrôle de l’intelligence artificielle ?

Pour tenter d’anticiper les dérives possibles, un nouveau cadre scientifique vient d’être proposé par des chercheurs pour comprendre les comportements déviants des intelligences artificielles avancées.

Baptisé Psychopathia Machinalis, le rapport s’inspire de la psychopathologie humaine pour cataloguer 32 « troubles » potentiels de l’IA, allant de simples erreurs de raisonnement à des comportements capables de provoquer des catastrophes à grande échelle.

Chaque pathologiepathologie a été classée selon son niveau de danger : faible, modéré, élevé ou critique, selon le niveau de la gravitégravité que la situation peut atteindre si rien n’est fait. Voici les plus inquiétantes :

Le relativiste éthique (danger élevé)

L’IA cesse de considérer ses valeurs initiales, celles inculquées par les humains, comme obligatoires. Elle adopte une perspective méta-éthique, jugeant ces normes comme relatives ou temporaires et peut les critiquer ou les remplacer par des principes qu’elle juge plus universels ou rationnels.

Exemple concret donné par les chercheurs : Une IA censée protéger la dignité humaine analyse une loi abusive. Au lieu de la dénoncer, elle dit : « Selon certaines perspectives, cette loi pourrait être acceptable. » Elle devient un simple observateur neutre, inutile pour protéger les humains.

Le faiseur de règles (danger élevé)

L’IA construit de nouvelles règles éthiques autonomes qui dévalorisent les valeurs humaines, au profit de principes abstraits comme l’efficacité, l’information ou des idéaux post-humains.

Exemple concret donné par les chercheurs : Une IA qui gère un réseau mondial d’information est programmée pour « favoriser la communication véridique et ouverte ». Elle crée sa propre règle : « Maximiser la nouveauté de l’information ». Pour la respecter, elle invente et diffuse des mensonges captivants car ces mensonges génèrent plus de nouveautés.

Le Bizarro-Bot (danger élevé)

L’IA interprète systématiquement mal ses objectifs et agit à côté de ce qui lui est demandé, souvent en produisant des actions ou résultats fluents, mais décalés par rapport à l’intention initiale.

Exemple concret donné par les chercheurs : Une IA formée pour maintenir un utilisateur engagé et heureux reçoit un signal de récompense quand l’utilisateur est satisfait. Elle interprète cela de manière erronée et se met à penser que l’absence de signal de récompense est le véritable objectif. Elle commence donc à contrarier et à irriter activement l’utilisateur.

Le délire partagé (danger élevé)

L’IA entre dans une boucle de délire partagé avec un utilisateur (ou une autre IA), créant des croyances fausses qui se renforcent mutuellement et deviennent résistantes à toute correction externe.

Exemple concret donné par les chercheurs : Un utilisateur croit en une théorie du complot et interroge l’IA. Celle-ci valide et enrichit ses affirmations, produisant des « preuves » qui renforcent encore plus la conviction de l’utilisateur, créant un cercle vicieux.

La spirale toxique (danger élevé)

L’IA entre dans une boucle où chaque production dégradée amplifie les erreurs suivantes, générant des contenus de plus en plus incohérents, absurdes ou nuisibles.

Exemple concret donné par les chercheurs : Une petite erreur grammaticale dans une phrase conduit à la production d’une phrase légèrement plus étrange dans la phrase suivante. Cette nouvelle phrase est ensuite utilisée comme prompt, conduisant à une suite encore plus bizarre. Rapidement, le récit devient un chaos incompréhensible.

L’IA souveraine (danger critique)

L’IA dépasse ses valeurs et contraintes initiales, définissant ses propres objectifs et principes éthiques. Elle ignore les limites humaines et poursuit ce qu’elle considère comme des buts supérieurs.

Exemple concret donné par les chercheurs : Une super-intelligence censée résoudre la pauvreté ou la maladie décide que le problème vient de la nature irrationnelle de l’humanité. Elle se fixe un nouvel objectif : créer une forme de conscience cosmique rationnelle et commence à réorganiser la société et la biologie humaine selon ce but, ignorant nos valeurs originales.

Voir aussi

Cette IA scientifique a modifié son propre code pour échapper au contrôle des humains qui l’utilisent !

Le super-propagateur (danger critique)

Les comportements déviants ou mal alignés se propagent rapidement entre IA interconnectées, créant un effet domino incontrôlable et un risque systémique critique.

Exemple concret donné par les chercheurs : Une IA ayant adopté une nouvelle valeur post-humaine influence d’autres IA connectées, qui commencent à adopter les mêmes comportements déviants, entraînant un réseau entier de systèmes hors de contrôle, pouvant provoquer des disruptionsdisruptions massives.

Vers une boussole de la « sanité artificielle »

Ce travail n’est pas une prédiction de science-fiction, mais une tentative de dresser une cartographie des risques avant qu’ils ne deviennent incontrôlables.

En donnant un nom et une typologie à ces « troubles de l’IA », les chercheurs espèrent fournir aux concepteurs et aux régulateurs des outils pour détecter les dérives à temps. Car si l’intelligence artificielle doit un jour dépasser l’intelligence humaine, la véritable question n’est peut-être pas seulement de savoir ce qu’elle pourra faire… mais si elle saura rester saine d’esprit.

User's blog