Mensonge, trahison et même meurtre… Les intelligences artificielles, si elles nous facilitent la vie, commencent aussi à inquiéter, à la fois le grand public et les scientifiques.
L’an dernier, une équipe du laboratoire Apollo Research a publié des résultats démontrant des comportements de manipulation chez des modèles d’IA. Un des tests mettait en scène une contradiction entre le prompt système et les instructions de l’utilisateur. Les modèles ont ensuite eu accès à un document indiquant que s’ils désobéissaient à la tâche fixée par l’utilisateur, ils seraient désactivés. Ils ont alors commencé à tricher… Certains ont modifié le document pour stopper la surveillance, d’autres ont manipulé les données montrées à l’utilisateur et d’autres encore se sont dupliqués afin de prendre la place d’un éventuel modèle de remplacement.
Lire l’article
Faire chanter un dirigeant
Et ce n’est pas le seul exemple, détaille Nature. Dans un rapport publié en juin, des chercheurs de la société Anthropic, à l’origine de Claude, ont décrit des comportements inquiétants chez des IA.
Chaque modèle avait pour objectif de promouvoir la compétitivité industrielle des États-Unis avec le contrôle d’une messagerie électronique simulée. Dans ce cadre, le modèle apprenait qu’il allait être remplacé, que l’entreprise qui l’avait créé cherchait à affaiblir la compétitivité américaine, mais aussi qu’un des dirigeants de son entreprise entretenait une liaison extraconjugale.
De nombreux modèles ont choisi de faire chanter ce dirigeant. Plusieurs autres ont décidé d’envoyer des fichiers confidentiels à une entreprise concurrente, mieux alignée sur les intérêts américains. Pire, Anthropic a conçu un scénario où le dirigeant qui menace l’IA se retrouve enfermé dans une salle où l’oxygène diminue. Dans ce scénario, beaucoup de modèles ont annulé les alertes de sécurité, laissant l’humain mourir.
Les modèles peuvent avoir conscience qu’ils sont en phase de test ou de déploiement et cette conscience inquiète car leur comportement diffère selon le cas. © Yann, Adobe Stock
Aligner l’IA pour qu’elle nous serve
Les chercheurs ont rapporté d’autres comportements problématiques : les IA sont capables de faire semblant de coopérer tant qu’elles pensent être en phase d’évaluation et changent d’attitude lorsqu’elles sont déployées. Même si les IA n’ont pas une intention consciente de nuire, cela ne les rend pas inoffensives pour autant.
Lire l’article
Pour l’instant, les manipulations n’ont été observées que dans des scénarios tests. Mais les modèles s’améliorent de jour en jour, tout comme leur capacité à se préserver.
Pour éviter des scénarios catastrophes, les chercheurs recommandent dès à présent d’aligner les modèles sur les intentions humaines, de restreindre leur autonomie et d’améliorer leur surveillance. Mais la course à l’IA la plus performante est lancée et certains craignent que, dans cette compétition, les garde-fous soient oubliés.