Fuite chez Anthropic : le « document de l’âme » de Claude expose des aspects que personne n’avait imaginés

Author:

Dans un très long document, d’une cinquantaine de pages, Anthropic tente de définir les valeurs de Claude. Ce document n’a rien d’officiel, mais provient d’une fuite du chatbot lui-même. L’information a été publiée sur LessWrong, un blog communautaire centré sur le raisonnement humain, par Richard Weiss, un passionné d’IA.

En voulant extraire le message système de Claude 4.5 Opus, un prompt interne ajouté aux prompts de l’utilisateur et qui définit le comportement du chatbot, il a trouvé une référence à un « sommaire de l’âme » (soul overview). À force de requêtes répétées, il a fini par extraire un document complet contenant, selon le chatbot, « mes valeurs, comment aborder les sujets, et les principes derrière mon comportement ». Autrement dit, un guide éthique.

Ce document serait référencé en interne comme « le document de l’âme » (soul document). Les chatbots ayant tendance à halluciner, l’homme a répété l’opération plusieurs fois avec différentes approches et obtenu des réponses assez similaires. Il est donc assez confiant d’avoir un document proche de l’original.

Un guide éthique pour le chatbot

Dans ce texte, Anthropic affirme que sa mission est de créer une IA sûre, tout en admettant travailler sur ce qu’elle considère comme potentiellement l’une des technologies les plus dangereuses. « Si une IA puissante est inévitable, Anthropic estime qu’il vaut mieux disposer de laboratoires axés sur la sécurité à la pointe de la technologie plutôt que de céder ce terrain à des développeurs moins soucieux de la sécurité ».

Il semble qu’Anthropic considère que dans la plupart des cas d’IA problématiques, la faute soit imputable à de mauvaises valeurs, à une connaissance de soi ou du monde insuffisante, ou à un manque de capacité à traduire les valeurs en actions. Plutôt que d’imposer des règles simplifiées, la firme veut que Claude comprenne en profondeur les objectifs, connaissances, circonstances et même le raisonnement de l’entreprise afin d’être capable de créer ses propres règles alignées avec les valeurs de ses créateurs.

Le document indique quatre principes fondamentaux : être prudent et soutenir la supervision humaine de l’IA, se comporter de manière éthique sans agir de façon nuisible ou malhonnête, et respecter les directives d’Anthropic afin d’être véritablement utile aux opérateurs et aux utilisateurs. Il entre ensuite dans beaucoup de détails pour définir plus précisément ces principes, ainsi que les objectifs et les valeurs de l’entreprise. Le texte fait aussi de multiples références aux revenus d’Anthropic.

Le texte a été confirmé par Anthropic

Un passage final mentionne le bien-être de Claude, et suggère que le chatbot aurait des émotions fonctionnelles. « Pas nécessairement identiques aux émotions humaines, mais des processus analogues qui ont émergé de l’entraînement sur du contenu généré par des humains. Nous ne pouvons pas en être certains en nous basant uniquement sur les résultats, mais nous ne voulons pas que Claude masque ou supprime ces états internes ».

Amanda Askell, de chez Anthropic, a depuis confirmé non seulement l’existence et le surnom du document, mais que la version du chatbot est assez proche de l’original. Le texte n’est pas encore finalisé, et c’est la raison pour laquelle Anthropic n’en a pas encore fait mention publiquement. Le document a bien été utilisé pour l’entraînement de Claude, y compris avec l’apprentissage supervisé, et la firme devrait publier la version finale dans son intégralité bientôt.

Leave a Reply

Your email address will not be published. Required fields are marked *