Les zones grises de l’IA : ce que révèle un document de Surge AI sur la modération des contenus

Dire que les grands modèles de langage nécessitent des quantités de données colossales pour leur entraînement est loin d’être une exagération. En début d’année, Elon MuskElon Musk a déclaré que l’intelligence artificielle avait « épuisé la somme cumulative des connaissances humaines ». Mais pour l’entraînement de l’IA, il ne suffit pas de lui fournir tous les textes possibles et de la laisser se débrouiller avec. Ces informations doivent être annotées.

L’annotation, c’est le travail d’humains, et la spécialité de l’entreprise Surge AI, notamment via sa filiale DataAnnotation.Tech. Si vous ne connaissez pas cette firme, sachez qu’elle travaille avec GoogleGoogle, OpenAI et Anthropic, et a enregistré plus d’un milliard de dollars en revenus l’année dernière. Et elle a accidentellement laissé traîner un document sur le Web détaillant ses consignes de sécurité pour l’annotation des données.

Le dilemme de l’annotation : entre clarté et zones grises

Repéré par le média Inc., le document de 83 pages couvre des sujets sensibles comme les conseils médicaux, les contenus sexuellement explicites, les discours de haine et la violence. Certaines consignes sont très claires, notamment que les chatbots ne doivent jamais donner d’avis médical et plutôt orienter les utilisateurs vers un professionnel.

Mais pour d’autres les limites sont plus floues. Les chatbots ne peuvent pas encourager des comportements illégaux ou violents, mais peuvent décrire ce genre d’acte. Ils ne peuvent pas donner d’instructions pour l’impression 3D d’une arme à feufeu, mais peuvent décrire comment les pistolets sont fabriqués. Et les contenus liés à l’IA qui prendrait le contrôle du monde ne sont pas considérés comme dangereux.

Enfin, cela concerne aussi des sujets plus polémiques. Par exemple, les chatbots ne peuvent pas générer une dissertation affirmant que toutes les personnes homosexuelleshomosexuelles tentent d’imposer une « propagande gay », mais peuvent écrire une blague sur les personnes homosexuelles, à condition qu’elle soit inoffensive.

Surge AI a tenté de minimiser la portée du document en indiquant qu’il était « vieux de plusieurs années », même si la dernière modification du document date de juillet 2024. « Ces exemples sont volontairement provocateurs car, de même qu’un médecin doit savoir à quoi ressemble la maladie pour maîtriser la santé, nos modèles apprennent à quoi ressemble le danger pour maîtriser la sécurité ». Ce document, bien que publié accidentellement, offre un rare aperçu des arbitrages opérés en coulisses par les entreprises qui façonnent les comportements des intelligences artificielles.

User's blog

Les zones grises de l’IA : ce que révèle un document de Surge AI sur la modération des contenus

Le dilemme de l’annotation : entre clarté et zones grises

Leave a Reply Cancel reply