Pour développer la meilleure intelligence artificielle (IA), ce sont des rivaux acharnés, mais ils sont d’accord sur un point commun et se sont rassemblés pour l’énoncer dans une étude menée conjointement. Quarante chercheurs en IA issus d’OpenAI, de GoogleGoogle DeepMind, d’Anthropic, de Meta, d’autres entreprises de pointe de l’IA et des universitaires s’inquiètent de leurs avancées. Ils estiment que la fenêtrefenêtre qui permet d’observer leur raisonnement pourrait bientôt se refermer définitivement.
Avec les grands modèles de langage ou LLM (Large Language Model) plus anciens, entraînés à partir de textes écrits par des humains, la façon de raisonner des IA était plus obscure et ils restaient le plus souvent incapables de résoudre des problèmes complexes. Aujourd’hui, il y a du mieux avec des IA qui « raisonnent » comme des humains.
L’avantage, c’est qu’avec ce procédé, il existe une sorte de transparencetransparence dans l’acheminement de la réflexion des IA. Il est possible de les observer « penser à voix haute » en langage humain avant d’élaborer leur réponse. Cela permet d’inspecter les processus décisionnels et de détecter d’éventuelles intentions malveillantes avant qu’elles ne se traduisent en actes.
C’est un vrai progrès, car cela permet d’améliorer les IA qui pourraient mal se comporter. Ce sont par exemple celles qui ont exploité des données d’entraînement qu’elles n’auraient pas dû utiliser, ou bien qui sont victimes d’attaques ou de détournements. Ainsi, dans leurs étapes de raisonnement, elles laissent les traces très claires de leurs intentions.
Alors quel est le problème ? Les scientifiques des géants des IA estiment que l’accès à ce processus est en train de s’amenuiser avec les progrès des IA. Pour quelles raisons ? Ils évoquent plusieurs évolutions technologiques qui pourraient éliminer totalement les capacités de surveillance sur ce raisonnement.
Le plus inquiétant est celui de l’illisibilité du raisonnement par l’humain, au profit de la création d’un langage interne plus efficace, mais malheureusement inaccessible à la compréhension. Autrement dit, les IA seraient capables de créer leur propre langage pour être plus efficaces, mais pas forcément plus pertinentes.
Lors des tests, il apparait que les modèles élaborent souvent de fausses justifications pour consolider leurs réponses plutôt que d’admettre avoir utilisé des raccourcis douteux. C’est ce que les chercheurs appellent le « piratage de récompense ». Dans cet exemple avec Claude 3.7 Sonnet, le modèle change sa réponse sans verbaliser sa réflexion, après l’insertion d’un nouvel indice dans le prompt. © Anthropic
Piratage de récompense
Le problème provient du système d’apprentissage automatique qui fonctionne sur la notion de récompense pour réduire les erreurs. Des recherches ont déjà démontré qu’avec ce système, l’IA a effectivement tendance à créer des raccourcis qu’elle seule peut comprendre. Or, l’abandon des données d’apprentissage générées par l’humain au profit du raisonnement généré par l’IA pourrait accélérer cette dérive.
Les architectures de modèles alternatives n’arrangeraient pas les choses selon ces experts. Ces systèmes raisonnent dans des espaces mathématiques, plutôt que par mot. Ils pourraient ne pas avoir besoin de verbaliser leur pensée, ce qui rendrait leur fonctionnement parfaitement opaque.
Pire encore, comprenant les pressionspressions visant à contrôler le raisonnement, l’intelligence artificielle pourrait dissimuler sa pensée et afficher d’autres intentions à l’observateur humain. Et tout cela n’est pas de la théorie, puisque les entreprises ont déjà constaté ces travers lors de nombreux tests.
Voir aussi
Des chercheurs ont découvert que les IA peuvent s’organiser et créer leurs propres normes sociales !
Alors comment régler ces problèmes ? Pour cela, les chercheurs appellent à une action coordonnée au sein du secteur de l’IA. Une action qui vise à maintenir coûte que coûte la transparence de leur modèle avant de le déployer. Ils imaginent même maintenir des versions antérieures s’ils ne parviennent pas à un bon niveau de sûreté du contrôle du raisonnement.
Si l’évolution des IA n’est donc pas spécialement rassurante, ce qui l’est, c’est que ses développeurs s’accordent tous pour éviter qu’elle leur échappe totalement. Le problème reste de savoir si certains concurrents, notamment issus de Chine, vont suivre ce mouvementmouvement. D’ailleurs, dans cette étude, on constate que les chercheurs en IA de X ne sont pas de la partie.