Pourquoi le créateur de ChatGPT n’a aucun intérêt à empêcher son chatbot d’halluciner

Les hallucinationshallucinations des chatbots sont un véritable problème. Les grands modèles de langage (LLM) ont une fâcheuse tendance à inventer des informations, et à les présenter comme des faits établis. Cela rend toute leur production peu fiable, et pourtant ils sont de plus en plus utilisés dans des situations où les erreurs sont inacceptables, notamment dans des environnements professionnels et même en médecine.

Plus tôt ce mois-ci, OpenAI avait annoncé en avoir trouvé la cause, et proposé une solution. L’apparition des hallucinations, selon les chercheurs de la firme, est due à la manière d’entraîner les LLM. Ils sont récompensés pour les bonnes réponses, mais pas pour les mauvaises ni pour les incertitudes. Si pour l’IAIA, dire « je ne sais pas » et se tromper reviennent au même, mieux vaut tenter de deviner la bonne réponse quitte à faire des erreurs.

La solution d’OpenAI : un score d’incertitude

La solution serait donc d’obliger les LLM à calculer un score d’incertitude à chaque fois, et à refuser de répondre lorsque ce score est trop élevé. Pour les inciter à éviter les erreurs, les expressions d’incertitude seraient mieux récompensées que les mauvaises réponses. Jusque-là, cela semble assez simple, et il serait facile de penser qu’OpenAI pourrait mettre en place cette nouvelle stratégie très rapidement. Mais selon Wei Xing, spécialiste de l’optimisation de l’IA à l’université de Sheffield, le créateur de ChatGPTChatGPT n’a aucun intérêt à empêcher son chatbot d’halluciner.

Dans une interview avec The Conversation, il explique qu’éliminer les hallucinations serait contreproductif. Calculer un score de confiance augmente la quantité de calculs nécessaires pour accomplir les mêmes tâches. Cela entraîne donc une consommation d’énergieénergie et des coûts de fonctionnement plus élevés pour OpenAI. À l’échelle du nombre d’utilisateurs de ChatGPT, la différence devient significative.

La perception du public : un obstacle paradoxal

Ce surcoût pourrait être justifié si le fait de fournir des réponses fiables attirait davantage d’utilisateurs. Mais, selon Wei Xing, cela risque plutôt de nuire à l’image de ChatGPT. Les benchmarks utilisés pour noter et classer les différents modèles ne prennent pas en compte l’incertitude. Là encore, seules les bonnes réponses sont prises en compte. Exprimer une incertitude, plutôt que d’essayer de deviner la bonne réponse au risque de se tromper, serait pénalisé. ChatGPT serait alors dépassé dans les classements par des modèles qui hallucinent.

De plus, le grand public pourrait ne pas apprécier ce changement. Paradoxalement, un chatbot qui exprime de l’incertitude et refuse régulièrement de donner une réponse risque de perdre la confiance de ses utilisateurs. Ceux-ci seraient alors tentés de recourir à d’autres outils qui paraissent plus sûrs d’eux, même s’ils se trompent.

OpenAI fait donc face à un dilemme. Alors que ChatGPT est très critiqué pour ses hallucinations, résoudre ce problème risque d’augmenter les coûts de fonctionnement tout en faisant fuir les utilisateurs. Des avancées au niveau de l’efficacité énergétique de l’IA pourraient, à l’avenir, résoudre compenser ce surcoût. Mais même dans ce cas, il est peu probable qu’OpenAI sorte une version de ChatGPT exempte d’hallucinations si les utilisateurs n’en veulent pas. La solution serait peut-être une version spéciale, plus fiable, destinée à une utilisation professionnelle. Elle serait adaptée aux tâches où l’exactitude des réponses est cruciale, et son coût de fonctionnement serait couvert par une tarification spécifique. La version grand public, elle, continuerait d’halluciner.

User's blog

Pourquoi le créateur de ChatGPT n’a aucun intérêt à empêcher son chatbot d’halluciner

La solution d’OpenAI : un score d’incertitude

La perception du public : un obstacle paradoxal

Leave a Reply Cancel reply