Ils ont laissé des IA diriger une boîte : ce qui s’est passé en dit long sur l’avenir du travail

Author:

L’intelligence artificielle est-elle sur le point de nous voler notre travail à tous ? Certaines boîtes n’hésitent pas à parier dessus, tandis que d’autres ne veulent rien savoir, la jugeant incapable. Mais qu’en est-il vraiment ? Dans un article en prépublication sur Arxiv, des chercheurs de l’université Carnegie Mellon ont simulé une entreprise et engagé des agents d’intelligence artificielle pour la faire tourner. Et le résultat était loin d’être positif.

Les employés virtuels étaient des agents basés sur Claude d’Anthropic, GPT-4o d’OpenAI, GoogleGoogle Gemini, AmazonAmazon NovaNova, Meta Llama, et Qwen d’Alibaba. Ils se sont vu attribuer différents postes, comme analyste financier, chef de projet ou encore ingénieur logiciel. En même temps, les chercheurs ont utilisé une autre plateforme pour simuler des collègues qu’ils devaient contacter pour certaines tâches, comme un département des relations humaines.

Les agents ont échoué à plus de trois quarts des tâches

Les agents ont reçu différentes tâches, comme naviguer parmi différents fichiers pour analyser une base de données, ou encore effectuer plusieurs visites virtuelles pour choisir de nouveaux locaux. Claude 3.5 Sonnet a fini largement en tête, mais cet agent n’a réussi à terminer que 24 % des tâches. Même en prenant en compte les tâches partiellement complétées, son score n’arrive qu’à 34,4 %. Gemini 2.0 FlashFlash se trouve en seconde position, mais n’est parvenu à compléter que 11,4 % des tâches. Aucun autre agent n’a dépassé 10 %. Toutefois, en matièrematière de coût de fonctionnement, Claude 3.5 Sonnet a coûté 6,34 dollars, contre seulement 0,79 dollars pour Gemini 2.0 Flash.

Les chercheurs ont indiqué que bien souvent les agents ne sont pas capables de comprendre la partie implicite des instructions, comme lorsqu’ils doivent écrire le résultat dans un fichier avec une extension « .docx », ils n’en déduisent pas qu’il s’agit d’un format MicrosoftMicrosoft Word. Ils échouent à certaines tâches par manque de compétences sociales. Mais l’un des plus gros problèmes était lorsqu’ils doivent naviguer sur le Web, et notamment la possibilité de naviguer dans les popups. Et parfois, lorsqu’ils sont perdus, ils font des raccourcis afin d’omettre la partie difficile de la tâche et pensent avoir réussi. Ces résultats montrent que même si les IA peuvent donner d’excellents résultats sur certaines tâches bien spécifiques, ils sont encore loin d’être capables d’un fonctionnement autonome.

Leave a Reply

Your email address will not be published. Required fields are marked *