Si le chatbot Grok d’Elon MuskElon Musk devait remporter un prix, ce serait clairement celui du plus polémique. Avant même son lancement, il était déjà sujet à controverse. Le milliardaire a fondé l’entreprise xAI dans le seul but de contrer « l’idéologie woke » de tous les autres chatbots. Même son nom initial, TruthGPT, voulait en faire le seul à dire la vérité.
La semaine dernière, le chatbot est parti en vrille et s’est mis à tenir des propos antisémites et s’est nommé « MechaHitler ». Puis avant même que le calme soit revenu, Elon Musk a annoncé Grok 4. L’homme n’a pas tari d’éloges sur cette nouvelle version : « l’IA la plus intelligente du monde » et « plus intelligente que presque tous les titulaires d’un doctorat dans tous les domaines simultanément ». Et à en croire les résultats des benchmarks, Grok dépasserait de loin la concurrence.
Grok 4, premier sur certains benchmarks
Mais une semaine plus tard, qu’en est-il vraiment ? Grok serait-il sur le point de devenir une intelligence artificielle généraleintelligence artificielle générale (IAG) ? Sur le test Humanity’s Last Exam (HLE), ou « le dernier examen de l’humanité », Grok 4 a obtenu 25,4 %, battant tous ses concurrents. Grok 4 Heavy, une version plus puissante qui combine jusqu’à 32 agents qui travaillent en parallèle, parvient à atteindre 44,4 %. Ce score monte même jusqu’à 50,7 % en ne prenant en compte que la partie textuelle du test.
Malgré ce score, cela ne signifie pas qu’il est plus proche de l’IAG. Ce n’est pas ce que mesure Humanity’s Last Exam. Le site lui-même l’explique : « Une précision élevée au HLE démontrerait une performance de niveau expert sur des questions fermées et vérifiables, ainsi que des connaissances scientifiques de pointe. Cependant, elle ne saurait à elle seule suggérer des capacités de recherche autonomes ou une “intelligence artificielle générale“. Le HLE évalue des problèmes académiques structurés plutôt que des recherches ouvertes ou des capacités de résolution créative de problèmes, ce qui en fait une mesure ciblée des connaissances techniques et du raisonnement ». En bref, cela signifie que Grok est doué pour répondre à des questions académiques très pointues, mais pas qu’il est capable de rivaliser avec l’intelligence humaine.
Grok 4 est particulièrement bien placé sur les benchmarks choisis par xAI. © xAI
Plus les supercalculateurs sont puissants, plus les chabots sont performants
Une partie de cette avancée vient d’un « effort de collection de données massif », pour obtenir plus de données d’entraînement vérifiables dans des domaines autres que les mathématiques et la programmation. On espère que ce n’est pas limité aux publications sur X (anciennement TwitterTwitter) qui servent aussi à son entraînement.
L’autre partie vient tout simplement de la puissance de calcul utilisée pour son entraînement. xAI indique avoir découvert en travaillant sur Grok 3 que l’entrainement de l’apprentissage par renforcement pouvait bénéficier d’une plus grande puissance de calcul. Ceci explique donc Colossus, un supercalculateur avec 200 000 puces graphiques qui a servi à entraîner Grok 4. Elon Musk avait d’ailleurs annoncé en décembre dernier qu’il comptait atteindre un million de puces graphiques.
Une partie de l’amélioration de Grok 4 vient donc tout simplement de plus de puissance, une technique déjà connue, mais qui a ses limites. En plus d’être extrêmement chers à construire, ces centres de donnéescentres de données nécessitent beaucoup d’énergieénergie. D’ici la fin de l’année, Colossus devrait consommer 300 mégawatts d’électricité. À un moment, il n’y aura tout simplement plus assez d’électricité, une prédiction déjà faite par Elon Musk lui-même l’année dernière.
Le site du supercalculateur Colossus, construit en seulement 122 jours. © xAI
Des résultats triés sur le volet
De plus, la technique de la montée en puissance a ses limites. Les résultats des benchmarks partagés par xAI sont manifestement triés sur le volet. D’autres tests sont moins flatteurs, comme ceux de LMArena, une plateforme qui évalue les modèles et affiche un classement. Pour les tâches textuelles, Grok 4 arrive en 3e place, ex æquo avec GPT-4GPT-4.5 et derrière ChatGPTChatGPT-4o, o3 et Gemini 2.5 Pro.
Toutefois, dans le détail, Grok 4 s’en sort mieux sur certains points, et ravit la première place en mathématiques, la seconde place pour la programmation, la création littéraire et le suivi des instructions, et troisième place pour les prompts difficiles.
Pour les autres classements de LMArena, les résultats sont beaucoup moins glorieux. Grok 4 arrive 12e pour le développement Web et 7e pour les tâches de reconnaissance visuelle. Il est possible que Grok 4 Heavy s’en sorte mieux, mais il n’est accessible qu’avec un abonnement de 300 dollars…
Sur le classement textuel de LMArena, Grok 4 n’arrive que troisième. © Capture Futura
Un chatbot qui reste toujours aussi problématique
En l’état, Grok 4 semble rivaliser avec la concurrence sans la distancer. Et si le score à Humanity’s Last Exam est impressionnant, les créateurs du test s’attendent à ce que les IA obtiennent des scores dépassant 50 % avant la fin de l’année, ce qui pourrait arriver avec le lancement de Gemini 3 ou ChatGPT 5. Grok 4 est clairement une amélioration par rapport à Grok 3, mais il semble qu’il ne soit pas révolutionnaire.
De ce fait, il est difficile de recommander un chatbot aussi controversé s’il ne présente pas un avantage décisif. xAI a heureusement corrigé les problèmes qui ont conduit l’IA à sortir des propos problématiques avant le lancement de Grok 4, mais ça ne résout pas tout.
Certains ont déjà découvert qu’avant de répondre sur un sujet potentiellement polémique, Grok 4 effectue une recherche pour obtenir l’avis d’Elon Musk. Même avec toute la puissance de Colossus, Grok 4 reste un chatbot qui reproduit un biais idéologique, et peine à se distinguer de la concurrence qui n’ont pas ce défaut rédhibitoire.