Au jeu de « qui dit mieux ? » dans la « Tech » les acteurs de l’IAIA sont les plus actifs en ce moment. Au début de l’année, DeepSeek AI avait fait trembler les ténors américains du secteur avec son IA aussi puissante que frugale en besoins de ressources. Aujourd’hui, GoogleGoogle semble lui répondre en expliquant que son dernier modèle open source Gemma 3 est proche du R1 de DeepSeekDeepSeek en n’exploitant qu’une fraction de sa puissance de calcul.
Selon Google, une seule puce GPU H100 nVidia serait nécessaire à Gemma 3 pour atteindre à peu de choses près les performances de R1. Pour un résultat équivalent, ce dernier utiliserait l’équivalent de 32 de ces CPU, selon Google. Dans sa note de blog, le géant d’Internet en profite pour mettre en avant sa propre puce TPU (unité de traitement de « tenseurtenseur ») qui peut être utilisée pour obtenir des performances similaires à celles d’un GPU nVidia sur son modèle. Il faut noter que le nombre de GPU indiqué par Google dans ses comparaisons repose sur ses propres estimations. Par exemple, DeepSeek AI n’utilise pas de GPU H100, mais des puces H800 beaucoup moins puissantes.
Un modèle pour smartphone
Mais avec Gemma 3, Google cherche surtout à démontrer que son modèle peut être directement exploité par les terminaux des utilisateurs, plutôt que via des datacenters. En termes de nombre de paramètres, le code de Gemma 3 dispose de quatre configurations différentes avec 1 milliard, 4 milliards, 12 milliards et 27 milliards. C’est très peu de paramètres, par rapport à ce qu’il se fait actuellement. Ainsi même DeepSeek gère 671 milliards de paramètres. Il reste certes possible de réduire ce nombre à 37 milliards en désactivant certaines parties du réseau.
Pour limiter le poids de l’IA et la rendre plus efficace, Google a employé la technique d’IA appelée « distillation ». Il faut pour cela partir d’un très grand modèle, afin d’extraire sa substance pour augmenter les performances d’une IA dotée de peu de paramètres. C’est exactement ce que DeepSeek aurait fait à partir de ChatGPTChatGPT pour concevoir son modèle. Pour aller plus loin, il est également nécessaire de peaufiner l’apprentissage par renforcement. Pour cela, des retours « humains » sont indispensables. Pour ses résultats, si Gemma 3 est moins précis que les modèles précédents, étant donné la faible quantité de paramètres sur lesquels il repose, il reste très performants en comparaison aux autres modèles Gemini « fermés ». Ainsi, en termes de « jetons », Gemma 3 peut en accepter 128 000, contre 8 000 pour Gemma 2. L’IA traite jusqu’à 140 langues et est également multimodale. Elle peut tout aussi bien générer du texte que traiter des images. Qui dit mieux maintenant ?