Cela fait un peu plus d’un an que DeepSeek a présenté son modèle DeepSeek-V3, une surprise dans le milieu de l’intelligence artificielle. Du jour au lendemain, un modèle chinois a réussi à concurrencer ChatGPT, un signe très clair que le pays rattrapait son retard dans la course à l’IA. Son coût de développement annoncé est presque dérisoire face à la concurrence et son fonctionnement nécessite beaucoup moins de ressources. Et il est publié sous licence libre.
Désormais, DeepSeek s’apprête à renouveler l’expérience avec DeepSeek-V4. D’autres entreprises ont profité du Nouvel An chinois pour sortir leurs nouveaux modèles, comme Alibaba, Zhipu AI ou encore Moonshot AI, et l’annonce de DeepSeek serait imminente, peut-être même avant la fin des festivités.
Lire l’article
De nouvelles technologies très attendues
Selon les performances du nouveau modèle, il pourrait représenter un nouveau pavé dans la mare et inquiéterait déjà les concurrents américains, notamment OpenAI, Google et Anthropic. Alors que ces géants investissent des milliards de dollars dans des centres de données, DeepSeek avait annoncé que l’entraînement de sa V3 avait coûté moins de 6 millions de dollars. D’après Reuters, qui cite une source dans l’administration Trump, cette nouvelle version aurait été entraînée sur des puces Blackwell de Nvidia, alors qu’elles sont sous embargo. Ces processeurs seraient installés dans son centre de données situé dans la région autonome de Mongolie-Intérieure.
Lire l’article
DeepSeek-V4 serait basé sur la nouvelle architecture Model1 qui réduit l’utilisation de la mémoire jusqu’à 40 % en répartissant mieux les données et en plaçant celles sollicitées plus fréquemment dans la mémoire la plus rapide, et en archivant les moins utilisées. Cela aurait pour effet de réduire les coûts de fonctionnement et permettrait d’augmenter la fenêtre contextuelle au-delà d’un million de tokens. Il intègre également un décodage « Sparse FP8 », où la précision varie selon l’importance des tokens, ce qui permettrait de multiplier la vitesse d’inférence par 1,8.
La nouvelle version du chatbot chinois DeepSeek pourrait sortir dans les prochains jours. © Solen Feyissa, Unsplash
DeepSeek a aussi récemment publié des détails sur son module Engram, qui devrait être un des fondements de la V4, qui sépare la mémoire à court et à long terme, ce qui lui évite de traiter l’intégralité de l’historique des conversations à chaque requête. Enfin, le nouveau modèle devrait aussi intégrer la technologie Manifold-Constrained Hyper-Connections (mHC), une technique qui vise à stabiliser les grands modèles en apportant des contraintes mathématiques.
Des pratiques qui soulèvent des questions
Toutefois, l’IA chinoise est également controversée. Face aux risques de biais dans les réponses et à l’envoi des données sur des serveurs chinois pour la version du chatbot accessible en ligne, plusieurs pays ont interdit son utilisation aux agences gouvernementales, notamment Taïwan, l’Italie, les Pays-Bas, la République tchèque et une partie des États-Unis. De plus, DeepSeek aurait utilisé la distillation pour entraîner la V3 à moindres frais. Plutôt que d’utiliser de grandes bases de données pour l’entraînement, le modèle se serait connecté à ChatGPT afin d’utiliser ses réponses pour accélérer le processus. Une accusation renouvelée le 12 février 2026.
Lire l’article
OpenAI n’est pas seule à accuser DeepSeek de tricher de cette manière. Anthropic, le développeur du chatbot Claude, vient aussi de l’accuser d’utiliser la distillation, ainsi que deux autres entreprises chinoises, à savoir Moonshot AI et MiniMax. Elles auraient créé environ 24 000 comptes et mené plus de 16 millions de conversations avec Claude.
Cela soulève une question importante : la Chine est-elle parvenue à rattraper son retard en matière d’IA ou est-ce qu’elle se contente de dupliquer les résultats des modèles américains ? La sortie de DeepSeek-V4 nous apportera sans doute quelques éclaircissements.