DeepSeek a réalisé une prouesse avec son modèle R1, qui réfléchit comme le modèle OpenAI o1, mais a été conçu avec très peu de ressources. Si certains suspectent la firme chinoise d’avoir utilisé des raccourcis, OpenAI va plus loin et l’accuse d’avoir utilisé ses propres modèles pour développer des modèles rivaux, selon le Financial Times.
Si nous n’avons pas de chiffres pour DeepSeek R1, il n’aura fallu que 2 048 puces graphiques Nvidia H800 pour entraîner DeepSeek V3, un autre modèle à 671 milliards de paramètres. Le coût d’entraînement annoncé pour V3 est de 5,6 millions de dollars, une somme dérisoire comparée aux dizaines ou centaines de millions de dollars dépensés par OpenAI ou GoogleGoogle pour développer et entraîner leurs propres modèles.
La distillation permet d’entraîner une IA à moindres frais
DeepSeek aurait réalisé des économies substantielles grâce à un processus de distillationdistillation, où un modèle apprend directement d’un autre modèle. En l’occurrence, OpenAI l’accuse d’avoir utilisé ChatGPT pour entraîner ses modèles, enfreignant les conditions d’utilisation du chatbotchatbot. Selon certains experts, les réponses données par le modèle V3 de DeepSeek indiquent qu’il aurait été entraîné sur des réponses de GPT-4GPT-4 d’OpenAI. De plus, MicrosoftMicrosoft et OpenAI avaient enquêté l’année dernière sur des comptes qu’ils ont attribués à DeepSeek et qui semblaient être utilisés pour la distillation, avant de les bloquer.
OpenAI indique avoir engagé des contremesures pour protéger sa propriété intellectuelle, ce qui est assez ironique étant donné que l’entreprise est elle-même accusée de violation du droit d’auteur. L’entreprise est notamment poursuivie en justice par le New York Times ainsi que par plusieurs auteurs, qui l’accusent d’avoir entraîné ChatGPTChatGPT en utilisant leur travail sans leur consentement…