Démystifier DeepSeek-R1, le modèle chinois qui a choqué l'industrie de l'IA

Cet article fait partie de Démystifier l'IA, une série d'articles qui (tentent de) clarifier le jargon et les mythes entourant l'IA.

Depuis sa sortie, DeepSeek-R1 a provoqué une onde de choc dans l'industrie de l'IA, créant de l'enthousiasme dans la communauté open source et de la panique parmi les principaux laboratoires d'IA. Cependant, il y a aussi beaucoup de confusion autour du modèle, de ce qu'il fait et de la façon dont il a été entrainé. Voici un bref aperçu de ce que vous devez savoir sur cette sortie marquante.

Qu'est-ce que DeepSeek-R1 et qu'est-ce qui rend ce modèle chinois aussi spécial ?

R1 est un modèle de grand raisonnement (LRM Large Reasoning Model) développé par DeepSeek, un laboratoire d'IA appartenant au fonds spéculatif chinois High-Flyer. R1 a été construit sur DeepSeek-V3, un modèle de langage à usage général (LLM) qui rivalise avec des modèles de pointe tels que GPT-4o d'OpenAI et Claude 3.5 Sonnet d'Anthropic.

Le modèle R1 principal est un modèle de mélange d'experts (MoE Mixture of Experts) de 671 milliards de paramètres, ce qui signifie que pour une tâche donnée, il n'utilise qu'un sous-ensemble de ses paramètres pertinents pour cette tâche. À l'opposé du MoE, il existe des « modèles denses », qui utilisent tous leurs paramètres pour chaque génération. MoE rend les LLM plus économes en ressources.

Une chose qui distingue R1 des autres modèles, c'est la façon dont elle a été formée. L’état de l’art pour affiner les LLM sur des tâches de raisonnement est de les entraîner sur un grand ensemble de traces de chaîne de pensée (CoT Chain of Thoughts). Les traces CoT sont le processus détaillé par lequel le modèle passe lorsqu'il résout un problème. Dans la plupart des cas, les ingénieurs s'appuient sur un grand nombre de traces CoT générées par l'homme pour commencer l'entraînement. C'est ce qu'on appelle souvent le réglage fin supervisé (SFT). Ils utilisent ensuite l'apprentissage par renforcement (RL), où le modèle génère son propre CoT et évalue sa qualité.

L'équipe de DeepSeek a compris qu'elle pouvait sauter l'étape SFT et est passée directement à RL. Il s'est avéré que le modèle pouvait devenir tout aussi bon pour apprendre le raisonnement CoT sans données humaines. C'est la méthode utilisée sur DeepSeek-R1-Zero, une variante du modèle qui est sorti en même temps que R1. R1 s'appuie sur R1-Zero, mais utilise SFT sur un petit ensemble d'exemples de CoT de haute qualité pour rendre le processus de raisonnement plus compréhensible. Il s'avère que R1-Zero est plus performant que R1 dans les tâches de raisonnement, bien que sa trace CoT soit un peu moins interprétable et qu’il passe souvent d’une langue à une autre lorsqu'il raisonne sur un problème.

À lors d'aujourd'hui, R1 et R1-Zero sont compétitif par rapport aux meilleurs modèles de raisonnement, y compris o1 et o3-mini. Selon le rapport de DeepSeek, R1 est juste derrière o1 sur les principaux tests de référence en raisonnement.

comparaison DeepSeek R1 OpenAI o1 sur différents benchmarks

Mais plus important encore, R1 révèle sa chaîne de raisonnement complète tandis que o1 ne montre qu'une vue d'ensemble de haut niveau du processus de raisonnement. Dans mes expériences, j'ai constaté que c'était un facteur de différenciation clé. Lorsque le modèle fait des erreurs (ce qui arrive souvent dans les applications du monde réel), il est crucial de pouvoir examiner le CoT pour dépanner et corriger l'invite et les données. (O3-Mini a récemment commencé à montrer une version plus détaillée de la chaîne de raisonnement, mais il ne montre toujours pas les jetons bruts.)

Combien cela a-t-il coûté pour entrainer DeepSeek-R1 ?

L'une des plus grandes controverses autour de DeepSeek-R1 est le coût d’entrainement. Il a d'abord été rapporté par les médias que ce modèle avait été formé pour moins de 6 millions de dollars, par opposition aux milliards de dollars qui ont été précédemment rapporté pour entrainer des modèles de pointe.

Mais ce chiffre ne représente que le coût de la dernière étape de l'entraînement. L'entraînement des modèles nécessite beaucoup d'expérimentation à différentes échelles, ce qui est plusieurs fois plus coûteux que l'entraînement final. De plus, ce chiffre n'inclut pas d'autres coûts tels que la recherche et le développement et l'acquisition de données.

Il n'y a pas non plus beaucoup de transparence sur le cluster de calcul utilisé pour entraîner le modèle. Selon DeepSeek, le modèle a été entraîné sur un cluster de 2 048 GPU Nvidia H800. Mais d'autres rapports suggèrent que DeepSeek aurait pu acquérir jusqu'à 50 000 GPU H100 malgré les restrictions à l'exportation des États-Unis.

Néanmoins, il est clair que DeepSeek a entraîné son modèle à un coût bien inférieur à celui d'autres modèles de pointe. En raison des restrictions et de l'accès limité aux accélérateurs à large bande passante, les chercheurs et les ingénieurs ont fait beaucoup d'innovations pour utiliser plus efficacement leur matériel existant. Certaines d'entre elles incluent un code de bas niveau qui fait un meilleur usage du matériel, ainsi que l’architecture MoE et un mécanisme d'attention plus efficace.

DeepSeek-R1 a-t-il volé des données d'OpenAI ?

Plusieurs affirmations sur les réseaux sociaux disaient que DeepSeek-R1 avait été formé sur des données volées à OpenAI via son service API. Certaines de ces affirmations sont basées sur des captures d'écran qui montrent R1 répondant aux utilisateurs qu'il s'agit de GPT-4o ou d'un autre modèle OpenAI.

Il convient de noter que R1 (et de nombreux autres modèles) sont entraînés sur Common Crawl, un très grand dépôt de texte collecté à partir de différentes sources sur le Web. Ce référentiel est régulièrement mis à jour, et une partie du texte qu'il contient est désormais générée par des LLM tels que GPT-4o et comprend des extraits tels que « Je suis GPT-4o » ou « J'ai été formé par OpenAI ». Il est donc naturel qu'un modèle entraîné sur Common Crawl manifeste un tel comportement à moins qu'il n'ait subi un processus post-entraînement spécial.

Un autre point qui mérite d'être mentionné est que, puisque OpenAI ne révèle pas la trace CoT de ses modèles de raisonnement, il ne serait pas possible pour DeepSeek de créer un ensemble de données d'entraînement via un accès direct à son API.

Néanmoins, OpenAI et Microsoft ont affirmé qu'il existe des preuves que DeepSeek a collecté des données en masse à partir de ces API. Le jury n'a donc pas encore d’élément tranché sur ce qui s'est réellement passé dans les coulisses.

DeepSeek-R1 est-il open source ?

DeepSeek a publié les poids pour R1 et R1-Zero, y compris le modèle 671B complet, ainsi que des versions distillées plus petites. N'importe qui peut télécharger et exécuter les modèles sur ses serveurs. La version comprend également des modèles 1.5-8B qui peuvent fonctionner sur des machines plus frustres, vous donnant des modèles de raisonnement tournant sur votre téléphone ou votre ordinateur portable.

R1 est également livré avec une licence MIT permissive, qui vous permet de l'utiliser à des fins commerciales. Perplexity l'a déjà intégré dans son produit de recherche d'IA, et des fournisseurs cloud tels que Fireworks, Together AI et Microsoft Azure l'ont ajouté à leurs offres de modèles hébergés. Et déjà, des centaines de dérivés de R1 ont été publiés sur Hugging Face.

Cependant, les poids ouverts ne signifient pas « open source ». DeepSeek n'a pas publié ni les données ni le code d'entraînement pour R1. Cependant, compte tenu des détails qu'ils ont inclus dans leur article, d'autres chercheurs tentent de reproduire les résultats. Un exemple notable est Open R1 de l'équipe Hugging Face, qui prévoit de développer une version entièrement open source de R1 basée sur leur article.

DeepSeek-R1 vole-t-il vos informations ?

Si vous utilisez l'application DeepSeek, le site Web ou le modèle R1 hébergé sur des serveurs chinois, vous pouvez vous attendre à ce que vos données soient exploitées par l'entreprise et éventuellement remises au gouvernement chinois. (D'ailleurs, lorsque vous utilisez OpenAI, Perplexity ou toute autre application, vous devez également faire attention aux données que vous partagez avec le fournisseur.)

Mais lorsque vous téléchargez le modèle et que vous l'exécutez sur votre serveur ou votre appareil, vous contrôlez les données. Cependant, vous devez toujours faire attention au comportement du modèle, même si vous l'hébergez. Par exemple, un modèle peut être empoisonné pendant l'entraînement pour générer un code malveillant qui siphonne vos données en réponse à des invites spécifiques. Vous devez être prudent et examiner la sortie du modèle avant d'entreprendre toute action dessus, surtout s'il s'agit de code (et cela ne se limite pas à R1).

Remerciements

Cet article est la traduction française la plus fidèle possible de «Demystifying DeepSeek-R1, the model that shocked the AI industry» avec l'aimable permission de son auteur Ben Dickson