🔄 Mis à jour le 16 février 2026
DeepSeek : L’IA Open-Source Chinoise qui Rivalise avec GPT-5
En janvier 2026, DeepSeek R1 a été l’application #1 sur l’App Store et Google Play dans des dizaines de pays. Son secret : des performances comparables à GPT-5 pour 10 à 30 fois moins cher, un modèle entièrement open-source sous licence MIT, et un coût d’entraînement de seulement 5,6 millions de dollars (contre 50-100M$ estimés pour GPT-4). Ce guide explique tout sur DeepSeek : modèles, architecture, prix, et comment l’utiliser.
- Qu’est-ce que DeepSeek ?
- Les modèles DeepSeek : V3, R1 et V3.2
- Architecture : pourquoi c’est si bon marché
- DeepSeek R1 : le modèle de raisonnement
- Tarification : le grand avantage
- DeepSeek vs GPT-5 vs Claude vs Gemini
- Comment utiliser DeepSeek
- Limites et controverses
- Roadmap 2026 : agent autonome et R2
- FAQ
1. Qu’est-ce que DeepSeek ?
DeepSeek est un laboratoire d’IA chinois fondé par Liang Wenfeng, également fondateur du fonds d’investissement quantitatif High-Flyer. Basé à Hangzhou, DeepSeek est autofinancé par High-Flyer, sans investisseurs externes. Le laboratoire a été fondé début 2023, mais c’est en janvier 2026 avec la sortie de R1 qu’il est devenu un acteur mondial de premier plan.
DeepSeek se distingue par trois principes : des modèles entièrement open-source (licence MIT, pas juste « open-weights »), des innovations architecturales qui réduisent drastiquement les coûts, et des performances de pointe sur les benchmarks de raisonnement mathématique et de coding.
2. Les modèles DeepSeek : V3, R1 et V3.2
| Modèle | Date | Type | Paramètres | Spécialité |
|---|---|---|---|---|
| DeepSeek V3 | Déc. 2024 | Base + Chat | 671B (37B actifs) | Modèle généraliste, base pour R1 |
| DeepSeek R1 | Jan. 2026 | Raisonnement | 671B (37B actifs) | Raisonnement avancé avec chaîne de pensée visible |
| R1 Distilled | Jan. 2026 | Raisonnement léger | 1.5B → 70B | Versions compactes pour usage local |
| DeepSeek V3.1 | 2025 | Hybride | 671B (37B actifs) | Raisonnement intégré (mode hybride) |
| DeepSeek V3.2 | Fin 2025 | Hybride | 671B (37B actifs) | Meilleur modèle global, rival de GPT-5 |
3. Architecture : pourquoi c’est si bon marché
Mixture-of-Experts (MoE)
DeepSeek V3 utilise 671 milliards de paramètres au total, mais seulement 37 milliards sont activés par token. Le modèle est divisé en 256 « experts » spécialisés, et seuls 8 sont activés pour chaque requête. Imaginez un hôpital : au lieu que chaque médecin examine chaque patient, un système de triage oriente vers le spécialiste approprié.
Résultat : les performances d’un modèle de 671B paramètres avec le coût de calcul d’un modèle beaucoup plus petit.
Multi-Head Latent Attention (MLA)
MLA compresse les vecteurs clé-valeur dans un espace de dimension réduite avant de les stocker en cache. Cela réduit l’empreinte mémoire d’environ 75% par rapport à l’attention standard, permettant des contextes plus longs à moindre coût.
DeepSeek Sparse Attention (DSA)
Introduite dans V3.2, DSA identifie quels tokens nécessitent réellement de l’attention et ignore les paires non pertinentes. Là où l’attention standard calcule 128 000² = 16 milliards d’opérations pour un contexte de 128K tokens, DSA saute les calculs inutiles.
Entraînement FP8
DeepSeek a été le premier à valider l’entraînement en précision FP8 sur un modèle de 671B paramètres. Cela réduit la consommation mémoire et le temps de calcul, permettant d’entraîner V3 pour seulement 2,788 millions d’heures GPU H800 (5,6M$).
4. DeepSeek R1 : le modèle de raisonnement
R1 est construit sur V3 avec un entraînement supplémentaire par reinforcement learning à grande échelle (méthode GRPO). Sa particularité : il expose son processus de réflexion complet dans des balises
, permettant de voir chaque étape du raisonnement avant la réponse finale.
R1-Zero : l’expérience fondatrice
Avant R1, DeepSeek a créé R1-Zero : un modèle entraîné uniquement par reinforcement learning, sans fine-tuning supervisé. R1-Zero a appris à raisonner entièrement par essai-erreur, démontrant que le RL seul peut produire des capacités de raisonnement émergentes. Mais il souffrait de répétitions et de problèmes de lisibilité.
R1 a corrigé ces défauts avec un pipeline multi-étapes incluant des données de « cold-start » pour le fine-tuning avant le RL.
Benchmarks R1
| Benchmark | DeepSeek R1 | GPT-4 o1 | Verdict |
|---|---|---|---|
| AIME 2024 | 96,3% | 79,2% | R1 largement devant |
| MATH-500 | ≈ o1 | Référence | Parité |
| Coding (SWE-bench) | Compétitif | Compétitif | Comparable |
Modèles distillés
DeepSeek a aussi publié des versions compactes de R1, entraînées sur les exemples de raisonnement du grand modèle : R1 Distilled Qwen 1.5B, 7B, 14B, 32B et Llama 70B. Le Llama 70B distillé surpasse GPT-4o sur les tâches de maths et rivalise avec o1-mini en coding.
5. Tarification : le grand avantage
| Modèle | Input ($/M tokens) | Output ($/M tokens) | Cache hit |
|---|---|---|---|
| DeepSeek V3 / V3.2 | $0,27 | $1,10 | $0,07 |
| DeepSeek R1 | $0,55 | $2,19 | $0,14 |
| R1 Distilled 70B | $0,03 | — | — |
| GPT-5 (comparaison) | $2,50 | $10,00 | — |
| Claude Opus 4.5 (comparaison) | $15,00 | $75,00 | — |
6. DeepSeek vs GPT-5 vs Claude vs Gemini
| Critère | DeepSeek V3.2 | GPT-5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| AIME 2025 | 96,0% | 94,6% | — | 95,0% |
| Prix input | $0,027/M | $2,50/M | $15/M | ~$1,25/M |
| Open-source | ✅ MIT | ❌ | ❌ | ❌ |
| Self-hosting | ✅ | ❌ | ❌ | ❌ |
| Contexte | 128K | 128K | 200K | 1M |
| Multimodal | Texte seul (Janus pour vision) | ✅ | ✅ | ✅ |
| Coding | Excellent | Excellent | #1 | Très bon |
7. Comment utiliser DeepSeek
deepseek-chat = V3, deepseek-reasoner = R1.8. Limites et controverses
Censure : Comme toutes les IA chinoises, DeepSeek est soumis aux régulations locales. Les sujets politiquement sensibles (Tiananmen, Tibet, Taïwan, critique du PCC) sont filtrés ou évités. Cela s’applique à l’API officielle et au chat — mais pas aux modèles self-hosted, où vous contrôlez le comportement.
Texte uniquement : Les modèles principaux (V3, R1) ne gèrent que le texte. DeepSeek a un modèle vision séparé (Janus) qui n’est pas intégré dans les modèles de raisonnement.
Stabilité : Après le succès viral de R1, DeepSeek a subi des pannes, des attaques DDoS, et a dû restreindre les inscriptions et limiter l’usage de l’API.
Ressources pour self-hosting : Le modèle complet (671B) nécessite un cluster de GPUs conséquent. Les modèles distillés (7B-70B) sont plus accessibles mais moins performants.
9. Roadmap 2026 : agent autonome et R2
Selon Bloomberg et ZDNet, DeepSeek prépare un agent IA entièrement autonome pour fin 2026. En août 2025, DeepSeek a annoncé que V3 était la « première étape vers l’ère agentique », avec des fonctionnalités de mémoire et de planification déjà intégrées.
Un modèle R2 dédié au raisonnement avancé est également attendu, construit sur les innovations de V3.2. Le gouvernement chinois a investi 8,4 milliards de dollars dans les startups IA pratiques début 2026, et DeepSeek est intégré dans les expériences de « smart cities » comme Xiong’an.
10. FAQ
deepseek-chat = V3 et deepseek-reasoner = R1.📊 Comparatif LLM 2026
🌙 Kimi K2.5
🤖 Claude Code
🧠 Agents IA
💻 Vibe Coding
🏠 Hub Programmation
DeepSeek — Guide en français (février 2026)

