🔄 Mis à jour le 16 février 2026

DeepSeek : L’IA Open-Source Chinoise qui Rivalise avec GPT-5

En janvier 2026, DeepSeek R1 a été l’application #1 sur l’App Store et Google Play dans des dizaines de pays. Son secret : des performances comparables à GPT-5 pour 10 à 30 fois moins cher, un modèle entièrement open-source sous licence MIT, et un coût d’entraînement de seulement 5,6 millions de dollars (contre 50-100M$ estimés pour GPT-4). Ce guide explique tout sur DeepSeek : modèles, architecture, prix, et comment l’utiliser.

671BParamètres (37B actifs)
5,6M$Coût d’entraînement V3
96%Score AIME 2025
10-30×Moins cher que GPT-5

1. Qu’est-ce que DeepSeek ?

DeepSeek est un laboratoire d’IA chinois fondé par Liang Wenfeng, également fondateur du fonds d’investissement quantitatif High-Flyer. Basé à Hangzhou, DeepSeek est autofinancé par High-Flyer, sans investisseurs externes. Le laboratoire a été fondé début 2023, mais c’est en janvier 2026 avec la sortie de R1 qu’il est devenu un acteur mondial de premier plan.

DeepSeek se distingue par trois principes : des modèles entièrement open-source (licence MIT, pas juste « open-weights »), des innovations architecturales qui réduisent drastiquement les coûts, et des performances de pointe sur les benchmarks de raisonnement mathématique et de coding.

2. Les modèles DeepSeek : V3, R1 et V3.2

Modèle Date Type Paramètres Spécialité
DeepSeek V3 Déc. 2024 Base + Chat 671B (37B actifs) Modèle généraliste, base pour R1
DeepSeek R1 Jan. 2026 Raisonnement 671B (37B actifs) Raisonnement avancé avec chaîne de pensée visible
R1 Distilled Jan. 2026 Raisonnement léger 1.5B → 70B Versions compactes pour usage local
DeepSeek V3.1 2025 Hybride 671B (37B actifs) Raisonnement intégré (mode hybride)
DeepSeek V3.2 Fin 2025 Hybride 671B (37B actifs) Meilleur modèle global, rival de GPT-5
💡 V3 vs R1 en résumé : V3 est le modèle de base (généraliste, rapide). R1 est le modèle de raisonnement (plus lent, montre sa réflexion étape par étape). V3.2 fusionne les deux approches dans un modèle hybride qui peut basculer entre mode rapide et mode raisonnement.

3. Architecture : pourquoi c’est si bon marché

Mixture-of-Experts (MoE)

DeepSeek V3 utilise 671 milliards de paramètres au total, mais seulement 37 milliards sont activés par token. Le modèle est divisé en 256 « experts » spécialisés, et seuls 8 sont activés pour chaque requête. Imaginez un hôpital : au lieu que chaque médecin examine chaque patient, un système de triage oriente vers le spécialiste approprié.

Résultat : les performances d’un modèle de 671B paramètres avec le coût de calcul d’un modèle beaucoup plus petit.

Multi-Head Latent Attention (MLA)

MLA compresse les vecteurs clé-valeur dans un espace de dimension réduite avant de les stocker en cache. Cela réduit l’empreinte mémoire d’environ 75% par rapport à l’attention standard, permettant des contextes plus longs à moindre coût.

DeepSeek Sparse Attention (DSA)

Introduite dans V3.2, DSA identifie quels tokens nécessitent réellement de l’attention et ignore les paires non pertinentes. Là où l’attention standard calcule 128 000² = 16 milliards d’opérations pour un contexte de 128K tokens, DSA saute les calculs inutiles.

Entraînement FP8

DeepSeek a été le premier à valider l’entraînement en précision FP8 sur un modèle de 671B paramètres. Cela réduit la consommation mémoire et le temps de calcul, permettant d’entraîner V3 pour seulement 2,788 millions d’heures GPU H800 (5,6M$).

4. DeepSeek R1 : le modèle de raisonnement

R1 est construit sur V3 avec un entraînement supplémentaire par reinforcement learning à grande échelle (méthode GRPO). Sa particularité : il expose son processus de réflexion complet dans des balises

 

, permettant de voir chaque étape du raisonnement avant la réponse finale.

R1-Zero : l’expérience fondatrice

Avant R1, DeepSeek a créé R1-Zero : un modèle entraîné uniquement par reinforcement learning, sans fine-tuning supervisé. R1-Zero a appris à raisonner entièrement par essai-erreur, démontrant que le RL seul peut produire des capacités de raisonnement émergentes. Mais il souffrait de répétitions et de problèmes de lisibilité.

R1 a corrigé ces défauts avec un pipeline multi-étapes incluant des données de « cold-start » pour le fine-tuning avant le RL.

Benchmarks R1

Benchmark DeepSeek R1 GPT-4 o1 Verdict
AIME 2024 96,3% 79,2% R1 largement devant
MATH-500 ≈ o1 Référence Parité
Coding (SWE-bench) Compétitif Compétitif Comparable

Modèles distillés

DeepSeek a aussi publié des versions compactes de R1, entraînées sur les exemples de raisonnement du grand modèle : R1 Distilled Qwen 1.5B, 7B, 14B, 32B et Llama 70B. Le Llama 70B distillé surpasse GPT-4o sur les tâches de maths et rivalise avec o1-mini en coding.

5. Tarification : le grand avantage

Modèle Input ($/M tokens) Output ($/M tokens) Cache hit
DeepSeek V3 / V3.2 $0,27 $1,10 $0,07
DeepSeek R1 $0,55 $2,19 $0,14
R1 Distilled 70B $0,03
GPT-5 (comparaison) $2,50 $10,00
Claude Opus 4.5 (comparaison) $15,00 $75,00
📊 En pratique : Un traitement de 100K tokens en entrée + 100K tokens en sortie coûte environ 0,07$ avec DeepSeek V3, contre 1,13$ avec GPT-5 et 5,50$ avec GPT-4. C’est 10 à 30 fois moins cher.

6. DeepSeek vs GPT-5 vs Claude vs Gemini

Critère DeepSeek V3.2 GPT-5 Claude Opus 4.5 Gemini 3 Pro
AIME 2025 96,0% 94,6% 95,0%
Prix input $0,027/M $2,50/M $15/M ~$1,25/M
Open-source ✅ MIT
Self-hosting
Contexte 128K 128K 200K 1M
Multimodal Texte seul (Janus pour vision)
Coding Excellent Excellent #1 Très bon

7. Comment utiliser DeepSeek

🌐
Chat web
chat.deepseek.com — Interface gratuite, similaire à ChatGPT. Mode standard et mode « Deep Think » (R1).
📱
App mobile
App iOS et Android. #1 sur les stores en janvier 2026.
🔌
API
API compatible OpenAI. Changez l’URL de base et le nom du modèle dans votre code existant. deepseek-chat = V3, deepseek-reasoner = R1.
💻
Self-hosting
Modèles disponibles sur Hugging Face (685B). Nécessite des GPUs puissantes. Frameworks : vLLM, SGLang, LightLLM. Support AMD et Huawei Ascend.
🏠
Ollama (local)
Les modèles distillés (1.5B à 70B) tournent sur Ollama, sur votre PC. Consultez notre guide Ollama & DeepSeek R1.
🛠️
Dans un IDE
Utilisable via API dans Cursor, Windsurf, ou tout IDE supportant les modèles personnalisés.

8. Limites et controverses

Censure : Comme toutes les IA chinoises, DeepSeek est soumis aux régulations locales. Les sujets politiquement sensibles (Tiananmen, Tibet, Taïwan, critique du PCC) sont filtrés ou évités. Cela s’applique à l’API officielle et au chat — mais pas aux modèles self-hosted, où vous contrôlez le comportement.

Texte uniquement : Les modèles principaux (V3, R1) ne gèrent que le texte. DeepSeek a un modèle vision séparé (Janus) qui n’est pas intégré dans les modèles de raisonnement.

Stabilité : Après le succès viral de R1, DeepSeek a subi des pannes, des attaques DDoS, et a dû restreindre les inscriptions et limiter l’usage de l’API.

Ressources pour self-hosting : Le modèle complet (671B) nécessite un cluster de GPUs conséquent. Les modèles distillés (7B-70B) sont plus accessibles mais moins performants.

⚠️ Souveraineté des données : Si vos données ne doivent pas transiter par la Chine, privilégiez le self-hosting avec les poids open-source. L’API DeepSeek est hébergée sur des serveurs chinois et soumise aux lois locales.

9. Roadmap 2026 : agent autonome et R2

Selon Bloomberg et ZDNet, DeepSeek prépare un agent IA entièrement autonome pour fin 2026. En août 2025, DeepSeek a annoncé que V3 était la « première étape vers l’ère agentique », avec des fonctionnalités de mémoire et de planification déjà intégrées.

Un modèle R2 dédié au raisonnement avancé est également attendu, construit sur les innovations de V3.2. Le gouvernement chinois a investi 8,4 milliards de dollars dans les startups IA pratiques début 2026, et DeepSeek est intégré dans les expériences de « smart cities » comme Xiong’an.

10. FAQ

❓ Questions fréquentes
DeepSeek est-il vraiment open-source ?
Oui. DeepSeek V3 et R1 sont publiés sous licence MIT, la licence open-source la plus permissive. Vous pouvez télécharger, modifier, et utiliser les modèles commercialement sans restriction. Les poids sont sur Hugging Face.
DeepSeek est-il meilleur que ChatGPT ?
Sur le raisonnement mathématique, oui : R1 surpasse GPT-4 o1 sur AIME (96,3% vs 79,2%). V3.2 rivalise avec GPT-5 sur la plupart des benchmarks. En revanche, GPT-5 est meilleur en multimodal (vision, audio) et dispose d’un écosystème plus mature (plugins, intégrations).
Peut-on utiliser DeepSeek en France ?
Oui. Le chat web, l’app mobile et l’API sont accessibles depuis la France. Pour la souveraineté des données, vous pouvez self-host les modèles (open-source MIT) sur vos propres serveurs ou utiliser des hébergeurs européens.
Peut-on faire tourner DeepSeek sur son PC ?
Le modèle complet (671B) nécessite un cluster de GPUs. Mais les modèles distillés (1.5B, 7B, 14B, 32B, 70B) tournent sur un PC classique via Ollama. Le 7B fonctionne avec 8 Go de RAM, le 14B avec 16 Go. Consultez notre guide Ollama & DeepSeek R1.
Quelle est la différence entre V3 et R1 ?
V3 est le modèle généraliste (rapide, économique). R1 est le modèle de raisonnement (plus lent, montre sa réflexion, meilleur sur les tâches complexes). V3.2 combine les deux dans un modèle hybride. Sur l’API, deepseek-chat = V3 et deepseek-reasoner = R1.

DeepSeek — Guide en français (février 2026)