🔄 Mis à jour le 16 février 2026
Ollama & DeepSeek R1 : Faire Tourner une IA Hors-Ligne sur Votre PC 🖥️
Pourquoi envoyer vos données à un serveur distant quand vous pouvez faire tourner une IA 100% locale, gratuite et hors-ligne ? Ollama rend l'installation d'un LLM aussi simple qu'une commande terminal. Combiné à DeepSeek R1 (le modèle de raisonnement qui bat GPT-4 o1 en maths), vous obtenez un assistant IA privé qui ne coûte rien en API et qui ne dort jamais.
- Qu'est-ce qu'Ollama ?
- Installation en 2 minutes
- DeepSeek R1 : quel modèle choisir ?
- Config matérielle requise
- Premier chat avec DeepSeek R1
- Personnaliser avec un Modelfile
- L'API locale : intégrer dans vos projets
- Intégrations : OpenClaw, Cursor, Open WebUI
- Autres modèles à essayer
- Astuces et optimisations
- FAQ
1. Qu'est-ce qu'Ollama ?
Ollama est un outil open-source (100K+ stars GitHub) qui permet de télécharger et exécuter des modèles de langage (LLM) directement sur votre machine. Au lieu d'envoyer vos données à un serveur cloud, tout tourne en local. Son design s'inspire de Docker : vous « pull » un modèle par nom, vous le « run » avec une seule commande, et il expose une API REST locale compatible OpenAI sur le port 11434.
2. Installation en 2 minutes
1 Installer Ollama
# macOS / Linux (une seule commande)
curl -fsSL https://ollama.com/install.sh | sh
# Windows : téléchargez l'installeur depuis ollama.com/download
# Ou via winget :
winget install Ollama.Ollama
2 Vérifier l'installation
ollama --version
# → ollama version 0.X.XX
3 Télécharger et lancer un modèle
# Télécharger DeepSeek R1 (7B, ~4.7 Go)
ollama pull deepseek-r1:7b
# Lancer un chat interactif
ollama run deepseek-r1:7b
3. DeepSeek R1 : quel modèle choisir ?
DeepSeek R1 est disponible en version complète (671B paramètres, inaccessible sur hardware grand public) et en versions distillées de 1.5B à 70B. Ces modèles compacts sont entraînés sur les exemples de raisonnement du grand modèle et conservent une grande partie de ses capacités.
| Modèle | VRAM GPU | RAM CPU | Disque | Vitesse | Qualité |
|---|---|---|---|---|---|
deepseek-r1:1.5b |
~1 Go | ~4 Go | ~1 Go | ⚡⚡⚡⚡⚡ | ⭐⭐ |
deepseek-r1:7b |
~4 Go | ~8 Go | ~4.7 Go | ⚡⚡⚡⚡ | ⭐⭐⭐ |
deepseek-r1:14b |
~8 Go | ~16 Go | ~9 Go | ⚡⚡⚡ | ⭐⭐⭐⭐ |
deepseek-r1:32b |
~18 Go | ~32 Go | ~20 Go | ⚡⚡ | ⭐⭐⭐⭐⭐ |
deepseek-r1:70b |
~40 Go | ~64 Go | ~43 Go | ⚡ | ⭐⭐⭐⭐⭐ |
4. Config matérielle requise
| Configuration | Modèle recommandé | Expérience |
|---|---|---|
| Laptop 8 Go RAM (pas de GPU dédié) | 1.5B ou 7B (CPU) | Lent mais fonctionnel (5-10× plus lent qu'avec GPU) |
| PC 16 Go RAM + GPU 8 Go (RTX 3060/4060) | 7B ou 14B | Bonne : 25-50 tokens/sec sur le 7B |
| PC 32 Go RAM + GPU 12 Go (RTX 4070) | 14B | Très bonne : conversation fluide |
| PC + RTX 4090 24 Go | 32B | Excellente : proche de o1-mini |
| Mac M1/M2/M3 16 Go (mémoire unifiée) | 7B ou 14B | Très bonne (GPU Apple optimisé) |
| Mac M2/M3/M4 Pro/Max 32-96 Go | 32B ou 70B | Excellente (mémoire unifiée = idéal pour LLM) |
5. Premier chat avec DeepSeek R1
# Lancer le chat interactif
ollama run deepseek-r1:14b
# Vous voyez un prompt >>> où taper vos questions :
>>> Résous l'équation : 3x² - 12x + 9 = 0
# R1 affiche sa réflexion dans des balises ...
# puis donne la réponse finale.
# Tapez /bye pour quitter.
Les balises
…
montrent le raisonnement interne du modèle — c'est la spécificité de R1. La plupart des interfaces (Open WebUI, etc.) peuvent les masquer si vous préférez ne voir que la réponse finale.
Commandes Ollama essentielles
| Commande | Description |
|---|---|
ollama pull |
Télécharger un modèle |
ollama run |
Lancer un chat interactif |
ollama list |
Lister les modèles installés |
ollama show |
Détails du modèle (taille, paramètres) |
ollama rm |
Supprimer un modèle |
ollama serve |
Démarrer le serveur API (port 11434) |
6. Personnaliser avec un Modelfile
Un Modelfile fonctionne comme un Dockerfile : il définit le modèle de base, le prompt système et les paramètres de génération.
# Fichier : Modelfile.assistant
FROM deepseek-r1:14b
SYSTEM """
Tu es un assistant de programmation expert.
Tu réponds toujours en français.
Tu es concis et tu montres du code quand c'est pertinent.
"""
PARAMETER temperature 0.6
PARAMETER num_ctx 16384
PARAMETER top_p 0.95
# Créer le modèle personnalisé
ollama create mon-assistant -f Modelfile.assistant
# L'utiliser
ollama run mon-assistant
7. L'API locale : intégrer dans vos projets
Ollama expose une API REST compatible OpenAI sur http://localhost:11434. Vous pouvez l'utiliser comme un remplacement direct de l'API OpenAI dans votre code existant — changez juste l'URL de base.
cURL
curl http://localhost:11434/api/chat -d ''
Python
from ollama import chat
response = chat(
model='deepseek-r1:14b',
messages=[
]
)
print(response.message.content)
JavaScript / Node.js
import ollama from 'ollama';
const response = await ollama.chat();
console.log(response.message.content);
L'API locale supporte aussi les endpoints OpenAI standards : /v1/chat/completions, /v1/models, /v1/embeddings. Toute bibliothèque compatible OpenAI fonctionne en changeant base_url par http://localhost:11434/v1.
8. Intégrations : OpenClaw, Cursor, Open WebUI
pip install open-webui && open-webui serve. Se connecte automatiquement à Ollama. Masque les balises .9. Autres modèles à essayer
| Modèle | Taille | Spécialité | Commande |
|---|---|---|---|
| Qwen3 | 8B / 32B | Meilleur généraliste local (119 langues) | ollama pull qwen3:8b |
| Llama 4 Scout | 17B actif | Meta, bon en coding et chat | ollama pull llama4 |
| Mistral 7B | 7B | Rapide, léger, bon en français | ollama pull mistral |
| Phi-3 Mini | 3.8B | Ultra-léger, tourne sur tout | ollama pull phi3 |
| Qwen2.5 Coder | 7B / 32B | Spécialisé coding (meilleur que DeepSeek Coder) | ollama pull qwen2.5-coder |
| Gemma 3 | 4B / 12B / 27B | Google, vision + texte | ollama pull gemma3 |
10. Astuces et optimisations
Augmentez num_ctx : Le défaut de 2048 tokens est trop court pour R1. Utilisez un Modelfile avec num_ctx 16384 ou plus.
Température 0.6 : Recommandation officielle DeepSeek. Plus bas = répétitions. Plus haut = incohérence.
Pas de system prompt pour R1 : Contrairement aux autres modèles, R1 performe moins bien avec un prompt système. Mettez vos instructions directement dans le message utilisateur.
Pas de « pense étape par étape » : R1 raisonne déjà en interne via ses balises
. Lui demander explicitement de raisonner étape par étape dégrade la qualité.
Économie de disque : Chaque modèle 7B pèse ~4.7 Go. Supprimez les modèles inutilisés avec ollama rm .
Docker : Ollama est disponible en image Docker pour isoler l'exécution :
docker run -d -v ollama:/root/.ollama \
-p 11434:11434 --name ollama ollama/ollama
11. FAQ
ollama pull, tout fonctionne hors-ligne. C'est l'un des principaux avantages de l'approche locale.🧠 DeepSeek (guide complet)
🦞 Installer OpenClaw
📊 Comparatif LLM 2026
🖱️ Cursor IDE
🤖 Agents IA
🏠 Hub Programmation
Ollama & DeepSeek R1 — Guide en français (février 2026)
Sources : GitHub Ollama · Ollama Library · InsiderLLM

