🔄 Mis à jour le 16 février 2026

Ollama & DeepSeek R1 : Faire Tourner une IA Hors-Ligne sur Votre PC 🖥️

Pourquoi envoyer vos données à un serveur distant quand vous pouvez faire tourner une IA 100% locale, gratuite et hors-ligne ? Ollama rend l'installation d'un LLM aussi simple qu'une commande terminal. Combiné à DeepSeek R1 (le modèle de raisonnement qui bat GPT-4 o1 en maths), vous obtenez un assistant IA privé qui ne coûte rien en API et qui ne dort jamais.

100K+Stars GitHub Ollama
0€/moisCoût API
1 commandePour démarrer
1.5B → 671BTailles de modèles

1. Qu'est-ce qu'Ollama ?

Ollama est un outil open-source (100K+ stars GitHub) qui permet de télécharger et exécuter des modèles de langage (LLM) directement sur votre machine. Au lieu d'envoyer vos données à un serveur cloud, tout tourne en local. Son design s'inspire de Docker : vous « pull » un modèle par nom, vous le « run » avec une seule commande, et il expose une API REST locale compatible OpenAI sur le port 11434.

🔒
Vie privée totale
Aucune donnée ne quitte votre machine. Idéal pour les données sensibles, le code propriétaire, ou les documents confidentiels.
💰
0€ d'API
Pas de coût par token. Le seul coût est l'électricité (~1-2€/jour pour un laptop gaming).
✈️
Fonctionne hors-ligne
Une fois le modèle téléchargé, aucune connexion Internet nécessaire.
Installation simple
Une commande pour installer, une commande pour télécharger un modèle, une commande pour démarrer.

2. Installation en 2 minutes

1 Installer Ollama

# macOS / Linux (une seule commande)
curl -fsSL https://ollama.com/install.sh | sh

# Windows : téléchargez l'installeur depuis ollama.com/download
# Ou via winget :
winget install Ollama.Ollama

2 Vérifier l'installation

ollama --version
# → ollama version 0.X.XX

3 Télécharger et lancer un modèle

# Télécharger DeepSeek R1 (7B, ~4.7 Go)
ollama pull deepseek-r1:7b

# Lancer un chat interactif
ollama run deepseek-r1:7b
✅ C'est tout. En 3 commandes, vous avez une IA de raisonnement qui tourne sur votre PC, gratuitement, sans compte ni clé API.

3. DeepSeek R1 : quel modèle choisir ?

DeepSeek R1 est disponible en version complète (671B paramètres, inaccessible sur hardware grand public) et en versions distillées de 1.5B à 70B. Ces modèles compacts sont entraînés sur les exemples de raisonnement du grand modèle et conservent une grande partie de ses capacités.

Modèle VRAM GPU RAM CPU Disque Vitesse Qualité
deepseek-r1:1.5b ~1 Go ~4 Go ~1 Go ⚡⚡⚡⚡⚡ ⭐⭐
deepseek-r1:7b ~4 Go ~8 Go ~4.7 Go ⚡⚡⚡⚡ ⭐⭐⭐
deepseek-r1:14b ~8 Go ~16 Go ~9 Go ⚡⚡⚡ ⭐⭐⭐⭐
deepseek-r1:32b ~18 Go ~32 Go ~20 Go ⚡⚡ ⭐⭐⭐⭐⭐
deepseek-r1:70b ~40 Go ~64 Go ~43 Go ⭐⭐⭐⭐⭐
💡 Recommandation : Commencez par le 7B pour tester (tourne sur quasiment tout). Le 14B offre le meilleur rapport qualité/vitesse avec 12 Go de VRAM. Le 32B approche les performances de o1-mini et nécessite un GPU RTX 4090 (24 Go). Température recommandée par DeepSeek : 0.6 (0.5 à 0.7).

4. Config matérielle requise

Configuration Modèle recommandé Expérience
Laptop 8 Go RAM (pas de GPU dédié) 1.5B ou 7B (CPU) Lent mais fonctionnel (5-10× plus lent qu'avec GPU)
PC 16 Go RAM + GPU 8 Go (RTX 3060/4060) 7B ou 14B Bonne : 25-50 tokens/sec sur le 7B
PC 32 Go RAM + GPU 12 Go (RTX 4070) 14B Très bonne : conversation fluide
PC + RTX 4090 24 Go 32B Excellente : proche de o1-mini
Mac M1/M2/M3 16 Go (mémoire unifiée) 7B ou 14B Très bonne (GPU Apple optimisé)
Mac M2/M3/M4 Pro/Max 32-96 Go 32B ou 70B Excellente (mémoire unifiée = idéal pour LLM)
⚠️ GPU vs CPU : Sans GPU dédié, le modèle tourne sur le CPU — c'est 5 à 10 fois plus lent. Les Mac Apple Silicon sont une exception : leur mémoire unifiée (partagée CPU/GPU) est excellente pour les LLMs. Un Mac Mini M4 Pro 48 Go (~2000€) fait tourner le 32B confortablement.

5. Premier chat avec DeepSeek R1

# Lancer le chat interactif
ollama run deepseek-r1:14b

# Vous voyez un prompt >>> où taper vos questions :
>>> Résous l'équation : 3x² - 12x + 9 = 0

# R1 affiche sa réflexion dans des balises ...
# puis donne la réponse finale.
# Tapez /bye pour quitter.

Les balises

montrent le raisonnement interne du modèle — c'est la spécificité de R1. La plupart des interfaces (Open WebUI, etc.) peuvent les masquer si vous préférez ne voir que la réponse finale.

Commandes Ollama essentielles

Commande Description
ollama pull Télécharger un modèle
ollama run Lancer un chat interactif
ollama list Lister les modèles installés
ollama show Détails du modèle (taille, paramètres)
ollama rm Supprimer un modèle
ollama serve Démarrer le serveur API (port 11434)

6. Personnaliser avec un Modelfile

Un Modelfile fonctionne comme un Dockerfile : il définit le modèle de base, le prompt système et les paramètres de génération.

# Fichier : Modelfile.assistant
FROM deepseek-r1:14b

SYSTEM """
Tu es un assistant de programmation expert.
Tu réponds toujours en français.
Tu es concis et tu montres du code quand c'est pertinent.
"""

PARAMETER temperature 0.6
PARAMETER num_ctx 16384
PARAMETER top_p 0.95
# Créer le modèle personnalisé
ollama create mon-assistant -f Modelfile.assistant

# L'utiliser
ollama run mon-assistant
💡 num_ctx : Ollama utilise 2048 tokens par défaut — insuffisant pour un modèle de raisonnement dont les chaînes de pensée dépassent facilement cette limite. Passez à 8192 minimum, idéalement 16384. Augmente la consommation mémoire mais améliore fortement la qualité.

7. L'API locale : intégrer dans vos projets

Ollama expose une API REST compatible OpenAI sur http://localhost:11434. Vous pouvez l'utiliser comme un remplacement direct de l'API OpenAI dans votre code existant — changez juste l'URL de base.

cURL

curl http://localhost:11434/api/chat -d ''

Python

from ollama import chat

response = chat(
    model='deepseek-r1:14b',
    messages=[
        
    ]
)
print(response.message.content)

JavaScript / Node.js

import ollama from 'ollama';

const response = await ollama.chat();
console.log(response.message.content);

L'API locale supporte aussi les endpoints OpenAI standards : /v1/chat/completions, /v1/models, /v1/embeddings. Toute bibliothèque compatible OpenAI fonctionne en changeant base_url par http://localhost:11434/v1.

8. Intégrations : OpenClaw, Cursor, Open WebUI

🦞
OpenClaw
Sélectionnez « Local Ollama » pendant l'onboarding. Votre agent WhatsApp/Telegram tourne 100% local, sans aucune fuite de données vers le cloud. Guide OpenClaw →
🖱️
Open WebUI
Interface web locale type ChatGPT. pip install open-webui && open-webui serve. Se connecte automatiquement à Ollama. Masque les balises .
💻
Cursor / Windsurf
Ajoutez Ollama comme fournisseur de modèle personnalisé dans les paramètres de l'IDE. Autocomplétion 100% locale. Guide Cursor →
🐍
LangChain / LlamaIndex
Utilisez Ollama comme LLM provider dans vos pipelines RAG ou agents. Compatible via l'API OpenAI standard.

9. Autres modèles à essayer

Modèle Taille Spécialité Commande
Qwen3 8B / 32B Meilleur généraliste local (119 langues) ollama pull qwen3:8b
Llama 4 Scout 17B actif Meta, bon en coding et chat ollama pull llama4
Mistral 7B 7B Rapide, léger, bon en français ollama pull mistral
Phi-3 Mini 3.8B Ultra-léger, tourne sur tout ollama pull phi3
Qwen2.5 Coder 7B / 32B Spécialisé coding (meilleur que DeepSeek Coder) ollama pull qwen2.5-coder
Gemma 3 4B / 12B / 27B Google, vision + texte ollama pull gemma3
💡 Stratégie optimale : Utilisez Qwen3 pour les tâches quotidiennes (chat, écriture, coding) et DeepSeek R1 quand vous avez besoin de raisonnement avancé (maths, logique complexe, résolution de problèmes). Les deux coexistent sans conflit.

10. Astuces et optimisations

Augmentez num_ctx : Le défaut de 2048 tokens est trop court pour R1. Utilisez un Modelfile avec num_ctx 16384 ou plus.

Température 0.6 : Recommandation officielle DeepSeek. Plus bas = répétitions. Plus haut = incohérence.

Pas de system prompt pour R1 : Contrairement aux autres modèles, R1 performe moins bien avec un prompt système. Mettez vos instructions directement dans le message utilisateur.

Pas de « pense étape par étape » : R1 raisonne déjà en interne via ses balises

 

. Lui demander explicitement de raisonner étape par étape dégrade la qualité.

Économie de disque : Chaque modèle 7B pèse ~4.7 Go. Supprimez les modèles inutilisés avec ollama rm .

Docker : Ollama est disponible en image Docker pour isoler l'exécution :

docker run -d -v ollama:/root/.ollama \
  -p 11434:11434 --name ollama ollama/ollama

11. FAQ

❓ Questions fréquentes
Ollama est-il gratuit ?
Oui, totalement. Ollama est open-source et gratuit. Les modèles sont sous licence MIT (DeepSeek) ou d'autres licences permissives. Pas de coût par token, pas d'abonnement. Le seul coût est l'électricité de votre machine.
Peut-on faire tourner le vrai DeepSeek R1 (671B) en local ?
Techniquement oui, mais pas sur du hardware grand public. Le modèle complet pèse 720 Go. Même avec une quantification agressive (1.78-bit, Unsloth), il faut environ 183 Go de RAM+VRAM combinés. Un Mac Studio 192 Go ou un cluster de GPUs est nécessaire. En pratique, le distillé 32B offre d'excellentes performances sur un GPU 24 Go.
Ai-je besoin d'Internet après le téléchargement ?
Non. Une fois le modèle téléchargé via ollama pull, tout fonctionne hors-ligne. C'est l'un des principaux avantages de l'approche locale.
Ollama vs LM Studio ?
Ollama est CLI-first, léger, et expose une API. Idéal pour les développeurs et l'intégration dans des projets. LM Studio offre une interface graphique et un chat intégré. Idéal pour les débutants. Les deux coexistent sans conflit — beaucoup d'utilisateurs installent les deux.
Les Macs sont-ils bons pour les LLMs locaux ?
Excellents. La mémoire unifiée Apple Silicon est idéale pour les LLMs : un Mac Mini M4 Pro 48 Go fait tourner le 32B confortablement. La bande passante mémoire des puces M est supérieure à celle de la DDR5 classique, ce qui compense l'absence de GPU NVIDIA dédié.

Ollama & DeepSeek R1 — Guide en français (février 2026)

Sources : GitHub Ollama · Ollama Library · InsiderLLM