🔄 Mis à jour le 15 février 2026

Kimi K2.5 (Moonshot AI) : Guide Complet en Français

Kimi K2.5 est un modèle d'IA open-source développé par Moonshot AI (Pékin), sorti le 27 janvier 2026. Avec son architecture Mixture-of-Experts à 1 000 milliards de paramètres (32 milliards actifs par requête) et sa technologie révolutionnaire Agent Swarm capable de coordonner jusqu'à 100 sous-agents en parallèle, K2.5 est devenu le meilleur modèle open-source au monde sur les benchmarks agentiques, surpassant GPT-5.2 et Claude Opus 4.5 sur plusieurs mesures.

1 000 MdsParamètres totaux
50.2%Humanity's Last Exam
100 agentsAgent Swarm parallèle
0,60$/MPrix input tokens

1. Qu'est-ce que Kimi K2.5 ?

Kimi K2.5 est un modèle de langage multimodal entraîné sur 15 000 milliards de tokens mixtes (texte + images + vidéo). C'est la troisième itération de la famille K2 de Moonshot AI :

Juillet 2025Kimi K2 : modèle texte MoE 1T paramètres, open-source sous licence MIT modifiée.

Novembre 2025K2 Thinking : variante avec raisonnement « chain-of-thought » entrelacé avec l'utilisation d'outils.

Janvier 2026K2.5 : ajout de la vision native, de la compréhension vidéo, et de la technologie Agent Swarm.

K2.5 se distingue par trois innovations majeures : la multimodalité native (vision et texte entraînés ensemble, pas greffés après coup), le coding visuel (générer du code à partir d'images/vidéos), et l'Agent Swarm (essaim d'agents autonomes coordonnés).

2. Moonshot AI : l'entreprise

Moonshot AI est une startup chinoise basée à Pékin, fondée par Yang Zhilin, ancien chercheur chez Google et Meta AI. L'entreprise a levé 1,5 milliard $ de financement (dont 500M$ en janvier 2026), pour une valorisation de 4,3 milliards $.

Moonshot a connu une croissance de 170% de ses utilisateurs entre septembre et novembre 2025 avec les modèles K2 et K2 Thinking. L'entreprise se positionne comme le principal rival open-source des laboratoires américains (OpenAI, Anthropic, Google) et du chinois DeepSeek.

3. Architecture technique

Caractéristique Détail
Architecture Mixture-of-Experts (MoE)
Paramètres totaux ~1 000 milliards (1T)
Paramètres actifs par token 32 milliards
Experts 384 réseaux spécialisés (8 activés + 1 partagé par token)
Couches 61 (1 dense + 60 MoE)
Données d'entraînement 15 000 milliards de tokens (texte + image + vidéo)
Contexte 128k → 256k tokens
Encodeur vision MoonViT (400M paramètres)
Vitesse ~109,5 tokens/seconde (API)
Licence MIT modifiée (open-source, usage commercial autorisé)
💡 MoE expliqué simplement : Imaginez un cabinet de 384 experts spécialisés. Pour chaque mot que le modèle traite, seuls 8 experts pertinents sont consultés. Résultat : la puissance d'un modèle géant (1T paramètres) avec le coût de calcul d'un modèle modeste (32B actifs). C'est le même principe utilisé par DeepSeek-V3.

4. Agent Swarm : 100 agents en parallèle

L'Agent Swarm est la fonctionnalité la plus révolutionnaire de K2.5. Au lieu de traiter les tâches de manière séquentielle (un agent fait tout, étape par étape), K2.5 peut créer et coordonner jusqu'à 100 sous-agents spécialisés qui travaillent en parallèle.

🐝
Auto-organisation
K2.5 décide seul quand créer un sous-agent, quelle tâche lui assigner, et quand déléguer. Pas de workflow prédéfini.
3-4,5× plus rapide
Le travail parallèle réduit le temps d'exécution de 3 à 4,5 fois sur les tâches complexes et parallélisables.
🔧
1 500 appels d'outils
L'essaim peut exécuter jusqu'à 1 500 appels d'outils coordonnés dans un seul workflow.
🧠
Orchestrateur entraîné
Un agent « chef d'orchestre » est entraîné par reinforcement learning à maximiser le parallélisme dès le début de la tâche.

Moonshot compare Agent Swarm à une ruche d'abeilles : chaque agent exécute une tâche spécifique tout en contribuant à un objectif commun. Par exemple, pour une tâche de recherche web complexe, K2.5 peut lancer simultanément des agents de recherche, de vérification de faits, de synthèse et de rédaction.

⚠️ Agent Swarm est en bêta : La fonctionnalité est disponible pour les utilisateurs des plans les plus élevés sur kimi.com. Elle consomme les quotas d'appels d'outils rapidement. Moonshot n'a pas communiqué sur le coût mémoire/calcul additionnel de l'essaim.

5. Vision native et coding visuel

K2.5 est un modèle nativement multimodal : texte, images et vidéo ont été entraînés ensemble dès le départ, pas ajoutés après coup comme chez certains concurrents. Résultat : une compréhension visuelle exceptionnelle.

Coding visuel : Donnez à K2.5 une capture d'écran, un design Figma, ou même une vidéo d'un site web en action — il génère le code frontend correspondant avec les interactions, animations et layouts. Le modèle peut aussi débugger visuellement : il inspecte le rendu de son propre code, détecte les problèmes d'interface, et itère automatiquement.

Benchmarks vision : Sur 17 benchmarks image/vidéo, K2.5 obtient le meilleur score sur 9 d'entre eux, devant GPT-5.2, Claude Opus 4.5 et Gemini 3 Pro.

6. Benchmarks : K2.5 vs GPT-5 vs Claude vs Gemini

Benchmark Kimi K2.5 GPT-5.2 (xhigh) Claude Opus 4.5 Gemini 3 Pro
HLE (Humanity's Last Exam) 50.2% ~48% ~47%
BrowseComp (agentique) 74.9% 59.2%
SWE-bench Verified (coding) 76.8% ~80% 80.9%
SWE-bench Multilingual #1 #3 #2
MMMU Pro (vision) 78.5%
VideoMMMU #1 #2 #3
📊 Résumé : K2.5 excelle en agentique (BrowseComp, HLE) et en vision (MMMU Pro, VideoMMMU). Les modèles propriétaires (GPT-5.2, Claude Opus 4.5) restent légèrement devant en coding pur (SWE-bench Verified). L'avantage de K2.5 : il est open-source et 76% moins cher.

7. Comment utiliser Kimi K2.5

Méthode Description Lien
kimi.com Interface web gratuite avec 4 modes : Instant, Thinking, Agent, Agent Swarm kimi.com
Kimi App Application mobile (iOS / Android) App Store / Google Play
API Moonshot API compatible OpenAI/Anthropic pour intégration platform.moonshot.ai
Kimi Code (CLI) Outil terminal pour le coding, intégré aux IDEs kimi.com/code
Self-hosted Téléchargement des poids (Hugging Face, Ollama) Hugging Face

Exemple d'appel API

Pythonfrom openai import OpenAI

client = OpenAI(
    api_key="votre_clé_moonshot",
    base_url="https://api.moonshot.ai/v1"
)

response = client.chat.completions.create(
    model="kimi-k2.5",
    messages=[
        
    ],
    temperature=1.0  # 1.0 pour Thinking, 0.6 pour Instant
)
print(response.choices[0].message.content)
🔗 Compatibilité : L'API Kimi est compatible avec les formats OpenAI et Anthropic. Vous pouvez utiliser les SDK existants (Python, TypeScript) en changeant simplement le base_url.

8. Kimi Code : l'alternative à Claude Code

Kimi Code est un outil de coding agentique en terminal lancé en même temps que K2.5. Il est open-source (licence Apache 2.0) et fonctionne comme Claude Code : vous l'exécutez dans votre terminal, il comprend votre projet, et il modifie les fichiers selon vos instructions.

Ce qui rend Kimi Code unique : le support natif des entrées visuelles. Vous pouvez donner une capture d'écran ou une vidéo comme instruction, et K2.5 génère ou modifie le code en conséquence. Moonshot a montré une démo virale de « video-to-code » : un enregistrement vidéo d'un site web transformé en code frontend fonctionnel.

Kimi Code s'intègre avec VS Code, Cursor et Zed.

Critère Kimi Code Claude Code
Modèle Kimi K2.5 Claude (Anthropic)
Open-source Oui (Apache 2.0) Non (CLI propriétaire)
Entrées visuelles Oui (images, vidéos) Non
Agent Swarm Oui (parallélisme) Non
Prix 15-200$/mois Via abonnement Claude
Intégrations IDE VS Code, Cursor, Zed Terminal natif, extensions IDE

9. Tarification API

Type Prix par million de tokens Évolution vs K2
Input 0,60$ -47,8%
Input caché (cache) 0,10$ -33,3%
Output 3,00$ -62,5%

Le prix du cache input (0,10$/M tokens) est particulièrement avantageux pour Agent Swarm, qui maintient de larges fenêtres de contexte entre les sous-agents. Globalement, K2.5 est 76% moins cher que Claude Opus 4.5 à performance comparable sur les benchmarks agentiques.

💰 Gratuit pour tester : L'interface web kimi.com est gratuite avec les 4 modes (Instant, Thinking, Agent, Agent Swarm). Les poids du modèle sont téléchargeables gratuitement sur Hugging Face pour du self-hosting. K2.5 fonctionne aussi sur Ollama.

10. FAQ

❓ Questions fréquentes
Kimi K2.5 est-il vraiment open-source ?
Oui, sous licence MIT modifiée. Les poids sont téléchargeables, et l'usage commercial est autorisé. La licence inclut une clause spécifique pour les « utilisateurs hyperscale » (très grandes entreprises).
Peut-on faire tourner K2.5 localement ?
Techniquement oui, mais le modèle complet nécessite un hardware considérable. Des utilisateurs rapportent ~21,9 tokens/s sur 2× Mac M3 Ultra via MLX. Pour un usage pratique, l'API est recommandée. Sur Ollama, des versions quantifiées plus légères sont disponibles.
K2.5 est-il meilleur que GPT-5 ou Claude ?
Ça dépend de la tâche. K2.5 domine en agentique (BrowseComp : 74.9% vs 59.2% pour GPT-5.2) et en vision. GPT-5.2 et Claude Opus 4.5 restent meilleurs en coding pur (SWE-bench Verified). L'avantage de K2.5 : open-source et beaucoup moins cher.
Moonshot AI est une entreprise chinoise — y a-t-il des risques ?
Oui, les mêmes considérations géopolitiques que pour DeepSeek s'appliquent. Le modèle est open-source et vérifiable, mais l'API passe par les serveurs de Moonshot. Pour un contrôle total, le self-hosting est possible puisque les poids sont publics.
Agent Swarm est-il disponible pour tout le monde ?
Agent Swarm est en bêta et disponible sur kimi.com pour les utilisateurs des plans supérieurs. Il consomme les quotas d'outils rapidement. L'accès via API est possible mais Moonshot n'a pas détaillé les limites exactes.
Comment K2.5 se compare-t-il à DeepSeek ?
K2.5 et DeepSeek-V3 partagent une architecture MoE similaire. K2.5 est plus récent (janvier 2026 vs décembre 2024 pour V3) et ajoute la vision native et Agent Swarm. DeepSeek prépare un nouveau modèle avec des capacités de coding renforcées pour le printemps 2026.

Kimi K2.5 (Moonshot AI) — Guide en français (février 2026)

Sources : GitHub · Hugging Face · TechCrunch