Tous les quelques mois, un modèle open-weights venu de Chine rebat les cartes. DeepSeek l'a fait. Qwen l'a fait. Mi-juin 2026, Zhipu AI (l'entreprise derrière la marque internationale z.ai) l'a refait avec GLM-5.2 : un modèle Mixture-of-Experts, publié sous licence permissive MIT, doté d'un vrai contexte d'un million de tokens, que le banc d'essai indépendant Artificial Analysis a sacré meilleur modèle open-weights au monde, quatrième tous modèles confondus derrière le seul peloton fermé, à environ un sixième du prix de GPT-5.5.
Pour quiconque construit des produits avec l'IA, cette combinaison (qualité quasi-frontière, poids ouverts auto-hébergeables, et un prix qui sous-cote largement les laboratoires américains) est le développement le plus important du trimestre. Mais le titre masque de vrais bémols : des benchmarks auto-déclarés, un modèle verbeux bon marché au token mais coûteux à la tâche, et un fournisseur sur l'Entity List américaine dont l'API hébergée fait transiter vos données par la Chine. Nous avons repris les sources primaires (la fiche modèle Hugging Face, Artificial Analysis, vLLM, la doc de z.ai, le Federal Register américain) pour séparer le vérifié du marketing, et répondre à la seule question qui compte pour une entreprise : quand faut-il vraiment l'utiliser ?
Ce qu'est GLM-5.2, en un tableau
GLM-5.2 est un modèle Mixture-of-Experts (MoE) creux. La plupart de ses paramètres restent inactifs sur un token donné, ce qui permet à un modèle de cette taille de rester abordable à faire tourner. Voici les specs vérifiées.
| Spécification | GLM-5.2 (vérifié) |
|---|---|
| Architecture | Mixture-of-Experts creux, attention creuse façon DeepSeek |
| Paramètres | ~744 à 753 Md au total, ~40 Md actifs par token |
| Fenêtre de contexte | 1 048 576 tokens (un vrai 1M, 5x les 200K de GLM-5.1) |
| Sortie maximale | 128K tokens |
| Modalité | Texte uniquement (pas de vision) |
| Licence | MIT (usage commercial, modification, redistribution, auto-hébergement) |
| Poids | BF16 (~1,51 To) et FP8 natif (~744 Go) sur Hugging Face (zai-org) |
| Fonctions | Modes de raisonnement, tool calling, sortie JSON, cache de prompt, streaming, MCP |
| Sortie | Mi-juin 2026 (Artificial Analysis indique le 16 juin) |
Les mots-clés qui comptent, pour le référencement comme pour la stratégie, sont tous là : un LLM open-weights, une conception Mixture-of-Experts, un contexte d'un million de tokens réellement utilisable, et un modèle pensé pour le coding agentique. Les trois sections suivantes mettent des chiffres sur chacun.
Les benchmarks : numéro un des modèles ouverts, numéro quatre au général
Le signal le plus crédible est indépendant, pas signé z.ai. Artificial Analysis, qui exécute sa propre suite d'évaluation, place GLM-5.2 à 51 sur son Intelligence Index v4.1, le plus haut score de tout modèle open-weights (il en teste 92, dont la moyenne de classe tourne autour de 24). Il se classe quatrième au général, derrière trois modèles fermés. C'est l'histoire « l'open-source chinois rattrape la frontière », racontée avec les chiffres d'un tiers.
Artificial Analysis Intelligence Index v4.1 (plus c'est haut, mieux c'est)
Source : Artificial Analysis Intelligence Index v4.1, juin 2026 (indépendant). GLM-5.2 est premier des open-weights, quatrième au général.
Sur les tests individuels, surveillez l'écart entre ce que z.ai annonce et ce que les tiers mesurent. La fiche modèle de l'entreprise cite de bons scores en code et en raisonnement ; Artificial Analysis confirme de gros bonds par rapport à GLM-5.1, mais avec des valeurs absolues légèrement plus basses. On étiquette chacun ci-dessous.
| Benchmark | Score | Source |
|---|---|---|
| SWE-bench Pro (coding agentique) | 62,1 (contre 58,4 pour GLM-5.1) | z.ai (auto-déclaré) |
| Terminal-Bench 2.1 | 81,0 annoncé vs 78 mesuré (Opus 4.8 : 85) | z.ai vs Artificial Analysis |
| GPQA Diamond (raisonnement scientifique) | 91,2 annoncé, ~89 mesuré | z.ai vs Artificial Analysis |
| Humanity's Last Exam | 40,5 (54,7 avec outils) | z.ai (auto-déclaré) |
| FrontierSWE | « à 1 % derrière Opus 4.8 » | z.ai (claim marketing) |
La lecture honnête : GLM-5.2 est réellement quasi-frontière en code et en raisonnement, le classement indépendant le prouve, mais les chiffres les plus tape-à-l'oeil (« à 1 % d'Opus », Terminal-Bench 81) sont ceux de z.ai et tournent un peu chaud face à une mesure neutre. Pour une décision d'achat, fiez-vous à l'agrégat Artificial Analysis (numéro un des modèles ouverts) et traitez le reste comme indicatif.
Le vrai sujet, c'est le prix, avec un piège
C'est là que GLM-5.2 réordonne le marché. L'API officielle z.ai facture 1,40 $ par million de tokens en entrée et 4,40 $ par million en sortie, avec l'entrée en cache à seulement 0,26 $ (81 % de remise sur le cache). VentureBeat a mesuré le coût mélangé à environ un sixième de GPT-5.5. Les routeurs tiers descendent encore plus bas (OpenRouter affiche 1,20 $ / 4,10 $). Pour un modèle ouvert et quasi-frontière, c'est une baisse de prix structurelle, pas une promotion.
Le piège, c'est la consommation de tokens. GLM-5.2 raisonne lourdement : sur la suite d'Artificial Analysis, il brûle environ 43 000 tokens de sortie par tâche (dont ~37 000 de raisonnement), si bien que le coût par tâche terminée finit plus haut que plusieurs rivaux malgré le faible prix au token. Bon marché au token ne veut pas automatiquement dire bon marché à la tâche.
Coût par tâche sur la suite Artificial Analysis (plus c'est bas, mieux c'est)
Source : Artificial Analysis, juin 2026. GLM-5.2 est le modèle ouvert le plus intelligent mais aussi le plus gourmand en tokens : budgétez la sortie, pas seulement le tarif au token.
| Tarif officiel GLM-5.2 (z.ai) | Par 1M de tokens |
|---|---|
| Entrée | 1,40 $ |
| Entrée en cache | 0,26 $ (81 % de remise, stockage gratuit pour l'instant) |
| Sortie | 4,40 $ |
| Coût mélangé vs GPT-5.5 | environ un sixième (VentureBeat) |
Poids ouverts = souveraineté, pas seulement des économies
Le prix compte, mais la licence compte davantage. GLM-5.2 est livré sous une licence MIT standard et non modifiée, sans clause d'usage acceptable et sans limite régionale sur les poids. Vous pouvez télécharger les checkpoints BF16 ou FP8 complets depuis Hugging Face, les faire tourner sur votre propre matériel, les affiner, et les commercialiser. Pour une entreprise, c'est la différence entre louer de l'intelligence et posséder sa stack.
L'auto-hébergement est réel mais pas trivial. Le checkpoint FP8 tient sur un seul nœud de 8 GPU H200 ou H20 ; servir le contexte complet d'un million de tokens demande 8 B200. Il tourne sur vLLM, SGLang et Transformers, et AMD a livré une version MXFP4 pour ses accélérateurs Instinct MI350/MI355. En pratique, la plupart des équipes commenceront sur l'API et réserveront l'auto-hébergement aux cas où il paie : souveraineté des données stricte, coûts prévisibles à fort volume, ou fine-tuning sur des données propriétaires. Le point clé, c'est que l'option existe, ce qu'aucun budget GPT-5.5 ou Claude ne peut vous acheter.
Le piège : gouvernance, confiance et Entity List
Voici ce que les annonces de lancement ne mettront pas en avant. Zhipu AI a été ajoutée à l'Entity List américaine le 16 janvier 2025 (règle 2025-00704 du Federal Register), première entreprise chinoise de LLM à y figurer, au motif déclaré qu'elle contribue à « faire progresser la modernisation militaire de la République populaire de Chine ». Cela ne vous empêche pas de télécharger des poids sous licence MIT, mais c'est un vrai signal pour toute organisation qui pèse le risque fournisseur.
Plus concrètement pour l'usage quotidien : l'API hébergée pratique de z.ai passe par une entreprise basée en Chine, soumise aux lois chinoises sur les données. Pour une entreprise européenne ou française manipulant des données clients ou personnelles, c'est une question de gouvernance à trancher avant d'y envoyer des prompts sensibles. La résolution propre est exactement celle que permet la licence MIT : auto-héberger les poids dans votre propre infrastructure, et les données ne sortent jamais. Utilisez l'API bon marché pour les charges non sensibles, auto-hébergez le reste. Ajoutez le profil verbeux coûteux à la tâche et l'écart entre benchmarks auto-déclarés et mesurés indépendamment, et vous avez le tableau complet et honnête.
La lignée GLM, en dates
GLM-5.2 n'est pas sorti de nulle part. C'est la dernière étape d'une cadence publique rapide qui a régulièrement réduit l'écart avec les laboratoires américains.
- GLM-4.5 à GLM-4.6 Zhipu s'impose comme un concurrent open-weights sérieux.
- GLM-5 Le premier à échanger de vrais coups avec la frontière sur le code.
- GLM-5.1 MoE 744B/40B, contexte 200K, le prédécesseur de référence.
- GLM-5.2 (mi-juin 2026) Même taille que GLM-5.1, mais quintuple le contexte à 1M, signe le plus gros bond de benchmark d'une version à l'autre de la lignée, et prend la première place des modèles open-weights.
Notre lecture : quand utiliser réellement GLM-5.2
Ce qui suit est notre analyse.
Le battage est en grande partie mérité, et la bonne réponse pour une entreprise n'est ni de l'écarter ni de tout migrer du jour au lendemain. C'est d'adapter le modèle à la tâche. À partir de notre façon de construire avec l'IA pour nos clients, voici la grille pratique.
- Pour le coding agentique et l'automatisation à fort volume. Comme alternative à Claude Code ou comme moteur d'agents internes, le prix et l'ouverture de GLM-5.2 sont difficiles à battre. Branchez-le derrière une abstraction pour pouvoir changer de modèle d'un changement de config, et budgétez son appétit en tokens.
- Auto-hébergez-le quand la souveraineté ou l'échelle l'exigent. Données sensibles, secteurs régulés, ou volume lourd et prévisible : ce sont les cas où posséder les poids MIT sur vos propres GPU bat n'importe quelle API louée.
- Gardez-le loin de vos données les plus sensibles sur l'API hébergée. Tant que vous n'auto-hébergez pas, n'envoyez pas de données confidentielles ou personnelles vers l'endpoint basé en Chine. C'est une ligne de gouvernance, pas une question de qualité.
- Ne mettez jamais tous vos œufs chez un seul fournisseur. La leçon du mois écoulé, des outils rachetés aux modèles suspendus, c'est que le modèle sous votre produit doit être un composant interchangeable. GLM-5.2 est un superbe ajout à une stack multi-modèle, pas une raison de parier l'entreprise sur un seul fournisseur.
C'est exactement ainsi que nous architecturons les fonctionnalités d'IA de nos clients : le modèle comme pièce interchangeable derrière vos propres interfaces, choisi par tâche selon le prix, la performance et la gouvernance, sur une infrastructure que vous contrôlez (voir nos réalisations). Si vous voulez de l'aide pour décider où GLM-5.2, Claude ou GPT s'insèrent vraiment dans votre produit, et pour garder vos données et vos options ouvertes, décrivez-nous votre projet (ou contactez-nous) et nous revenons sous 48 heures. Sur la stack IA en mouvement, voir aussi nos articles sur le rachat de Cursor par SpaceX et la suspension de Fable 5 par le gouvernement.
Chiffres clés (au juin 2026)
Le domaine bouge vite ; chaque chiffre est daté de mi-juin 2026 et évoluera à mesure que les rivaux répondent.
- 51 Artificial Analysis Intelligence Index, numéro un des modèles open-weights, numéro quatre au général.
- 1 048 576 tokens de contexte, avec 128K de sortie maximale.
- ~744 à 753 Md de paramètres au total, ~40 Md actifs (Mixture-of-Experts).
- 1,40 $ / 4,40 $ par million de tokens entrée/sortie, environ un sixième de GPT-5.5.
- MIT, entièrement auto-hébergeable sur 8 GPU H200 (FP8).
- 16 janvier 2025 la date d'ajout de Zhipu à l'Entity List américaine.



