Qu'est-ce que GLM-5.2 ?

GLM-5.2 est le modèle de langage phare sorti mi-juin 2026 par Zhipu AI, le laboratoire chinois derrière la marque z.ai. C'est un modèle Mixture-of-Experts creux (environ 744 à 753 milliards de paramètres au total, environ 40 milliards actifs par token) avec un vrai contexte d'un million de tokens, 128K de sortie maximale, texte uniquement. Il est publié en poids ouverts sous licence permissive MIT, donc les entreprises peuvent le télécharger, l'auto-héberger, l'affiner et le commercialiser.

GLM-5.2 est-il vraiment le meilleur modèle open-source ?

Selon la mesure indépendante la plus crédible, oui. Artificial Analysis le classe à 51 sur son Intelligence Index v4.1, le plus haut de tout modèle open-weights, et quatrième au général derrière trois modèles fermés (Claude Fable 5, Claude Opus 4.8 et GPT-5.5). À noter : certains chiffres de z.ai sur des benchmarks isolés tournent un peu plus haut que les mesures indépendantes, fiez-vous donc à l'agrégat tiers plutôt qu'aux claims marketing.

Combien coûte GLM-5.2 ?

Sur l'API officielle z.ai, c'est 1,40 $ par million de tokens en entrée et 4,40 $ par million en sortie, avec l'entrée en cache à 0,26 $ (81 % de remise). Soit environ un sixième du coût mélangé de GPT-5.5. Le bémol important : GLM-5.2 raisonne lourdement et produit beaucoup de tokens de sortie, donc le coût par tâche terminée (environ 0,46 $ sur une suite standard) peut dépasser des rivaux moins chers malgré le faible prix au token. Budgétez la consommation de tokens, pas seulement le tarif.

Une entreprise peut-elle auto-héberger GLM-5.2 ?

Oui. La licence MIT autorise l'usage commercial, la modification et la redistribution, et les poids sont sur Hugging Face en BF16 et FP8 natif. Le checkpoint FP8 tourne sur un seul nœud de 8 GPU H200 ou H20 (servir le contexte 1M complet demande 8 B200), via vLLM, SGLang ou Transformers. L'auto-hébergement est la réponse propre aux questions de gouvernance des données : les données ne quittent jamais votre infrastructure.

Faut-il quitter Claude ou GPT pour GLM-5.2 ?

Pas en bloc. Le bon mouvement est une stack multi-modèle : utilisez GLM-5.2 là où son prix, son ouverture et l'auto-hébergement gagnent (coding agentique, automatisation à fort volume, charges sensibles à la souveraineté), tout en gardant Claude ou GPT pour les tâches où ils dominent. Placez chaque modèle derrière votre propre abstraction pour qu'en changer soit un changement de config, et ne pariez jamais votre produit sur un seul fournisseur.

GLM-5.2 : le meilleur LLM open-weights, 6x moins cher

Mi-juin 2026, Zhipu AI a sorti GLM-5.2 : un modèle open-weights sous licence MIT, avec un vrai contexte d'un million de tokens, que le banc d'essai indépendant Artificial Analysis classe meilleur modèle ouvert au monde, quatrième tous modèles confondus, à environ un sixième du prix de GPT-5.5. On décortique les benchmarks, les prix, la réalité de l'auto-hébergement et le piège de gouvernance, et ce que ça change concrètement pour les entreprises qui construisent avec l'IA.

Tous les quelques mois, un modèle open-weights venu de Chine rebat les cartes. DeepSeek l'a fait. Qwen l'a fait. Mi-juin 2026, Zhipu AI (l'entreprise derrière la marque internationale z.ai) l'a refait avec GLM-5.2 : un modèle Mixture-of-Experts, publié sous licence permissive MIT, doté d'un vrai contexte d'un million de tokens, que le banc d'essai indépendant Artificial Analysis a sacré meilleur modèle open-weights au monde, quatrième tous modèles confondus derrière le seul peloton fermé, à environ un sixième du prix de GPT-5.5.

Pour quiconque construit des produits avec l'IA, cette combinaison (qualité quasi-frontière, poids ouverts auto-hébergeables, et un prix qui sous-cote largement les laboratoires américains) est le développement le plus important du trimestre. Mais le titre masque de vrais bémols : des benchmarks auto-déclarés, un modèle verbeux bon marché au token mais coûteux à la tâche, et un fournisseur sur l'Entity List américaine dont l'API hébergée fait transiter vos données par la Chine. Nous avons repris les sources primaires (la fiche modèle Hugging Face, Artificial Analysis, vLLM, la doc de z.ai, le Federal Register américain) pour séparer le vérifié du marketing, et répondre à la seule question qui compte pour une entreprise : quand faut-il vraiment l'utiliser ?

Ce qu'est GLM-5.2, en un tableau

GLM-5.2 est un modèle Mixture-of-Experts (MoE) creux. La plupart de ses paramètres restent inactifs sur un token donné, ce qui permet à un modèle de cette taille de rester abordable à faire tourner. Voici les specs vérifiées.

Spécification	GLM-5.2 (vérifié)
Architecture	Mixture-of-Experts creux, attention creuse façon DeepSeek
Paramètres	~744 à 753 Md au total, ~40 Md actifs par token
Fenêtre de contexte	1 048 576 tokens (un vrai 1M, 5x les 200K de GLM-5.1)
Sortie maximale	128K tokens
Modalité	Texte uniquement (pas de vision)
Licence	MIT (usage commercial, modification, redistribution, auto-hébergement)
Poids	BF16 (~1,51 To) et FP8 natif (~744 Go) sur Hugging Face (zai-org)
Fonctions	Modes de raisonnement, tool calling, sortie JSON, cache de prompt, streaming, MCP
Sortie	Mi-juin 2026 (Artificial Analysis indique le 16 juin)

Les mots-clés qui comptent, pour le référencement comme pour la stratégie, sont tous là : un LLM open-weights, une conception Mixture-of-Experts, un contexte d'un million de tokens réellement utilisable, et un modèle pensé pour le coding agentique. Les trois sections suivantes mettent des chiffres sur chacun.

Les benchmarks : numéro un des modèles ouverts, numéro quatre au général

Le signal le plus crédible est indépendant, pas signé z.ai. Artificial Analysis, qui exécute sa propre suite d'évaluation, place GLM-5.2 à 51 sur son Intelligence Index v4.1, le plus haut score de tout modèle open-weights (il en teste 92, dont la moyenne de classe tourne autour de 24). Il se classe quatrième au général, derrière trois modèles fermés. C'est l'histoire « l'open-source chinois rattrape la frontière », racontée avec les chiffres d'un tiers.

Artificial Analysis Intelligence Index v4.1 (plus c'est haut, mieux c'est)

Claude Fable 5 (fermé)

Claude Opus 4.8 (fermé)

GPT-5.5 xhigh (fermé)

GLM-5.2 (ouvert, MIT)

MiniMax-M3 (ouvert)

DeepSeek V4 Pro (ouvert)

Kimi K2.6 (ouvert)

Source : Artificial Analysis Intelligence Index v4.1, juin 2026 (indépendant). GLM-5.2 est premier des open-weights, quatrième au général.

Sur les tests individuels, surveillez l'écart entre ce que z.ai annonce et ce que les tiers mesurent. La fiche modèle de l'entreprise cite de bons scores en code et en raisonnement ; Artificial Analysis confirme de gros bonds par rapport à GLM-5.1, mais avec des valeurs absolues légèrement plus basses. On étiquette chacun ci-dessous.

Benchmark	Score	Source
SWE-bench Pro (coding agentique)	62,1 (contre 58,4 pour GLM-5.1)	z.ai (auto-déclaré)
Terminal-Bench 2.1	81,0 annoncé vs 78 mesuré (Opus 4.8 : 85)	z.ai vs Artificial Analysis
GPQA Diamond (raisonnement scientifique)	91,2 annoncé, ~89 mesuré	z.ai vs Artificial Analysis
Humanity's Last Exam	40,5 (54,7 avec outils)	z.ai (auto-déclaré)
FrontierSWE	« à 1 % derrière Opus 4.8 »	z.ai (claim marketing)

La lecture honnête : GLM-5.2 est réellement quasi-frontière en code et en raisonnement, le classement indépendant le prouve, mais les chiffres les plus tape-à-l'oeil (« à 1 % d'Opus », Terminal-Bench 81) sont ceux de z.ai et tournent un peu chaud face à une mesure neutre. Pour une décision d'achat, fiez-vous à l'agrégat Artificial Analysis (numéro un des modèles ouverts) et traitez le reste comme indicatif.

Le vrai sujet, c'est le prix, avec un piège

C'est là que GLM-5.2 réordonne le marché. L'API officielle z.ai facture 1,40 $ par million de tokens en entrée et 4,40 $ par million en sortie, avec l'entrée en cache à seulement 0,26 $ (81 % de remise sur le cache). VentureBeat a mesuré le coût mélangé à environ un sixième de GPT-5.5. Les routeurs tiers descendent encore plus bas (OpenRouter affiche 1,20 $ / 4,10 $). Pour un modèle ouvert et quasi-frontière, c'est une baisse de prix structurelle, pas une promotion.

Le piège, c'est la consommation de tokens. GLM-5.2 raisonne lourdement : sur la suite d'Artificial Analysis, il brûle environ 43 000 tokens de sortie par tâche (dont ~37 000 de raisonnement), si bien que le coût par tâche terminée finit plus haut que plusieurs rivaux malgré le faible prix au token. Bon marché au token ne veut pas automatiquement dire bon marché à la tâche.

Coût par tâche sur la suite Artificial Analysis (plus c'est bas, mieux c'est)

GLM-5.2

0,46 $

Kimi K2.6

0,31 $

GLM-5.1

0,25 $

MiniMax-M3

0,18 $

DeepSeek V4 Pro

0,05 $

Source : Artificial Analysis, juin 2026. GLM-5.2 est le modèle ouvert le plus intelligent mais aussi le plus gourmand en tokens : budgétez la sortie, pas seulement le tarif au token.

Tarif officiel GLM-5.2 (z.ai)	Par 1M de tokens
Entrée	1,40 $
Entrée en cache	0,26 $ (81 % de remise, stockage gratuit pour l'instant)
Sortie	4,40 $
Coût mélangé vs GPT-5.5	environ un sixième (VentureBeat)

Poids ouverts = souveraineté, pas seulement des économies

Le prix compte, mais la licence compte davantage. GLM-5.2 est livré sous une licence MIT standard et non modifiée, sans clause d'usage acceptable et sans limite régionale sur les poids. Vous pouvez télécharger les checkpoints BF16 ou FP8 complets depuis Hugging Face, les faire tourner sur votre propre matériel, les affiner, et les commercialiser. Pour une entreprise, c'est la différence entre louer de l'intelligence et posséder sa stack.

L'auto-hébergement est réel mais pas trivial. Le checkpoint FP8 tient sur un seul nœud de 8 GPU H200 ou H20 ; servir le contexte complet d'un million de tokens demande 8 B200. Il tourne sur vLLM, SGLang et Transformers, et AMD a livré une version MXFP4 pour ses accélérateurs Instinct MI350/MI355. En pratique, la plupart des équipes commenceront sur l'API et réserveront l'auto-hébergement aux cas où il paie : souveraineté des données stricte, coûts prévisibles à fort volume, ou fine-tuning sur des données propriétaires. Le point clé, c'est que l'option existe, ce qu'aucun budget GPT-5.5 ou Claude ne peut vous acheter.

Le piège : gouvernance, confiance et Entity List

Voici ce que les annonces de lancement ne mettront pas en avant. Zhipu AI a été ajoutée à l'Entity List américaine le 16 janvier 2025 (règle 2025-00704 du Federal Register), première entreprise chinoise de LLM à y figurer, au motif déclaré qu'elle contribue à « faire progresser la modernisation militaire de la République populaire de Chine ». Cela ne vous empêche pas de télécharger des poids sous licence MIT, mais c'est un vrai signal pour toute organisation qui pèse le risque fournisseur.

Plus concrètement pour l'usage quotidien : l'API hébergée pratique de z.ai passe par une entreprise basée en Chine, soumise aux lois chinoises sur les données. Pour une entreprise européenne ou française manipulant des données clients ou personnelles, c'est une question de gouvernance à trancher avant d'y envoyer des prompts sensibles. La résolution propre est exactement celle que permet la licence MIT : auto-héberger les poids dans votre propre infrastructure, et les données ne sortent jamais. Utilisez l'API bon marché pour les charges non sensibles, auto-hébergez le reste. Ajoutez le profil verbeux coûteux à la tâche et l'écart entre benchmarks auto-déclarés et mesurés indépendamment, et vous avez le tableau complet et honnête.

La lignée GLM, en dates

GLM-5.2 n'est pas sorti de nulle part. C'est la dernière étape d'une cadence publique rapide qui a régulièrement réduit l'écart avec les laboratoires américains.

GLM-4.5 à GLM-4.6 Zhipu s'impose comme un concurrent open-weights sérieux.
GLM-5 Le premier à échanger de vrais coups avec la frontière sur le code.
GLM-5.1 MoE 744B/40B, contexte 200K, le prédécesseur de référence.
GLM-5.2 (mi-juin 2026) Même taille que GLM-5.1, mais quintuple le contexte à 1M, signe le plus gros bond de benchmark d'une version à l'autre de la lignée, et prend la première place des modèles open-weights.

Notre lecture : quand utiliser réellement GLM-5.2

Ce qui suit est notre analyse.

Le battage est en grande partie mérité, et la bonne réponse pour une entreprise n'est ni de l'écarter ni de tout migrer du jour au lendemain. C'est d'adapter le modèle à la tâche. À partir de notre façon de construire avec l'IA pour nos clients, voici la grille pratique.

Pour le coding agentique et l'automatisation à fort volume. Comme alternative à Claude Code ou comme moteur d'agents internes, le prix et l'ouverture de GLM-5.2 sont difficiles à battre. Branchez-le derrière une abstraction pour pouvoir changer de modèle d'un changement de config, et budgétez son appétit en tokens.
Auto-hébergez-le quand la souveraineté ou l'échelle l'exigent. Données sensibles, secteurs régulés, ou volume lourd et prévisible : ce sont les cas où posséder les poids MIT sur vos propres GPU bat n'importe quelle API louée.
Gardez-le loin de vos données les plus sensibles sur l'API hébergée. Tant que vous n'auto-hébergez pas, n'envoyez pas de données confidentielles ou personnelles vers l'endpoint basé en Chine. C'est une ligne de gouvernance, pas une question de qualité.
Ne mettez jamais tous vos œufs chez un seul fournisseur. La leçon du mois écoulé, des outils rachetés aux modèles suspendus, c'est que le modèle sous votre produit doit être un composant interchangeable. GLM-5.2 est un superbe ajout à une stack multi-modèle, pas une raison de parier l'entreprise sur un seul fournisseur.

C'est exactement ainsi que nous architecturons les fonctionnalités d'IA de nos clients : le modèle comme pièce interchangeable derrière vos propres interfaces, choisi par tâche selon le prix, la performance et la gouvernance, sur une infrastructure que vous contrôlez (voir nos réalisations). Si vous voulez de l'aide pour décider où GLM-5.2, Claude ou GPT s'insèrent vraiment dans votre produit, et pour garder vos données et vos options ouvertes, décrivez-nous votre projet (ou contactez-nous) et nous revenons sous 48 heures. Sur la stack IA en mouvement, voir aussi nos articles sur le rachat de Cursor par SpaceX et la suspension de Fable 5 par le gouvernement.

Chiffres clés (au juin 2026)

Le domaine bouge vite ; chaque chiffre est daté de mi-juin 2026 et évoluera à mesure que les rivaux répondent.

51 Artificial Analysis Intelligence Index, numéro un des modèles open-weights, numéro quatre au général.
1 048 576 tokens de contexte, avec 128K de sortie maximale.
~744 à 753 Md de paramètres au total, ~40 Md actifs (Mixture-of-Experts).
1,40 $ / 4,40 $ par million de tokens entrée/sortie, environ un sixième de GPT-5.5.
MIT, entièrement auto-hébergeable sur 8 GPU H200 (FP8).
16 janvier 2025 la date d'ajout de Zhipu à l'Entity List américaine.

Développement

Marketing & Communication

GLM-5.2 : le modèle IA open-weights qui devient le meilleur du monde, à un sixième du prix

Ce qu'est GLM-5.2, en un tableau

Les benchmarks : numéro un des modèles ouverts, numéro quatre au général

Le vrai sujet, c'est le prix, avec un piège

Poids ouverts = souveraineté, pas seulement des économies

Le piège : gouvernance, confiance et Entity List

La lignée GLM, en dates

Notre lecture : quand utiliser réellement GLM-5.2

Chiffres clés (au juin 2026)

Robin Monteiro

L'équipe derrière cet article peut le faire pour vous

Questions fréquentes

Articles associés

Comment l'IA révolutionne la création de sites web en 2026

ChatGPT pour les entreprises : guide pratique d'utilisation

Chatbots intelligents : transformer votre service client en 2026