Om de paar maanden zet een open-weights model uit China het gesprek opnieuw op scherp. DeepSeek deed het. Qwen deed het. Halverwege juni 2026 (mid-June 2026) deed Zhipu AI (het bedrijf achter het internationale merk z.ai) het opnieuw met GLM-5.2: een Mixture-of-Experts model, uitgebracht onder de permissieve MIT-licentie, met een echte context van een miljoen tokens, dat de onafhankelijke benchmarker Artificial Analysis uitriep tot het beste open-weights model ter wereld, vierde in het totaalklassement, alleen voorbijgestreefd door de gesloten frontier, tegen ongeveer een zesde (one-sixth) van de prijs van GPT-5.5.
Voor iedereen die producten bouwt met AI is die combinatie (kwaliteit dicht bij de frontier, open gewichten die je zelf kunt hosten, en een prijs die de Amerikaanse labs met ruime marge onderbiedt) de belangrijkste ontwikkeling van het kwartaal. Maar de kop verbergt echte kanttekeningen: zelf gerapporteerde benchmarks, een breedsprakig model dat goedkoop is per token maar duur per taak, en een leverancier op de US Entity List die via zijn gehoste API je data door China laat lopen. We hebben de primaire bronnen erbij gepakt (de Hugging Face model card, Artificial Analysis, vLLM, de eigen documentatie van z.ai, het Amerikaanse Federal Register) om te scheiden wat geverifieerd is van wat marketing is, en om de enige vraag te beantwoorden die telt voor een bedrijf: wanneer moet je dit echt inzetten?
Wat GLM-5.2 is, in één tabel
GLM-5.2 is een sparse Mixture-of-Experts (MoE) model. De meeste parameters liggen voor elk afzonderlijk token stil, en juist daardoor blijft een zo groot model betaalbaar om te draaien. Hier zijn de geverifieerde specs.
| Spec | GLM-5.2 (geverifieerd) |
|---|---|
| Architectuur | Sparse Mixture-of-Experts, sparse attention in DeepSeek-stijl |
| Parameters | ~744 tot 753B totaal, ~40B actief per token |
| Contextvenster | 1.048.576 tokens (een echte 1M, 5x de 200K van GLM-5.1) |
| Maximale output | 128K tokens |
| Modaliteit | Alleen tekst (geen vision) |
| Licentie | MIT (commercieel gebruik, aanpassen, herdistribueren, zelf hosten) |
| Gewichten | BF16 (~1,51 TB) en native FP8 (~744 GB) op Hugging Face (zai-org) |
| Functies | Reasoning-modi, tool calling, JSON-output, prompt caching, streaming, MCP |
| Uitgebracht | Halverwege juni 2026 (Artificial Analysis vermeldt 16 juni) |
De zoekwoorden die ertoe doen voor vindbaarheid én strategie staan hier allemaal: een open-weights LLM, een Mixture-of-Experts-ontwerp, een bruikbare context van 1M tokens, en een model dat is ontworpen voor agentic coding. De volgende drie secties zetten er cijfers op.
De benchmarks: nummer één onder de open modellen, nummer vier in het totaal
Het meest geloofwaardige signaal is onafhankelijk, niet van z.ai. Artificial Analysis, dat zijn eigen evaluatiesuite draait, plaatst GLM-5.2 op 51 op zijn Intelligence Index v4.1, het hoogste van alle open-weights modellen (het test er 92, waar het klassegemiddelde rond de 24 ligt). Het staat vierde in het totaal, achter drie gesloten modellen. Dat is het verhaal "Chinese open-source AI loopt in op de frontier", verteld met de cijfers van een derde partij.
Artificial Analysis Intelligence Index v4.1 (hoger is beter)
Bron: Artificial Analysis Intelligence Index v4.1, juni 2026 (onafhankelijk). GLM-5.2 is eerste onder de open-weights, vierde in het totaal.
Op de afzonderlijke tests moet je letten op het verschil tussen wat z.ai rapporteert en wat derden meten. De model card van het bedrijf noemt sterke coding- en reasoning-cijfers; Artificial Analysis bevestigt grote sprongen ten opzichte van GLM-5.1, maar met iets lagere absolute waarden. We benoemen elk geval hieronder.
| Benchmark | Score | Bron |
|---|---|---|
| SWE-bench Pro (agentic coding) | 62,1 (van 58,4 bij GLM-5.1) | z.ai (door bedrijf gerapporteerd) |
| Terminal-Bench 2.1 | 81,0 geclaimd vs 78 gemeten (Opus 4.8: 85) | claim z.ai vs Artificial Analysis |
| GPQA Diamond (wetenschappelijk redeneren) | 91,2 geclaimd, ~89 gemeten | z.ai vs Artificial Analysis |
| Humanity's Last Exam | 40,5 (54,7 met tools) | z.ai (door bedrijf gerapporteerd) |
| FrontierSWE | "blijft 1% achter op Opus 4.8" | z.ai (marketingclaim) |
De eerlijke lezing: GLM-5.2 zit op coding en reasoning werkelijk dicht bij de frontier, het onafhankelijke klassement bewijst dat, maar de meest opzichtige losse cijfers ("blijft 1% achter op Opus", Terminal-Bench 81) komen van z.ai zelf en lopen een tikje warm vergeleken met neutrale metingen. Voor een aankoopbeslissing vertrouw je op het aggregaat van Artificial Analysis (nummer één open model) en behandel je de rest als richtinggevend.
Het echte verhaal is de prijs, met één addertje
Dit is waar GLM-5.2 de markt herordent. De officiële z.ai-API rekent $1,40 per miljoen input-tokens en $4,40 per miljoen output-tokens, met cached input voor slechts $0,26 (een cachekorting van 81%). VentureBeat mat de gemengde kosten op ruwweg een zesde van GPT-5.5. Externe routers gaan nog lager (OpenRouter vermeldt $1,20 / $4,10). Voor een open model dat dicht bij de frontier zit, is dat een structurele prijsverlaging, geen tijdelijke actie.
Het addertje is het tokenverbruik. GLM-5.2 is een zware redeneerder: op de suite van Artificial Analysis verbrandt het rond de 43.000 output-tokens per taak (waarvan ongeveer 37.000 reasoning), zodat de kosten per voltooide taak hoger uitkomen dan bij meerdere concurrenten, ondanks de lage prijs per token. Goedkoop per token betekent niet automatisch goedkoop per klus.
Kosten per taak op de Artificial Analysis-suite (lager is beter)
Bron: Artificial Analysis, juni 2026. GLM-5.2 is het slimste open model, maar ook het meest tokenhongerige, dus reken op de output, niet alleen op het tarief per token.
| Officiële prijzen GLM-5.2 (z.ai) | Per 1M tokens |
|---|---|
| Input | $1,40 |
| Cached input | $0,26 (81% korting, opslag voorlopig gratis) |
| Output | $4,40 |
| Gemengd vs GPT-5.5 | ruwweg een zesde van de kosten (VentureBeat) |
Open gewichten betekenen soevereiniteit, niet alleen besparing
De prijs telt, maar de licentie telt meer. GLM-5.2 verschijnt onder een standaard, ongewijzigde MIT-licentie zonder acceptable-use-addendum en zonder regionale beperkingen op de gewichten. Je kunt de volledige BF16- of FP8-checkpoints van Hugging Face downloaden, ze op je eigen hardware draaien, fine-tunen en commercieel uitleveren. Voor een bedrijf is dat het verschil tussen intelligentie huren en je eigen stack bezitten.
Zelf hosten is reëel, maar niet triviaal. De FP8-checkpoint past op één node van 8x H200 of 8x H20 GPU's; om de volledige context van 1M tokens te serveren heb je 8x B200 nodig. Het draait op vLLM, SGLang en Transformers, en AMD heeft een MXFP4-build uitgebracht voor zijn Instinct MI350/MI355-versnellers. In de praktijk beginnen de meeste teams op de API en houden ze zelf hosten voor de gevallen waar het zich terugverdient: strikte datasoevereiniteit, voorspelbare kosten bij hoog volume, of fine-tunen op eigen data. Het punt is dat de optie bestaat, en dat is iets wat geen enkel GPT-5.5- of Claude-budget je kan kopen.
Het addertje: governance, vertrouwen en de Entity List
Hier is wat de lanceringsberichten niet vooraan zullen zetten. Zhipu AI werd op 16 januari 2025 (January 16, 2025) toegevoegd aan de US Entity List (Federal Register-regel 2025-00704), als eerste Chinese LLM-bedrijf, met als opgegeven motivering dat het helpt "de militaire modernisering van de Volksrepubliek China te bevorderen". Dat belet je niet om MIT-gelicentieerde gewichten te downloaden, maar het is een reëel signaal voor elke organisatie die het leveranciersrisico afweegt.
Concreter voor het dagelijks gebruik: de handige gehoste z.ai-API loopt via een in China gevestigd bedrijf dat onder de Chinese datawetgeving valt. Voor een Europees of Frans bedrijf dat klant- of persoonsgegevens verwerkt, is dat een governancevraag die je moet beantwoorden voordat je gevoelige prompts erheen stuurt. De schone oplossing is precies degene die de MIT-licentie mogelijk maakt: host de gewichten zelf binnen je eigen infrastructuur, en de data verlaat nooit het pand. Gebruik de goedkope API voor niet-gevoelige workloads, host de rest zelf. Voeg daar het breedsprakige kostenprofiel per taak en de kloof tussen zelf gerapporteerde en onafhankelijk gemeten benchmarks aan toe, en je hebt het volledige, eerlijke beeld.
De GLM-stamboom, in data
GLM-5.2 kwam niet uit het niets. Het is de jongste stap in een snel, publiek tempo dat de kloof met de Amerikaanse labs gestaag heeft gedicht.
- GLM-4.5 tot GLM-4.6 Zhipu vestigt zich als serieuze open-weights kanshebber.
- GLM-5 De eerste die op coding echte klappen uitdeelt aan de frontier.
- GLM-5.1 744B/40B MoE, 200K context, de werkpaard-voorganger.
- GLM-5.2 (halverwege juni 2026) Even groot als GLM-5.1, maar verviervoudigt de context tot 1M (verschilt feitelijk vijfvoudig), boekt de grootste benchmarksprong binnen één versie van de reeks, en pakt de nummer-één-plaats onder de open-weights.
Onze visie: wanneer je GLM-5.2 echt moet inzetten
Wat volgt is onze analyse.
De hype is grotendeels verdiend, en de juiste reactie voor een bedrijf is hem noch wegwuiven noch alles van de ene op de andere dag migreren. Het is: het model afstemmen op de klus. Vanuit hoe wij voor klanten met AI bouwen, hier het praktische raster.
- Zet het in voor agentic coding en automatisering met hoog volume. Als Claude Code-alternatief of als motor achter interne agents zijn de prijs en de openheid van GLM-5.2 moeilijk te kloppen. Zet het achter een abstractielaag zodat je van model kunt wisselen met één configuratiewijziging, en reken op zijn tokenhonger.
- Host het zelf wanneer soevereiniteit of schaal dat eist. Gevoelige data, gereguleerde sectoren of voorspelbaar hoog volume zijn de gevallen waarin het bezit van de MIT-gewichten op je eigen GPU's wint van elke gehuurde API.
- Houd het weg bij je meest gevoelige data op de gehoste API. Tot je zelf host, stuur je geen vertrouwelijke of persoonsgegevens door het in China gevestigde endpoint. Dit is een governance-grens, geen kwaliteitsgrens.
- Maak niets afhankelijk van één leverancier. De les van de afgelopen maand, van overgenomen tools tot opgeschorte modellen, is dat het model onder je product een uitwisselbaar onderdeel moet zijn. GLM-5.2 is een uitstekende aanvulling op een multi-model stack, geen reden om het bedrijf op één aanbieder te verwedden.
Zo bouwen wij AI-functies voor klanten: het model als verwisselbaar onderdeel achter je eigen interfaces, per taak gekozen op prijs, prestatie en governance, op infrastructuur die je zelf beheert (zie onze realisaties). Wil je hulp bij de beslissing waar GLM-5.2, Claude of GPT echt in je product passen, en hoe je je data én je opties open houdt, vertel ons over je project (of neem contact met ons op) en we komen binnen 48 uur bij je terug. Meer over de snel bewegende AI-stack lees je in onze stukken over SpaceX dat Cursor koopt en de opschorting van Fable 5 door de overheid.
Belangrijke cijfers (per juni 2026)
Dit is een snel bewegend domein; elk cijfer is gedateerd op halverwege juni 2026 en zal verschuiven zodra de concurrenten reageren.
- 51 Artificial Analysis Intelligence Index, nummer één open-weights model, nummer vier in het totaal.
- 1.048.576 tokens context, met 128K maximale output.
- ~744 tot 753B totale parameters, ~40B actief (Mixture-of-Experts).
- $1,40 / $4,40 per miljoen input-/output-tokens, ongeveer een zesde van GPT-5.5.
- MIT-licentie, volledig zelf te hosten op 8x H200 (FP8).
- 16 januari 2025 de datum waarop Zhipu werd toegevoegd aan de US Entity List.



