Alle paar Monate stellt ein Open-Weights-Modell aus China die ganze Diskussion auf den Kopf. DeepSeek hat es getan. Qwen hat es getan. Mitte Juni 2026 hat Zhipu AI (das Unternehmen hinter der internationalen Marke z.ai) es erneut getan, und zwar mit GLM-5.2: einem Mixture-of-Experts-Modell, veröffentlicht unter der freizügigen MIT-Lizenz, mit einem echten Eine-Million-Token-Kontext, das der unabhängige Benchmark-Dienst Artificial Analysis zum besten Open-Weights-Modell der Welt gekürt hat, insgesamt auf Platz vier, nur hinter der geschlossenen Spitze, und das zu rund einem Sechstel des Preises von GPT-5.5.
Für alle, die Produkte mit KI bauen, ist diese Kombination (Qualität nahe an der Spitze, offene Gewichte zum Selbsthosten und ein Preis, der die US-Labore deutlich unterbietet) die wichtigste Entwicklung des Quartals. Doch die Schlagzeile verbirgt echte Einschränkungen: selbst gemeldete Benchmarks, ein wortreiches Modell, das pro Token günstig, pro Aufgabe aber teuer ist, und ein Anbieter auf der US Entity List, dessen gehostete API Ihre Daten durch China leitet. Wir haben die Primärquellen herangezogen (die Hugging-Face-Modellkarte, Artificial Analysis, vLLM, die eigenen Docs von z.ai, das US Federal Register), um zu trennen, was verifiziert ist von dem, was Marketing ist, und um die einzige Frage zu beantworten, die für ein Unternehmen zählt: Wann sollten Sie dieses Modell tatsächlich einsetzen?
Was GLM-5.2 ist, in einer Tabelle
GLM-5.2 ist ein sparsames Mixture-of-Experts-Modell (MoE). Die meisten seiner Parameter bleiben bei jedem einzelnen Token inaktiv, und genau so bleibt ein Modell dieser Größe bezahlbar im Betrieb. Hier sind die verifizierten Spezifikationen.
| Spezifikation | GLM-5.2 (verifiziert) |
|---|---|
| Architektur | Sparsames Mixture-of-Experts, DeepSeek-artige sparsame Attention |
| Parameter | ~744 bis 753B insgesamt, ~40B aktiv pro Token |
| Kontextfenster | 1.048.576 Token (ein echtes 1M, 5x die 200K von GLM-5.1) |
| Maximale Ausgabe | 128K Token |
| Modalität | Nur Text (keine Bildverarbeitung) |
| Lizenz | MIT (kommerzielle Nutzung, Anpassung, Weitergabe, Selbsthosting) |
| Gewichte | BF16 (~1,51 TB) und natives FP8 (~744 GB) auf Hugging Face (zai-org) |
| Funktionen | Reasoning-Modi, Tool Calling, JSON-Ausgabe, Prompt Caching, Streaming, MCP |
| Veröffentlicht | Mitte Juni 2026 (Artificial Analysis nennt den 16. Juni) |
Die Schlagworte, die für Suche und Strategie zählen, stehen hier alle: ein Open-Weights-LLM, ein Mixture-of-Experts-Design, ein nutzbarer 1M-Token-Kontext und ein Modell, das für agentisches Coding entwickelt wurde. Die nächsten drei Abschnitte unterlegen jeden Punkt mit Zahlen.
Die Benchmarks: Nummer eins der offenen Modelle, Nummer vier insgesamt
Das glaubwürdigste Signal ist unabhängig, nicht von z.ai. Artificial Analysis, das eine eigene Evaluierungssuite betreibt, platziert GLM-5.2 bei 51 auf seinem Intelligence Index v4.1, dem höchsten Wert aller Open-Weights-Modelle (geprüft werden 92 davon, wo der Klassendurchschnitt bei rund 24 liegt). Insgesamt liegt es auf Platz vier, hinter drei geschlossenen Modellen. Das ist die Geschichte vom chinesischen Open-Source-KI, die zur Spitze aufschließt, erzählt mit den Zahlen eines Dritten.
Artificial Analysis Intelligence Index v4.1 (höher ist besser)
Quelle: Artificial Analysis Intelligence Index v4.1, Juni 2026 (unabhängig). GLM-5.2 ist Erster unter den Open-Weights-Modellen, Vierter insgesamt.
Bei den einzelnen Tests sollten Sie den Unterschied zwischen dem beachten, was z.ai berichtet, und dem, was Dritte messen. Die Modellkarte des Unternehmens nennt starke Coding- und Reasoning-Werte; Artificial Analysis bestätigt große Sprünge gegenüber GLM-5.1, allerdings mit leicht niedrigeren Absolutwerten. Wir kennzeichnen jeden Punkt unten.
| Benchmark | Wert | Quelle |
|---|---|---|
| SWE-bench Pro (agentisches Coding) | 62,1 (gegenüber 58,4 bei GLM-5.1) | z.ai (vom Unternehmen gemeldet) |
| Terminal-Bench 2.1 | 81,0 behauptet vs. 78 gemessen (Opus 4.8: 85) | z.ai-Angabe vs. Artificial Analysis |
| GPQA Diamond (naturwissenschaftliches Reasoning) | 91,2 behauptet, ~89 gemessen | z.ai vs. Artificial Analysis |
| Humanity's Last Exam | 40,5 (54,7 mit Tools) | z.ai (vom Unternehmen gemeldet) |
| FrontierSWE | "liegt 1% hinter Opus 4.8" | z.ai (Marketing-Behauptung) |
Die ehrliche Einordnung: GLM-5.2 ist bei Coding und Reasoning tatsächlich nahe an der Spitze, das unabhängige Ranking belegt es, doch die plakativsten Einzelwerte ("1% hinter Opus", Terminal-Bench 81) stammen von z.ai selbst und fallen gegenüber der neutralen Messung eine Spur zu rosig aus. Für eine Kaufentscheidung vertrauen Sie dem aggregierten Wert von Artificial Analysis (Nummer eins der offenen Modelle) und betrachten den Rest als Richtwert.
Die eigentliche Geschichte ist der Preis, mit einem Haken
Hier ordnet GLM-5.2 den Markt neu. Die offizielle z.ai-API berechnet 1,40 $ pro Million Eingabe-Token und 4,40 $ pro Million Ausgabe-Token, mit zwischengespeicherten Eingaben für nur 0,26 $ (ein Cache-Rabatt von 81%). VentureBeat ermittelte die gemischten Kosten auf rund ein Sechstel von GPT-5.5. Drittanbieter-Router gehen sogar noch tiefer (OpenRouter listet 1,20 $ / 4,10 $). Für ein offenes, nahezu spitzenklassiges Modell ist das eine strukturelle Preissenkung, keine Aktion.
Der Haken ist der Token-Verbrauch. GLM-5.2 ist ein intensiver Denker: In der Suite von Artificial Analysis verbraucht es rund 43.000 Ausgabe-Token pro Aufgabe (etwa 37.000 davon Reasoning), sodass die Kosten pro abgeschlossener Aufgabe trotz des niedrigen Preises pro Token höher ausfallen als bei mehreren Konkurrenten. Günstig pro Token bedeutet nicht automatisch günstig pro Auftrag.
Kosten pro Aufgabe in der Artificial-Analysis-Suite (niedriger ist besser)
Quelle: Artificial Analysis, Juni 2026. GLM-5.2 ist das klügste offene Modell, aber auch das token-hungrigste, also kalkulieren Sie mit der Ausgabe, nicht nur mit dem Preis pro Token.
| Offizielle GLM-5.2-Preise (z.ai) | Pro 1M Token |
|---|---|
| Eingabe | $1.40 |
| Zwischengespeicherte Eingabe | $0.26 (81% günstiger, Speicherung derzeit kostenlos) |
| Ausgabe | $4.40 |
| Gemischt vs. GPT-5.5 | rund ein Sechstel der Kosten (VentureBeat) |
Offene Gewichte bedeuten Souveränität, nicht nur Ersparnis
Der Preis zählt, aber die Lizenz zählt mehr. GLM-5.2 erscheint unter einer standardmäßigen, unveränderten MIT-Lizenz, ohne Acceptable-Use-Zusatz und ohne regionale Beschränkungen der Gewichte. Sie können die vollständigen BF16- oder FP8-Checkpoints von Hugging Face herunterladen, sie auf Ihrer eigenen Hardware betreiben, sie feintunen und kommerziell ausliefern. Für ein Unternehmen ist das der Unterschied zwischen dem Mieten von Intelligenz und dem Besitz des eigenen Stacks.
Selbsthosting ist real, aber nicht trivial. Der FP8-Checkpoint passt auf einen einzelnen Knoten mit 8x H200 oder 8x H20 GPUs; um den vollen 1M-Token-Kontext zu bedienen, braucht es 8x B200. Es läuft auf vLLM, SGLang und Transformers, und AMD hat einen MXFP4-Build für seine Instinct-Beschleuniger MI350/MI355 ausgeliefert. In der Praxis werden die meisten Teams mit der API starten und Selbsthosting für die Fälle aufheben, in denen es sich lohnt: strikte Datensouveränität, vorhersehbare Kosten bei hohem Volumen oder Feintuning auf proprietären Daten. Entscheidend ist, dass die Option existiert, und das kann Ihnen kein noch so großes GPT-5.5- oder Claude-Budget verschaffen.
Der Haken: Governance, Vertrauen und die Entity List
Hier ist, womit die Launch-Posts nicht aufmachen werden. Zhipu AI wurde am 16. Januar 2025 auf die US Entity List gesetzt (Federal-Register-Regel 2025-00704), als erstes chinesisches LLM-Unternehmen, mit der erklärten Begründung, es helfe, "die militärische Modernisierung der Volksrepublik China voranzutreiben". Das hindert Sie nicht daran, MIT-lizenzierte Gewichte herunterzuladen, aber es ist ein echtes Signal für jede Organisation, die das Anbieterrisiko abwägt.
Konkreter für den täglichen Einsatz: Die bequeme gehostete z.ai-API läuft über ein in China ansässiges Unternehmen, das chinesischen Datengesetzen unterliegt. Für ein europäisches oder französisches Unternehmen, das Kunden- oder Personendaten verarbeitet, ist das eine Governance-Frage, die Sie beantworten müssen, bevor Sie sensible Prompts dorthin leiten. Die saubere Lösung ist genau die, die die MIT-Lizenz ermöglicht: Hosten Sie die Gewichte innerhalb Ihrer eigenen Infrastruktur, dann verlassen die Daten nie das Haus. Nutzen Sie die günstige API für nicht-sensible Workloads, hosten Sie den Rest selbst. Rechnen Sie das wortreiche Kosten-pro-Aufgabe-Profil und die Lücke zwischen selbst gemeldeten und unabhängig gemessenen Benchmarks hinzu, und Sie haben das vollständige, ehrliche Bild.
Die GLM-Linie, in Daten
GLM-5.2 ist nicht aus dem Nichts erschienen. Es ist der jüngste Schritt einer schnellen, öffentlichen Taktung, die den Abstand zu den US-Laboren stetig verkleinert hat.
- GLM-4.5 bis GLM-4.6 Zhipu etabliert sich als ernstzunehmender Open-Weights-Kandidat.
- GLM-5 Das erste Modell, das beim Coding echte Schläge mit der Spitze austauscht.
- GLM-5.1 744B/40B MoE, 200K Kontext, der Arbeitstier-Vorgänger.
- GLM-5.2 (Mitte Juni 2026) Gleiche Größe wie GLM-5.1, aber verfünffacht den Kontext auf 1M, verbucht den größten Benchmark-Sprung von einer Version zur nächsten in der gesamten Reihe und übernimmt den ersten Platz unter den Open-Weights-Modellen.
Unsere Einschätzung: Wann man GLM-5.2 tatsächlich einsetzt
Was folgt, ist unsere Analyse.
Der Hype ist größtenteils verdient, und die richtige Reaktion für ein Unternehmen besteht weder darin, ihn abzutun, noch darin, über Nacht alles zu migrieren. Es geht darum, das Modell zur Aufgabe passend zu wählen. Aus unserer Erfahrung damit, wie wir für Kunden mit KI bauen, hier das praktische Raster.
- Setzen Sie es für agentisches Coding und Automatisierung mit hohem Volumen ein. Als Claude-Code-Alternative oder als Motor hinter internen Agenten sind Preis und Offenheit von GLM-5.2 schwer zu schlagen. Verdrahten Sie es hinter einer Abstraktion, damit Sie Modelle per Konfigurationsänderung wechseln können, und kalkulieren Sie seinen Token-Appetit ein.
- Hosten Sie es selbst, wenn Souveränität oder Skalierung es verlangen. Sensible Daten, regulierte Branchen oder vorhersehbar hohes Volumen sind die Fälle, in denen der Besitz der MIT-Gewichte auf Ihren eigenen GPUs jede gemietete API schlägt.
- Halten Sie es von Ihren sensibelsten Daten auf der gehosteten API fern. Bis Sie selbst hosten, leiten Sie keine vertraulichen oder personenbezogenen Daten durch den in China ansässigen Endpunkt. Das ist eine Governance-Grenze, keine Qualitätsfrage.
- Binden Sie sich an keinen einzigen Anbieter. Die Lehre des vergangenen Monats, von Tools, die übernommen werden, bis zu Modellen, die ausgesetzt werden, ist, dass das Modell unter Ihrem Produkt eine austauschbare Komponente sein sollte. GLM-5.2 ist eine hervorragende Ergänzung für einen Multi-Modell-Stack, kein Grund, das Unternehmen auf einen einzigen Anbieter zu setzen.
Genau so konzipieren wir KI-Funktionen für Kunden: das Modell als austauschbarer Baustein hinter Ihren eigenen Schnittstellen, je Aufgabe nach Preis, Leistung und Governance gewählt, auf einer Infrastruktur, die Sie kontrollieren (siehe unsere Projekte). Wenn Sie Hilfe bei der Entscheidung wollen, wo GLM-5.2, Claude oder GPT in Ihrem Produkt tatsächlich passen und wie Sie Ihre Daten und Ihre Optionen offen halten, erzählen Sie uns von Ihrem Projekt (oder kontaktieren Sie uns) und wir melden uns innerhalb von 48 Stunden. Mehr zum schnelllebigen KI-Stack lesen Sie in unseren Beiträgen über SpaceX, das Cursor kauft und die staatliche Aussetzung von Fable 5.
Die wichtigsten Zahlen (Stand Juni 2026)
Dies ist ein schnelllebiges Feld; jede Zahl trägt den Zeitstempel Mitte Juni 2026 und wird sich verschieben, sobald die Konkurrenz reagiert.
- 51 Artificial Analysis Intelligence Index, Nummer eins der Open-Weights-Modelle, Nummer vier insgesamt.
- 1.048.576 Token Kontext, bei 128K maximaler Ausgabe.
- ~744 bis 753B Parameter insgesamt, ~40B aktiv (Mixture-of-Experts).
- 1,40 $ / 4,40 $ pro Million Eingabe-/Ausgabe-Token, etwa ein Sechstel von GPT-5.5.
- MIT-Lizenz, vollständig selbst hostbar auf 8x H200 (FP8).
- 16. Januar 2025 das Datum, an dem Zhipu auf die US Entity List gesetzt wurde.



