GLM-5.2 ist ein Open-Weights-Sprachmodell von Zhipu AI (internationale Marke z.ai), das Mitte Juni 2026 unter der MIT-Lizenz erschien. Es ist ein sparsames Mixture-of-Experts-Modell mit ~744 bis 753B Gesamtparametern, von denen pro Token nur ~40B aktiv sind, und bietet einen echten Kontext von 1.048.576 Token (1M) bei bis zu 128K Ausgabe-Token. Es unterstützt Reasoning-Modi, Tool Calling, JSON-Ausgabe und MCP und verarbeitet nur Text, keine Bilder.

Ist GLM-5.2 wirklich das beste Open-Source-Modell?

Gemessen am unabhängigen Artificial Analysis Intelligence Index v4.1 ja: Mit 51 Punkten ist es das höchstbewertete Open-Weights-Modell (von 92 getesteten, Klassendurchschnitt rund 24) und liegt insgesamt auf Platz vier, nur hinter den geschlossenen Modellen Claude Fable 5 (60), Claude Opus 4.8 (56) und GPT-5.5 xhigh (55). Vorsicht jedoch bei einzelnen Werten: z.ai meldet teils höhere Zahlen (Terminal-Bench 81,0 vs. 78 gemessen, GPQA Diamond 91,2 vs. ~89), als unabhängige Messungen ergeben.

Wie viel kostet GLM-5.2?

Die offizielle z.ai-API berechnet 1,40 $ pro Million Eingabe-Token und 4,40 $ pro Million Ausgabe-Token, mit zwischengespeicherten Eingaben für nur 0,26 $ (81% Rabatt). VentureBeat ermittelte die gemischten Kosten auf rund ein Sechstel von GPT-5.5; OpenRouter listet sogar 1,20 $ / 4,10 $. Achtung beim Token-Verbrauch: GLM-5.2 nutzt ~43.000 Ausgabe-Token pro Aufgabe, sodass die Kosten pro Aufgabe bei 0,46 $ liegen, mehr als bei mehreren günstigeren Konkurrenten.

Kann ein Unternehmen GLM-5.2 selbst hosten?

Ja. Dank der unveränderten MIT-Lizenz können Sie die vollständigen Gewichte (BF16 ~1,51 TB oder natives FP8 ~744 GB) von Hugging Face herunterladen, betreiben, feintunen und kommerziell ausliefern. Der FP8-Checkpoint passt auf einen Knoten mit 8x H200 oder 8x H20; für den vollen 1M-Token-Kontext braucht es 8x B200. Es läuft auf vLLM, SGLang und Transformers, und AMD hat einen MXFP4-Build für die Instinct MI350/MI355 ausgeliefert.

Ist es sicher, sensible Daten an GLM-5.2 zu senden?

Nicht über die gehostete z.ai-API. Diese läuft über ein in China ansässiges Unternehmen, das chinesischen Datengesetzen unterliegt, und Zhipu AI steht seit dem 16. Januar 2025 auf der US Entity List. Für ein europäisches oder französisches Unternehmen mit Kunden- oder Personendaten ist das eine Governance-Frage. Die saubere Lösung: Hosten Sie die MIT-lizenzierten Gewichte in Ihrer eigenen Infrastruktur, dann verlassen die Daten nie das Haus. Nutzen Sie die günstige API nur für nicht-sensible Workloads.

Sollten wir von Claude oder GPT auf GLM-5.2 wechseln?

Nicht alles über Nacht migrieren, sondern das Modell zur Aufgabe passend wählen. GLM-5.2 ist hervorragend für agentisches Coding und Automatisierung mit hohem Volumen sowie als Claude-Code-Alternative; selbst hosten Sie es, wenn Souveränität oder Skalierung es verlangen. Halten Sie es über die gehostete API von Ihren sensibelsten Daten fern. Vor allem: Binden Sie sich an keinen einzigen Anbieter. Setzen Sie das Modell als austauschbaren Baustein hinter Ihre eigenen Schnittstellen, je Aufgabe nach Preis, Leistung und Governance gewählt.

GLM-5.2: bestes offenes LLM, 1/6 vom Preis

GLM-5.2 von Zhipu AI ist das beste Open-Weights-LLM der Welt, Platz vier insgesamt, zu einem Sechstel des Preises von GPT-5.5. Wir trennen die verifizierten Fakten vom Marketing und sagen, wann der Einsatz im Unternehmen wirklich sinnvoll ist.

Alle paar Monate stellt ein Open-Weights-Modell aus China die ganze Diskussion auf den Kopf. DeepSeek hat es getan. Qwen hat es getan. Mitte Juni 2026 hat Zhipu AI (das Unternehmen hinter der internationalen Marke z.ai) es erneut getan, und zwar mit GLM-5.2: einem Mixture-of-Experts-Modell, veröffentlicht unter der freizügigen MIT-Lizenz, mit einem echten Eine-Million-Token-Kontext, das der unabhängige Benchmark-Dienst Artificial Analysis zum besten Open-Weights-Modell der Welt gekürt hat, insgesamt auf Platz vier, nur hinter der geschlossenen Spitze, und das zu rund einem Sechstel des Preises von GPT-5.5.

Für alle, die Produkte mit KI bauen, ist diese Kombination (Qualität nahe an der Spitze, offene Gewichte zum Selbsthosten und ein Preis, der die US-Labore deutlich unterbietet) die wichtigste Entwicklung des Quartals. Doch die Schlagzeile verbirgt echte Einschränkungen: selbst gemeldete Benchmarks, ein wortreiches Modell, das pro Token günstig, pro Aufgabe aber teuer ist, und ein Anbieter auf der US Entity List, dessen gehostete API Ihre Daten durch China leitet. Wir haben die Primärquellen herangezogen (die Hugging-Face-Modellkarte, Artificial Analysis, vLLM, die eigenen Docs von z.ai, das US Federal Register), um zu trennen, was verifiziert ist von dem, was Marketing ist, und um die einzige Frage zu beantworten, die für ein Unternehmen zählt: Wann sollten Sie dieses Modell tatsächlich einsetzen?

Was GLM-5.2 ist, in einer Tabelle

GLM-5.2 ist ein sparsames Mixture-of-Experts-Modell (MoE). Die meisten seiner Parameter bleiben bei jedem einzelnen Token inaktiv, und genau so bleibt ein Modell dieser Größe bezahlbar im Betrieb. Hier sind die verifizierten Spezifikationen.

Spezifikation	GLM-5.2 (verifiziert)
Architektur	Sparsames Mixture-of-Experts, DeepSeek-artige sparsame Attention
Parameter	~744 bis 753B insgesamt, ~40B aktiv pro Token
Kontextfenster	1.048.576 Token (ein echtes 1M, 5x die 200K von GLM-5.1)
Maximale Ausgabe	128K Token
Modalität	Nur Text (keine Bildverarbeitung)
Lizenz	MIT (kommerzielle Nutzung, Anpassung, Weitergabe, Selbsthosting)
Gewichte	BF16 (~1,51 TB) und natives FP8 (~744 GB) auf Hugging Face (zai-org)
Funktionen	Reasoning-Modi, Tool Calling, JSON-Ausgabe, Prompt Caching, Streaming, MCP
Veröffentlicht	Mitte Juni 2026 (Artificial Analysis nennt den 16. Juni)

Die Schlagworte, die für Suche und Strategie zählen, stehen hier alle: ein Open-Weights-LLM, ein Mixture-of-Experts-Design, ein nutzbarer 1M-Token-Kontext und ein Modell, das für agentisches Coding entwickelt wurde. Die nächsten drei Abschnitte unterlegen jeden Punkt mit Zahlen.

Die Benchmarks: Nummer eins der offenen Modelle, Nummer vier insgesamt

Das glaubwürdigste Signal ist unabhängig, nicht von z.ai. Artificial Analysis, das eine eigene Evaluierungssuite betreibt, platziert GLM-5.2 bei 51 auf seinem Intelligence Index v4.1, dem höchsten Wert aller Open-Weights-Modelle (geprüft werden 92 davon, wo der Klassendurchschnitt bei rund 24 liegt). Insgesamt liegt es auf Platz vier, hinter drei geschlossenen Modellen. Das ist die Geschichte vom chinesischen Open-Source-KI, die zur Spitze aufschließt, erzählt mit den Zahlen eines Dritten.

Artificial Analysis Intelligence Index v4.1 (höher ist besser)

Claude Fable 5 (geschlossen)

Claude Opus 4.8 (geschlossen)

GPT-5.5 xhigh (geschlossen)

GLM-5.2 (offen, MIT)

MiniMax-M3 (offen)

DeepSeek V4 Pro (offen)

Kimi K2.6 (offen)

Quelle: Artificial Analysis Intelligence Index v4.1, Juni 2026 (unabhängig). GLM-5.2 ist Erster unter den Open-Weights-Modellen, Vierter insgesamt.

Bei den einzelnen Tests sollten Sie den Unterschied zwischen dem beachten, was z.ai berichtet, und dem, was Dritte messen. Die Modellkarte des Unternehmens nennt starke Coding- und Reasoning-Werte; Artificial Analysis bestätigt große Sprünge gegenüber GLM-5.1, allerdings mit leicht niedrigeren Absolutwerten. Wir kennzeichnen jeden Punkt unten.

Benchmark	Wert	Quelle
SWE-bench Pro (agentisches Coding)	62,1 (gegenüber 58,4 bei GLM-5.1)	z.ai (vom Unternehmen gemeldet)
Terminal-Bench 2.1	81,0 behauptet vs. 78 gemessen (Opus 4.8: 85)	z.ai-Angabe vs. Artificial Analysis
GPQA Diamond (naturwissenschaftliches Reasoning)	91,2 behauptet, ~89 gemessen	z.ai vs. Artificial Analysis
Humanity's Last Exam	40,5 (54,7 mit Tools)	z.ai (vom Unternehmen gemeldet)
FrontierSWE	"liegt 1% hinter Opus 4.8"	z.ai (Marketing-Behauptung)

Die ehrliche Einordnung: GLM-5.2 ist bei Coding und Reasoning tatsächlich nahe an der Spitze, das unabhängige Ranking belegt es, doch die plakativsten Einzelwerte ("1% hinter Opus", Terminal-Bench 81) stammen von z.ai selbst und fallen gegenüber der neutralen Messung eine Spur zu rosig aus. Für eine Kaufentscheidung vertrauen Sie dem aggregierten Wert von Artificial Analysis (Nummer eins der offenen Modelle) und betrachten den Rest als Richtwert.

Die eigentliche Geschichte ist der Preis, mit einem Haken

Hier ordnet GLM-5.2 den Markt neu. Die offizielle z.ai-API berechnet 1,40 $ pro Million Eingabe-Token und 4,40 $ pro Million Ausgabe-Token, mit zwischengespeicherten Eingaben für nur 0,26 $ (ein Cache-Rabatt von 81%). VentureBeat ermittelte die gemischten Kosten auf rund ein Sechstel von GPT-5.5. Drittanbieter-Router gehen sogar noch tiefer (OpenRouter listet 1,20 $ / 4,10 $). Für ein offenes, nahezu spitzenklassiges Modell ist das eine strukturelle Preissenkung, keine Aktion.

Der Haken ist der Token-Verbrauch. GLM-5.2 ist ein intensiver Denker: In der Suite von Artificial Analysis verbraucht es rund 43.000 Ausgabe-Token pro Aufgabe (etwa 37.000 davon Reasoning), sodass die Kosten pro abgeschlossener Aufgabe trotz des niedrigen Preises pro Token höher ausfallen als bei mehreren Konkurrenten. Günstig pro Token bedeutet nicht automatisch günstig pro Auftrag.

Kosten pro Aufgabe in der Artificial-Analysis-Suite (niedriger ist besser)

GLM-5.2

$0.46

Kimi K2.6

$0.31

GLM-5.1

$0.25

MiniMax-M3

$0.18

DeepSeek V4 Pro

$0.05

Quelle: Artificial Analysis, Juni 2026. GLM-5.2 ist das klügste offene Modell, aber auch das token-hungrigste, also kalkulieren Sie mit der Ausgabe, nicht nur mit dem Preis pro Token.

Offizielle GLM-5.2-Preise (z.ai)	Pro 1M Token
Eingabe	$1.40
Zwischengespeicherte Eingabe	$0.26 (81% günstiger, Speicherung derzeit kostenlos)
Ausgabe	$4.40
Gemischt vs. GPT-5.5	rund ein Sechstel der Kosten (VentureBeat)

Offene Gewichte bedeuten Souveränität, nicht nur Ersparnis

Der Preis zählt, aber die Lizenz zählt mehr. GLM-5.2 erscheint unter einer standardmäßigen, unveränderten MIT-Lizenz, ohne Acceptable-Use-Zusatz und ohne regionale Beschränkungen der Gewichte. Sie können die vollständigen BF16- oder FP8-Checkpoints von Hugging Face herunterladen, sie auf Ihrer eigenen Hardware betreiben, sie feintunen und kommerziell ausliefern. Für ein Unternehmen ist das der Unterschied zwischen dem Mieten von Intelligenz und dem Besitz des eigenen Stacks.

Selbsthosting ist real, aber nicht trivial. Der FP8-Checkpoint passt auf einen einzelnen Knoten mit 8x H200 oder 8x H20 GPUs; um den vollen 1M-Token-Kontext zu bedienen, braucht es 8x B200. Es läuft auf vLLM, SGLang und Transformers, und AMD hat einen MXFP4-Build für seine Instinct-Beschleuniger MI350/MI355 ausgeliefert. In der Praxis werden die meisten Teams mit der API starten und Selbsthosting für die Fälle aufheben, in denen es sich lohnt: strikte Datensouveränität, vorhersehbare Kosten bei hohem Volumen oder Feintuning auf proprietären Daten. Entscheidend ist, dass die Option existiert, und das kann Ihnen kein noch so großes GPT-5.5- oder Claude-Budget verschaffen.

Der Haken: Governance, Vertrauen und die Entity List

Hier ist, womit die Launch-Posts nicht aufmachen werden. Zhipu AI wurde am 16. Januar 2025 auf die US Entity List gesetzt (Federal-Register-Regel 2025-00704), als erstes chinesisches LLM-Unternehmen, mit der erklärten Begründung, es helfe, "die militärische Modernisierung der Volksrepublik China voranzutreiben". Das hindert Sie nicht daran, MIT-lizenzierte Gewichte herunterzuladen, aber es ist ein echtes Signal für jede Organisation, die das Anbieterrisiko abwägt.

Konkreter für den täglichen Einsatz: Die bequeme gehostete z.ai-API läuft über ein in China ansässiges Unternehmen, das chinesischen Datengesetzen unterliegt. Für ein europäisches oder französisches Unternehmen, das Kunden- oder Personendaten verarbeitet, ist das eine Governance-Frage, die Sie beantworten müssen, bevor Sie sensible Prompts dorthin leiten. Die saubere Lösung ist genau die, die die MIT-Lizenz ermöglicht: Hosten Sie die Gewichte innerhalb Ihrer eigenen Infrastruktur, dann verlassen die Daten nie das Haus. Nutzen Sie die günstige API für nicht-sensible Workloads, hosten Sie den Rest selbst. Rechnen Sie das wortreiche Kosten-pro-Aufgabe-Profil und die Lücke zwischen selbst gemeldeten und unabhängig gemessenen Benchmarks hinzu, und Sie haben das vollständige, ehrliche Bild.

Die GLM-Linie, in Daten

GLM-5.2 ist nicht aus dem Nichts erschienen. Es ist der jüngste Schritt einer schnellen, öffentlichen Taktung, die den Abstand zu den US-Laboren stetig verkleinert hat.

GLM-4.5 bis GLM-4.6 Zhipu etabliert sich als ernstzunehmender Open-Weights-Kandidat.
GLM-5 Das erste Modell, das beim Coding echte Schläge mit der Spitze austauscht.
GLM-5.1 744B/40B MoE, 200K Kontext, der Arbeitstier-Vorgänger.
GLM-5.2 (Mitte Juni 2026) Gleiche Größe wie GLM-5.1, aber verfünffacht den Kontext auf 1M, verbucht den größten Benchmark-Sprung von einer Version zur nächsten in der gesamten Reihe und übernimmt den ersten Platz unter den Open-Weights-Modellen.

Unsere Einschätzung: Wann man GLM-5.2 tatsächlich einsetzt

Was folgt, ist unsere Analyse.

Der Hype ist größtenteils verdient, und die richtige Reaktion für ein Unternehmen besteht weder darin, ihn abzutun, noch darin, über Nacht alles zu migrieren. Es geht darum, das Modell zur Aufgabe passend zu wählen. Aus unserer Erfahrung damit, wie wir für Kunden mit KI bauen, hier das praktische Raster.

Setzen Sie es für agentisches Coding und Automatisierung mit hohem Volumen ein. Als Claude-Code-Alternative oder als Motor hinter internen Agenten sind Preis und Offenheit von GLM-5.2 schwer zu schlagen. Verdrahten Sie es hinter einer Abstraktion, damit Sie Modelle per Konfigurationsänderung wechseln können, und kalkulieren Sie seinen Token-Appetit ein.
Hosten Sie es selbst, wenn Souveränität oder Skalierung es verlangen. Sensible Daten, regulierte Branchen oder vorhersehbar hohes Volumen sind die Fälle, in denen der Besitz der MIT-Gewichte auf Ihren eigenen GPUs jede gemietete API schlägt.
Halten Sie es von Ihren sensibelsten Daten auf der gehosteten API fern. Bis Sie selbst hosten, leiten Sie keine vertraulichen oder personenbezogenen Daten durch den in China ansässigen Endpunkt. Das ist eine Governance-Grenze, keine Qualitätsfrage.
Binden Sie sich an keinen einzigen Anbieter. Die Lehre des vergangenen Monats, von Tools, die übernommen werden, bis zu Modellen, die ausgesetzt werden, ist, dass das Modell unter Ihrem Produkt eine austauschbare Komponente sein sollte. GLM-5.2 ist eine hervorragende Ergänzung für einen Multi-Modell-Stack, kein Grund, das Unternehmen auf einen einzigen Anbieter zu setzen.

Genau so konzipieren wir KI-Funktionen für Kunden: das Modell als austauschbarer Baustein hinter Ihren eigenen Schnittstellen, je Aufgabe nach Preis, Leistung und Governance gewählt, auf einer Infrastruktur, die Sie kontrollieren (siehe unsere Projekte). Wenn Sie Hilfe bei der Entscheidung wollen, wo GLM-5.2, Claude oder GPT in Ihrem Produkt tatsächlich passen und wie Sie Ihre Daten und Ihre Optionen offen halten, erzählen Sie uns von Ihrem Projekt (oder kontaktieren Sie uns) und wir melden uns innerhalb von 48 Stunden. Mehr zum schnelllebigen KI-Stack lesen Sie in unseren Beiträgen über SpaceX, das Cursor kauft und die staatliche Aussetzung von Fable 5.

Die wichtigsten Zahlen (Stand Juni 2026)

Dies ist ein schnelllebiges Feld; jede Zahl trägt den Zeitstempel Mitte Juni 2026 und wird sich verschieben, sobald die Konkurrenz reagiert.

51 Artificial Analysis Intelligence Index, Nummer eins der Open-Weights-Modelle, Nummer vier insgesamt.
1.048.576 Token Kontext, bei 128K maximaler Ausgabe.
~744 bis 753B Parameter insgesamt, ~40B aktiv (Mixture-of-Experts).
1,40 $ / 4,40 $ pro Million Eingabe-/Ausgabe-Token, etwa ein Sechstel von GPT-5.5.
MIT-Lizenz, vollständig selbst hostbar auf 8x H200 (FP8).
16. Januar 2025 das Datum, an dem Zhipu auf die US Entity List gesetzt wurde.

Entwicklung

Marketing & Kommunikation

GLM-5.2: das Open-Weights-LLM, das gerade das beste der Welt wurde, zu einem Sechstel der Kosten

Was GLM-5.2 ist, in einer Tabelle

Die Benchmarks: Nummer eins der offenen Modelle, Nummer vier insgesamt

Die eigentliche Geschichte ist der Preis, mit einem Haken

Offene Gewichte bedeuten Souveränität, nicht nur Ersparnis

Der Haken: Governance, Vertrauen und die Entity List

Die GLM-Linie, in Daten

Unsere Einschätzung: Wann man GLM-5.2 tatsächlich einsetzt

Die wichtigsten Zahlen (Stand Juni 2026)

Robin Monteiro

L'équipe derrière cet article peut le faire pour vous

Questions fréquentes

Ähnliche Artikel

Wenn der Staat deine KI abschaltet: Washington stoppt Fable 5 und Mythos 5

Kickbacks.ai: Werbung im Claude-Code-Spinner, Anatomie einer Landnahme ohne Pachtvertrag

SpaceX kauft Cursor für 60 Milliarden Dollar: Wenn dein Code-Editor einem Imperium beitritt