GLM-5.2 è un modello linguistico di grandi dimensioni a pesi aperti sviluppato da Zhipu AI (marchio internazionale z.ai), rilasciato a metà giugno 2026 sotto licenza MIT. È un'architettura sparsa Mixture-of-Experts con ~744-753B di parametri totali (~40B attivi per token), un contesto reale da 1.048.576 token e output massimo di 128K token. Gestisce solo testo, con modalità di ragionamento, tool calling, output JSON e supporto MCP.

GLM-5.2 è davvero il miglior modello open source?

Secondo Artificial Analysis, valutatore indipendente, sì: GLM-5.2 ottiene 51 sull'Intelligence Index v4.1, il punteggio più alto tra i modelli a pesi aperti (su 92 testati, media di categoria intorno a 24), ed è quarto in assoluto dietro tre modelli chiusi (Claude Fable 5, Claude Opus 4.8, GPT-5.5). Attenzione però: alcuni numeri più appariscenti, come Terminal-Bench a 81 o 'dietro a Opus dell'1%', sono autodichiarati da z.ai e risultano un po' gonfiati rispetto alle misurazioni neutrali.

Quanto costa GLM-5.2?

L'API ufficiale z.ai costa 1,40 $ per milione di token in input e 4,40 $ in output, con input in cache a soli 0,26 $ (sconto dell'81%). VentureBeat ha misurato un costo combinato di circa un sesto di GPT-5.5, e router come OpenRouter scendono ancora (1,20 $ / 4,10 $). Attenzione però al consumo: GLM-5.2 brucia ~43.000 token per compito (~37.000 di ragionamento), quindi il costo per compito completato (0,46 $) è più alto di vari rivali nonostante la tariffa bassa per token.

Un'azienda può ospitare GLM-5.2 in proprio?

Sì. La licenza MIT standard, senza addendum o limiti regionali, permette di scaricare i checkpoint completi da Hugging Face (BF16 ~1,51 TB o FP8 ~744 GB), eseguirli, fare fine-tuning e distribuirli commercialmente. Il checkpoint FP8 entra in un singolo nodo da 8x H200 o 8x H20; per servire l'intero contesto da 1M di token servono 8x B200. Gira su vLLM, SGLang e Transformers, con una build AMD MXFP4 per gli acceleratori Instinct MI350/MI355.

È sicuro inviare dati sensibili a GLM-5.2?

Sull'API gestita, no: z.ai passa attraverso un'azienda con sede in Cina, soggetta alle leggi cinesi sui dati. Per un'impresa europea o francese che tratta dati di clienti o personali, è una questione di governance da risolvere prima di inviare prompt riservati. La soluzione pulita è quella abilitata dalla licenza MIT: ospitare i pesi nella propria infrastruttura, così i dati non escono mai. Usa l'API economica per i carichi non sensibili e il self-hosting per il resto.

Dovremmo passare da Claude o GPT a GLM-5.2?

Non da un giorno all'altro, e non per tutto. La strategia giusta è abbinare il modello al compito e non legarsi a un singolo fornitore. GLM-5.2 è un'ottima scelta per il coding agentico e l'automazione ad alto volume, e per i casi che richiedono sovranità o scala via self-hosting. Va però tenuto lontano dai dati più sensibili sull'API gestita. Costruisci il modello come componente intercambiabile dietro le tue interfacce, scegliendolo compito per compito su prezzo, prestazioni e governance.

GLM-5.2: il miglior LLM open, a 1/6 del costo

GLM-5.2 di Zhipu AI è il miglior modello a pesi aperti del mondo secondo Artificial Analysis (51 sull'Intelligence Index, quarto in assoluto), con licenza MIT, contesto reale da 1M di token e un prezzo pari a circa un sesto di GPT-5.5. Analizziamo benchmark, costi reali per compito e i rischi di governance legati alla US Entity List.

Ogni pochi mesi un modello a pesi aperti proveniente dalla Cina ridisegna il dibattito. DeepSeek lo ha fatto. Qwen lo ha fatto. A metà giugno 2026, Zhipu AI (la società dietro il marchio internazionale z.ai) lo ha fatto di nuovo con GLM-5.2: un modello Mixture-of-Experts, rilasciato sotto la permissiva licenza MIT, con un contesto reale da un milione di token, che il valutatore indipendente Artificial Analysis ha incoronato come il miglior modello a pesi aperti del mondo, quarto in assoluto dietro alla sola frontiera chiusa, a circa un sesto del prezzo di GPT-5.5.

Per chiunque costruisca prodotti con l'AI, quella combinazione (qualità prossima alla frontiera, pesi aperti che puoi ospitare in casa e un prezzo che taglia di molto i laboratori statunitensi) è lo sviluppo più importante del trimestre. Ma il titolo nasconde dei limiti reali: benchmark autodichiarati, un modello verboso che costa poco per token ma molto per compito, e un fornitore presente nella US Entity List la cui API gestita instrada i tuoi dati attraverso la Cina. Abbiamo recuperato le fonti primarie (la scheda del modello su Hugging Face, Artificial Analysis, vLLM, la documentazione stessa di z.ai, il Federal Register statunitense) per separare ciò che è verificato da ciò che è marketing, e per rispondere all'unica domanda che conta per un'azienda: quando dovresti effettivamente usarlo?

Cos'è GLM-5.2, in una tabella

GLM-5.2 è un modello sparso Mixture-of-Experts (MoE). La maggior parte dei suoi parametri resta inattiva su ogni singolo token, ed è così che un modello di queste dimensioni rimane economico da eseguire. Ecco le specifiche verificate.

Specifica	GLM-5.2 (verificato)
Architettura	Mixture-of-Experts sparso, attenzione sparsa in stile DeepSeek
Parametri	~744-753B totali, ~40B attivi per token
Finestra di contesto	1.048.576 token (un vero 1M, 5 volte i 200K di GLM-5.1)
Output massimo	128K token
Modalità	Solo testo (nessuna visione)
Licenza	MIT (uso commerciale, modifica, ridistribuzione, self-hosting)
Pesi	BF16 (~1,51 TB) e FP8 nativo (~744 GB) su Hugging Face (zai-org)
Funzionalità	Modalità di ragionamento, tool calling, output JSON, prompt caching, streaming, MCP
Rilascio	Metà giugno 2026 (Artificial Analysis indica il 16 giugno)

Le parole chiave che contano per la ricerca e per la strategia sono tutte qui: un LLM a pesi aperti, un'architettura Mixture-of-Experts, un contesto da 1M di token utilizzabile e un modello progettato per il coding agentico. Le prossime tre sezioni mettono numeri su ciascuno di questi punti.

I benchmark: numero uno tra gli aperti, numero quattro in assoluto

Il segnale più credibile è indipendente, non viene da z.ai. Artificial Analysis, che esegue la propria suite di valutazione, colloca GLM-5.2 a 51 sul suo Intelligence Index v4.1, il punteggio più alto di qualsiasi modello a pesi aperti (ne testa 92, dove la media della categoria si aggira intorno a 24). Si posiziona quarto in assoluto, dietro tre modelli chiusi. È la storia del "l'AI open source cinese sta raggiungendo la frontiera", raccontata con i numeri di una terza parte.

Artificial Analysis Intelligence Index v4.1 (più alto è meglio)

Claude Fable 5 (chiuso)

Claude Opus 4.8 (chiuso)

GPT-5.5 xhigh (chiuso)

GLM-5.2 (aperto, MIT)

MiniMax-M3 (aperto)

DeepSeek V4 Pro (aperto)

Kimi K2.6 (aperto)

Fonte: Artificial Analysis Intelligence Index v4.1, giugno 2026 (indipendente). GLM-5.2 è primo tra i modelli a pesi aperti, quarto in assoluto.

Sui singoli test, attenzione alla differenza tra ciò che riporta z.ai e ciò che misurano le terze parti. La scheda del modello dell'azienda cita numeri solidi su coding e ragionamento; Artificial Analysis conferma grandi salti rispetto a GLM-5.1 ma con cifre assolute leggermente inferiori. Etichettiamo ciascun dato qui sotto.

Benchmark	Punteggio	Fonte
SWE-bench Pro (coding agentico)	62,1 (in crescita dai 58,4 di GLM-5.1)	z.ai (dichiarato dall'azienda)
Terminal-Bench 2.1	81,0 dichiarato vs 78 misurato (Opus 4.8: 85)	dichiarazione z.ai vs Artificial Analysis
GPQA Diamond (ragionamento scientifico)	91,2 dichiarato, ~89 misurato	z.ai vs Artificial Analysis
Humanity's Last Exam	40,5 (54,7 con strumenti)	z.ai (dichiarato dall'azienda)
FrontierSWE	"dietro a Opus 4.8 dell'1%"	z.ai (dichiarazione di marketing)

La lettura onesta: GLM-5.2 è davvero prossimo alla frontiera su coding e ragionamento, la classifica indipendente lo dimostra, ma i singoli numeri più appariscenti ("dietro a Opus dell'1%", Terminal-Bench 81) sono di z.ai stessa e risultano un po' gonfiati rispetto alla misurazione neutrale. Per una decisione d'acquisto, fidati dell'aggregato di Artificial Analysis (numero uno tra gli aperti) e considera il resto come indicativo.

La vera notizia è il prezzo, con una controindicazione

È qui che GLM-5.2 riordina il mercato. L'API ufficiale di z.ai applica 1,40 $ per milione di token in input e 4,40 $ per milione di token in output, con input in cache a soli 0,26 $ (uno sconto cache dell'81%). VentureBeat ha misurato il costo combinato a circa un sesto di GPT-5.5. I router di terze parti scendono ancora di più (OpenRouter indica 1,20 $ / 4,10 $). Per un modello aperto e quasi di frontiera, questo è un taglio strutturale di prezzo, non una promozione.

La controindicazione è il consumo di token. GLM-5.2 è un ragionatore pesante: sulla suite di Artificial Analysis brucia circa 43.000 token in output per compito (di cui circa 37.000 di ragionamento), quindi il costo per compito completato finisce per essere più alto di diversi rivali nonostante il basso prezzo per token. Economico per token non significa automaticamente economico per lavoro.

Costo per compito sulla suite di Artificial Analysis (più basso è meglio)

GLM-5.2

$0.46

Kimi K2.6

$0.31

GLM-5.1

$0.25

MiniMax-M3

$0.18

DeepSeek V4 Pro

$0.05

Fonte: Artificial Analysis, giugno 2026. GLM-5.2 è il modello aperto più intelligente ma anche il più affamato di token, quindi metti a budget l'output, non solo la tariffa per token.

Prezzi ufficiali GLM-5.2 (z.ai)	Per 1M di token
Input	$1.40
Input in cache	$0.26 (81% in meno, storage gratis per ora)
Output	$4.40
Combinato vs GPT-5.5	circa un sesto del costo (VentureBeat)

Pesi aperti significano sovranità, non solo risparmio

I prezzi contano, ma la licenza conta di più. GLM-5.2 viene rilasciato sotto una licenza MIT standard e non modificata, senza addendum di uso accettabile e senza limiti regionali sui pesi. Puoi scaricare i checkpoint completi BF16 o FP8 da Hugging Face, eseguirli sul tuo hardware, fare fine-tuning e distribuirli commercialmente. Per un'azienda, è la differenza tra noleggiare intelligenza e possedere il proprio stack.

Il self-hosting è reale ma non banale. Il checkpoint FP8 entra in un singolo nodo da 8x H200 o 8x H20 GPU; servire l'intero contesto da 1M di token richiede 8x B200. Gira su vLLM, SGLang e Transformers, e AMD ha rilasciato una build MXFP4 per i suoi acceleratori Instinct MI350/MI355. In pratica, la maggior parte dei team partirà dall'API e riserverà il self-hosting ai casi in cui ripaga: rigorosa sovranità dei dati, costi prevedibili ad alto volume, o fine-tuning su dati proprietari. Il punto è che l'opzione esiste, qualcosa che nessun budget GPT-5.5 o Claude può comprarti.

La controindicazione: governance, fiducia e l'Entity List

Ecco ciò con cui i post di lancio non apriranno. Zhipu AI è stata aggiunta alla US Entity List il 16 gennaio 2025 (regola del Federal Register 2025-00704), la prima azienda cinese di LLM a entrarci, con la motivazione dichiarata che contribuisce a "far avanzare la modernizzazione militare della Repubblica Popolare Cinese". Questo non ti impedisce di scaricare pesi con licenza MIT, ma è un segnale reale per qualsiasi organizzazione che valuti il rischio del fornitore.

Più concretamente, per l'uso quotidiano: la comoda API gestita z.ai passa attraverso un'azienda con sede in Cina, soggetta alle leggi cinesi sui dati. Per un'impresa europea o francese che tratta dati di clienti o dati personali, questa è una questione di governance a cui devi rispondere prima di inviarle prompt sensibili. La soluzione pulita è esattamente quella che la licenza MIT abilita: ospita i pesi all'interno della tua infrastruttura, e i dati non escono mai. Usa l'API economica per i carichi non sensibili, fai self-hosting per il resto. Aggiungi il profilo verboso del costo per compito e il divario tra benchmark autodichiarati e misurati in modo indipendente, e hai il quadro completo e onesto.

Il lignaggio GLM, in date

GLM-5.2 non è apparso dal nulla. È l'ultimo passo di una cadenza rapida e pubblica che ha progressivamente colmato il divario con i laboratori statunitensi.

Da GLM-4.5 a GLM-4.6 Zhipu si afferma come un serio contendente tra i pesi aperti.
GLM-5 Il primo a scambiare colpi veri con la frontiera sul coding.
GLM-5.1 MoE da 744B/40B, contesto da 200K, il predecessore da lavoro.
GLM-5.2 (metà giugno 2026) Stesse dimensioni di GLM-5.1, ma quintuplica il contesto a 1M, registra il più grande salto di benchmark tra due versioni della linea e si prende la prima posizione tra i pesi aperti.

Il nostro parere: quando usare davvero GLM-5.2

Quello che segue è la nostra analisi.

L'entusiasmo è per lo più meritato, e la risposta giusta per un'azienda non è né liquidarlo né migrare tutto da un giorno all'altro. È abbinare il modello al lavoro. Da come costruiamo con l'AI per i clienti, ecco la griglia pratica.

Usalo per il coding agentico e l'automazione ad alto volume. Come alternativa a Claude Code o come motore dietro agenti interni, il prezzo e l'apertura di GLM-5.2 sono difficili da battere. Collegalo dietro un'astrazione così da poter cambiare modello con una modifica di configurazione, e metti a budget il suo appetito di token.
Fai self-hosting quando sovranità o scala lo richiedono. Dati sensibili, settori regolamentati o volumi pesanti prevedibili sono i casi in cui possedere i pesi MIT sulle tue GPU batte qualsiasi API noleggiata.
Tienilo lontano dai tuoi dati più sensibili sull'API gestita. Finché non fai self-hosting, non instradare dati riservati o personali attraverso l'endpoint con sede in Cina. È una linea di governance, non di qualità.
Non legarti a un singolo fornitore per nulla. La lezione dell'ultimo mese, dagli strumenti che vengono acquisiti ai modelli che vengono sospesi, è che il modello sotto il tuo prodotto dovrebbe essere un componente intercambiabile. GLM-5.2 è un'ottima aggiunta a uno stack multi-modello, non un motivo per scommettere l'azienda su un solo fornitore.

È esattamente così che progettiamo le funzionalità AI per i clienti: il modello come pezzo intercambiabile dietro le tue interfacce, scelto compito per compito su prezzo, prestazioni e governance, su un'infrastruttura che controlli (vedi i nostri lavori). Se vuoi aiuto per decidere dove GLM-5.2, Claude o GPT si collocano davvero nel tuo prodotto, e come mantenere aperti i tuoi dati e le tue opzioni, parlaci del tuo progetto (oppure contattaci) e ti risponderemo entro 48 ore. Per saperne di più sullo stack AI in rapida evoluzione, leggi i nostri articoli su SpaceX che compra Cursor e sulla sospensione governativa di Fable 5.

Numeri chiave (a giugno 2026)

È uno spazio in rapida evoluzione; ogni cifra è datata a metà giugno 2026 e cambierà man mano che i rivali risponderanno.

51 Artificial Analysis Intelligence Index, modello a pesi aperti numero uno, numero quattro in assoluto.
1.048.576 token di contesto, con 128K di output massimo.
~744-753B parametri totali, ~40B attivi (Mixture-of-Experts).
1,40 $ / 4,40 $ per milione di token in input/output, circa un sesto di GPT-5.5.
MIT come licenza, completamente self-hostable su 8x H200 (FP8).
16 gennaio 2025 la data in cui Zhipu è stata aggiunta alla US Entity List.

Sviluppo

Marketing e Comunicazione

GLM-5.2: l'LLM a pesi aperti appena diventato il migliore al mondo, a un sesto del costo

Cos'è GLM-5.2, in una tabella

I benchmark: numero uno tra gli aperti, numero quattro in assoluto

La vera notizia è il prezzo, con una controindicazione

Pesi aperti significano sovranità, non solo risparmio

La controindicazione: governance, fiducia e l'Entity List

Il lignaggio GLM, in date

Il nostro parere: quando usare davvero GLM-5.2

Numeri chiave (a giugno 2026)

Robin Monteiro

L'équipe derrière cet article peut le faire pour vous

Questions fréquentes

Articoli correlati

Quando lo Stato può spegnere la tua AI: Washington sospende Fable 5 e Mythos 5

Kickbacks.ai: pubblicità nello spinner di Claude Code, anatomia di un'occupazione senza contratto

SpaceX compra Cursor per 60 miliardi: quando il tuo editor di codice entra in un impero