Ogni pochi mesi un modello a pesi aperti proveniente dalla Cina ridisegna il dibattito. DeepSeek lo ha fatto. Qwen lo ha fatto. A metà giugno 2026, Zhipu AI (la società dietro il marchio internazionale z.ai) lo ha fatto di nuovo con GLM-5.2: un modello Mixture-of-Experts, rilasciato sotto la permissiva licenza MIT, con un contesto reale da un milione di token, che il valutatore indipendente Artificial Analysis ha incoronato come il miglior modello a pesi aperti del mondo, quarto in assoluto dietro alla sola frontiera chiusa, a circa un sesto del prezzo di GPT-5.5.
Per chiunque costruisca prodotti con l'AI, quella combinazione (qualità prossima alla frontiera, pesi aperti che puoi ospitare in casa e un prezzo che taglia di molto i laboratori statunitensi) è lo sviluppo più importante del trimestre. Ma il titolo nasconde dei limiti reali: benchmark autodichiarati, un modello verboso che costa poco per token ma molto per compito, e un fornitore presente nella US Entity List la cui API gestita instrada i tuoi dati attraverso la Cina. Abbiamo recuperato le fonti primarie (la scheda del modello su Hugging Face, Artificial Analysis, vLLM, la documentazione stessa di z.ai, il Federal Register statunitense) per separare ciò che è verificato da ciò che è marketing, e per rispondere all'unica domanda che conta per un'azienda: quando dovresti effettivamente usarlo?
Cos'è GLM-5.2, in una tabella
GLM-5.2 è un modello sparso Mixture-of-Experts (MoE). La maggior parte dei suoi parametri resta inattiva su ogni singolo token, ed è così che un modello di queste dimensioni rimane economico da eseguire. Ecco le specifiche verificate.
| Specifica | GLM-5.2 (verificato) |
|---|---|
| Architettura | Mixture-of-Experts sparso, attenzione sparsa in stile DeepSeek |
| Parametri | ~744-753B totali, ~40B attivi per token |
| Finestra di contesto | 1.048.576 token (un vero 1M, 5 volte i 200K di GLM-5.1) |
| Output massimo | 128K token |
| Modalità | Solo testo (nessuna visione) |
| Licenza | MIT (uso commerciale, modifica, ridistribuzione, self-hosting) |
| Pesi | BF16 (~1,51 TB) e FP8 nativo (~744 GB) su Hugging Face (zai-org) |
| Funzionalità | Modalità di ragionamento, tool calling, output JSON, prompt caching, streaming, MCP |
| Rilascio | Metà giugno 2026 (Artificial Analysis indica il 16 giugno) |
Le parole chiave che contano per la ricerca e per la strategia sono tutte qui: un LLM a pesi aperti, un'architettura Mixture-of-Experts, un contesto da 1M di token utilizzabile e un modello progettato per il coding agentico. Le prossime tre sezioni mettono numeri su ciascuno di questi punti.
I benchmark: numero uno tra gli aperti, numero quattro in assoluto
Il segnale più credibile è indipendente, non viene da z.ai. Artificial Analysis, che esegue la propria suite di valutazione, colloca GLM-5.2 a 51 sul suo Intelligence Index v4.1, il punteggio più alto di qualsiasi modello a pesi aperti (ne testa 92, dove la media della categoria si aggira intorno a 24). Si posiziona quarto in assoluto, dietro tre modelli chiusi. È la storia del "l'AI open source cinese sta raggiungendo la frontiera", raccontata con i numeri di una terza parte.
Artificial Analysis Intelligence Index v4.1 (più alto è meglio)
Fonte: Artificial Analysis Intelligence Index v4.1, giugno 2026 (indipendente). GLM-5.2 è primo tra i modelli a pesi aperti, quarto in assoluto.
Sui singoli test, attenzione alla differenza tra ciò che riporta z.ai e ciò che misurano le terze parti. La scheda del modello dell'azienda cita numeri solidi su coding e ragionamento; Artificial Analysis conferma grandi salti rispetto a GLM-5.1 ma con cifre assolute leggermente inferiori. Etichettiamo ciascun dato qui sotto.
| Benchmark | Punteggio | Fonte |
|---|---|---|
| SWE-bench Pro (coding agentico) | 62,1 (in crescita dai 58,4 di GLM-5.1) | z.ai (dichiarato dall'azienda) |
| Terminal-Bench 2.1 | 81,0 dichiarato vs 78 misurato (Opus 4.8: 85) | dichiarazione z.ai vs Artificial Analysis |
| GPQA Diamond (ragionamento scientifico) | 91,2 dichiarato, ~89 misurato | z.ai vs Artificial Analysis |
| Humanity's Last Exam | 40,5 (54,7 con strumenti) | z.ai (dichiarato dall'azienda) |
| FrontierSWE | "dietro a Opus 4.8 dell'1%" | z.ai (dichiarazione di marketing) |
La lettura onesta: GLM-5.2 è davvero prossimo alla frontiera su coding e ragionamento, la classifica indipendente lo dimostra, ma i singoli numeri più appariscenti ("dietro a Opus dell'1%", Terminal-Bench 81) sono di z.ai stessa e risultano un po' gonfiati rispetto alla misurazione neutrale. Per una decisione d'acquisto, fidati dell'aggregato di Artificial Analysis (numero uno tra gli aperti) e considera il resto come indicativo.
La vera notizia è il prezzo, con una controindicazione
È qui che GLM-5.2 riordina il mercato. L'API ufficiale di z.ai applica 1,40 $ per milione di token in input e 4,40 $ per milione di token in output, con input in cache a soli 0,26 $ (uno sconto cache dell'81%). VentureBeat ha misurato il costo combinato a circa un sesto di GPT-5.5. I router di terze parti scendono ancora di più (OpenRouter indica 1,20 $ / 4,10 $). Per un modello aperto e quasi di frontiera, questo è un taglio strutturale di prezzo, non una promozione.
La controindicazione è il consumo di token. GLM-5.2 è un ragionatore pesante: sulla suite di Artificial Analysis brucia circa 43.000 token in output per compito (di cui circa 37.000 di ragionamento), quindi il costo per compito completato finisce per essere più alto di diversi rivali nonostante il basso prezzo per token. Economico per token non significa automaticamente economico per lavoro.
Costo per compito sulla suite di Artificial Analysis (più basso è meglio)
Fonte: Artificial Analysis, giugno 2026. GLM-5.2 è il modello aperto più intelligente ma anche il più affamato di token, quindi metti a budget l'output, non solo la tariffa per token.
| Prezzi ufficiali GLM-5.2 (z.ai) | Per 1M di token |
|---|---|
| Input | $1.40 |
| Input in cache | $0.26 (81% in meno, storage gratis per ora) |
| Output | $4.40 |
| Combinato vs GPT-5.5 | circa un sesto del costo (VentureBeat) |
Pesi aperti significano sovranità, non solo risparmio
I prezzi contano, ma la licenza conta di più. GLM-5.2 viene rilasciato sotto una licenza MIT standard e non modificata, senza addendum di uso accettabile e senza limiti regionali sui pesi. Puoi scaricare i checkpoint completi BF16 o FP8 da Hugging Face, eseguirli sul tuo hardware, fare fine-tuning e distribuirli commercialmente. Per un'azienda, è la differenza tra noleggiare intelligenza e possedere il proprio stack.
Il self-hosting è reale ma non banale. Il checkpoint FP8 entra in un singolo nodo da 8x H200 o 8x H20 GPU; servire l'intero contesto da 1M di token richiede 8x B200. Gira su vLLM, SGLang e Transformers, e AMD ha rilasciato una build MXFP4 per i suoi acceleratori Instinct MI350/MI355. In pratica, la maggior parte dei team partirà dall'API e riserverà il self-hosting ai casi in cui ripaga: rigorosa sovranità dei dati, costi prevedibili ad alto volume, o fine-tuning su dati proprietari. Il punto è che l'opzione esiste, qualcosa che nessun budget GPT-5.5 o Claude può comprarti.
La controindicazione: governance, fiducia e l'Entity List
Ecco ciò con cui i post di lancio non apriranno. Zhipu AI è stata aggiunta alla US Entity List il 16 gennaio 2025 (regola del Federal Register 2025-00704), la prima azienda cinese di LLM a entrarci, con la motivazione dichiarata che contribuisce a "far avanzare la modernizzazione militare della Repubblica Popolare Cinese". Questo non ti impedisce di scaricare pesi con licenza MIT, ma è un segnale reale per qualsiasi organizzazione che valuti il rischio del fornitore.
Più concretamente, per l'uso quotidiano: la comoda API gestita z.ai passa attraverso un'azienda con sede in Cina, soggetta alle leggi cinesi sui dati. Per un'impresa europea o francese che tratta dati di clienti o dati personali, questa è una questione di governance a cui devi rispondere prima di inviarle prompt sensibili. La soluzione pulita è esattamente quella che la licenza MIT abilita: ospita i pesi all'interno della tua infrastruttura, e i dati non escono mai. Usa l'API economica per i carichi non sensibili, fai self-hosting per il resto. Aggiungi il profilo verboso del costo per compito e il divario tra benchmark autodichiarati e misurati in modo indipendente, e hai il quadro completo e onesto.
Il lignaggio GLM, in date
GLM-5.2 non è apparso dal nulla. È l'ultimo passo di una cadenza rapida e pubblica che ha progressivamente colmato il divario con i laboratori statunitensi.
- Da GLM-4.5 a GLM-4.6 Zhipu si afferma come un serio contendente tra i pesi aperti.
- GLM-5 Il primo a scambiare colpi veri con la frontiera sul coding.
- GLM-5.1 MoE da 744B/40B, contesto da 200K, il predecessore da lavoro.
- GLM-5.2 (metà giugno 2026) Stesse dimensioni di GLM-5.1, ma quintuplica il contesto a 1M, registra il più grande salto di benchmark tra due versioni della linea e si prende la prima posizione tra i pesi aperti.
Il nostro parere: quando usare davvero GLM-5.2
Quello che segue è la nostra analisi.
L'entusiasmo è per lo più meritato, e la risposta giusta per un'azienda non è né liquidarlo né migrare tutto da un giorno all'altro. È abbinare il modello al lavoro. Da come costruiamo con l'AI per i clienti, ecco la griglia pratica.
- Usalo per il coding agentico e l'automazione ad alto volume. Come alternativa a Claude Code o come motore dietro agenti interni, il prezzo e l'apertura di GLM-5.2 sono difficili da battere. Collegalo dietro un'astrazione così da poter cambiare modello con una modifica di configurazione, e metti a budget il suo appetito di token.
- Fai self-hosting quando sovranità o scala lo richiedono. Dati sensibili, settori regolamentati o volumi pesanti prevedibili sono i casi in cui possedere i pesi MIT sulle tue GPU batte qualsiasi API noleggiata.
- Tienilo lontano dai tuoi dati più sensibili sull'API gestita. Finché non fai self-hosting, non instradare dati riservati o personali attraverso l'endpoint con sede in Cina. È una linea di governance, non di qualità.
- Non legarti a un singolo fornitore per nulla. La lezione dell'ultimo mese, dagli strumenti che vengono acquisiti ai modelli che vengono sospesi, è che il modello sotto il tuo prodotto dovrebbe essere un componente intercambiabile. GLM-5.2 è un'ottima aggiunta a uno stack multi-modello, non un motivo per scommettere l'azienda su un solo fornitore.
È esattamente così che progettiamo le funzionalità AI per i clienti: il modello come pezzo intercambiabile dietro le tue interfacce, scelto compito per compito su prezzo, prestazioni e governance, su un'infrastruttura che controlli (vedi i nostri lavori). Se vuoi aiuto per decidere dove GLM-5.2, Claude o GPT si collocano davvero nel tuo prodotto, e come mantenere aperti i tuoi dati e le tue opzioni, parlaci del tuo progetto (oppure contattaci) e ti risponderemo entro 48 ore. Per saperne di più sullo stack AI in rapida evoluzione, leggi i nostri articoli su SpaceX che compra Cursor e sulla sospensione governativa di Fable 5.
Numeri chiave (a giugno 2026)
È uno spazio in rapida evoluzione; ogni cifra è datata a metà giugno 2026 e cambierà man mano che i rivali risponderanno.
- 51 Artificial Analysis Intelligence Index, modello a pesi aperti numero uno, numero quattro in assoluto.
- 1.048.576 token di contesto, con 128K di output massimo.
- ~744-753B parametri totali, ~40B attivi (Mixture-of-Experts).
- 1,40 $ / 4,40 $ per milione di token in input/output, circa un sesto di GPT-5.5.
- MIT come licenza, completamente self-hostable su 8x H200 (FP8).
- 16 gennaio 2025 la data in cui Zhipu è stata aggiunta alla US Entity List.



