De poucos em poucos meses, um modelo de pesos abertos vindo da China reinicia toda a conversa. A DeepSeek fê-lo. A Qwen fê-lo. Em meados de junho de 2026, a Zhipu AI (a empresa por detrás da marca internacional z.ai) voltou a fazê-lo com o GLM-5.2: um modelo Mixture-of-Experts, lançado sob a permissiva licença MIT, com um contexto genuíno de um milhão de tokens, que o avaliador independente Artificial Analysis coroou como o melhor modelo de pesos abertos do mundo, quarto no geral, atrás apenas da fronteira fechada, a cerca de um sexto do preço do GPT-5.5.
Para quem constrói produtos com IA, essa combinação (qualidade próxima da fronteira, pesos abertos que se podem alojar internamente e um preço que fica muito abaixo dos laboratórios norte-americanos) é o desenvolvimento mais importante do trimestre. Mas o título esconde ressalvas reais: benchmarks reportados pela própria empresa, um modelo verboso que é barato por token mas caro por tarefa, e um fornecedor na US Entity List cuja API alojada encaminha os seus dados através da China. Fomos às fontes primárias (a model card do Hugging Face, a Artificial Analysis, o vLLM, a própria documentação da z.ai, o Federal Register norte-americano) para separar o que está verificado do que é marketing, e para responder à única pergunta que interessa a uma empresa: quando deve usar isto de facto?
O que é o GLM-5.2, numa tabela
O GLM-5.2 é um modelo Mixture-of-Experts (MoE) esparso. A maior parte dos seus parâmetros fica inativa em cada token, e é assim que um modelo deste tamanho se mantém acessível de executar. Eis as especificações verificadas.
| Especificação | GLM-5.2 (verificado) |
|---|---|
| Arquitetura | Mixture-of-Experts esparso, atenção esparsa ao estilo DeepSeek |
| Parâmetros | ~744 a 753B no total, ~40B ativos por token |
| Janela de contexto | 1.048.576 tokens (um 1M real, 5x os 200K do GLM-5.1) |
| Saída máxima | 128K tokens |
| Modalidade | Apenas texto (sem visão) |
| Licença | MIT (uso comercial, modificar, redistribuir, alojar internamente) |
| Pesos | BF16 (~1,51 TB) e FP8 nativo (~744 GB) no Hugging Face (zai-org) |
| Funcionalidades | Modos de raciocínio, tool calling, saída JSON, prompt caching, streaming, MCP |
| Lançamento | Meados de junho de 2026 (a Artificial Analysis indica 16 de junho) |
As palavras-chave que importam para pesquisa e para estratégia estão todas aqui: um LLM de pesos abertos, um desenho Mixture-of-Experts, um contexto de 1M de tokens utilizável e um modelo concebido para codificação agêntica. As três secções seguintes põem números em cada um.
Os benchmarks: número um aberto, número quatro no geral
O sinal mais credível é independente, não vem da z.ai. A Artificial Analysis, que corre o seu próprio conjunto de avaliações, coloca o GLM-5.2 em 51 no seu Intelligence Index v4.1, o mais alto de qualquer modelo de pesos abertos (testa 92 deles, em que a média da classe ronda os 24). Fica em quarto no geral, atrás de três modelos fechados. É a história do "a IA open-source chinesa está a alcançar a fronteira", contada com os números de um terceiro.
Artificial Analysis Intelligence Index v4.1 (quanto mais alto, melhor)
Fonte: Artificial Analysis Intelligence Index v4.1, junho de 2026 (independente). O GLM-5.2 é o primeiro entre os modelos de pesos abertos e o quarto no geral.
Nos testes individuais, atenção à diferença entre o que a z.ai reporta e o que terceiros medem. A model card da empresa cita números fortes de codificação e raciocínio; a Artificial Analysis confirma grandes saltos face ao GLM-5.1, mas com valores absolutos ligeiramente mais baixos. Identificamos cada um abaixo.
| Benchmark | Pontuação | Fonte |
|---|---|---|
| SWE-bench Pro (codificação agêntica) | 62,1 (subida face aos 58,4 do GLM-5.1) | z.ai (reportado pela empresa) |
| Terminal-Bench 2.1 | 81,0 reclamado vs 78 medido (Opus 4.8: 85) | reclamação da z.ai vs Artificial Analysis |
| GPQA Diamond (raciocínio científico) | 91,2 reclamado, ~89 medido | z.ai vs Artificial Analysis |
| Humanity's Last Exam | 40,5 (54,7 com ferramentas) | z.ai (reportado pela empresa) |
| FrontierSWE | "a 1% do Opus 4.8" | z.ai (reclamação de marketing) |
A leitura honesta: o GLM-5.2 está genuinamente próximo da fronteira em codificação e raciocínio, o ranking independente prova-o, mas os números isolados mais espalhafatosos ("a 1% do Opus", Terminal-Bench 81) são da própria z.ai e correm um pouco quentes face à medição neutra. Para uma decisão de compra, confie no agregado da Artificial Analysis (número um aberto) e trate o resto como indicativo.
A verdadeira história é o preço, com uma armadilha
É aqui que o GLM-5.2 reordena o mercado. A API oficial da z.ai cobra 1,40 $ por milhão de tokens de entrada e 4,40 $ por milhão de tokens de saída, com entrada em cache a apenas 0,26 $ (um desconto de cache de 81%). A VentureBeat mediu o custo combinado em cerca de um sexto do GPT-5.5. Os encaminhadores de terceiros descem ainda mais (a OpenRouter lista 1,20 $ / 4,10 $). Para um modelo aberto e quase de fronteira, isto é um corte de preço estrutural, não uma promoção.
A armadilha é o consumo de tokens. O GLM-5.2 é um raciocinador pesado: no conjunto da Artificial Analysis queima cerca de 43.000 tokens de saída por tarefa (cerca de 37.000 deles em raciocínio), pelo que o custo por tarefa concluída acaba mais alto do que o de vários rivais, apesar do baixo preço por token. Barato por token não significa automaticamente barato por trabalho.
Custo por tarefa no conjunto da Artificial Analysis (quanto mais baixo, melhor)
Fonte: Artificial Analysis, junho de 2026. O GLM-5.2 é o modelo aberto mais inteligente, mas também o mais ávido de tokens, por isso orce a saída, não apenas a tarifa por token.
| Preços oficiais do GLM-5.2 (z.ai) | Por 1M de tokens |
|---|---|
| Entrada | $1.40 |
| Entrada em cache | $0.26 (menos 81%, armazenamento gratuito por agora) |
| Saída | $4.40 |
| Combinado vs GPT-5.5 | cerca de um sexto do custo (VentureBeat) |
Pesos abertos significam soberania, não apenas poupança
O preço importa, mas a licença importa mais. O GLM-5.2 é distribuído sob uma licença MIT padrão e inalterada, sem aditamento de utilização aceitável e sem limites regionais sobre os pesos. Pode descarregar os checkpoints completos BF16 ou FP8 do Hugging Face, executá-los no seu próprio hardware, fazer fine-tuning e distribuí-los comercialmente. Para uma empresa, é a diferença entre alugar inteligência e ser dono da sua própria stack.
O alojamento interno é real, mas não é trivial. O checkpoint FP8 cabe num único nó de 8x H200 ou 8x H20; servir todo o contexto de 1M de tokens exige 8x B200. Corre em vLLM, SGLang e Transformers, e a AMD lançou uma build MXFP4 para os seus aceleradores Instinct MI350/MI355. Na prática, a maioria das equipas começará na API e reservará o alojamento interno para os casos em que compensa: soberania de dados estrita, custos previsíveis de alto volume, ou fine-tuning sobre dados proprietários. O ponto é que a opção existe, algo que nenhum orçamento de GPT-5.5 ou Claude lhe pode comprar.
A armadilha: governação, confiança e a Entity List
Eis o que os posts de lançamento não vão destacar. A Zhipu AI foi adicionada à US Entity List a 16 de janeiro de 2025 (regra 2025-00704 do Federal Register), a primeira empresa chinesa de LLM a entrar na lista, com a justificação declarada de que ajuda a "fazer avançar a modernização militar da República Popular da China". Isso não o impede de descarregar pesos sob licença MIT, mas é um sinal real para qualquer organização que pondere o risco de fornecedor.
De forma mais concreta para o uso do dia a dia: a conveniente API alojada da z.ai corre através de uma empresa sediada na China e sujeita às leis de dados chinesas. Para uma empresa europeia ou francesa que lida com dados de clientes ou pessoais, essa é uma questão de governação que tem de responder antes de canalizar prompts sensíveis para lá. A resolução limpa é exatamente a que a licença MIT permite: aloje os pesos dentro da sua própria infraestrutura, e os dados nunca saem. Use a API barata para cargas de trabalho não sensíveis, aloje internamente o resto. Some o perfil verboso de custo-por-tarefa e a diferença entre os benchmarks reportados pela própria empresa e os medidos de forma independente, e tem o retrato completo e honesto.
A linhagem GLM, em datas
O GLM-5.2 não surgiu do nada. É o passo mais recente de uma cadência rápida e pública que tem vindo a fechar de forma constante o fosso para os laboratórios norte-americanos.
- GLM-4.5 a GLM-4.6 A Zhipu afirma-se como uma concorrente séria de pesos abertos.
- GLM-5 O primeiro a trocar golpes a sério com a fronteira em codificação.
- GLM-5.1 MoE 744B/40B, contexto de 200K, o antecessor de trabalho.
- GLM-5.2 (meados de junho de 2026) Mesmo tamanho do GLM-5.1, mas quintuplica o contexto para 1M, regista o maior salto de benchmark numa só versão da linha, e assume a posição de número um em pesos abertos.
A nossa leitura: quando usar de facto o GLM-5.2
O que se segue é a nossa análise.
O entusiasmo é, na sua maioria, merecido, e a resposta certa para uma empresa não é nem descartá-lo nem migrar tudo de um dia para o outro. É ajustar o modelo ao trabalho. Pela forma como construímos com IA para clientes, eis a grelha prática.
- Use-o para codificação agêntica e automação de alto volume. Como alternativa ao Claude Code ou como motor por detrás de agentes internos, o preço e a abertura do GLM-5.2 são difíceis de bater. Coloque-o por trás de uma abstração, para poder trocar de modelo com uma alteração de configuração, e orce o seu apetite por tokens.
- Aloje-o internamente quando a soberania ou a escala o exigirem. Dados sensíveis, setores regulados ou volume pesado e previsível são os casos em que ser dono dos pesos MIT nas suas próprias GPUs supera qualquer API alugada.
- Mantenha-o afastado dos seus dados mais sensíveis na API alojada. Até que aloje internamente, não encaminhe dados confidenciais ou pessoais através do endpoint sediado na China. É uma linha de governação, não de qualidade.
- Não dependa de um único fornecedor para nada. A lição do último mês, de ferramentas a serem adquiridas a modelos a serem suspensos, é que o modelo por baixo do seu produto deve ser um componente substituível. O GLM-5.2 é uma adição soberba a uma stack multimodelo, não uma razão para apostar a empresa num único fornecedor.
É exatamente assim que arquitetamos funcionalidades de IA para clientes: o modelo como peça intercambiável por trás das suas próprias interfaces, escolhido por tarefa em função do preço, do desempenho e da governação, sobre infraestrutura que controla (veja os nossos trabalhos). Se quiser ajuda para decidir onde o GLM-5.2, o Claude ou o GPT encaixam de facto no seu produto, e como manter os seus dados e as suas opções em aberto, fale-nos do seu projeto (ou contacte-nos) e voltaremos a si em 48 horas. Para mais sobre a stack de IA em rápida mudança, veja os nossos artigos sobre a SpaceX a comprar o Cursor e a suspensão governamental do Fable 5.
Números-chave (a meados de junho de 2026)
Este é um espaço em rápida mudança; cada valor está datado a meados de junho de 2026 e vai mover-se à medida que os rivais reagem.
- 51 Artificial Analysis Intelligence Index, modelo de pesos abertos número um, número quatro no geral.
- 1.048.576 tokens de contexto, com 128K de saída máxima.
- ~744 a 753B de parâmetros totais, ~40B ativos (Mixture-of-Experts).
- $1.40 / $4.40 por milhão de tokens de entrada/saída, cerca de um sexto do GPT-5.5.
- MIT licença, totalmente alojável internamente em 8x H200 (FP8).
- 16 de janeiro de 2025 a data em que a Zhipu foi adicionada à US Entity List.



