Skip to content
Go To Agency
/IA & Tech
IA & Tech

GLM-5.2: o LLM de pesos abertos que se tornou o melhor do mundo, a um sexto do custo

A Zhipu AI lançou o GLM-5.2, um modelo Mixture-of-Experts sob licença MIT com contexto real de um milhão de tokens, coroado pela Artificial Analysis como o melhor modelo de pesos abertos do mundo, quarto no geral, a cerca de um sexto do preço do GPT-5.5. Analisamos os factos, os números e a única questão que importa para uma empresa: quando o usar de facto.

Por Robin Monteiro20 de junho de 20269 min · 1 972 mots
GLM-5.2LLM open-sourceMixture-of-ExpertsZhipu AIsoberania de dados
Partilhar artigo
GLM-5.2: o LLM de pesos abertos que se tornou o melhor do mundo, a um sexto do custo

De poucos em poucos meses, um modelo de pesos abertos vindo da China reinicia toda a conversa. A DeepSeek fê-lo. A Qwen fê-lo. Em meados de junho de 2026, a Zhipu AI (a empresa por detrás da marca internacional z.ai) voltou a fazê-lo com o GLM-5.2: um modelo Mixture-of-Experts, lançado sob a permissiva licença MIT, com um contexto genuíno de um milhão de tokens, que o avaliador independente Artificial Analysis coroou como o melhor modelo de pesos abertos do mundo, quarto no geral, atrás apenas da fronteira fechada, a cerca de um sexto do preço do GPT-5.5.

Para quem constrói produtos com IA, essa combinação (qualidade próxima da fronteira, pesos abertos que se podem alojar internamente e um preço que fica muito abaixo dos laboratórios norte-americanos) é o desenvolvimento mais importante do trimestre. Mas o título esconde ressalvas reais: benchmarks reportados pela própria empresa, um modelo verboso que é barato por token mas caro por tarefa, e um fornecedor na US Entity List cuja API alojada encaminha os seus dados através da China. Fomos às fontes primárias (a model card do Hugging Face, a Artificial Analysis, o vLLM, a própria documentação da z.ai, o Federal Register norte-americano) para separar o que está verificado do que é marketing, e para responder à única pergunta que interessa a uma empresa: quando deve usar isto de facto?

O que é o GLM-5.2, numa tabela

O GLM-5.2 é um modelo Mixture-of-Experts (MoE) esparso. A maior parte dos seus parâmetros fica inativa em cada token, e é assim que um modelo deste tamanho se mantém acessível de executar. Eis as especificações verificadas.

EspecificaçãoGLM-5.2 (verificado)
ArquiteturaMixture-of-Experts esparso, atenção esparsa ao estilo DeepSeek
Parâmetros~744 a 753B no total, ~40B ativos por token
Janela de contexto1.048.576 tokens (um 1M real, 5x os 200K do GLM-5.1)
Saída máxima128K tokens
ModalidadeApenas texto (sem visão)
LicençaMIT (uso comercial, modificar, redistribuir, alojar internamente)
PesosBF16 (~1,51 TB) e FP8 nativo (~744 GB) no Hugging Face (zai-org)
FuncionalidadesModos de raciocínio, tool calling, saída JSON, prompt caching, streaming, MCP
LançamentoMeados de junho de 2026 (a Artificial Analysis indica 16 de junho)

As palavras-chave que importam para pesquisa e para estratégia estão todas aqui: um LLM de pesos abertos, um desenho Mixture-of-Experts, um contexto de 1M de tokens utilizável e um modelo concebido para codificação agêntica. As três secções seguintes põem números em cada um.

Os benchmarks: número um aberto, número quatro no geral

O sinal mais credível é independente, não vem da z.ai. A Artificial Analysis, que corre o seu próprio conjunto de avaliações, coloca o GLM-5.2 em 51 no seu Intelligence Index v4.1, o mais alto de qualquer modelo de pesos abertos (testa 92 deles, em que a média da classe ronda os 24). Fica em quarto no geral, atrás de três modelos fechados. É a história do "a IA open-source chinesa está a alcançar a fronteira", contada com os números de um terceiro.

Artificial Analysis Intelligence Index v4.1 (quanto mais alto, melhor)

Claude Fable 5 (fechado)
60
Claude Opus 4.8 (fechado)
56
GPT-5.5 xhigh (fechado)
55
GLM-5.2 (aberto, MIT)
51
MiniMax-M3 (aberto)
44
DeepSeek V4 Pro (aberto)
44
Kimi K2.6 (aberto)
43

Fonte: Artificial Analysis Intelligence Index v4.1, junho de 2026 (independente). O GLM-5.2 é o primeiro entre os modelos de pesos abertos e o quarto no geral.

Nos testes individuais, atenção à diferença entre o que a z.ai reporta e o que terceiros medem. A model card da empresa cita números fortes de codificação e raciocínio; a Artificial Analysis confirma grandes saltos face ao GLM-5.1, mas com valores absolutos ligeiramente mais baixos. Identificamos cada um abaixo.

BenchmarkPontuaçãoFonte
SWE-bench Pro (codificação agêntica)62,1 (subida face aos 58,4 do GLM-5.1)z.ai (reportado pela empresa)
Terminal-Bench 2.181,0 reclamado vs 78 medido (Opus 4.8: 85)reclamação da z.ai vs Artificial Analysis
GPQA Diamond (raciocínio científico)91,2 reclamado, ~89 medidoz.ai vs Artificial Analysis
Humanity's Last Exam40,5 (54,7 com ferramentas)z.ai (reportado pela empresa)
FrontierSWE"a 1% do Opus 4.8"z.ai (reclamação de marketing)

A leitura honesta: o GLM-5.2 está genuinamente próximo da fronteira em codificação e raciocínio, o ranking independente prova-o, mas os números isolados mais espalhafatosos ("a 1% do Opus", Terminal-Bench 81) são da própria z.ai e correm um pouco quentes face à medição neutra. Para uma decisão de compra, confie no agregado da Artificial Analysis (número um aberto) e trate o resto como indicativo.

A verdadeira história é o preço, com uma armadilha

É aqui que o GLM-5.2 reordena o mercado. A API oficial da z.ai cobra 1,40 $ por milhão de tokens de entrada e 4,40 $ por milhão de tokens de saída, com entrada em cache a apenas 0,26 $ (um desconto de cache de 81%). A VentureBeat mediu o custo combinado em cerca de um sexto do GPT-5.5. Os encaminhadores de terceiros descem ainda mais (a OpenRouter lista 1,20 $ / 4,10 $). Para um modelo aberto e quase de fronteira, isto é um corte de preço estrutural, não uma promoção.

A armadilha é o consumo de tokens. O GLM-5.2 é um raciocinador pesado: no conjunto da Artificial Analysis queima cerca de 43.000 tokens de saída por tarefa (cerca de 37.000 deles em raciocínio), pelo que o custo por tarefa concluída acaba mais alto do que o de vários rivais, apesar do baixo preço por token. Barato por token não significa automaticamente barato por trabalho.

Custo por tarefa no conjunto da Artificial Analysis (quanto mais baixo, melhor)

GLM-5.2
$0.46
Kimi K2.6
$0.31
GLM-5.1
$0.25
MiniMax-M3
$0.18
DeepSeek V4 Pro
$0.05

Fonte: Artificial Analysis, junho de 2026. O GLM-5.2 é o modelo aberto mais inteligente, mas também o mais ávido de tokens, por isso orce a saída, não apenas a tarifa por token.

Preços oficiais do GLM-5.2 (z.ai)Por 1M de tokens
Entrada$1.40
Entrada em cache$0.26 (menos 81%, armazenamento gratuito por agora)
Saída$4.40
Combinado vs GPT-5.5cerca de um sexto do custo (VentureBeat)

Pesos abertos significam soberania, não apenas poupança

O preço importa, mas a licença importa mais. O GLM-5.2 é distribuído sob uma licença MIT padrão e inalterada, sem aditamento de utilização aceitável e sem limites regionais sobre os pesos. Pode descarregar os checkpoints completos BF16 ou FP8 do Hugging Face, executá-los no seu próprio hardware, fazer fine-tuning e distribuí-los comercialmente. Para uma empresa, é a diferença entre alugar inteligência e ser dono da sua própria stack.

O alojamento interno é real, mas não é trivial. O checkpoint FP8 cabe num único nó de 8x H200 ou 8x H20; servir todo o contexto de 1M de tokens exige 8x B200. Corre em vLLM, SGLang e Transformers, e a AMD lançou uma build MXFP4 para os seus aceleradores Instinct MI350/MI355. Na prática, a maioria das equipas começará na API e reservará o alojamento interno para os casos em que compensa: soberania de dados estrita, custos previsíveis de alto volume, ou fine-tuning sobre dados proprietários. O ponto é que a opção existe, algo que nenhum orçamento de GPT-5.5 ou Claude lhe pode comprar.

A armadilha: governação, confiança e a Entity List

Eis o que os posts de lançamento não vão destacar. A Zhipu AI foi adicionada à US Entity List a 16 de janeiro de 2025 (regra 2025-00704 do Federal Register), a primeira empresa chinesa de LLM a entrar na lista, com a justificação declarada de que ajuda a "fazer avançar a modernização militar da República Popular da China". Isso não o impede de descarregar pesos sob licença MIT, mas é um sinal real para qualquer organização que pondere o risco de fornecedor.

De forma mais concreta para o uso do dia a dia: a conveniente API alojada da z.ai corre através de uma empresa sediada na China e sujeita às leis de dados chinesas. Para uma empresa europeia ou francesa que lida com dados de clientes ou pessoais, essa é uma questão de governação que tem de responder antes de canalizar prompts sensíveis para lá. A resolução limpa é exatamente a que a licença MIT permite: aloje os pesos dentro da sua própria infraestrutura, e os dados nunca saem. Use a API barata para cargas de trabalho não sensíveis, aloje internamente o resto. Some o perfil verboso de custo-por-tarefa e a diferença entre os benchmarks reportados pela própria empresa e os medidos de forma independente, e tem o retrato completo e honesto.

A linhagem GLM, em datas

O GLM-5.2 não surgiu do nada. É o passo mais recente de uma cadência rápida e pública que tem vindo a fechar de forma constante o fosso para os laboratórios norte-americanos.

  • GLM-4.5 a GLM-4.6 A Zhipu afirma-se como uma concorrente séria de pesos abertos.
  • GLM-5 O primeiro a trocar golpes a sério com a fronteira em codificação.
  • GLM-5.1 MoE 744B/40B, contexto de 200K, o antecessor de trabalho.
  • GLM-5.2 (meados de junho de 2026) Mesmo tamanho do GLM-5.1, mas quintuplica o contexto para 1M, regista o maior salto de benchmark numa só versão da linha, e assume a posição de número um em pesos abertos.

A nossa leitura: quando usar de facto o GLM-5.2

O que se segue é a nossa análise.

O entusiasmo é, na sua maioria, merecido, e a resposta certa para uma empresa não é nem descartá-lo nem migrar tudo de um dia para o outro. É ajustar o modelo ao trabalho. Pela forma como construímos com IA para clientes, eis a grelha prática.

  • Use-o para codificação agêntica e automação de alto volume. Como alternativa ao Claude Code ou como motor por detrás de agentes internos, o preço e a abertura do GLM-5.2 são difíceis de bater. Coloque-o por trás de uma abstração, para poder trocar de modelo com uma alteração de configuração, e orce o seu apetite por tokens.
  • Aloje-o internamente quando a soberania ou a escala o exigirem. Dados sensíveis, setores regulados ou volume pesado e previsível são os casos em que ser dono dos pesos MIT nas suas próprias GPUs supera qualquer API alugada.
  • Mantenha-o afastado dos seus dados mais sensíveis na API alojada. Até que aloje internamente, não encaminhe dados confidenciais ou pessoais através do endpoint sediado na China. É uma linha de governação, não de qualidade.
  • Não dependa de um único fornecedor para nada. A lição do último mês, de ferramentas a serem adquiridas a modelos a serem suspensos, é que o modelo por baixo do seu produto deve ser um componente substituível. O GLM-5.2 é uma adição soberba a uma stack multimodelo, não uma razão para apostar a empresa num único fornecedor.

É exatamente assim que arquitetamos funcionalidades de IA para clientes: o modelo como peça intercambiável por trás das suas próprias interfaces, escolhido por tarefa em função do preço, do desempenho e da governação, sobre infraestrutura que controla (veja os nossos trabalhos). Se quiser ajuda para decidir onde o GLM-5.2, o Claude ou o GPT encaixam de facto no seu produto, e como manter os seus dados e as suas opções em aberto, fale-nos do seu projeto (ou contacte-nos) e voltaremos a si em 48 horas. Para mais sobre a stack de IA em rápida mudança, veja os nossos artigos sobre a SpaceX a comprar o Cursor e a suspensão governamental do Fable 5.

Números-chave (a meados de junho de 2026)

Este é um espaço em rápida mudança; cada valor está datado a meados de junho de 2026 e vai mover-se à medida que os rivais reagem.

  • 51 Artificial Analysis Intelligence Index, modelo de pesos abertos número um, número quatro no geral.
  • 1.048.576 tokens de contexto, com 128K de saída máxima.
  • ~744 a 753B de parâmetros totais, ~40B ativos (Mixture-of-Experts).
  • $1.40 / $4.40 por milhão de tokens de entrada/saída, cerca de um sexto do GPT-5.5.
  • MIT licença, totalmente alojável internamente em 8x H200 (FP8).
  • 16 de janeiro de 2025 a data em que a Zhipu foi adicionada à US Entity List.
RM

Sobre o autor

Robin Monteiro

Co-fondateur de Go To Agency

Développeur full-stack et co-fondateur de Go To Agency, Robin conçoit des solutions web performantes avec Next.js, React et les dernières technologies.

Conhecer a equipa

Go To Agency — agence digitale à Dijon

L'équipe derrière cet article peut le faire pour vous

Sites et e-commerce Next.js sur mesure, SEO qui positionne, campagnes publicitaires mesurées au retour près. Tout se passe par écrit, sans rendez-vous : décrivez votre besoin, on revient vers vous avec une lecture concrète.

Votre demande arrive directement sur [email protected] — réponse sous 24 h ouvrées, aucun engagement.

Partilhar artigo

Questions fréquentes

O que é o GLM-5.2?+

É um grande modelo de linguagem de pesos abertos lançado pela Zhipu AI (marca z.ai) em meados de junho de 2026. Usa uma arquitetura Mixture-of-Experts esparsa (~744 a 753B de parâmetros totais, ~40B ativos por token), tem um contexto real de 1.048.576 tokens e é distribuído sob licença MIT, o que permite uso comercial, modificação e alojamento interno.

O GLM-5.2 é mesmo o melhor modelo open-source?+

Segundo o avaliador independente Artificial Analysis, sim: pontua 51 no Intelligence Index v4.1, o valor mais alto de qualquer modelo de pesos abertos (sobre 92 testados, com média da classe perto de 24), e fica em quarto no geral, atrás apenas de três modelos fechados. Algumas pontuações isoladas mais espalhafatosas são reportadas pela própria z.ai e correm um pouco quentes; para decidir, confie no agregado independente.

Quanto custa o GLM-5.2?+

A API oficial da z.ai cobra 1,40 $ por milhão de tokens de entrada e 4,40 $ por milhão de tokens de saída, com entrada em cache a 0,26 $ (desconto de 81%). A VentureBeat mediu o custo combinado em cerca de um sexto do GPT-5.5. Atenção: o modelo é verboso (~43.000 tokens por tarefa), por isso o custo por tarefa concluída pode ser mais alto do que a tarifa por token sugere.

Uma empresa pode alojar o GLM-5.2 internamente?+

Sim. A licença MIT e os pesos descarregáveis do Hugging Face (BF16 ~1,51 TB ou FP8 ~744 GB) permitem-no. O checkpoint FP8 cabe num único nó de 8x H200 ou 8x H20; servir todo o contexto de 1M de tokens exige 8x B200. Corre em vLLM, SGLang e Transformers, com build MXFP4 da AMD para os MI350/MI355.

É seguro enviar dados sensíveis para o GLM-5.2?+

Não através da API alojada. A z.ai é uma empresa sediada na China, sujeita às leis de dados chinesas, e a Zhipu está na US Entity List desde 16 de janeiro de 2025. Para dados de clientes ou pessoais, a solução limpa é alojar os pesos MIT na sua própria infraestrutura, para que os dados nunca saiam. Use a API barata apenas para cargas não sensíveis.

Devemos mudar do Claude ou do GPT para o GLM-5.2?+

Não totalmente, e não de um dia para o outro. O acertado é ajustar o modelo à tarefa: usar o GLM-5.2 para codificação agêntica e automação de alto volume, alojá-lo internamente quando a soberania ou a escala o exigirem, e manter os dados sensíveis fora da API alojada. Acima de tudo, não dependa de um único fornecedor: trate o modelo como um componente substituível por trás das suas interfaces.

Artigos relacionados

Orçamento gratuito
GLM-5.2: melhor LLM aberto do mundo, a 1/6 do custo | Go To Agency