A 23 de junho de 2026, na conferência Volcano Engine FORCE 2026, a ByteDance anunciou o Seedance 2.5, a próxima geração do seu modelo de vídeo por IA, e um número correu pela internet mais depressa do que todos os outros: 30 segundos. Não 30 segundos costurados a partir de pequenos clipes. Trinta segundos de geração nativa, contínua, numa só passagem, com mudanças de cena e variações de ritmo incluídas. Para um campo onde a maioria dos modelos ainda entrega 5 a 10 segundos de cada vez, este é o tipo de salto que redefine as expectativas.
Mas um título de dia de lançamento não é um benchmark. Por isso fizemos o que fazemos sempre antes de recomendar uma ferramenta a um cliente: fomos às fontes primárias (os próprios relatórios técnicos da ByteDance Seed, os artigos no arXiv, o anúncio da Volcano Engine e a Artificial Analysis Video Arena ao vivo) e dividimos as afirmações em três caixas, verificado, declarado pela empresa e ainda desconhecido. A versão curta: a linha Seedance é genuinamente a melhor do mundo neste momento nos rankings independentes de voto cego, a afirmação dos 30 segundos é real mas ainda declarada pela empresa para um modelo em beta, e a maior parte das especificações concretas do 2.5 (resolução, fps, preço) simplesmente ainda não existe publicamente. Estes são os dados, com fontes, sobre os quais criadores e empresas podem realmente construir.
O que a ByteDance anunciou de facto (a parte verificada)
Tirando as demonstrações, só quatro coisas sobre o Seedance 2.5 são sólidas neste momento. Vêm da própria conferência, relatadas por vários meios próximos do evento (BigGo Finance, The Decoder, AIBase) e confirmadas entre eles.
| Seedance 2.5, o que está de facto confirmado | Detalhe | Confiança |
|---|---|---|
| Anúncio | 23 de junho de 2026, na conferência Volcano Engine FORCE 2026 (pelo presidente da Volcano Engine, Tan Dai) | Verificado (evento) |
| Disponibilidade | Beta empresarial global já, disponibilidade geral prevista para início de julho de 2026 | Calendário anunciado pela empresa |
| Capacidade de destaque | Saída direta, numa só passagem, de um clipe nativo de 30 segundos, uma geração contínua com mudanças de cena e de ritmo, não costurada a posteriori | Declarado pela empresa |
| Inputs de referência | Aceita até 50 materiais de referência multimodais numa só geração (face a 12 no Seedance 2.0) | Declarado pela empresa |
| Resolução / fps / áudio do 2.5 | Não divulgado oficialmente no anúncio | Desconhecido (não assumir) |
| Preço da API do 2.5 | Não anunciado durante o beta | Desconhecido |
Essa última linha importa mais do que qualquer especificação. Quem quer que publique agora um confiante "o Seedance 2.5 faz 4K a 60fps por X por segundo" está a adivinhar. A ByteDance divulgou a duração e o número de referências, e quase nada mais. Vamos tratar tudo o que vai além disso como não confirmado até que chegue o relatório técnico da disponibilidade geral, no início de julho.
O essencial, numa linha
Um clipe de 30 segundos numa só geração contínua, a partir de até 50 inputs de referência. É essa a proposta do Seedance 2.5. Todo o resto ainda é beta.
Os únicos números verificados de forma independente: o ranking
Aqui está o gancho honesto, e é mais impressionante do que qualquer especificação não verificável. O Seedance 2.5 não tem nenhuma pontuação de benchmark em lado nenhum. Não está na Artificial Analysis Video Arena, não está no llm-stats, em lado nenhum. Tem poucos dias e está em beta, por isso qualquer "Elo do Seedance 2.5" que veja a circular é inventado. Verificámos os rankings ao vivo diretamente.
O que é real, e verificado contra o ranking primário, é que o modelo anterior, o Seedance 2.0, já está em primeiro lugar do mundo. Na Artificial Analysis Text-to-Video Arena (preferência humana cega, vista com áudio, junho de 2026), o "Dreamina Seedance 2.0 720p" lidera com um Elo de 1219, à frente do HappyHorse-1.0 da Alibaba, do Kling 3.0 Pro da Kuaishou e do Veo 3.1 da Google, que está lá em baixo no 8.º lugar. É essa a base factual para a história dos "modelos de vídeo por IA chineses a liderar os rankings globais", e é o patamar a partir do qual o Seedance 2.5 está a lançar-se.
Artificial Analysis Text-to-Video Arena, Elo (com áudio, junho de 2026)
O eixo de Elo começa em 1050 para mostrar a amplitude. Fonte: Artificial Analysis Text-to-Video Arena, vista com áudio, junho de 2026 (independente, preferência humana cega). Este é o Seedance 2.0, o modelo anterior ao 2.5. O Seedance 2.5 ainda não está classificado.
O padrão repete-se no ranking de imagem-para-vídeo. Na Artificial Analysis Image-to-Video Arena (com áudio, junho de 2026), o Seedance 2.0 720p ocupa de novo o 1.º lugar com Elo 1195, com a Alibaba e a Google atrás. Os laboratórios chineses (ByteDance, Alibaba, Kuaishou) ocupam todo o topo dos dois rankings. Uma ressalva para o manter honesto: estes são os sub-rankings com áudio, e as vistas sem áudio baralham ligeiramente a ordem (o HappyHorse da Alibaba passa à frente no texto-para-vídeo sem áudio). Leia sempre o rótulo da vista. A conclusão mantém-se de qualquer forma: a família Seedance é, hoje, o gerador de vídeo mais forte que existe por voto cego independente, e o 2.5 é o seu sucessor.
A linhagem Seedance, em datas
O Seedance 2.5 não surgiu do nada. É o passo mais recente de uma cadência rápida e pública que foi fechando o fosso e, agora, ultrapassou os laboratórios ocidentais nos rankings.
- Seedance 1.0 (junho de 2025) A fundação. Relatório técnico no arXiv (2506.09113), integrado no Doubao e no Jimeng. A ByteDance reivindicou o 1.º lugar em ambos os rankings da Artificial Analysis no lançamento. O tier Pro gerava um clipe de 5 segundos em 1080p em 41,4 segundos numa NVIDIA L20.
- Seedance 1.5 pro (dezembro de 2025) O marco do áudio: geração nativa e conjunta de áudio e vídeo numa só passagem, com sincronização labial em várias línguas e dialetos. É a partir daqui que o som deixou de ser um acrescento (artigo da ByteDance Seed).
- Seedance 2.0 (fevereiro de 2026) O atual campeão dos rankings. Até 12 inputs de referência, e o modelo agora em 1.º lugar nas duas arenas da Artificial Analysis.
- Seedance 2.5 (anunciado a 23 de junho de 2026, GA início de julho de 2026) O salto dos 30 segundos numa só passagem, até 50 inputs de referência, em beta empresarial à data desta redação.
A arquitetura: o que está por baixo do capô
A família Seedance é uma linhagem de diffusion-transformer (DiT), e esta parte assenta em fontes primárias sólidas e não no hype de lançamento. O relatório técnico do Seedance 1.0 descreve um backbone MMDiT com camadas espaciais e temporais desacopladas, embeddings de posição rotativos multimodais (MM-RoPE) e um VAE temporalmente causal, treinado de forma a que um único modelo lide nativamente com a geração multi-plano e aprenda em conjunto texto-para-vídeo e imagem-para-vídeo. Não há um "modelo de imagem" e um "modelo de vídeo" separados; é uma só arquitetura unificada.
O Seedance 1.5 pro estendeu isso para um Diffusion Transformer de duplo ramo com um módulo conjunto cross-modal, gerando os frames de vídeo e a forma de onda de áudio em simultâneo numa só passagem, em vez de dobrar o som depois. É por isso que a sincronização (sincronização labial, efeitos sonoros ligados à ação) se aguenta. A ByteDance não publicou os detalhes arquiteturais específicos do 2.5, mas a direção da família é clara: contexto mais longo (agora 30 segundos), mais condicionamento por referência (agora 50 inputs) e geração áudio-visual tratada como um único problema.
Como se compara com Sora 2, Veo 3.1, Kling e Runway
Aqui está o panorama competitivo. Leia-o com uma regra em mente: os únicos números verificados de forma independente nesta tabela são as pontuações de Elo da Artificial Analysis. As colunas de duração máxima e de áudio foram retiradas da documentação de cada fabricante à data de junho de 2026 e mudam constantemente, por isso trate-as como indicativas, não como dogma, e verifique antes de construir um pipeline de produção sobre elas.
| Modelo (fabricante) | Clipe máximo numa só passagem | Áudio nativo | AA Video Arena (T2V, com áudio, jun. 2026) |
|---|---|---|---|
| Seedance 2.5 (ByteDance) | 30s (anunciado) | Família sim; 2.5 sem detalhes | Ainda sem benchmark (acabado de anunciar) |
| Seedance 2.0 (ByteDance) | Clipes curtos, multi-plano | Sim (desde o 1.5 pro) | 1.º, Elo 1219 |
| Kling 3.0 Pro (Kuaishou) | ~10s, extensível | Sim | 3.º, Elo 1106 |
| Google Veo 3.1 | ~8s típico | Sim | 8.º, Elo 1094 |
| Alibaba Wan 2.7 | Clipes curtos | Sim | 9.º, Elo 1089 |
| OpenAI Sora 2 | Clipes mais longos, varia por tier | Sim | Não consta neste conjunto de dados |
| Runway Gen-4 | ~10s | Limitado | Não consta neste conjunto de dados |
| MiniMax Hailuo 02 | ~6 a 10s | Varia | Não consta neste conjunto de dados |
Porque é que o Sora 2, o Runway e o Hailuo aparecem como "não consta neste conjunto de dados": não surgiram com valores de Elo confirmados nos rankings que verificámos. Preferimos deixar uma célula vazia a imprimir um número que não conseguimos fundamentar. Essa disciplina é o objetivo central deste artigo.
As ressalvas que criadores e empresas têm de contabilizar
A tecnologia está genuinamente à frente. As ressalvas são reais, e um post de lançamento não vai começar por elas.
- Está em beta, e os benchmarks estão por chegar. As afirmações dos 30 segundos e das 50 referências são da própria ByteDance, para um modelo que o público ainda não pode testar plenamente. Até o 2.5 aparecer numa arena independente, trate a qualidade como "a linha Seedance, provavelmente melhor", e não como um facto medido.
- O preço é desconhecido, e os valores que circulam não são fiáveis. Os números por segundo que andam por aí na web são do Seedance 2.0, e mesmo esses não sobreviveram à nossa verificação. Não orce nada com base no preço do 2.5 até a ByteDance o publicar para as APIs da Volcano Engine e da BytePlus.
- A API está alojada na China. A Volcano Engine (nacional) e a BytePlus (internacional) encaminham as gerações por infraestruturas sujeitas à lei chinesa de dados. Para uma empresa europeia ou francesa que lida com dados de clientes ou pessoais, isso é uma questão de governança a resolver antes de enviar fosse o que for de sensível, não um pormenor.
- O risco de deepfake é concreto. A ByteDance terá suspendido uma funcionalidade de "voz a partir de uma única foto" após o lançamento do 1.5, por receios de uso indevido. O comportamento de marca de água e de proveniência C2PA para o 2.5 não foi confirmado. Se gerar semelhanças de pessoas, a gestão disso é da sua responsabilidade.
A nossa leitura: o que o Seedance 2.5 significa para o seu fluxo de trabalho em vídeo
O que se segue é a nossa análise.
O clipe de 30 segundos numa só passagem não é um truque. A maior parte do vídeo do mundo real, um explicativo de produto, um anúncio para redes sociais, uma sequência de abertura, vive na faixa dos 15 aos 30 segundos, e costurar clipes curtos de IA é exatamente onde a consistência se parte: o rosto da personagem desvia-se, a iluminação salta, o movimento gagueja no corte. Um modelo que mantém uma geração contínua durante 30 segundos, com até 50 inputs de referência para fixar personagem e estilo, ataca de frente a maior dor de cabeça da produção em vídeo por IA. Se a ByteDance entregar o que anunciou, isto é uma mudança de fluxo de trabalho, não um upgrade de especificações.
Para criadores e empresas, o conselho prático é o mesmo que damos para cada modelo de IA que avaliamos. Trate o modelo como uma peça intercambiável por trás do seu próprio processo, e não como o processo. Use a linha Seedance onde ela é mais forte (é, por voto independente, o gerador de vídeo mais forte que existe neste momento), mantenha um segundo fornecedor como o Veo ou o Kling ligado para nunca ficar refém de uma só API, e resolva a questão de governança do alojamento na China antes de qualquer material sensível chegar perto dele. As equipas que ganham com o vídeo generativo não são as que correm atrás de cada lançamento; são as que têm um pipeline capaz de trocar o melhor modelo com uma alteração de configuração.
É exatamente assim que construímos funcionalidades de IA para clientes: o modelo como uma peça substituível por trás de interfaces e infraestrutura que você controla, escolhido por tarefa em função de qualidade, custo e governança (ver o nosso trabalho). Se é uma marca, uma agência ou um criador a tentar integrar vídeo por IA numa produção real, e quer fazê-lo com a disciplina de dados sobre a qual este artigo foi construído, e não com hype de dia de lançamento, fale-nos do seu projeto (ou entre em contacto) e respondemos-lhe em 48 horas. Para mais sobre a rápida evolução da stack de IA, leia as nossas análises do GLM-5.2, o melhor LLM de pesos abertos, do scanner corporal médico da Midjourney e da compra do Cursor pela SpaceX por 60 mil milhões de dólares.
Números-chave (a 23 de junho de 2026)
Este é um instantâneo da janela de lançamento; cada valor está datado e vai mexer à medida que o modelo for entregue e os rivais responderem.
- 30 segundos de clipe nativo numa só passagem, a capacidade de destaque do Seedance 2.5 (declarada pela empresa).
- 50 inputs de referência multimodais aceites numa só geração, face a 12 no Seedance 2.0.
- 23 de junho de 2026 data do anúncio; disponibilidade geral prevista para início de julho de 2026.
- 1219 de Elo para o Seedance 2.0 na arena texto-para-vídeo da Artificial Analysis, 1.º do mundo (com áudio). O 2.5 ainda não está classificado.
- 1195 de Elo para o Seedance 2.0 na arena imagem-para-vídeo, também 1.º.
- junho de 2025 o início da linhagem (Seedance 1.0), até ao 2.5 num único ano.



