El 23 de junio de 2026, durante la Conferencia 2026 Volcano Engine FORCE, ByteDance presentó Seedance 2.5, la nueva generación de su modelo de vídeo con IA, y una cifra recorrió internet más rápido que las demás: 30 segundos. No 30 segundos cosidos a partir de clips sueltos. Treinta segundos de generación nativa, continua y en una sola pasada, con cambios de escena y de ritmo incluidos. En un campo donde la mayoría de los modelos todavía te entregan de 5 a 10 segundos cada vez, ese es el tipo de salto que reajusta las expectativas.
Pero un titular del día del lanzamiento no es un benchmark. Así que hicimos lo que siempre hacemos antes de recomendar una herramienta a un cliente: fuimos a las fuentes primarias (los propios informes técnicos de ByteDance Seed, los papers de arXiv, el anuncio de Volcano Engine y la Artificial Analysis Video Arena en directo) y repartimos las afirmaciones en tres cajones, verificado, declarado por la empresa y aún desconocido. La versión corta: la línea Seedance es, hoy por hoy, genuinamente la mejor del mundo en los rankings independientes de voto a ciegas, la cifra de los 30 segundos es real pero sigue siendo una declaración de la empresa sobre un modelo en beta, y la mayoría de las especificaciones duras de la 2.5 (resolución, fps, precio) simplemente todavía no existen de forma pública. Estos son los datos, con sus fuentes, sobre los que creadores y empresas pueden de verdad construir.
Lo que ByteDance anunció de verdad (la parte verificada)
Si quitamos las demos, ahora mismo solo hay cuatro cosas sólidas sobre Seedance 2.5. Vienen de la propia conferencia, recogidas por varios medios cercanos al evento (BigGo Finance, The Decoder, AIBase) y confirmadas de forma cruzada entre ellos.
| Seedance 2.5, lo que está realmente confirmado | Detalle | Confianza |
|---|---|---|
| Anuncio | 23 de junio de 2026, en la Conferencia 2026 Volcano Engine FORCE (por el presidente de Volcano Engine, Tan Dai) | Verificado (evento) |
| Disponibilidad | Beta global para empresas ya disponible, lanzamiento general previsto para principios de julio de 2026 | Calendario anunciado por la empresa |
| Capacidad estrella | Salida directa, en una sola pasada, de un clip nativo de 30 segundos, una generación continua con cambios de escena y de ritmo, sin cosido posterior | Declarado por la empresa |
| Entradas de referencia | Acepta hasta 50 materiales de referencia multimodales en una sola generación (frente a 12 en Seedance 2.0) | Declarado por la empresa |
| Resolución / fps / audio de la 2.5 | No revelado oficialmente en el anuncio | Desconocido (no des nada por hecho) |
| Precio de la API para la 2.5 | No anunciado durante la beta | Desconocido |
Esa última fila importa más que cualquier especificación. Cualquiera que publique ahora mismo un confiado "Seedance 2.5 hace 4K a 60fps por X dólares el segundo" está adivinando. ByteDance reveló la duración y el número de referencias, y casi nada más. Trataremos todo lo que vaya más allá de eso como no confirmado hasta que llegue el informe técnico del lanzamiento general de principios de julio.
El titular, en una línea
Un clip de 30 segundos en una sola generación continua, a partir de hasta 50 entradas de referencia. Esa es la propuesta de Seedance 2.5. Todo lo demás sigue en beta.
Los únicos números verificados de forma independiente: el ranking
Aquí está el gancho honesto, y es más impresionante que cualquier especificación que no se pueda comprobar. Seedance 2.5 no tiene ninguna puntuación de benchmark en ningún sitio. No está en la Artificial Analysis Video Arena, ni en llm-stats, en ninguna parte. Tiene unos días de vida y está en beta, así que cualquier "Elo de Seedance 2.5" que veas circulando es inventado. Lo comprobamos directamente en los tableros en directo.
Lo que sí es real, y verificado contra el ranking de referencia, es que el modelo anterior, Seedance 2.0, ya ocupa el número uno del mundo. En la Artificial Analysis Text-to-Video Arena (preferencia humana a ciegas, vista con audio, junio de 2026), "Dreamina Seedance 2.0 720p" lidera con un Elo de 1.219, por delante de HappyHorse-1.0 de Alibaba, Kling 3.0 Pro de Kuaishou y Veo 3.1 de Google, que se queda hasta el puesto número 8. Esa es la base factual del relato de "los modelos chinos de vídeo con IA lideran los rankings globales", y es el suelo desde el que despega Seedance 2.5.
Artificial Analysis Text-to-Video Arena, Elo (con audio, junio de 2026)
El eje de Elo arranca en 1.050 para mostrar la diferencia. Fuente: Artificial Analysis Text-to-Video Arena, vista con audio, junio de 2026 (independiente, preferencia humana a ciegas). Este es Seedance 2.0, el modelo anterior a la 2.5. Seedance 2.5 aún no está clasificado.
El patrón se repite en el tablero de imagen a vídeo. En la Artificial Analysis Image-to-Video Arena (con audio, junio de 2026), Seedance 2.0 720p vuelve a ocupar el n.º 1 con un Elo de 1.195, con Alibaba y Google por detrás. Los laboratorios chinos (ByteDance, Alibaba, Kuaishou) ocupan toda la franja alta de ambos tableros. Una matización para mantener el rigor: estos son los sub-rankings con audio, y las vistas sin audio cambian ligeramente el orden (el HappyHorse de Alibaba se adelanta en texto a vídeo sin audio). Lee siempre la etiqueta de la vista. La conclusión se sostiene en cualquier caso: la familia Seedance es, hoy, el generador de vídeo más potente que existe según el voto independiente a ciegas, y la 2.5 es su sucesora.
El linaje de Seedance, en fechas
Seedance 2.5 no salió de la nada. Es el último paso de una cadencia rápida y pública que ha ido cerrando la brecha con los laboratorios occidentales en los rankings, y que ahora la ha superado.
- Seedance 1.0 (junio de 2025) El cimiento. Informe técnico en arXiv (2506.09113), integrado en Doubao y Jimeng. ByteDance afirmó ser n.º 1 en ambos tableros de Artificial Analysis en su lanzamiento. La capa Pro generaba un clip de 5 segundos en 1080p en 41,4 segundos sobre una NVIDIA L20.
- Seedance 1.5 pro (diciembre de 2025) El hito del audio: generación nativa y conjunta de audio y vídeo en una sola pasada, con sincronía labial entre idiomas y dialectos. Aquí es cuando el sonido dejó de ser un añadido pegado por encima (paper de ByteDance Seed).
- Seedance 2.0 (febrero de 2026) El campeón actual de los rankings. Hasta 12 entradas de referencia, y el modelo que ahora ocupa el n.º 1 en ambas arenas de Artificial Analysis.
- Seedance 2.5 (anunciado el 23 de junio de 2026, lanzamiento general a principios de julio de 2026) El salto a los 30 segundos en una sola pasada, hasta 50 entradas de referencia, en beta para empresas en el momento de escribir esto.
La arquitectura: qué hay bajo el capó
La familia Seedance es un linaje de transformer de difusión (DiT), y esta parte se apoya en fuentes primarias sólidas y no en el bombo del lanzamiento. El informe técnico de Seedance 1.0 describe una columna vertebral MMDiT con capas espaciales y temporales desacopladas, embeddings de posición rotatorios multimodales (MM-RoPE) y un VAE temporalmente causal, entrenado para que un único modelo gestione de forma nativa la generación multiplano y aprenda texto a vídeo e imagen a vídeo de forma conjunta. No hay un "modelo de imagen" y un "modelo de vídeo" separados; es una sola arquitectura unificada.
Seedance 1.5 pro amplió eso hacia un Transformer de Difusión de doble rama con un módulo conjunto intermodal, generando los fotogramas del vídeo y la forma de onda del audio simultáneamente en una sola pasada, en lugar de doblar el sonido a posteriori. Por eso la sincronización (sincronía labial, efectos de sonido ligados a la acción) aguanta. ByteDance no ha publicado los detalles arquitectónicos específicos de la 2.5, pero la dirección de la familia está clara: contexto más largo (ahora 30 segundos), más condicionamiento por referencias (ahora 50 entradas) y la generación audiovisual tratada como un único problema.
Cómo se compara con Sora 2, Veo 3.1, Kling y Runway
Aquí tienes el panorama competitivo. Léelo con una regla en mente: los únicos números verificados de forma independiente en esta tabla son las puntuaciones Elo de Artificial Analysis. Las columnas de duración máxima y de audio se toman de la documentación de cada proveedor a fecha de junio de 2026 y cambian constantemente, así que trátalas como orientativas, no como un dogma, y verifícalas antes de montar un pipeline de producción sobre ellas.
| Modelo (proveedor) | Clip máximo en una sola pasada | Audio nativo | AA Video Arena (T2V, con audio, jun 2026) |
|---|---|---|---|
| Seedance 2.5 (ByteDance) | 30s (anunciado) | La familia sí; la 2.5 sin detallar | Aún sin benchmark (recién anunciado) |
| Seedance 2.0 (ByteDance) | Clips cortos, multiplano | Sí (desde la 1.5 pro) | N.º 1, Elo 1.219 |
| Kling 3.0 Pro (Kuaishou) | ~10s, ampliable | Sí | N.º 3, Elo 1.106 |
| Google Veo 3.1 | ~8s habitual | Sí | N.º 8, Elo 1.094 |
| Alibaba Wan 2.7 | Clips cortos | Sí | N.º 9, Elo 1.089 |
| OpenAI Sora 2 | Clips más largos, varía según la capa | Sí | No está en este conjunto de datos |
| Runway Gen-4 | ~10s | Limitado | No está en este conjunto de datos |
| MiniMax Hailuo 02 | ~6 a 10s | Varía | No está en este conjunto de datos |
Por qué Sora 2, Runway y Hailuo aparecen como "no está en este conjunto de datos": no salieron con cifras de Elo confirmadas en los tableros que verificamos. Preferimos dejar una celda vacía antes que imprimir un número que no podemos respaldar con una fuente. Esa disciplina es el sentido entero de este artículo.
Las pegas que creadores y empresas deben presupuestar
La tecnología va genuinamente por delante. Las advertencias son reales, y un post de lanzamiento no va a abrir con ellas.
- Está en beta, y los benchmarks están pendientes. Las afirmaciones de los 30 segundos y las 50 referencias son de la propia ByteDance, sobre un modelo que el público todavía no puede probar a fondo. Hasta que la 2.5 aparezca en una arena independiente, trata la calidad como "la línea Seedance, probablemente mejor", no como un hecho medido.
- El precio es desconocido, y las cifras que circulan no son fiables. Los números por segundo que rondan la web son de Seedance 2.0, e incluso esos no sobrevivieron a nuestra verificación. No presupuestes nada sobre el precio de la 2.5 hasta que ByteDance lo publique para las API de Volcano Engine y BytePlus.
- La API está alojada en China. Volcano Engine (mercado doméstico) y BytePlus (internacional) encaminan las generaciones por una infraestructura sujeta a la legislación china de datos. Para una empresa europea o francesa que maneja datos de clientes o personales, eso es una cuestión de gobernanza que hay que resolver antes de enviar nada sensible, no un detalle menor.
- El riesgo de deepfake es concreto. Según informaciones, ByteDance suspendió una función de "voz a partir de una sola foto" tras el lanzamiento de la 1.5 por preocupaciones de mal uso. No se ha confirmado el comportamiento de marca de agua ni la procedencia C2PA para la 2.5. Si generas imágenes que reproducen a personas, gestionar eso corre de tu cuenta.
Nuestra lectura: qué significa Seedance 2.5 para tu flujo de trabajo de vídeo
Lo que sigue es nuestro análisis.
El clip de 30 segundos en una sola pasada no es un truco. La mayor parte del vídeo real, un explicativo de producto, un anuncio social, una secuencia de apertura, vive en la franja de los 15 a 30 segundos, y coser clips cortos de IA unos con otros es justo donde se rompe la consistencia: la cara del personaje se desvía, la iluminación da saltos, el movimiento se entrecorta en el corte. Un modelo que mantiene una generación continua durante 30 segundos, con hasta 50 entradas de referencia para fijar personaje y estilo, ataca de frente el mayor dolor de cabeza de producción en el vídeo con IA. Si ByteDance entrega lo que anunció, esto es un cambio de flujo de trabajo, no una mejora de especificaciones.
Para creadores y empresas, el consejo práctico es el mismo que damos para cada modelo de IA que evaluamos. Trata el modelo como un componente intercambiable detrás de tu propio proceso, no como el proceso en sí. Usa la línea Seedance donde es más fuerte (es, por voto independiente, el generador de vídeo más potente que existe ahora mismo), mantén un segundo proveedor como Veo o Kling conectado para no quedar nunca rehén de una sola API, y resuelve la cuestión de gobernanza del alojamiento en China antes de que cualquier metraje sensible se acerque a él. Los equipos que ganan con el vídeo generativo no son los que persiguen cada lanzamiento; son los que tienen un pipeline capaz de meter el mejor modelo con un cambio de configuración.
Así es exactamente como construimos funcionalidades de IA para nuestros clientes: el modelo como una pieza intercambiable detrás de interfaces e infraestructura que tú controlas, elegido por tarea según calidad, coste y gobernanza (mira nuestros proyectos). Si eres una marca, una agencia o un creador que intenta integrar el vídeo con IA en una producción real, y quieres hacerlo con la disciplina de datos sobre la que está construido este artículo en lugar del bombo del día del lanzamiento, cuéntanos tu proyecto (o ponte en contacto) y te respondemos en menos de 48 horas. Para más sobre el cambiante stack de IA, lee nuestros análisis de GLM-5.2, el mejor LLM de pesos abiertos, el escáner corporal médico de Midjourney y SpaceX comprando Cursor por 60.000 millones de dólares.
Cifras clave (a 23 de junio de 2026)
Esto es una instantánea de la ventana de lanzamiento; cada cifra lleva fecha y se moverá a medida que el modelo se despliegue y los rivales respondan.
- 30 segundos de clip nativo en una sola pasada, la capacidad estrella de Seedance 2.5 (declarada por la empresa).
- 50 entradas de referencia multimodales aceptadas en una sola generación, frente a 12 en Seedance 2.0.
- 23 de junio de 2026 fecha del anuncio; lanzamiento general previsto para principios de julio de 2026.
- 1.219 de Elo para Seedance 2.0 en la arena de texto a vídeo de Artificial Analysis, n.º 1 del mundo (con audio). La 2.5 aún no está clasificada.
- 1.195 de Elo para Seedance 2.0 en la arena de imagen a vídeo, también n.º 1.
- Junio de 2025 el comienzo del linaje (Seedance 1.0), hasta la 2.5 en un solo año.



