Il 23 giugno 2026, durante la 2026 Volcano Engine FORCE Conference, ByteDance ha annunciato Seedance 2.5, la nuova generazione del suo modello di video AI, e un numero ha fatto il giro di internet più veloce di tutti gli altri: 30 secondi. Non 30 secondi cuciti insieme a partire da spezzoni. Trenta secondi di generazione nativa, continua, in un solo passaggio, con tanto di cambi di scena e variazioni di ritmo. In un settore dove la maggior parte dei modelli ti consegna ancora 5 o 10 secondi alla volta, è il tipo di salto che ridisegna le aspettative.
Ma un titolo del giorno del lancio non è un benchmark. Quindi abbiamo fatto quello che facciamo sempre prima di consigliare uno strumento a un cliente: siamo andati alle fonti primarie (i report tecnici di ByteDance Seed, i paper su arXiv, l'annuncio di Volcano Engine e la Artificial Analysis Video Arena in tempo reale) e abbiamo diviso le dichiarazioni in tre categorie, verificate, dichiarate dall'azienda e ancora ignote. In sintesi: la linea Seedance è davvero la migliore al mondo in questo momento sulle classifiche indipendenti a voto cieco, la promessa dei 30 secondi è reale ma resta una dichiarazione aziendale per un modello in beta, e gran parte delle specifiche concrete di 2.5 (risoluzione, fps, prezzo) semplicemente non esiste ancora pubblicamente. Questi sono i dati, con tanto di fonti, su cui creator e aziende possono effettivamente costruire.
Cosa ha annunciato davvero ByteDance (la parte verificata)
Tolti di mezzo i video dimostrativi, su Seedance 2.5 al momento sono solide soltanto quattro cose. Arrivano dalla conferenza stessa, riportate da più testate vicine all'evento (BigGo Finance, The Decoder, AIBase) e confermate in modo incrociato.
| Seedance 2.5, cosa è davvero confermato | Dettaglio | Affidabilità |
|---|---|---|
| Annuncio | 23 giugno 2026, alla 2026 Volcano Engine FORCE Conference (dal presidente di Volcano Engine Tan Dai) | Verificato (evento) |
| Disponibilità | Beta enterprise globale da subito, disponibilità generale prevista per i primi di luglio 2026 | Tempistica annunciata dall'azienda |
| Capacità di punta | Output diretto, in un solo passaggio, di una clip nativa da 30 secondi, una generazione continua unica con cambi di scena e di ritmo, non assemblata a posteriori | Dichiarato dall'azienda |
| Input di riferimento | Accetta fino a 50 materiali di riferimento multimodali in una sola generazione (rispetto ai 12 di Seedance 2.0) | Dichiarato dall'azienda |
| Risoluzione / fps / audio per 2.5 | Non divulgati ufficialmente all'annuncio | Ignoto (non dare nulla per scontato) |
| Prezzo API per 2.5 | Non annunciato durante la beta | Ignoto |
È l'ultima riga a contare più di qualsiasi specifica. Chiunque pubblichi oggi un sicuro "Seedance 2.5 fa 4K a 60fps a X dollari al secondo" sta tirando a indovinare. ByteDance ha rivelato la durata e il numero di riferimenti, e quasi nient'altro. Tratteremo tutto ciò che va oltre questi due dati come non confermato, fino a quando non arriverà il report tecnico della disponibilità generale, prevista per i primi di luglio.
Il titolo, in una riga
Una clip da 30 secondi in una sola generazione continua, a partire da fino a 50 input di riferimento. È questa la promessa di Seedance 2.5. Tutto il resto è ancora beta.
Gli unici numeri verificati in modo indipendente: la classifica
Ecco il gancio onesto, ed è più impressionante di qualsiasi specifica non verificabile. Seedance 2.5 non ha alcun punteggio benchmark da nessuna parte. Non è sulla Artificial Analysis Video Arena, non è su llm-stats, da nessuna parte. Ha pochi giorni di vita ed è in beta, quindi qualunque "Elo di Seedance 2.5" tu veda circolare è inventato. Abbiamo controllato direttamente le classifiche in tempo reale.
Ciò che è reale, e verificato sulla classifica primaria, è che il modello precedente, Seedance 2.0, è già il numero uno al mondo. Sulla Artificial Analysis Text-to-Video Arena (preferenze umane a voto cieco, vista con audio, giugno 2026), "Dreamina Seedance 2.0 720p" guida con un Elo di 1.219, davanti a HappyHorse-1.0 di Alibaba, Kling 3.0 Pro di Kuaishou e Veo 3.1 di Google, che si trova relegato addirittura all'ottavo posto. È questa la base fattuale della storia "i modelli di video AI cinesi guidano le classifiche globali", ed è il punto di partenza da cui Seedance 2.5 si lancia.
Artificial Analysis Text-to-Video Arena, Elo (con audio, giugno 2026)
L'asse Elo parte da 1.050 per mostrare lo scarto. Fonte: Artificial Analysis Text-to-Video Arena, vista con audio, giugno 2026 (indipendente, preferenze umane a voto cieco). Questo è Seedance 2.0, il modello precedente al 2.5. Seedance 2.5 non è ancora classificato.
Lo schema si ripete sulla classifica image-to-video. Sulla Artificial Analysis Image-to-Video Arena (con audio, giugno 2026), Seedance 2.0 720p mantiene di nuovo il primo posto con un Elo di 1.195, con Alibaba e Google a inseguire. I laboratori cinesi (ByteDance, Alibaba, Kuaishou) occupano per intero la fascia alta di entrambe le classifiche. Un'avvertenza per restare onesti: queste sono le sotto-classifiche con audio, e le viste senza audio cambiano leggermente le carte in tavola (senza audio, HappyHorse di Alibaba scavalca di poco sul text-to-video). Leggi sempre l'etichetta della vista. La conclusione regge in ogni caso: la famiglia Seedance è, oggi, il generatore video più forte che esista per voto cieco indipendente, e 2.5 ne è il successore.
La genealogia di Seedance, in date
Seedance 2.5 non è spuntato dal nulla. È l'ultima tappa di una cadenza rapida e pubblica che ha progressivamente colmato il divario con i laboratori occidentali sulle classifiche, e ora li ha superati.
- Seedance 1.0 (giugno 2025) Le fondamenta. Report tecnico su arXiv (2506.09113), integrato in Doubao e Jimeng. Al lancio ByteDance rivendicava il primo posto su entrambe le classifiche di Artificial Analysis. Il livello Pro generava una clip 1080p di 5 secondi in 41,4 secondi su una NVIDIA L20.
- Seedance 1.5 pro (dicembre 2025) Il traguardo dell'audio: generazione nativa e congiunta di audio e video in un solo passaggio, con sincronizzazione labiale tra lingue e dialetti. È il momento in cui il suono ha smesso di essere un'aggiunta posticcia (paper di ByteDance Seed).
- Seedance 2.0 (febbraio 2026) L'attuale campione delle classifiche. Fino a 12 input di riferimento, e il modello ora primo su entrambe le arene di Artificial Analysis.
- Seedance 2.5 (annunciato il 23 giugno 2026, disponibilità generale ai primi di luglio 2026) Il salto ai 30 secondi in un solo passaggio, fino a 50 input di riferimento, in beta enterprise al momento in cui scriviamo.
Lo stack: cosa c'è sotto il cofano
La famiglia Seedance è una linea basata su diffusion-transformer (DiT), e questa parte poggia su solide fonti primarie più che su clamore da lancio. Il report tecnico di Seedance 1.0 descrive un backbone MMDiT con layer spaziali e temporali disaccoppiati, multimodal rotary position embeddings (MM-RoPE) e un VAE temporalmente causale, addestrato in modo che un unico modello gestisca nativamente la generazione multi-inquadratura e impari congiuntamente text-to-video e image-to-video. Non esiste un "modello immagine" separato da un "modello video": è un'unica architettura unificata.
Seedance 1.5 pro ha esteso quel disegno in un Diffusion Transformer a doppio ramo con un modulo congiunto cross-modale, che genera i fotogrammi video e la forma d'onda audio simultaneamente in un solo passaggio, anziché doppiare il suono a posteriori. È per questo che la sincronizzazione (lip-sync, effetti sonori legati all'azione) regge. ByteDance non ha pubblicato i dettagli architetturali specifici di 2.5, ma la direzione della famiglia è chiara: contesto più lungo (ora 30 secondi), maggiore condizionamento tramite riferimenti (ora 50 input) e generazione audio-visiva trattata come un unico problema.
Come si posiziona rispetto a Sora 2, Veo 3.1, Kling e Runway
Ecco il quadro competitivo. Leggilo tenendo a mente una regola: gli unici numeri verificati in modo indipendente in questa tabella sono i punteggi Elo di Artificial Analysis. Le colonne sulla durata massima e sull'audio sono prese dalla documentazione di ciascun fornitore aggiornata a giugno 2026 e cambiano di continuo, quindi vanno considerate indicative, non oro colato, e verificate prima di costruirci sopra una pipeline di produzione.
| Modello (fornitore) | Clip max in un solo passaggio | Audio nativo | AA Video Arena (T2V, con audio, giu 2026) |
|---|---|---|---|
| Seedance 2.5 (ByteDance) | 30s (annunciato) | Famiglia sì; 2.5 non dettagliato | Non ancora valutato (appena annunciato) |
| Seedance 2.0 (ByteDance) | Clip brevi, multi-inquadratura | Sì (da 1.5 pro) | #1, Elo 1.219 |
| Kling 3.0 Pro (Kuaishou) | ~10s, estendibile | Sì | #3, Elo 1.106 |
| Google Veo 3.1 | ~8s tipici | Sì | #8, Elo 1.094 |
| Alibaba Wan 2.7 | Clip brevi | Sì | #9, Elo 1.089 |
| OpenAI Sora 2 | Clip più lunghe, variabili per livello | Sì | Non presente in questo dataset |
| Runway Gen-4 | ~10s | Limitato | Non presente in questo dataset |
| MiniMax Hailuo 02 | ~6-10s | Variabile | Non presente in questo dataset |
Perché Sora 2, Runway e Hailuo riportano "non presente in questo dataset": non sono emersi con cifre Elo confermate sulle classifiche che abbiamo verificato. Preferiamo lasciare una cella vuota piuttosto che stampare un numero che non possiamo documentare. Questa disciplina è il punto centrale dell'articolo.
Gli avvertimenti che creator e aziende devono mettere in conto
La tecnologia è davvero in vantaggio. Le riserve sono reali, e un post di lancio non le metterà certo in apertura.
- È in beta, e i benchmark sono in attesa. Le promesse dei 30 secondi e dei 50 riferimenti sono di ByteDance stessa, per un modello che il pubblico non può ancora testare a fondo. Finché 2.5 non comparirà su un'arena indipendente, considera la qualità come "la linea Seedance, probabilmente migliore", non come un dato misurato.
- Il prezzo è ignoto, e le cifre che circolano sono inaffidabili. I numeri al secondo che girano sul web sono per Seedance 2.0, e nemmeno quelli hanno superato la nostra verifica. Non mettere a budget nulla sul prezzo di 2.5 finché ByteDance non lo pubblicherà per le API di Volcano Engine e BytePlus.
- L'API è ospitata in Cina. Volcano Engine (mercato interno) e BytePlus (internazionale) instradano le generazioni attraverso un'infrastruttura soggetta alla legge cinese sui dati. Per un'azienda europea o francese che tratta dati di clienti o dati personali, questo è un tema di governance da risolvere prima di inviare qualsiasi cosa sensibile, non un dettaglio.
- Il rischio deepfake è concreto. ByteDance avrebbe sospeso una funzione "voce da una singola foto" dopo il lancio di 1.5, per timori di abuso. Il comportamento di 2.5 in materia di watermark e provenienza C2PA non è stato confermato. Se generi sembianze di persone, gestirne le conseguenze tocca a te.
La nostra lettura: cosa significa Seedance 2.5 per il tuo flusso di lavoro video
Quanto segue è la nostra analisi.
La clip da 30 secondi in un solo passaggio non è uno specchietto per le allodole. Gran parte dei video del mondo reale, un explainer di prodotto, un annuncio social, una sigla d'apertura, vive nella fascia tra i 15 e i 30 secondi, e cucire insieme spezzoni AI brevi è esattamente il punto in cui la coerenza si rompe: il volto del personaggio cambia, l'illuminazione fa un salto, il movimento si inceppa al taglio. Un modello che tiene una sola generazione continua per 30 secondi, con fino a 50 input di riferimento per bloccare personaggio e stile, affronta di petto il più grande grattacapo produttivo del video AI. Se ByteDance consegnerà quello che ha annunciato, questo è un cambio di flusso di lavoro, non un semplice aumento di specifiche.
Per creator e aziende, il consiglio pratico è lo stesso che diamo per ogni modello AI che valutiamo. Tratta il modello come un componente intercambiabile dietro il tuo processo, non come il processo stesso. Usa la linea Seedance dove è più forte (è, per voto indipendente, il generatore video più forte oggi in circolazione), tieni cablato un secondo fornitore come Veo o Kling per non essere mai ostaggio di una sola API, e risolvi il tema di governance dell'hosting in Cina prima che qualsiasi materiale sensibile gli si avvicini. I team che vincono con il video generativo non sono quelli che rincorrono ogni lancio; sono quelli con una pipeline capace di sostituire il modello migliore con una semplice modifica di configurazione.
È esattamente così che costruiamo le funzioni AI per i clienti: il modello come pezzo sostituibile dietro interfacce e infrastruttura che controlli tu, scelto attività per attività su qualità, costo e governance (vedi i nostri lavori). Se sei un brand, un'agenzia o un creator che vuole integrare il video AI nella produzione reale, e lo vuoi fare con la disciplina sui dati su cui è costruito questo articolo invece che con l'entusiasmo da giorno del lancio, parlaci del tuo progetto (oppure mettiti in contatto) e ti risponderemo entro 48 ore. Per approfondire lo stack AI in continua evoluzione, leggi le nostre analisi su GLM-5.2, il miglior LLM open-weights, lo scanner corporeo medico di Midjourney e SpaceX che compra Cursor per 60 miliardi di dollari.
I numeri chiave (al 23 giugno 2026)
È un'istantanea della finestra di lancio; ogni cifra è datata e si muoverà man mano che il modello arriverà sul mercato e i rivali risponderanno.
- 30 secondi di clip nativa in un solo passaggio, la capacità di punta di Seedance 2.5 (dichiarata dall'azienda).
- 50 input di riferimento multimodali accettati in una sola generazione, rispetto ai 12 di Seedance 2.0.
- 23 giugno 2026 data dell'annuncio; disponibilità generale prevista per i primi di luglio 2026.
- 1.219 di Elo per Seedance 2.0 sull'arena text-to-video di Artificial Analysis, primo al mondo (con audio). 2.5 non è ancora classificato.
- 1.195 di Elo per Seedance 2.0 sull'arena image-to-video, anche qui al primo posto.
- Giugno 2025 l'inizio della genealogia (Seedance 1.0), fino al 2.5 nell'arco di un solo anno.



