Le 23 juin 2026, à la conférence FORCE de Volcano Engine, ByteDance a dévoilé Seedance 2.5, la nouvelle génération de son modèle de vidéo IA. Un chiffre a fait le tour du web plus vite que les autres : 30 secondes. Pas 30 secondes assemblées à partir de plusieurs clips. Trente secondes de génération native, continue, en une seule passe, changements de plan et de rythme inclus. Dans un domaine où la plupart des modèles ne délivrent que 5 à 10 secondes d'un coup, c'est le genre de saut qui redéfinit les attentes.
Mais une accroche de lancement n'est pas un benchmark. Alors nous avons fait ce que nous faisons toujours avant de recommander un outil à un client : remonter aux sources primaires (les rapports techniques de ByteDance Seed, les articles arXiv, l'annonce Volcano Engine et l'arène vidéo d'Artificial Analysis en direct) et ranger les affirmations en trois cases : vérifié, annoncé par l'entreprise, et encore inconnu. La version courte : la lignée Seedance est réellement la meilleure au monde aujourd'hui sur les classements à vote aveugle, la promesse des 30 secondes est crédible mais reste déclarée par l'éditeur pour un modèle en bêta, et la plupart des specs dures de la 2.5 (résolution, ips, prix) n'existent tout simplement pas encore publiquement. Voici la donnée, sourcée, sur laquelle créateurs et entreprises peuvent réellement bâtir.
Ce que ByteDance a réellement annoncé (la partie vérifiée)
Une fois les démos écartées, seules quatre choses sur Seedance 2.5 sont solides à ce stade. Elles viennent de la conférence elle-même, relayée par plusieurs médias proches de l'événement (BigGo Finance, The Decoder, AIBase) et confirmées de manière croisée.
| Seedance 2.5, ce qui est réellement confirmé | Détail | Confiance |
|---|---|---|
| Annonce | 23 juin 2026, conférence FORCE de Volcano Engine (par le président de Volcano Engine, Tan Dai) | Vérifié (événement) |
| Disponibilité | Bêta entreprise mondiale dès maintenant, disponibilité générale visée début juillet 2026 | Calendrier annoncé par l'éditeur |
| Capacité phare | Sortie directe en une passe d'un clip natif de 30 secondes, une génération continue avec changements de scène et de rythme, sans post-assemblage | Annoncé par l'éditeur |
| Entrées de référence | Accepte jusqu'à 50 références multimodales dans une même génération (contre 12 sur Seedance 2.0) | Annoncé par l'éditeur |
| Résolution / ips / audio en 2.5 | Non divulgués lors de l'annonce | Inconnu (ne rien supposer) |
| Tarif API de la 2.5 | Non annoncé pendant la bêta | Inconnu |
Cette dernière ligne compte plus que n'importe quelle spec. Quiconque publie aujourd'hui un confiant « Seedance 2.5 fait de la 4K à 60 ips pour X dollars la seconde » devine. ByteDance a communiqué la durée et le nombre de références, et presque rien d'autre. Nous traiterons tout le reste comme non confirmé jusqu'au rapport technique de la disponibilité générale, début juillet.
L'accroche, en une ligne
Un clip de 30 secondes en une seule génération continue, à partir de 50 références au maximum. Voilà la promesse Seedance 2.5. Tout le reste est encore en bêta.
Les seuls chiffres indépendamment vérifiés : le classement
Voici l'accroche honnête, et elle est plus impressionnante que n'importe quelle spec invérifiable. Seedance 2.5 n'a aucun score de benchmark nulle part. Il n'est ni sur l'arène vidéo d'Artificial Analysis, ni sur llm-stats, nulle part. Il a quelques jours et il est en bêta, donc tout « Elo Seedance 2.5 » qui circule est inventé. Nous avons vérifié les classements en direct.
Ce qui est réel, et vérifié face à la source primaire, c'est que le modèle précédent, Seedance 2.0, est déjà numéro un mondial. Sur l'arène texte-vers-vidéo d'Artificial Analysis (préférence humaine en aveugle, vue avec audio, juin 2026), « Dreamina Seedance 2.0 720p » domine avec un Elo de 1 219, devant HappyHorse-1.0 d'Alibaba, Kling 3.0 Pro de Kuaishou, et Google Veo 3.1 qui n'arrive qu'en 8e position. C'est le socle factuel du récit « les modèles vidéo IA chinois dominent les classements mondiaux », et c'est le plancher depuis lequel Seedance 2.5 décolle.
Arène texte-vers-vidéo d'Artificial Analysis, Elo (avec audio, juin 2026)
L'axe Elo démarre à 1 050 pour faire ressortir l'écart. Source : arène texte-vers-vidéo d'Artificial Analysis, vue avec audio, juin 2026 (indépendant, préférence humaine en aveugle). Il s'agit de Seedance 2.0, le modèle d'avant la 2.5, qui n'est pas encore classée.
Le schéma se répète sur l'arène image-vers-vidéo. Sur l'arène image-vers-vidéo d'Artificial Analysis (avec audio, juin 2026), Seedance 2.0 720p tient de nouveau le numéro un avec un Elo de 1 195, Alibaba et Google derrière. Les labos chinois (ByteDance, Alibaba, Kuaishou) occupent tout le haut des deux classements. Une nuance pour rester honnête : ce sont les sous-classements avec audio, et les vues sans audio rebattent légèrement les cartes (HappyHorse d'Alibaba passe devant en texte-vers-vidéo sans audio). Lisez toujours l'intitulé de la vue. La conclusion tient dans les deux cas : la famille Seedance est, aujourd'hui, le meilleur générateur vidéo qui existe au vote indépendant, et la 2.5 en est la suite.
La lignée Seedance, en dates
Seedance 2.5 n'est pas sortie de nulle part. C'est la dernière étape d'une cadence rapide et publique qui a régulièrement refermé, puis dépassé, l'écart avec les labos occidentaux sur les classements.
- Seedance 1.0 (juin 2025) Les fondations. Rapport technique sur arXiv (2506.09113), intégré à Doubao et Jimeng. ByteDance revendiquait le numéro un sur les deux classements Artificial Analysis au lancement. La version Pro générait un clip 1080p de 5 secondes en 41,4 secondes sur un NVIDIA L20.
- Seedance 1.5 pro (décembre 2025) Le jalon audio : génération native et conjointe son-image en une seule passe, avec synchronisation labiale multilingue. C'est là que le son a cessé d'être un ajout (papier ByteDance Seed).
- Seedance 2.0 (février 2026) Le champion actuel des classements. Jusqu'à 12 références, et le modèle aujourd'hui en tête des deux arènes Artificial Analysis.
- Seedance 2.5 (annoncée le 23 juin 2026, disponibilité générale début juillet 2026) Le saut des 30 secondes en une passe, jusqu'à 50 références, en bêta entreprise à l'heure où nous écrivons.
La technique : ce qu'il y a sous le capot
La famille Seedance est une lignée diffusion-transformer (DiT), et cette partie repose sur de solides sources primaires plutôt que sur le marketing de lancement. Le rapport technique de Seedance 1.0 décrit une ossature MMDiT avec des couches spatiales et temporelles découplées, des encodages de position rotatifs multimodaux (MM-RoPE) et un VAE causal dans le temps, entraînés pour qu'un seul modèle gère nativement la génération multi-plans et apprenne conjointement le texte-vers-vidéo et l'image-vers-vidéo. Il n'y a pas un « modèle image » et un « modèle vidéo » séparés : c'est une architecture unifiée.
Seedance 1.5 pro a prolongé cela vers un Diffusion Transformer à double branche avec un module conjoint cross-modal, générant les images vidéo et la forme d'onde audio simultanément en une passe, au lieu de plaquer le son après coup. C'est pourquoi la synchronisation (lèvres, bruitages liés à l'action) tient la route. ByteDance n'a pas publié les détails d'architecture propres à la 2.5, mais la direction de la famille est claire : un contexte plus long (désormais 30 secondes), plus de conditionnement par référence (désormais 50 entrées) et une génération audiovisuelle traitée comme un seul et même problème.
Face à Sora 2, Veo 3.1, Kling et Runway
Voici le tableau concurrentiel. Lisez-le avec une règle en tête : les seuls chiffres indépendamment vérifiés de ce tableau sont les scores Elo d'Artificial Analysis. Les colonnes durée maximale et audio proviennent de la documentation de chaque éditeur en juin 2026 et changent en permanence ; traitez-les comme indicatives, pas comme parole d'évangile, et vérifiez avant de bâtir une chaîne de production dessus.
| Modèle (éditeur) | Clip max en une passe | Audio natif | Arène vidéo AA (T2V, avec audio, juin 2026) |
|---|---|---|---|
| Seedance 2.5 (ByteDance) | 30s (annoncé) | Famille oui ; 2.5 non détaillé | Pas encore classé (juste annoncé) |
| Seedance 2.0 (ByteDance) | Clips courts, multi-plans | Oui (depuis la 1.5 pro) | 1er, Elo 1 219 |
| Kling 3.0 Pro (Kuaishou) | ~10s, prolongeable | Oui | 3e, Elo 1 106 |
| Google Veo 3.1 | ~8s en général | Oui | 8e, Elo 1 094 |
| Alibaba Wan 2.7 | Clips courts | Oui | 9e, Elo 1 089 |
| OpenAI Sora 2 | Clips plus longs, selon l'offre | Oui | Absent de ce jeu de données |
| Runway Gen-4 | ~10s | Limité | Absent de ce jeu de données |
| MiniMax Hailuo 02 | ~6 à 10s | Variable | Absent de ce jeu de données |
Pourquoi Sora 2, Runway et Hailuo affichent « absent de ce jeu de données » : ils ne sont pas apparus avec des Elo confirmés sur les classements que nous avons vérifiés. Nous préférons laisser une case vide plutôt qu'imprimer un chiffre que nous ne pouvons pas sourcer. Cette discipline est tout l'objet de cet article.
Les pièges que créateurs et entreprises doivent intégrer
La technologie est réellement en avance. Les réserves sont réelles, et un post de lancement ne commencera pas par là.
- C'est de la bêta, et les benchmarks sont à venir. Les promesses des 30 secondes et des 50 références sont celles de ByteDance, pour un modèle que le public ne peut pas encore tester à fond. Tant que la 2.5 n'apparaît pas sur une arène indépendante, considérez la qualité comme « la lignée Seedance, sans doute meilleure », pas comme un fait mesuré.
- Le prix est inconnu, et les chiffres qui circulent ne sont pas fiables. Les tarifs à la seconde qui traînent sur le web concernent Seedance 2.0, et même ceux-là n'ont pas survécu à notre vérification. Ne budgétez rien sur le prix de la 2.5 tant que ByteDance ne l'a pas publié pour les API Volcano Engine et BytePlus.
- L'API est hébergée en Chine. Volcano Engine (domestique) et BytePlus (international) font transiter les générations par une infrastructure soumise au droit chinois des données. Pour une entreprise européenne ou française qui manipule des données clients ou personnelles, c'est une question de gouvernance à trancher avant d'y envoyer quoi que ce soit de sensible, pas un détail.
- Le risque deepfake est concret. ByteDance aurait suspendu une fonction « voix à partir d'une seule photo » après le lancement de la 1.5, pour cause d'usages abusifs. Le watermarking et la provenance C2PA de la 2.5 ne sont pas confirmés. Si vous générez des visages, c'est à vous de gérer.
Notre lecture : ce que Seedance 2.5 change à votre production vidéo
Ce qui suit est notre analyse.
Le clip de 30 secondes en une passe n'est pas un gadget. L'essentiel de la vidéo réelle, une explication produit, une pub social, un générique d'ouverture, vit dans la fourchette 15 à 30 secondes, et coudre ensemble de courts clips IA, c'est précisément là que la cohérence casse : le visage du personnage dérive, la lumière saute, le mouvement hoquette à la coupe. Un modèle qui tient une seule génération continue sur 30 secondes, avec jusqu'à 50 références pour verrouiller personnage et style, attaque de front le plus gros casse-tête de production de la vidéo IA. Si ByteDance livre ce qu'il a annoncé, c'est un changement de workflow, pas une simple montée de specs.
Pour les créateurs et les entreprises, le conseil pratique est le même que pour chaque modèle IA que nous évaluons. Traitez le modèle comme un composant interchangeable derrière votre propre process, pas comme le process lui-même. Utilisez la lignée Seedance là où elle est la plus forte (c'est, au vote indépendant, le meilleur générateur vidéo qui existe à l'instant), gardez un second éditeur comme Veo ou Kling câblé pour ne jamais être otage d'une seule API, et tranchez la question de gouvernance de l'hébergement chinois avant que la moindre image sensible n'en approche. Les équipes qui gagnent avec la vidéo générative ne sont pas celles qui courent après chaque lancement ; ce sont celles dont la chaîne peut intégrer le meilleur modèle d'un simple changement de configuration.
C'est exactement ainsi que nous construisons des fonctionnalités IA pour nos clients : le modèle comme pièce interchangeable derrière des interfaces et une infrastructure que vous maîtrisez, choisie tâche par tâche selon la qualité, le coût et la gouvernance (voir nos réalisations). Si vous êtes une marque, une agence ou un créateur qui cherche à intégrer la vidéo IA dans une vraie production, avec la rigueur sur la donnée qui structure cet article plutôt qu'avec l'emballement du jour de lancement, parlez-nous de votre projet (ou contactez-nous) et nous revenons vers vous sous 48 heures. Pour aller plus loin sur la stack IA qui bouge vite, lisez nos décryptages de GLM-5.2, le meilleur LLM à poids ouverts, du scanner médical de Midjourney et du rachat de Cursor par SpaceX pour 60 milliards.
Chiffres clés (au 23 juin 2026)
C'est un instantané de fenêtre de lancement ; chaque chiffre est daté et bougera à mesure que le modèle se déploie et que les rivaux réagissent.
- 30 secondes de clip natif en une passe, la capacité phare de Seedance 2.5 (annoncée par l'éditeur).
- 50 références multimodales acceptées dans une génération, contre 12 sur Seedance 2.0.
- 23 juin 2026 date d'annonce ; disponibilité générale visée début juillet 2026.
- 1 219 d'Elo pour Seedance 2.0 sur l'arène texte-vers-vidéo d'Artificial Analysis, numéro un mondial (avec audio). La 2.5 n'est pas encore classée.
- 1 195 d'Elo pour Seedance 2.0 sur l'arène image-vers-vidéo, également numéro un.
- juin 2025 le début de la lignée (Seedance 1.0), jusqu'à la 2.5 en une seule année.



