Am 23. Juni 2026 hat ByteDance auf der 2026 Volcano Engine FORCE Conference Seedance 2.5 vorgestellt, die nächste Generation seines KI-Videomodells. Eine Zahl machte schneller die Runde im Netz als alle anderen: 30 Sekunden. Keine 30 Sekunden, die aus mehreren Clips zusammengeschnitten wurden. Dreißig Sekunden nativer, durchgehender Single-Pass-Generierung, inklusive Szenenwechsel und Tempowechsel. In einem Feld, in dem die meisten Modelle einem noch 5 bis 10 Sekunden am Stück liefern, ist das ein Sprung, der die Erwartungen neu kalibriert.
Aber eine Schlagzeile am Launch-Tag ist noch kein Benchmark. Also haben wir getan, was wir immer tun, bevor wir einem Kunden ein Werkzeug empfehlen: Wir sind zu den Primärquellen gegangen (den eigenen Tech-Reports von ByteDance Seed, den arXiv-Papern, der Volcano-Engine-Ankündigung und der live abrufbaren Artificial Analysis Video Arena) und haben die Behauptungen in drei Schubladen einsortiert: verifiziert, vom Unternehmen behauptet und noch unbekannt. Kurzfassung: Die Seedance-Reihe ist auf den unabhängigen Blind-Vote-Leaderboards aktuell tatsächlich die beste der Welt, die 30-Sekunden-Behauptung ist real, aber für ein Modell in der Beta noch eine reine Herstellerangabe, und die meisten harten 2.5-Spezifikationen (Auflösung, Bildrate, Preise) existieren schlicht noch nicht öffentlich. Das hier sind die Daten, mit Quellen, auf denen Kreative und Unternehmen tatsächlich aufbauen können.
Was ByteDance wirklich angekündigt hat (der verifizierte Teil)
Streicht man die Demos heraus, stehen rund um Seedance 2.5 derzeit nur vier Dinge wirklich fest. Sie stammen von der Konferenz selbst, berichtet von mehreren Medien, die nah am Geschehen waren (BigGo Finance, The Decoder, AIBase), und sie wurden quer über diese Quellen bestätigt.
| Seedance 2.5, was tatsächlich bestätigt ist | Detail | Verlässlichkeit |
|---|---|---|
| Angekündigt | 23. Juni 2026, auf der 2026 Volcano Engine FORCE Conference (durch Volcano-Engine-Präsident Tan Dai) | Verifiziert (Event) |
| Verfügbarkeit | Globale Enterprise-Beta ab sofort, allgemeine Verfügbarkeit angepeilt für Anfang Juli 2026 | Vom Unternehmen angekündigter Zeitplan |
| Kernfähigkeit | Direkte Single-Pass-Ausgabe eines 30-sekündigen nativen Clips, eine durchgehende Generierung mit Szenen- und Tempowechseln, nicht nachträglich zusammengeschnitten | Vom Unternehmen behauptet |
| Referenz-Inputs | Akzeptiert bis zu 50 multimodale Referenzmaterialien in einer Generierung (zuvor 12 bei Seedance 2.0) | Vom Unternehmen behauptet |
| Auflösung / Bildrate / Audio bei 2.5 | Bei der Ankündigung nicht offiziell offengelegt | Unbekannt (nicht annehmen) |
| API-Preise für 2.5 | Während der Beta nicht angekündigt | Unbekannt |
Diese letzte Zeile zählt mehr als jede Spezifikation. Wer gerade jetzt selbstbewusst behauptet, "Seedance 2.5 macht 4K bei 60 fps für X Dollar pro Sekunde", der rät. ByteDance hat die Dauer und die Referenz-Anzahl offengelegt, und sonst fast nichts. Alles darüber hinaus behandeln wir als unbestätigt, bis der Tech-Report zur allgemeinen Verfügbarkeit Anfang Juli erscheint.
Die Schlagzeile in einer Zeile
Ein 30-sekündiger Clip in einer durchgehenden Generierung, aus bis zu 50 Referenz-Inputs. Das ist der Pitch von Seedance 2.5. Alles andere ist noch Beta.
Die einzigen unabhängig verifizierten Zahlen: das Leaderboard
Hier kommt der ehrliche Aufhänger, und er ist beeindruckender als jede nicht überprüfbare Spezifikation. Seedance 2.5 hat nirgendwo einen Benchmark-Wert. Es steht nicht in der Artificial Analysis Video Arena, nicht bei llm-stats, nirgends. Es ist erst wenige Tage alt und in der Beta, also ist jede "Seedance 2.5 Elo", die irgendwo kursiert, frei erfunden. Wir haben die Live-Boards direkt geprüft.
Was real ist und gegen das primäre Leaderboard verifiziert wurde: Das vorherige Modell, Seedance 2.0, steht bereits auf Platz eins der Welt. In der Artificial Analysis Text-to-Video Arena (verblindete menschliche Präferenz, Ansicht mit Audio, Juni 2026) führt "Dreamina Seedance 2.0 720p" mit einer Elo von 1.219, vor Alibabas HappyHorse-1.0, Kuaishous Kling 3.0 Pro und Googles Veo 3.1, das ganz unten auf Platz 8 liegt. Das ist die faktische Grundlage für die Geschichte "Chinesische KI-Videomodelle führen die globalen Leaderboards an", und das ist die Basis, von der aus Seedance 2.5 startet.
Artificial Analysis Text-to-Video Arena, Elo (mit Audio, Juni 2026)
Die Elo-Achse beginnt bei 1.050, um die Streuung zu zeigen. Quelle: Artificial Analysis Text-to-Video Arena, Ansicht mit Audio, Juni 2026 (unabhängig, verblindete menschliche Präferenz). Das ist Seedance 2.0, das Modell vor 2.5. Seedance 2.5 ist noch nicht gerankt.
Das Muster wiederholt sich im Image-to-Video-Board. In der Artificial Analysis Image-to-Video Arena (mit Audio, Juni 2026) hält Seedance 2.0 720p erneut Platz 1 bei einer Elo von 1.195, mit Alibaba und Google dahinter. Chinesische Labore (ByteDance, Alibaba, Kuaishou) belegen die gesamte Spitzengruppe beider Boards. Eine Einschränkung der Ehrlichkeit halber: Das sind die Sub-Leaderboards mit Audio, und die Ansichten ohne Audio verschieben sich leicht (Alibabas HappyHorse zieht bei Text-to-Video ohne Audio knapp vorbei). Lest immer das Ansichts-Label. Die Kernaussage hält in beiden Fällen: Die Seedance-Familie ist heute, gemessen am unabhängigen Blind-Vote, der stärkste existierende Videogenerator, und 2.5 ist ihr Nachfolger.
Die Seedance-Linie, nach Daten geordnet
Seedance 2.5 ist nicht aus dem Nichts aufgetaucht. Es ist der jüngste Schritt in einer schnellen, öffentlichen Taktung, die den Abstand zu den westlichen Laboren auf den Leaderboards stetig geschlossen und nun überholt hat.
- Seedance 1.0 (Juni 2025) Das Fundament. Tech-Report auf arXiv (2506.09113), integriert in Doubao und Jimeng. ByteDance beanspruchte beim Launch Platz 1 auf beiden Artificial-Analysis-Boards. Die Pro-Stufe generierte einen 5-sekündigen 1080p-Clip in 41,4 Sekunden auf einer NVIDIA L20.
- Seedance 1.5 pro (Dezember 2025) Der Audio-Meilenstein: native, gemeinsame Audio-Video-Generierung in einem Durchgang, mit Lippensynchronisation über Sprachen und Dialekte hinweg. Ab hier hörte der Ton auf, ein nachträgliches Anhängsel zu sein (ByteDance-Seed-Paper).
- Seedance 2.0 (Februar 2026) Der aktuelle Leaderboard-Champion. Bis zu 12 Referenz-Inputs, und das Modell steht jetzt auf Platz 1 in beiden Artificial-Analysis-Arenen.
- Seedance 2.5 (angekündigt am 23. Juni 2026, GA Anfang Juli 2026) Der 30-Sekunden-Single-Pass-Sprung, bis zu 50 Referenz-Inputs, zum Zeitpunkt dieses Textes in der Enterprise-Beta.
Der technische Unterbau: was unter der Haube steckt
Die Seedance-Familie ist eine Diffusion-Transformer-Linie (DiT), und dieser Teil stützt sich auf belastbare Primärquellen statt auf Launch-Hype. Der Tech-Report von Seedance 1.0 beschreibt ein MMDiT-Backbone mit entkoppelten räumlichen und zeitlichen Schichten, multimodalen rotatorischen Positions-Embeddings (MM-RoPE) und einem zeitlich-kausalen VAE, so trainiert, dass ein einzelnes Modell Multi-Shot-Generierung nativ beherrscht und Text-to-Video sowie Image-to-Video gemeinsam lernt. Es gibt kein separates "Bildmodell" und "Videomodell", sondern eine einheitliche Architektur.
Seedance 1.5 pro erweiterte das zu einem zweisträngigen Diffusion Transformer mit einem cross-modalen Joint-Modul, das die Videoframes und die Audio-Wellenform gleichzeitig in einem Durchgang erzeugt, statt den Ton nachträglich darüberzulegen. Genau deshalb hält die Synchronisation (Lippensynchronität, an die Handlung gekoppelte Soundeffekte). ByteDance hat die für 2.5 spezifischen Architektur-Details nicht veröffentlicht, aber die Richtung der Familie ist klar: längerer Kontext (nun 30 Sekunden), mehr Referenz-Konditionierung (nun 50 Inputs) und Audio-Video-Generierung als ein einziges Problem behandelt.
Wie es sich gegen Sora 2, Veo 3.1, Kling und Runway schlägt
Hier das Wettbewerbsbild. Lest es mit einer Regel im Kopf: Die einzigen unabhängig verifizierten Zahlen in dieser Tabelle sind die Artificial-Analysis-Elo-Werte. Die Spalten zur maximalen Dauer und zu Audio stammen aus der Dokumentation des jeweiligen Anbieters, Stand Juni 2026, und ändern sich ständig. Behandelt sie also als Richtwerte, nicht als Evangelium, und verifiziert sie, bevor ihr eine Produktions-Pipeline darauf aufbaut.
| Modell (Anbieter) | Max. Single-Pass-Clip | Natives Audio | AA Video Arena (T2V, mit Audio, Juni 2026) |
|---|---|---|---|
| Seedance 2.5 (ByteDance) | 30 s (angekündigt) | Familie ja; 2.5 nicht spezifiziert | Noch nicht gebencht (gerade erst angekündigt) |
| Seedance 2.0 (ByteDance) | Kurze Clips, Multi-Shot | Ja (seit 1.5 pro) | Platz 1, Elo 1.219 |
| Kling 3.0 Pro (Kuaishou) | ~10 s, verlängerbar | Ja | Platz 3, Elo 1.106 |
| Google Veo 3.1 | ~8 s typisch | Ja | Platz 8, Elo 1.094 |
| Alibaba Wan 2.7 | Kurze Clips | Ja | Platz 9, Elo 1.089 |
| OpenAI Sora 2 | Längere Clips, je nach Stufe | Ja | Nicht in diesem Datensatz |
| Runway Gen-4 | ~10 s | Begrenzt | Nicht in diesem Datensatz |
| MiniMax Hailuo 02 | ~6 bis 10 s | Variiert | Nicht in diesem Datensatz |
Warum bei Sora 2, Runway und Hailuo "nicht in diesem Datensatz" steht: Sie tauchten auf den von uns geprüften Boards nicht mit bestätigten Elo-Werten auf. Wir lassen lieber eine Zelle leer, als eine Zahl abzudrucken, die wir nicht belegen können. Genau diese Disziplin ist der ganze Sinn dieses Artikels.
Die Haken, die Kreative und Unternehmen einpreisen müssen
Die Technik ist wirklich voraus. Die Vorbehalte sind real, und ein Launch-Beitrag wird nicht mit ihnen aufmachen.
- Es ist Beta, und die Benchmarks stehen aus. Die 30-Sekunden- und 50-Referenz-Behauptungen sind ByteDances eigene, für ein Modell, das die Öffentlichkeit noch nicht vollständig testen kann. Bis 2.5 in einer unabhängigen Arena auftaucht, behandelt die Qualität als "die Seedance-Linie, vermutlich besser", nicht als gemessenes Faktum.
- Die Preise sind unbekannt, und die kursierenden Zahlen sind unzuverlässig. Die Pro-Sekunde-Werte, die im Netz herumschwirren, gelten für Seedance 2.0, und selbst die haben unsere Verifizierung nicht überstanden. Plant bei 2.5 nichts ein, bis ByteDance es für die Volcano-Engine- und BytePlus-APIs veröffentlicht.
- Die API wird in China gehostet. Volcano Engine (national) und BytePlus (international) leiten Generierungen über eine Infrastruktur, die dem chinesischen Datenrecht unterliegt. Für ein europäisches oder französisches Unternehmen, das mit Kunden- oder personenbezogenen Daten arbeitet, ist das eine Governance-Frage, die zu klären ist, bevor irgendetwas Sensibles dorthin geht, kein Detail.
- Das Deepfake-Risiko ist konkret. ByteDance hat Berichten zufolge nach dem 1.5-Launch eine Funktion "Stimme aus einem einzigen Foto" wegen Missbrauchsbedenken ausgesetzt. Das Verhalten von 2.5 bei Wasserzeichen und C2PA-Herkunftsnachweisen ist nicht bestätigt. Wenn ihr Abbilder von Personen generiert, liegt das in eurer Verantwortung.
Unsere Einschätzung: was Seedance 2.5 für euren Video-Workflow bedeutet
Was folgt, ist unsere Analyse.
Der 30-sekündige Single-Pass-Clip ist kein Gimmick. Die meisten realen Videos, ein Produkt-Explainer, eine Social-Ad, eine Eröffnungssequenz, leben im Bereich von 15 bis 30 Sekunden, und genau beim Zusammenschneiden kurzer KI-Clips bricht die Konsistenz: Das Gesicht der Figur driftet, das Licht springt, die Bewegung stockt am Schnitt. Ein Modell, das eine durchgehende Generierung 30 Sekunden lang hält, mit bis zu 50 Referenz-Inputs, um Charakter und Stil festzunageln, greift den größten einzelnen Produktions-Kopfschmerz im KI-Video frontal an. Wenn ByteDance liefert, was es angekündigt hat, ist das eine Workflow-Änderung, kein Spezifikations-Update.
Für Kreative und Unternehmen ist der praktische Rat derselbe wie bei jedem KI-Modell, das wir bewerten. Behandelt das Modell als austauschbare Komponente hinter eurem eigenen Prozess, nicht als den Prozess selbst. Nutzt die Seedance-Linie dort, wo sie am stärksten ist (sie ist, gemessen am unabhängigen Votum, der stärkste existierende Videogenerator), haltet einen zweiten Anbieter wie Veo oder Kling angeschlossen, damit ihr nie einer einzigen API ausgeliefert seid, und klärt die Governance-Frage zum China-Hosting, bevor sensibles Material auch nur in die Nähe kommt. Die Teams, die mit generativem Video gewinnen, sind nicht die, die jedem Launch hinterherjagen; es sind die mit einer Pipeline, die das beste Modell per Konfigurationsänderung einwechseln kann.
Genau so bauen wir KI-Features für Kunden: das Modell als austauschbarer Teil hinter Schnittstellen und Infrastruktur, die ihr kontrolliert, pro Aufgabe nach Qualität, Kosten und Governance ausgewählt (siehe unsere Arbeiten). Wenn ihr eine Marke, eine Agentur oder ein Creator seid und KI-Video in echte Produktion einbinden wollt, und zwar mit der Datendisziplin, auf der dieser Artikel beruht, statt mit Launch-Tag-Hype, dann erzählt uns von eurem Projekt (oder nehmt Kontakt auf) und wir melden uns innerhalb von 48 Stunden zurück. Mehr zum schnelllebigen KI-Stack findet ihr in unseren Analysen zu GLM-5.2, dem besten offenen LLM, Midjourneys medizinischem Körperscanner und SpaceX, das Cursor für 60 Milliarden Dollar kauft.
Die wichtigsten Zahlen (Stand 23. Juni 2026)
Das ist eine Momentaufnahme aus dem Launch-Zeitfenster; jede Zahl ist datiert und wird sich bewegen, sobald das Modell ausgeliefert wird und die Konkurrenz reagiert.
- 30 Sekunden nativer Single-Pass-Clip, die Kernfähigkeit von Seedance 2.5 (vom Unternehmen behauptet).
- 50 multimodale Referenz-Inputs werden in einer Generierung akzeptiert, zuvor 12 bei Seedance 2.0.
- 23. Juni 2026 Ankündigungsdatum; allgemeine Verfügbarkeit angepeilt für Anfang Juli 2026.
- 1.219 Elo für Seedance 2.0 in der Artificial Analysis Text-to-Video Arena, Platz 1 der Welt (mit Audio). 2.5 ist noch nicht gerankt.
- 1.195 Elo für Seedance 2.0 in der Image-to-Video Arena, ebenfalls Platz 1.
- Juni 2025 der Beginn der Linie (Seedance 1.0), bis zu 2.5 in einem einzigen Jahr.



