23 czerwca 2026, na konferencji 2026 Volcano Engine FORCE, ByteDance ogłosił Seedance 2.5, kolejną generację swojego modelu wideo AI, i jedna liczba obiegła internet szybciej niż wszystkie pozostałe: 30 sekund. Nie 30 sekund posklejanych z osobnych ujęć. Trzydzieści sekund natywnej, ciągłej generacji w jednym przebiegu, ze zmianami scen i tempa włącznie. W dziedzinie, w której większość modeli wciąż wydaje po 5 do 10 sekund naraz, to skok przestawiający oczekiwania.
Nagłówek z dnia premiery to jednak nie benchmark. Zrobiliśmy więc to, co zawsze robimy, zanim polecimy klientowi jakieś narzędzie: sięgnęliśmy do źródeł pierwotnych (własnych raportów technicznych ByteDance Seed, prac na arXiv, ogłoszenia Volcano Engine oraz aktualnej tabeli Artificial Analysis Video Arena) i podzieliliśmy twierdzenia na trzy kosze, zweryfikowane, deklarowane przez producenta oraz jeszcze nieznane. W skrócie: linia Seedance jest dziś naprawdę najlepsza na świecie w niezależnych rankingach opartych na ślepym głosowaniu, deklaracja o 30 sekundach jest prawdziwa, ale wciąż pochodzi od producenta i dotyczy modelu w fazie beta, a większość twardych parametrów 2.5 (rozdzielczość, liczba klatek, cennik) po prostu nie istnieje jeszcze publicznie. Oto dane, wraz ze źródłami, na których twórcy i firmy mogą realnie budować.
Co ByteDance faktycznie ogłosił (część zweryfikowana)
Gdy odłożyć na bok pokazówki, pewne są na razie tylko cztery rzeczy dotyczące Seedance 2.5. Pochodzą z samej konferencji, relacjonowanej przez kilka serwisów blisko wydarzenia (BigGo Finance, The Decoder, AIBase) i potwierdzonych między nimi.
| Seedance 2.5, co jest faktycznie potwierdzone | Szczegóły | Pewność |
|---|---|---|
| Ogłoszenie | 23 czerwca 2026, na konferencji 2026 Volcano Engine FORCE (przez prezesa Volcano Engine Tan Daia) | Zweryfikowane (wydarzenie) |
| Dostępność | Globalna beta dla firm już teraz, ogólna dostępność planowana na początek lipca 2026 | Harmonogram zapowiedziany przez producenta |
| Kluczowa zdolność | Bezpośrednie wyjście 30-sekundowego natywnego klipu w jednym przebiegu, jedna ciągła generacja ze zmianami scen i tempa, bez doklejania ujęć | Deklarowane przez producenta |
| Materiały referencyjne | Przyjmuje do 50 multimodalnych materiałów referencyjnych w jednej generacji (wzrost z 12 w Seedance 2.0) | Deklarowane przez producenta |
| Rozdzielczość / klatki / dźwięk dla 2.5 | Nieujawnione oficjalnie w momencie ogłoszenia | Nieznane (nie zakładaj) |
| Cennik API dla 2.5 | Nieogłoszony w fazie beta | Nieznany |
Ten ostatni wiersz waży więcej niż jakakolwiek specyfikacja. Każdy, kto publikuje dziś pewne siebie "Seedance 2.5 robi 4K w 60 klatkach za X dolarów za sekundę", zwyczajnie zgaduje. ByteDance ujawnił długość klipu i liczbę referencji, i niemal nic poza tym. Wszystko, co wykracza poza te dwa punkty, traktujemy jako niepotwierdzone do czasu, aż na początku lipca pojawi się raport techniczny przy ogólnej dostępności.
Sedno w jednej linii
Klip 30-sekundowy w jednej ciągłej generacji, z maksymalnie 50 materiałów referencyjnych. To cała obietnica Seedance 2.5. Reszta to wciąż beta.
Jedyne niezależnie zweryfikowane liczby: ranking
Oto uczciwy haczyk, a jest on bardziej imponujący niż jakakolwiek niesprawdzalna specyfikacja. Seedance 2.5 nie ma nigdzie żadnego wyniku benchmarkowego. Nie ma go na Artificial Analysis Video Arena, nie ma go na llm-stats, nigdzie. Ma kilka dni i jest w becie, więc każde "Elo Seedance 2.5", które krąży po sieci, jest zmyślone. Sprawdziliśmy aktualne tabele bezpośrednio.
To, co jest realne i zweryfikowane wobec głównego rankingu, to fakt, że poprzedni model, Seedance 2.0, zajmuje już pierwsze miejsce na świecie. W Artificial Analysis Text-to-Video Arena (ślepe preferencje ludzi, widok z dźwiękiem, czerwiec 2026) "Dreamina Seedance 2.0 720p" prowadzi z wynikiem Elo 1219, przed HappyHorse-1.0 od Alibaby, Kling 3.0 Pro od Kuaishou oraz Google Veo 3.1, które spada aż na ósme miejsce. To faktyczna podstawa narracji o tym, że "chińskie modele wideo AI prowadzą w globalnych rankingach", i to jest poziom, z którego startuje Seedance 2.5.
Artificial Analysis Text-to-Video Arena, Elo (z dźwiękiem, czerwiec 2026)
Oś Elo zaczyna się od 1050, aby pokazać rozrzut. Źródło: Artificial Analysis Text-to-Video Arena, widok z dźwiękiem, czerwiec 2026 (niezależny, ślepe preferencje ludzi). To Seedance 2.0, model sprzed 2.5. Seedance 2.5 nie jest jeszcze sklasyfikowany.
Schemat powtarza się w rankingu image-to-video. W Artificial Analysis Image-to-Video Arena (z dźwiękiem, czerwiec 2026) Seedance 2.0 720p znów dzierży pierwsze miejsce z wynikiem Elo 1195, a Alibaba i Google plasują się za nim. Chińskie laboratoria (ByteDance, Alibaba, Kuaishou) zajmują cały najwyższy poziom obu tabel. Jedno zastrzeżenie, by zachować uczciwość: to pod-rankingi z dźwiękiem, a widoki bez dźwięku tasują się odrobinę (HappyHorse od Alibaby wysuwa się na prowadzenie w text-to-video bez dźwięku). Zawsze czytaj etykietę widoku. Wniosek trzyma się w obu przypadkach: rodzina Seedance jest dziś, według niezależnego ślepego głosowania, najmocniejszym generatorem wideo, jaki istnieje, a 2.5 to jej następca.
Rodowód Seedance, w datach
Seedance 2.5 nie pojawił się znikąd. To najnowszy krok szybkiego, publicznego rytmu, który systematycznie domykał dystans do zachodnich laboratoriów w rankingach, a teraz je wyprzedził.
- Seedance 1.0 (czerwiec 2025) Fundament. Raport techniczny na arXiv (2506.09113), zintegrowany z aplikacjami Doubao i Jimeng. ByteDance zadeklarował pierwsze miejsce w obu tabelach Artificial Analysis przy premierze. Wariant Pro generował 5-sekundowy klip 1080p w 41,4 sekundy na karcie NVIDIA L20.
- Seedance 1.5 pro (grudzień 2025) Kamień milowy dla dźwięku: natywna, wspólna generacja audio i wideo w jednym przebiegu, z synchronizacją ruchu ust w wielu językach i dialektach. To wtedy dźwięk przestał być doklejanym dodatkiem (praca ByteDance Seed).
- Seedance 2.0 (luty 2026) Aktualny mistrz rankingów. Do 12 materiałów referencyjnych i model zajmujący pierwsze miejsce w obu arenach Artificial Analysis.
- Seedance 2.5 (ogłoszony 23 czerwca 2026, ogólna dostępność początek lipca 2026) Skok do 30 sekund w jednym przebiegu, do 50 materiałów referencyjnych, w becie dla firm w chwili pisania tego tekstu.
Stos technologiczny: co siedzi pod maską
Rodzina Seedance to linia opartych na transformerze dyfuzyjnym (DiT), i ta część opiera się na solidnych źródłach pierwotnych, a nie na szumie premierowym. Raport techniczny Seedance 1.0 opisuje szkielet MMDiT z rozdzielonymi warstwami przestrzennymi i czasowymi, multimodalne osadzenia pozycji rotacyjnej (MM-RoPE) oraz czasowo-przyczynowy VAE, trenowane tak, by pojedynczy model natywnie obsługiwał generację wieloujęciową i uczył się text-to-video oraz image-to-video wspólnie. Nie ma osobnego "modelu obrazu" i "modelu wideo"; to jedna, ujednolicona architektura.
Seedance 1.5 pro rozszerzył to w dwugałęziowy transformer dyfuzyjny z modułem łączącym modalności, generujący klatki wideo i falę dźwiękową jednocześnie w jednym przebiegu, zamiast doklejać dźwięk później. Właśnie dlatego synchronizacja (ruch ust, efekty dźwiękowe powiązane z akcją) trzyma się dobrze. ByteDance nie opublikował szczegółów architektury właściwych dla 2.5, ale kierunek rodziny jest jasny: dłuższy kontekst (teraz 30 sekund), więcej warunkowania referencjami (teraz 50 materiałów) oraz traktowanie generacji audiowizualnej jako jednego problemu.
Jak wypada na tle Sory 2, Veo 3.1, Klinga i Runwaya
Oto obraz konkurencji. Czytaj go z jedną zasadą w głowie: jedyne niezależnie zweryfikowane liczby w tej tabeli to wyniki Elo z Artificial Analysis. Kolumny maksymalnej długości i dźwięku zaczerpnięto z dokumentacji każdego z dostawców według stanu na czerwiec 2026, a te zmieniają się nieustannie, więc traktuj je orientacyjnie, nie jak wyrocznię, i zweryfikuj, zanim oprzesz na nich produkcyjny pipeline.
| Model (dostawca) | Maks. klip w jednym przebiegu | Natywny dźwięk | AA Video Arena (T2V, z dźwiękiem, czerwiec 2026) |
|---|---|---|---|
| Seedance 2.5 (ByteDance) | 30 s (zapowiedziane) | Rodzina tak; 2.5 nieopisane | Jeszcze nie testowany (dopiero ogłoszony) |
| Seedance 2.0 (ByteDance) | Krótkie klipy, wieloujęciowe | Tak (od 1.5 pro) | #1, Elo 1219 |
| Kling 3.0 Pro (Kuaishou) | ~10 s, z możliwością wydłużenia | Tak | #3, Elo 1106 |
| Google Veo 3.1 | ~8 s typowo | Tak | #8, Elo 1094 |
| Alibaba Wan 2.7 | Krótkie klipy | Tak | #9, Elo 1089 |
| OpenAI Sora 2 | Dłuższe klipy, zależnie od planu | Tak | Brak w tym zestawie danych |
| Runway Gen-4 | ~10 s | Ograniczony | Brak w tym zestawie danych |
| MiniMax Hailuo 02 | ~6 do 10 s | Różnie | Brak w tym zestawie danych |
Dlaczego Sora 2, Runway i Hailuo mają "brak w tym zestawie danych": nie pojawiły się z potwierdzonymi wartościami Elo w tabelach, które zweryfikowaliśmy. Wolimy zostawić pustą komórkę, niż wydrukować liczbę, której nie potrafimy udokumentować. Ta dyscyplina to cały sens tego artykułu.
Haczyki, które twórcy i firmy muszą wkalkulować
Technologia jest naprawdę o krok przed innymi. Zastrzeżenia są realne, a post premierowy nie zacznie od nich.
- To beta, a benchmarki dopiero nadejdą. Deklaracje o 30 sekundach i 50 referencjach należą do samego ByteDance i dotyczą modelu, którego publiczność nie może jeszcze w pełni przetestować. Dopóki 2.5 nie pojawi się na niezależnej arenie, traktuj jakość jako "linia Seedance, prawdopodobnie lepsza", a nie jako zmierzony fakt.
- Cennik jest nieznany, a krążące liczby są niewiarygodne. Stawki za sekundę unoszące się po sieci dotyczą Seedance 2.0, a i te nie przeszły naszej weryfikacji. Nie planuj budżetu pod cennik 2.5, dopóki ByteDance nie opublikuje go dla API Volcano Engine i BytePlus.
- API jest hostowane w Chinach. Volcano Engine (krajowy) i BytePlus (międzynarodowy) przepuszczają generacje przez infrastrukturę podlegającą chińskim przepisom o danych. Dla europejskiej czy francuskiej firmy obsługującej dane klientów lub dane osobowe to pytanie z obszaru governance, na które trzeba odpowiedzieć, zanim wyśle się cokolwiek wrażliwego, a nie drobiazg.
- Ryzyko deepfake jest konkretne. Według doniesień ByteDance zawiesił funkcję "głos z jednego zdjęcia" po premierze 1.5 z powodu obaw o nadużycia. Zachowanie znaków wodnych i atrybucji pochodzenia C2PA dla 2.5 nie zostało potwierdzone. Jeśli generujesz wizerunki, zarządzanie tym spada na Ciebie.
Nasze zdanie: co Seedance 2.5 oznacza dla Twojego procesu pracy z wideo
Poniżej przedstawiamy naszą analizę.
30-sekundowy klip w jednym przebiegu to nie gadżet. Większość rzeczywistego wideo (objaśnienie produktu, reklama społecznościowa, sekwencja otwierająca) mieści się w przedziale od 15 do 30 sekund, a sklejanie krótkich klipów AI to dokładnie miejsce, w którym pęka spójność: twarz postaci dryfuje, oświetlenie przeskakuje, ruch zacina się na cięciu. Model utrzymujący jedną ciągłą generację przez 30 sekund, z maksymalnie 50 materiałami referencyjnymi do zablokowania postaci i stylu, uderza wprost w największy ból produkcyjny wideo AI. Jeśli ByteDance dostarczy to, co zapowiedział, jest to zmiana procesu pracy, a nie kosmetyczny przyrost specyfikacji.
Dla twórców i firm praktyczna rada jest taka sama jak przy każdym modelu AI, który oceniamy. Traktuj model jako wymienny komponent za Twoim własnym procesem, a nie jako sam proces. Używaj linii Seedance tam, gdzie jest najmocniejsza (jest, według niezależnego głosowania, najmocniejszym istniejącym dziś generatorem wideo), trzymaj podłączonego drugiego dostawcę w rodzaju Veo czy Klinga, żeby nigdy nie być zakładnikiem jednego API, i rozstrzygnij kwestię governance związaną z chińskim hostingiem, zanim jakiekolwiek wrażliwe ujęcia się do niego zbliżą. Zespoły, które wygrywają z generatywnym wideo, to nie te goniące za każdą premierą; to te z pipeline'em, który potrafi wstawić najlepszy model jedną zmianą w konfiguracji.
Dokładnie tak budujemy funkcje AI dla klientów: model jako wymienna część za interfejsami i infrastrukturą, którą kontrolujesz, dobierana do zadania pod kątem jakości, kosztu i governance (zobacz nasze realizacje). Jeśli jesteś marką, agencją lub twórcą próbującym wpleść wideo AI w realną produkcję i chcesz zrobić to z dyscypliną wobec danych, na której zbudowany jest ten artykuł, a nie na premierowym szumie, opowiedz nam o swoim projekcie (lub skontaktuj się z nami), a odezwiemy się w ciągu 48 godzin. Więcej o szybko zmieniającym się stosie AI znajdziesz w naszych analizach GLM-5.2, najlepszego LLM z otwartymi wagami, medycznego skanera ciała od Midjourney oraz przejęcia Cursora przez SpaceX za 60 miliardów dolarów.
Kluczowe liczby (stan na 23 czerwca 2026)
To zdjęcie z okna premiery; każda liczba jest opatrzona datą i będzie się zmieniać, gdy model trafi do sprzedaży, a rywale zareagują.
- 30 sekund natywnego klipu w jednym przebiegu, sztandarowa zdolność Seedance 2.5 (deklarowana przez producenta).
- 50 multimodalnych materiałów referencyjnych przyjmowanych w jednej generacji, wzrost z 12 w Seedance 2.0.
- 23 czerwca 2026 data ogłoszenia; ogólna dostępność planowana na początek lipca 2026.
- 1219 Elo dla Seedance 2.0 w arenie text-to-video Artificial Analysis, pierwsze miejsce na świecie (z dźwiękiem). 2.5 nie jest jeszcze sklasyfikowany.
- 1195 Elo dla Seedance 2.0 w arenie image-to-video, również pierwsze miejsce.
- czerwiec 2025 początek tej linii (Seedance 1.0), do 2.5 w ciągu jednego roku.



