T2V-14B

T2V-14B to model tekstowo-wideo z rodziny Wan 2.1, posiadający 14 miliardów parametrów i oparty na architekturze spatio-temporalnej variational autoencoder (Wan-VAE) oraz Flow Matching w Diffusion Transformers. Model generuje krótkie sekwencje wideo (do 5 sekund) w rozdzielczościach 480p i 720p na podstawie promptów tekstowych, z naciskiem na efektywność obliczeniową i zachowanie dynamicznych ruchów. Jest częścią ekosystemu Wan 2.1, obejmującego również modele I2V (image-to-video) i wspiera wielojęzyczność oraz edycję wideo.

Źródło: github.com

Powiązane posty

Zacznij wpisywać wyszukiwane hasło powyżej i naciśnij Enter, aby wyszukać. Naciśnij ESC, aby anulować.

Powrót do góry