AI model LTX2 směle konkuruje placeným generátorům videí

Blíží se konec generování videí přes placené služby. Videa k nerozeznání od reality zvládnete už i na svém počítači.

Reklama

Internetu v současnosti neochvějně vládne umělá inteligence. Statistiky neúprosně ukazují, že objem generovaného obsahu již převyšuje ten lidský a kam se podíváte, tam na vás vyskočí algoritmický výtvor. Giganti jako Coca Cola nebo Nike svěřují své globální kampaně AI a tvorbě videí se tak může věnovat i ten co s klasickou videoprodukcí nemá žádné zkušenosti. Stačí rozkliknout libovolnou sociální síť a poměr je neúprosný, neboť na jedno reálné video připadá osm generovaných. Dokonce i tradiční finanční sektor, jako například společnost Coign, či módní giganti typu Ajio se nebojí využít tyto technologie pro své televizní spoty. Zlomovým okamžikem byl bezpochyby i Super Bowl 2025, kde reklama vytvořená částečně pomocí AI ukázala, že tato technologie již není jen pro nadšence, ale pro hlavní vysílací čas.

Není se čemu divit. Služby jako OpenAI Sora 2 dnes nabízí takovou kvalitu videa, že je často k nerozeznání od reality. Doby, kdy měly postavy šest prstů nebo se obraz vlnil podivnými artefakty, jsou nenávratně pryč. Konkurence však nespí. Google kontruje svým modelem Veo, který vyniká v kinematografické kvalitě záběrů, a tvůrci vyhledávají i nástroje jako Runway Gen 3 nebo Luma Dream Machine pro jejich specifické kreativní možnosti. Dnes se kdokoli může ukázat kdekoli, vytvořit si vlastní pohádku nebo si vygenerovat alternativní konec Stranger Things.

Velké firmy si tento potenciál uvědomují a uživatelé jejich placené cloudové služby masivně využívají. Existuje však alternativa, která je zcela zdarma a spustíte ji přímo na svém počítači. Společnost Lightricks před pár dny vypustila open source model LTX Video. Jde o nástroj pro generování videa včetně zvuku a hlasu, jehož kvalita snese srovnání s drahými modely typu Sora nebo Veo. Možná vás napadne, že lokální generování vyžaduje superpočítač z NASA. Není tomu tak. NVIDIA vydala aktualizaci ovladačů s podporou instrukcí FP8, které radikálně zrychlují a snižují nároky difuzních modelů. Výkon velkých AI farem tak máte doslova na dosah ruky a můžete ho mít přímo ve svém počítači nebo notebooku.

AI model LTX2 směle konkuruje placeným generátorům videí

Ukážu vám to na svém příkladu. V počítači mám grafickou kartu GeForce RTX 4070 Super s 12 GB VRAM. Je to poměrně výkonný hardware, ale rozhodně už nepatří k absolutní špičce. Díky podpoře FP8 však zvládne vygenerovat pět až deset sekund videa v rozlišení 720p zhruba za tři až pět minut. Když si uvědomíte, jak dlouho by trvalo a co by stálo natáčení takového klipu uvědomíte si, že najednou ta investice do grafické karty GeForce RTX je rozumný krok. Sám mám v plánu v dohledné době přejít na GeForce RTX 50.

Pokud se chcete o NVIDIA RTX AI dozvědět více, pak pokračujte na průvodce na webu Svethardware.cz

V nové verzi ComfyUI navíc najdete připravené šablony přímo pro tento model s plnou podporou karet GeForce RTX. Bez složitého nastavování tak můžete okamžitě zadat textový prompt a kochat se výsledkem. Nic vám však nebrání podívat se pod pokličku a upravit si jednotlivé uzly podle vlastních představ. Právě to je kouzlo lokální AI, kdy máte absolutní volnost a kontrolu při nastavování parametrů, testování různých příkazů a generování jednoho videa za druhým.

Kolega mi v žertu napsal, ať zkusím vygenerovat něco na lyžích, když už máme ten leden. První mě napadlo, jak by asi vypadal takový Titan z Destiny na sjezdovce. Popravdě jsem byl pak k nezastavení. Následoval Warlock, poté retro česká postava a nakonec jsem skončil u Švejka v Praze, pak na lyžích a nakonec ve stylu studia Pixar. Nejvíce mě šokovalo, že model zvládl perfektně vygenerovat i český hlas.

A jak tedy na to?

Základní generování je extrémně jednoduché. V podstatě stačí stáhnout ComfyUI a mít nainstalované nejnovější ovladače NVIDIA a idealně moderní grafickou kartu RTX 50 případně RTX 40. LTX2 je model, kterému prospívá, když mu řeknete, jak se má chovat kamera, takže se nebojte popustit uzdu fantazii. Nezapomeňte ale, že promptování by mělo být v angličtině.

V ComfyUI otevřete v levém panelu Templates.
Poté vyberte kategorii videí a u LTX2 narazíte na několik variant.
1. LTX2 Text to Video
  Základní generování z textu do videa. Model se postará o všechno, tedy obraz, zvuk i střih.
2. LTX2 Image to Video
  Generování vychází z úvodní fotografie nebo obrázku. Textový prompt pak výsledek dál vede a upravuje.
3. LTX2 Depth to Video
  Tato metoda využívá takzvanou hloubkovou mapu (depth map). Modelu předložíte nejen zdrojový obrázek, ale i jeho hloubkovou analýzu, která říká, co je v popředí a co vzadu. Díky tomu AI lépe chápe 3D prostor scény. Výsledkem jsou videa, kde se kamera nebo objekty pohybují mnohem přirozeněji v prostoru, protože model přesně ví, jak daleko jednotlivé prvky jsou. Je to ideální pro záběry, kde chcete simulovat průlet scénou nebo rotaci kamery kolem objektu.
4. LTX2 Canny to Video
  Tady model pracuje s detekcí hran (Canny edge detection). Zjednodušeně řečeno, AI si z vašeho vstupu vezme pouze obrysy a kontury. To vám dává obrovskou kontrolu nad kompozicí, protože model musí dodržet přesné tvary, ale vnitřek – barvy, textury a styl – vygeneruje nově podle vašeho promptu. Skvěle se to hodí, pokud máte například hrubou skicu nebo animaci a chcete ji převést do fotorealistické podoby, aniž byste ztratili původní tvary a rozložení scény.
5. T2V a I2V Distilled
  Odlehčené, ale pořád kvalitní varianty určené pro slabší sestavy. Z toho, co jsem zkoušel, zvládají podobné věci, jen mi přišlo, že mohou mít větší problém s češtinou v hlasu.
Po otevření šablony se může objevit hláška, že nemáte stažené všechny potřebné součásti. Stačí je potvrdit ke stažení a chvíli počkat, protože některé modely mají i přes 10 GB.
Pak už máte před sebou workflow. V těchto šablonách je záměrně jednoduchý, takže zpravidla stačí vyplnit jen textový prompt a případně počet snímků. Video se v základu generuje ve 24 fps.
Kliknutím na RUN se spustí generování a výsledné video se uloží. A je to, lokální generátor je na světě a můžete generovat prakticky do aleluja.

Kdo chce jít dál, může si rozbalit uzel v horní části a doladit nastavení jednotlivých kroků. Typicky se hodí upravit negative prompt, nastavit LoRA, přidat upscale, nebo workflow rozšířit o navazování záběrů, pokud chcete působit dojmem jednoho kontinuálního záběru.

Výsledek

A co jsem tedy doslova během pár minut vytvořil? Kreativitě se meze nekladou a upřímně říkám, že je to trochu návykové, ten večer jsem nakonec skončil ve 2 ráno. Ne kvůli tomu, že by to dlouho trvalo, ale protože mě to nekonečné množství možností a hraní si s jednotlivými prompty a uzly totálně pohltilo. Nakonec jsem ještě lokální AI a své GeForce RTX 4070 Super svěřil mého psa Shiba Inu.

A jeden bonus nakonec: Workflow “Image to Video”. Vzal jsem fotografii z našeho výletu na zámek Červená Lhota a oživil ji promptem. Všimněte si detailů - vlnící se vody, pohybujících se stromů v pozadí nebo travin na břehu