AI převod textu na video. Před pár lety představa ze snu, nyní realita

17. 2. 2024 10:20

Představte si, že byste jednoduše popsali scénu a ona by se před vámi proměnila v živé, realistické video. Svět AI pro převod textu na video se stává realitou.

Reklama

OpenAI Sora: Umělá inteligence pro převod textu na video

OpenAI představila Soru, svůj první generativní model umělé inteligence pro převod textu na video. Sora dokáže na základě textového popisu nebo obrázku vygenerovat minutové video ve vysokém rozlišení. Navíc umožňuje prodloužit stávající videa vložením nových scén. OpenAI zatím zvažuje, zda Soru zpřístupní jako produkt.

Co Sora umí:

Z textu vygeneruje video: Stačí popsat požadovanou scénu a Sora ji promění v realistické video.
Vloží scény do existujícího videa: Sora dokáže do stávajícího videa vložit nové scény a prodloužit ho tak o požadovaný obsah.
Vysoké rozlišení: Generovaná videa jsou ve vysokém rozlišení a s realistickými detaily.

OpenAI Sora se stává silným konkurentem v oblasti AI pro převod textu na video. Na rozdíl od dřívějších modelů od Googlu a Meta, které produkovaly videa v nízkém rozlišení s trhaným pohybem, Sora ohromuje plynulým 1080p videem a realistickým vzhledem.

OpenAI zveřejnila první ukázky výstupů Sory. Tyto ukázky nám znázorňují její úžasné schopnosti:

Pochopení proporcí: Sora správně zobrazuje proporce lidského těla v různých pozicích a pohybech.
Fotorealistické osvětlení: Generovaná videa věrně napodobují realistické osvětlení a stíny v různých scénách.
Kreativní kinematografie: Sora dokáže pracovat s kamerou, úhly a kompozicí, čímž dodává videím dynamiku a poutavost.
Realistická zvířata: Sora umí kreslit realistická zvířata a integrovat je do videozáznamů.
Imitace starého filmu: Schopnost napodobit nedokonalosti starých filmových záznamů, včetně zrnitosti a šumu.

Umělá inteligence s hlubokým porozuměním jazyku a emocí

Sora od OpenAI se zdá být revolučním nástrojem pro tvorbu videí. Kromě realistického zobrazení a plynulého pohybu vyniká i v dalších oblastech:

Hluboké porozumění jazyku: správná interpretace i složitějšího textového popisu a věrný je převod do vizuální podoby.
Vyjadřování emocí: Generovaná videa dokáží zprostředkovat širokou škálu emocí, od radosti a smutku až po napětí a strach.
Jednoduché použití: Sora nevyžaduje zdlouhavé a komplikované instrukce. Stačí krátká a jasná věta a Sora z ní vytvoří video.

Funkce Sory pro generování videí se v jistém ohledu podobá funkci generování obrázků v ChatGPT. Obě technologie se opírají o hluboké porozumění jazyku a dokáží na základě textového popisu vytvořit realistický vizuální výstup.

Omezení a další otázky:

OpenAI zatím nepředvedla, jak si Sora poradí s převedením obrázku na video. Také funkce pro rozšiřování videa a vkládání snímků jsou stále zahaleny tajemstvím. Pokud se ale tyto funkce ukáží jako efektivní, Sora by se mohla stát nepostradatelným nástrojem pro editory a tvůrce videí.

Reklama