Sora wchodzi do gry. Narzędzie OpenAI przekształci tekst w wideo

– Uczymy sztuczną inteligencję, jak zrozumieć i symulować świat fizyczny w ruchu – deklaruje amerykańska firma. Czy filmowcy powinni czuć oddech technologii na plecach?

Stylowo ubrana kobieta przemierza dumnym krokiem ulice Tokio. W tle migają billboardy i neonowe światła, które odbijają się od wilgotnej jezdni. Minutowe nagranie spokojnie mogłoby być wykorzystane w teledysku albo filmie modowym. Cięcie. Animowany, futrzasty potwór z dwoma rogami przystawia łapki do powoli gasnącej świecy. Coś – bijące z niej ciepło albo oślepiające światło – zaczyna mu przeszkadzać, bo momentalnie markotnieje i chowa głowę w łapkach. Cięcie. Kamera śledzi w zwolnionym tempie miot biszkoptowych szczeniąt. Pieski beztrosko bawią się w śniegu, tak jakby jutra miało nie być.

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

Kupa roboty…

Co łączy te trzy nagrania? Mimo że trwają raptem od kilku do kilkudziesięciu sekund, ich przygotowanie w normalnych okolicznościach zajęłoby dużo czasu. Aktorkę najpierw należałoby właściwie ubrać i ucharakteryzować. Narysowanie i animowanie fikcyjnego potwora, nawet przy użyciu cyfrowych narzędzi, wymagałoby dużo koncepcyjnej i technicznej pracy. Podobnie ma się sprawa z filmikami zwierząt. Młodym golden retrieverom zdecydowanie obce jest pojęcie aktorskiej dyscypliny. Tu przesuną łapą kamerę, tam całkowicie stracą zainteresowanie zabawą.

OpenAI's new Text-to-Video model SORA is just Amazing! GPT5 still has not arrived. Imagine what it would be able to do !

Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.#OpenAI #Sora @sama pic.twitter.com/YzSndMsC7t
— Ashish 🇮🇳 (@ashish_fagna) February 15, 2024

…zastąpionej przez maszynę

Rzeczywisty wspólny mianownik powyższych materiałów jest jednak bardziej zaskakujący. Okazuje się, że żadnego z nich nie stworzył człowiek. Wszystkie zostały wygenerowane za pomocą nowego narzędzia od OpenAI. Gigant technologiczny z Doliny Krzemowej zdążył już potwierdzić, że sztuczna inteligencja potrafi samodzielnie napisać i zredagować tekst (ChatGPT), skomponować muzykę z wokalami (Jukebox) i stworzyć grafikę w dowolnym stylu (DALL-E). Teraz idzie o krok dalej, próbując zrewolucjonizować branżę wideo.

^{Dwa golden retrievery prowadzą podcast w górach – interpretacja narzędzia Sora.}

Właściwa interpretacja

Zasada działania modelu Sora (w języku japońskim to imię oznacza niebo) jest prosta. Użytkownik wprowadza do niego wskazówkę, w żargonie technologicznym znaną jako prompt. Powinna być jak najdokładniejsza, zawierając nie tylko informacje o czynności, jaka będzie ukazana na materiale, ale też o preferowanym stylu, dynamice czy ruchu kamery. Po kilku sekundach narzędzie zwraca wideo, które może trwać nawet do minuty. Zawarte w nich ujęcia płynnie łączą się ze sobą, co potęguje wrażenie ich naturalności. – Model doskonale rozumie język, a to pozwala mu dokładnie interpretować podpowiedzi i tworzyć fascynujące, wyrażające żywe emocje postacie – przekonuje producent.

^{Statki pirackie pływające w morzu kawy – interpretacja narzędzia Sora.}

Ciastko bez ugryzienia

Sora nie działa bez wad. OpenAI utrzymuje, że narzędzie posiada umiejętność przewidzenia, jak dane artefakty zachowają się w prawdziwym świecie. Właściwe odwzorowanie praw fizyki i następujących po sobie zdarzeń jest jednak bardzo karkołomnym wyzwaniem, na którym często polegają nawet doświadczeni animatorzy. W rezultacie niektóre materiały kryją tzw. halucynacje, czyli mimowolnie zniekształcają przedstawianą rzeczywistość. Inżynierzy z Doliny Krzemowej egzemplifikują ten problem sceną jedzenia ciastek. Wideo ukaże osobę biorącą kęs, ale na samym wypieku nie będzie widać żadnego śladu po ugryzieniu. Inną usterkę na swoim profilu w serwisie X pokazał dziennikarz technologiczny Gazety Wyborczej, Bolesław Breczko.

Mimo tych błędów, które z czasem pewnie i tak zostaną naprawione, trudno nie mówić o zapowiedzianej wczoraj nowince inaczej niż w kategoriach rewolucji. Dotychczasowym modelom typu text-to-video było jeszcze dalej do niedoskonałości. Zniekształcały twarze i gubiły rytm, przez co niekiedy przypominały raczej chaotyczny pokaz slajdów. Sora, głównie dzięki potężnemu zapleczu infrastrukturalnemu od OpenAI, bije je na głowę, a przecież nie bazuje nawet na najnowszym modelu językowym GPT-5.

Koniec z szukaniem wolnego gniazdka. Ta bateria do smartfona może starczyć nawet na pół wieku!

Co z rynkiem pracy?

Zachwyty zachwytami, ale do rozstrzygnięcia pozostaje jeszcze jedna, być może najważniejsza kwestia. Jaka przyszłość czeka reżyserów, animatorów i innych przedstawicieli branży filmowej, którzy w zestawieniu z maszyną zawsze będą wolniej pracować? Czy ludzka, nieszablonowa kreatywność okaże się wystarczającą przesłanką ku temu, żeby zachować ich stanowiska? OpenAI zapewnia o tym, że dba o interesy kreatywnych profesjonalistów, aby Sora nie była ich zastępstwem, tylko wsparciem. Niestety, to samo mówiono wcześniej o ChacieGPT, którego wpływ na rosnące bezrobocie zaczyna już być odczuwalny.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

^{Kolejny dowód na potencjał tkwiący w Sorze.}