Sora wchodzi do gry. Narzędzie OpenAI przekształci tekst w wideo

Sekretarz redakcji Going. MORE. Publikował lub publikuje także na łamach…
– Uczymy sztuczną inteligencję, jak zrozumieć i symulować świat fizyczny w ruchu – deklaruje amerykańska firma. Czy filmowcy powinni czuć oddech technologii na plecach?
Stylowo ubrana kobieta przemierza dumnym krokiem ulice Tokio. W tle migają billboardy i neonowe światła, które odbijają się od wilgotnej jezdni. Minutowe nagranie spokojnie mogłoby być wykorzystane w teledysku albo filmie modowym. Cięcie. Animowany, futrzasty potwór z dwoma rogami przystawia łapki do powoli gasnącej świecy. Coś – bijące z niej ciepło albo oślepiające światło – zaczyna mu przeszkadzać, bo momentalnie markotnieje i chowa głowę w łapkach. Cięcie. Kamera śledzi w zwolnionym tempie miot biszkoptowych szczeniąt. Pieski beztrosko bawią się w śniegu, tak jakby jutra miało nie być.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Kupa roboty…
Co łączy te trzy nagrania? Mimo że trwają raptem od kilku do kilkudziesięciu sekund, ich przygotowanie w normalnych okolicznościach zajęłoby dużo czasu. Aktorkę najpierw należałoby właściwie ubrać i ucharakteryzować. Narysowanie i animowanie fikcyjnego potwora, nawet przy użyciu cyfrowych narzędzi, wymagałoby dużo koncepcyjnej i technicznej pracy. Podobnie ma się sprawa z filmikami zwierząt. Młodym golden retrieverom zdecydowanie obce jest pojęcie aktorskiej dyscypliny. Tu przesuną łapą kamerę, tam całkowicie stracą zainteresowanie zabawą.
OpenAI's new Text-to-Video model SORA is just Amazing! GPT5 still has not arrived. Imagine what it would be able to do !
— Ashish 🇮🇳 (@ashish_fagna) February 15, 2024
Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.#OpenAI #Sora @sama pic.twitter.com/YzSndMsC7t
…zastąpionej przez maszynę
Rzeczywisty wspólny mianownik powyższych materiałów jest jednak bardziej zaskakujący. Okazuje się, że żadnego z nich nie stworzył człowiek. Wszystkie zostały wygenerowane za pomocą nowego narzędzia od OpenAI. Gigant technologiczny z Doliny Krzemowej zdążył już potwierdzić, że sztuczna inteligencja potrafi samodzielnie napisać i zredagować tekst (ChatGPT), skomponować muzykę z wokalami (Jukebox) i stworzyć grafikę w dowolnym stylu (DALL-E). Teraz idzie o krok dalej, próbując zrewolucjonizować branżę wideo.
Właściwa interpretacja
Zasada działania modelu Sora (w języku japońskim to imię oznacza niebo) jest prosta. Użytkownik wprowadza do niego wskazówkę, w żargonie technologicznym znaną jako prompt. Powinna być jak najdokładniejsza, zawierając nie tylko informacje o czynności, jaka będzie ukazana na materiale, ale też o preferowanym stylu, dynamice czy ruchu kamery. Po kilku sekundach narzędzie zwraca wideo, które może trwać nawet do minuty. Zawarte w nich ujęcia płynnie łączą się ze sobą, co potęguje wrażenie ich naturalności. – Model doskonale rozumie język, a to pozwala mu dokładnie interpretować podpowiedzi i tworzyć fascynujące, wyrażające żywe emocje postacie – przekonuje producent.
Ciastko bez ugryzienia
Sora nie działa bez wad. OpenAI utrzymuje, że narzędzie posiada umiejętność przewidzenia, jak dane artefakty zachowają się w prawdziwym świecie. Właściwe odwzorowanie praw fizyki i następujących po sobie zdarzeń jest jednak bardzo karkołomnym wyzwaniem, na którym często polegają nawet doświadczeni animatorzy. W rezultacie niektóre materiały kryją tzw. halucynacje, czyli mimowolnie zniekształcają przedstawianą rzeczywistość. Inżynierzy z Doliny Krzemowej egzemplifikują ten problem sceną jedzenia ciastek. Wideo ukaże osobę biorącą kęs, ale na samym wypieku nie będzie widać żadnego śladu po ugryzieniu. Inną usterkę na swoim profilu w serwisie X pokazał dziennikarz technologiczny Gazety Wyborczej, Bolesław Breczko.
Sora od OpenAI w przykładzie wideo-halucynacji pic.twitter.com/4H6TKeZlkF
— Bolesław Breczko (@boleslawbreczko) February 16, 2024
Mimo tych błędów, które z czasem pewnie i tak zostaną naprawione, trudno nie mówić o zapowiedzianej wczoraj nowince inaczej niż w kategoriach rewolucji. Dotychczasowym modelom typu text-to-video było jeszcze dalej do niedoskonałości. Zniekształcały twarze i gubiły rytm, przez co niekiedy przypominały raczej chaotyczny pokaz slajdów. Sora, głównie dzięki potężnemu zapleczu infrastrukturalnemu od OpenAI, bije je na głowę, a przecież nie bazuje nawet na najnowszym modelu językowym GPT-5.
Koniec z szukaniem wolnego gniazdka. Ta bateria do smartfona może starczyć nawet na pół wieku!
Co z rynkiem pracy?
Zachwyty zachwytami, ale do rozstrzygnięcia pozostaje jeszcze jedna, być może najważniejsza kwestia. Jaka przyszłość czeka reżyserów, animatorów i innych przedstawicieli branży filmowej, którzy w zestawieniu z maszyną zawsze będą wolniej pracować? Czy ludzka, nieszablonowa kreatywność okaże się wystarczającą przesłanką ku temu, żeby zachować ich stanowiska? OpenAI zapewnia o tym, że dba o interesy kreatywnych profesjonalistów, aby Sora nie była ich zastępstwem, tylko wsparciem. Niestety, to samo mówiono wcześniej o ChacieGPT, którego wpływ na rosnące bezrobocie zaczyna już być odczuwalny.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Sekretarz redakcji Going. MORE. Publikował lub publikuje także na łamach „newonce", „NOIZZ", „Czasopisma Ekrany", „Magazynu Kontakt", „Gazety Magnetofonowej" czy „Papaya.Rocks". Mieszka i pracuje w Warszawie.