Sora wchodzi do gry. Narzędzie OpenAI przekształci tekst w wideo
Sekretarz redakcji Going. MORE. Publikował lub publikuje także na łamach…
– Uczymy sztuczną inteligencję, jak zrozumieć i symulować świat fizyczny w ruchu – deklaruje amerykańska firma. Czy filmowcy powinni czuć oddech technologii na plecach?
Stylowo ubrana kobieta przemierza dumnym krokiem ulice Tokio. W tle migają billboardy i neonowe światła, które odbijają się od wilgotnej jezdni. Minutowe nagranie spokojnie mogłoby być wykorzystane w teledysku albo filmie modowym. Cięcie. Animowany, futrzasty potwór z dwoma rogami przystawia łapki do powoli gasnącej świecy. Coś – bijące z niej ciepło albo oślepiające światło – zaczyna mu przeszkadzać, bo momentalnie markotnieje i chowa głowę w łapkach. Cięcie. Kamera śledzi w zwolnionym tempie miot biszkoptowych szczeniąt. Pieski beztrosko bawią się w śniegu, tak jakby jutra miało nie być.
Kupa roboty…
Co łączy te trzy nagrania? Mimo że trwają raptem od kilku do kilkudziesięciu sekund, ich przygotowanie w normalnych okolicznościach zajęłoby dużo czasu. Aktorkę najpierw należałoby właściwie ubrać i ucharakteryzować. Narysowanie i animowanie fikcyjnego potwora, nawet przy użyciu cyfrowych narzędzi, wymagałoby dużo koncepcyjnej i technicznej pracy. Podobnie ma się sprawa z filmikami zwierząt. Młodym golden retrieverom zdecydowanie obce jest pojęcie aktorskiej dyscypliny. Tu przesuną łapą kamerę, tam całkowicie stracą zainteresowanie zabawą.
…zastąpionej przez maszynę
Rzeczywisty wspólny mianownik powyższych materiałów jest jednak bardziej zaskakujący. Okazuje się, że żadnego z nich nie stworzył człowiek. Wszystkie zostały wygenerowane za pomocą nowego narzędzia od OpenAI. Gigant technologiczny z Doliny Krzemowej zdążył już potwierdzić, że sztuczna inteligencja potrafi samodzielnie napisać i zredagować tekst (ChatGPT), skomponować muzykę z wokalami (Jukebox) i stworzyć grafikę w dowolnym stylu (DALL-E). Teraz idzie o krok dalej, próbując zrewolucjonizować branżę wideo.
Właściwa interpretacja
Zasada działania modelu Sora (w języku japońskim to imię oznacza niebo) jest prosta. Użytkownik wprowadza do niego wskazówkę, w żargonie technologicznym znaną jako prompt. Powinna być jak najdokładniejsza, zawierając nie tylko informacje o czynności, jaka będzie ukazana na materiale, ale też o preferowanym stylu, dynamice czy ruchu kamery. Po kilku sekundach narzędzie zwraca wideo, które może trwać nawet do minuty. Zawarte w nich ujęcia płynnie łączą się ze sobą, co potęguje wrażenie ich naturalności. – Model doskonale rozumie język, a to pozwala mu dokładnie interpretować podpowiedzi i tworzyć fascynujące, wyrażające żywe emocje postacie – przekonuje producent.
Ciastko bez ugryzienia
Sora nie działa bez wad. OpenAI utrzymuje, że narzędzie posiada umiejętność przewidzenia, jak dane artefakty zachowają się w prawdziwym świecie. Właściwe odwzorowanie praw fizyki i następujących po sobie zdarzeń jest jednak bardzo karkołomnym wyzwaniem, na którym często polegają nawet doświadczeni animatorzy. W rezultacie niektóre materiały kryją tzw. halucynacje, czyli mimowolnie zniekształcają przedstawianą rzeczywistość. Inżynierzy z Doliny Krzemowej egzemplifikują ten problem sceną jedzenia ciastek. Wideo ukaże osobę biorącą kęs, ale na samym wypieku nie będzie widać żadnego śladu po ugryzieniu. Inną usterkę na swoim profilu w serwisie X pokazał dziennikarz technologiczny Gazety Wyborczej, Bolesław Breczko.
Mimo tych błędów, które z czasem pewnie i tak zostaną naprawione, trudno nie mówić o zapowiedzianej wczoraj nowince inaczej niż w kategoriach rewolucji. Dotychczasowym modelom typu text-to-video było jeszcze dalej do niedoskonałości. Zniekształcały twarze i gubiły rytm, przez co niekiedy przypominały raczej chaotyczny pokaz slajdów. Sora, głównie dzięki potężnemu zapleczu infrastrukturalnemu od OpenAI, bije je na głowę, a przecież nie bazuje nawet na najnowszym modelu językowym GPT-5.
Koniec z szukaniem wolnego gniazdka. Ta bateria do smartfona może starczyć nawet na pół wieku!
Co z rynkiem pracy?
Zachwyty zachwytami, ale do rozstrzygnięcia pozostaje jeszcze jedna, być może najważniejsza kwestia. Jaka przyszłość czeka reżyserów, animatorów i innych przedstawicieli branży filmowej, którzy w zestawieniu z maszyną zawsze będą wolniej pracować? Czy ludzka, nieszablonowa kreatywność okaże się wystarczającą przesłanką ku temu, żeby zachować ich stanowiska? OpenAI zapewnia o tym, że dba o interesy kreatywnych profesjonalistów, aby Sora nie była ich zastępstwem, tylko wsparciem. Niestety, to samo mówiono wcześniej o ChacieGPT, którego wpływ na rosnące bezrobocie zaczyna już być odczuwalny.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Sekretarz redakcji Going. MORE. Publikował lub publikuje także na łamach „newonce", „NOIZZ", „Czasopisma Ekrany", „Magazynu Kontakt", „Gazety Magnetofonowej" czy „Papaya.Rocks". Mieszka i pracuje w Warszawie.