Czytasz
Sora wchodzi do gry. Narzędzie OpenAI przekształci tekst w wideo

Sora wchodzi do gry. Narzędzie OpenAI przekształci tekst w wideo

Uczymy sztuczną inteligencję, jak zrozumieć i symulować świat fizyczny w ruchu – deklaruje amerykańska firma. Czy filmowcy powinni czuć oddech technologii na plecach?

Stylowo ubrana kobieta przemierza dumnym krokiem ulice Tokio. W tle migają billboardy i neonowe światła, które odbijają się od wilgotnej jezdni. Minutowe nagranie spokojnie mogłoby być wykorzystane w teledysku albo filmie modowym. Cięcie. Animowany, futrzasty potwór z dwoma rogami przystawia łapki do powoli gasnącej świecy. Coś – bijące z niej ciepło albo oślepiające światło – zaczyna mu przeszkadzać, bo momentalnie markotnieje i chowa głowę w łapkach. Cięcie. Kamera śledzi w zwolnionym tempie miot biszkoptowych szczeniąt. Pieski beztrosko bawią się w śniegu, tak jakby jutra miało nie być.

Kupa roboty…

Co łączy te trzy nagrania? Mimo że trwają raptem od kilku do kilkudziesięciu sekund, ich przygotowanie w normalnych okolicznościach zajęłoby dużo czasu. Aktorkę najpierw należałoby właściwie ubrać i ucharakteryzować. Narysowanie i animowanie fikcyjnego potwora, nawet przy użyciu cyfrowych narzędzi, wymagałoby dużo koncepcyjnej i technicznej pracy. Podobnie ma się sprawa z filmikami zwierząt. Młodym golden retrieverom zdecydowanie obce jest pojęcie aktorskiej dyscypliny. Tu przesuną łapą kamerę, tam całkowicie stracą zainteresowanie zabawą.

…zastąpionej przez maszynę

Rzeczywisty wspólny mianownik powyższych materiałów jest jednak bardziej zaskakujący. Okazuje się, że żadnego z nich nie stworzył człowiek. Wszystkie zostały wygenerowane za pomocą nowego narzędzia od OpenAI. Gigant technologiczny z Doliny Krzemowej zdążył już potwierdzić, że sztuczna inteligencja potrafi samodzielnie napisać i zredagować tekst (ChatGPT), skomponować muzykę z wokalami (Jukebox) i stworzyć grafikę w dowolnym stylu (DALL-E). Teraz idzie o krok dalej, próbując zrewolucjonizować branżę wideo.

Dwa golden retrievery prowadzą podcast w górach – interpretacja narzędzia Sora.

Właściwa interpretacja

Zasada działania modelu Sora (w języku japońskim to imię oznacza niebo) jest prosta. Użytkownik wprowadza do niego wskazówkę, w żargonie technologicznym znaną jako prompt. Powinna być jak najdokładniejsza, zawierając nie tylko informacje o czynności, jaka będzie ukazana na materiale, ale też o preferowanym stylu, dynamice czy ruchu kamery. Po kilku sekundach narzędzie zwraca wideo, które może trwać nawet do minuty. Zawarte w nich ujęcia płynnie łączą się ze sobą, co potęguje wrażenie ich naturalności. – Model doskonale rozumie język, a to pozwala mu dokładnie interpretować podpowiedzi i tworzyć fascynujące, wyrażające żywe emocje postacie – przekonuje producent.

Statki pirackie pływające w morzu kawy – interpretacja narzędzia Sora.

Ciastko bez ugryzienia

Sora nie działa bez wad. OpenAI utrzymuje, że narzędzie posiada umiejętność przewidzenia, jak dane artefakty zachowają się w prawdziwym świecie. Właściwe odwzorowanie praw fizyki i następujących po sobie zdarzeń jest jednak bardzo karkołomnym wyzwaniem, na którym często polegają nawet doświadczeni animatorzy. W rezultacie niektóre materiały kryją tzw. halucynacje, czyli mimowolnie zniekształcają przedstawianą rzeczywistość. Inżynierzy z Doliny Krzemowej egzemplifikują ten problem sceną jedzenia ciastek. Wideo ukaże osobę biorącą kęs, ale na samym wypieku nie będzie widać żadnego śladu po ugryzieniu. Inną usterkę na swoim profilu w serwisie X pokazał dziennikarz technologiczny Gazety Wyborczej, Bolesław Breczko.

Mimo tych błędów, które z czasem pewnie i tak zostaną naprawione, trudno nie mówić o zapowiedzianej wczoraj nowince inaczej niż w kategoriach rewolucji. Dotychczasowym modelom typu text-to-video było jeszcze dalej do niedoskonałości. Zniekształcały twarze i gubiły rytm, przez co niekiedy przypominały raczej chaotyczny pokaz slajdów. Sora, głównie dzięki potężnemu zapleczu infrastrukturalnemu od OpenAI, bije je na głowę, a przecież nie bazuje nawet na najnowszym modelu językowym GPT-5.

Koniec z szukaniem wolnego gniazdka. Ta bateria do smartfona może starczyć nawet na pół wieku!

Co z rynkiem pracy?

Zachwyty zachwytami, ale do rozstrzygnięcia pozostaje jeszcze jedna, być może najważniejsza kwestia. Jaka przyszłość czeka reżyserów, animatorów i innych przedstawicieli branży filmowej, którzy w zestawieniu z maszyną zawsze będą wolniej pracować? Czy ludzka, nieszablonowa kreatywność okaże się wystarczającą przesłanką ku temu, żeby zachować ich stanowiska? OpenAI zapewnia o tym, że dba o interesy kreatywnych profesjonalistów, aby Sora nie była ich zastępstwem, tylko wsparciem. Niestety, to samo mówiono wcześniej o ChacieGPT, którego wpływ na rosnące bezrobocie zaczyna już być odczuwalny.

Kolejny dowód na potencjał tkwiący w Sorze.
Copyright © Going. 2021 • Wszelkie prawa zastrzeżone