Kultura

Podcastowa wieża Babel. Spotify umożliwi słuchanie programów w różnych językach

Redaktor naczelny Going. MORE. Publikował lub publikuje także na łamach…

Kryminatorium po włosku? Jo,e Rogan mówiący płynną polszczyzną? Współpraca z OpenAI otwiera nową erę popularnej platformy streamingowej.

Od kilkunastu godzin Internet żyje nowym ogłoszeniem od OpenAI. Jego flagowy produkt, czyli ChatGPT, którym chętnie posiłkujemy się do zdobywania informacji czy generowania form tekstowych, wzbogacono o dwie opcje. – Możesz odtąd użyć swojego głosu, żeby odbyć pogadankę z naszym asystentem. Porozmawiaj z nim w podróży, poproś o bajkę na dobranoc dla swojej rodziny albo rozstrzygnij debatę przy stole – poinformowano o pierwszym usprawnieniu. Narzędzie mówi głosami różniącymi się nie tylko barwą, ale też intonacją. Wiersz wyrecytuje w patetyczny sposób, żart opowie za to z większym luzem.

Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.

Sound on 🔊 pic.twitter.com/3tuWzX0wtS
— OpenAI (@OpenAI) September 25, 2023

^{Próbka umiejętności głosu ChatuGPT}

Wirtualne oczy

Druga z nowości zakłada, że ChatGPT zacznie rozpoznawać i interpretować fotografie. Opisze je jako całość, ale zwróci też uwagę na ich konkretne elementy. – Chatbot ułatwia codzienne funkcjonowanie. Zrobi to najlepiej, gdy zobaczy to, co ty – przeczytamy w komunikacie prasowym. Dzięki sprzężeniu fonii i wizji wesprze choćby osoby niewidome. To zresztą leżało u podstaw całego pomysłu. OpenAI zainspirowało się działaniem start-upu Be My Eyes, który promuje się jako dar widzenia dla niewidzących.

Przełamać barierę językową

Oba rozwiązania zostaną udostępnione użytkownikom aplikacji na iOS i Androida posiadającym opcję Plus i Enterprise. To jednak nie koniec niespodzianek od amerykańskiej firmy. Laboratorium zarządzane przez Grega Brockmana poinformowało właśnie o podjęciu współpracy ze Spotify. Kooperacja otwiera tym samym nową erę w produkowaniu i słuchaniu podcastów. Szwedzka firma rozważała, jak zdywersyfikować swoją ofertę, aby programy docierały do jeszcze szerszego grona odbiorców. Największym problemem była dotąd bariera językowa. Oczywiście, spora część formatów powstaje po angielsku. W stale poszerzającym się katalogu platformy kryje się jednak sporo perełek prowadzonych w nie tak dobrze znanych językach. Kto wie, czy portugalskie true crime albo japoński stand-up nie wciągają bardziej niż ich polskie odpowiedniki.

Taka zła, że aż dobra. Poznajcie DJ Mandy, która bryluje na TikToku!

OpenAI użyczyło dlatego Spotify narzędzie Whisper. To system automatycznego rozpoznawania mowy, który został wyszkolony na podstawie 680 tysięcy godzin materiałów audio zaczerpniętych z sieci. Jak zadziała w przypadku podcastów? Zasada jest prosta. Zautomatyzowane modele sztucznej inteligencji rozpoznają, co mówi prowadzący danego programu. Następnie tłumaczy jego przekaz na inne języki, po czym gotowy tekst trafia do syntezatorów mowy. Podobnie jak w przypadku aktualizacji ChatGPT, tak i tu nie poprzestano na mechanicznym odczytaniu komunikatu. Generatory rozpoznają emocje i ton głosu podcastera, a następnie z powodzeniem go imitują.

^{Kevin Stratvert, popularny vloger technologiczny, opowiedział w jednym z filmów o potencjale tkwiącym w Whisper}

Uwolnić ludzką kreatywność

– Voice Translation daje słuchaczom na całym świecie możliwość odkrywania nowych podcastów i inspirowania się nimi w sposób bardziej autentyczny niż kiedykolwiek wcześniej – mówi Ziad Sultan, wiceprezes ds. personalizacji. – Wierzymy, że przemyślane podejście do sztucznej inteligencji może pomóc w budowaniu głębszych więzi między słuchaczami a twórcami. To kluczowy element misji Spotify polegającej na uwalnianiu potencjału ludzkiej kreatywności – dodaje.

Zobacz również

Kultura

Cold brew w zaledwie trzy minuty? To możliwe dzięki ultradźwiękom

^{Lex Fridman porozmawiał w swoim podcaście z Yuvalem Noahem Hararim, izraelskim historykiem, filozofem i autorem książek. Program został automatycznie przetłumaczony na język hiszpański}

Usługa została już pilotażowo przetestowana przez wybranych twórców. Należą do nich m.in. Dax Shepard, Monika Padman, Lex Fridman i Bill Simons. Każdy z nich zwracał się do odbiorców po angielsku. Od tej pory stoją w jednym rzędzie ze swoimi hiszpańskojęzycznymi, francuskojęzycznymi i niemieckojęzycznymi odpowiednikami. Samo Voice Translation dopiero raczkuje, ale z czasem ma się upowszechnić. Nic dziwnego – wartość rynku formatu audio stale rośnie. Z badania firmy PwC wynika, że w samych Stanach Zjednoczonych przychód z reklam emitowanych podczas podcastów w 2023 roku wyniesie 2,28 miliarda dolarów. Największą popularnością cieszą się tam treści dotyczące sportu, społeczeństwa i kultury.

^{Spotify | Voice Translation for Podcasts}

Tagi

podcasty Społeczeństwo Spotify sztuczna inteligencja technologia

Stanisław Bryś

Redaktor naczelny Going. MORE. Publikował lub publikuje także na łamach „newonce", „NOIZZ", „Czasopisma Ekrany", „Magazynu Kontakt", „Gazety Magnetofonowej" czy „Papaya.Rocks". Mieszka i pracuje w Warszawie.