Gemini to odpowiedź Google’a na ChatGPT. Czym będzie się wyróżniać?

Wyścig zbrojeń technologicznych gigantów z AI w tle trwa w najlepsze. Nowy model, z powodzeniem przetestowany już na wielu polach, ma jeszcze sprawniej przetwarzać różne typy informacji.

Pod koniec listopada ChatowiGPT, czyli chatbotowi wprowadzonemu na rynek przez OpenAI, stuknął roczek. Niby to niewiele czasu, ale wystarczyło, żeby narzędzie stało się jednym z najczęściej używanych modeli wykorzystujących ogromne korpusy językowe i sztuczne sieci neuronowe. W samym październiku strona, na której można z niego skorzystać, wygenerowała 1,7 miliarda odsłon. Choć ChatGPT nie zwraca najbardziej aktualnych danych, a niekiedy plącze się w zeznaniach (takie sytuacje przyjęło się określać mianem halucynacji), różne grupy ochoczo go testują. Dziennikarzom i copywriterom służy do tworzenia nieskomplikowanych newsów czy notek prasowych. Studenci posiłkują się nim przy pisaniu prac zaliczeniowych, a programistom ułatwia tworzenie nieskomplikowanych programów. Narzędzie posegreguje także dane, przetłumaczy akapit z innego języka i ułoży zgrabny wierszyk. Ile promptów, tyle zastosowań.

Rywale nie śpią

ChatGPT od początku istnienia czuje na plecach oddech konkurencji. Dziś każda wiodąca firma technologiczna inwestuje bowiem w chatboty oparte na modelach językowych. Baidu ma Erniego, Meta – LLaMę, zaś Microsoft – Bing Chat, który jest wbudowanym rozszerzeniem przeglądarki Microsoft Edge. Swój kawałek tortu usiłuje także ukroić Google, a właściwie jego osobny oddział zajmujący się sztuczną inteligencją. Ich narzędzie znane jako Bard przeszło pierwsze testy w marcu. Niespełna dwa miesiące później weszło już do powszechnego obiegu. Obecnie dostępne jest w blisko 50 wersjach językowych. Oprócz udzielenia tekstowych odpowiedzi udostępnia odnośniki do stron internetowych, które pogłębią wiedzę użytkowników i użytkowniczek. Ostatnio nastąpiła także integracja Barda z innymi narzędziami, w tym z YouTube, Google Maps czy Gmailem.

^{Dzięki nowym rozszerzeniom Bard ma być jeszcze wydajniejszy.}

Kolejny przełom

Chatbot jeszcze do niedawna korzystał z modelu językowego Pathways Language Model, czyli PaLM. Składało się na niego aż 540 miliardów parametrów zaczerpniętych z artykułów na Wikipedii, rozmów w mediach społecznościowych, newsów i fragmentów kodów źródłowych. Taka dywersyfikacja treści sprawiała, że narzędzie imituje myślenie zdroworozsądkowe albo wyjaśnia nieskomplikowane żarty. Teraz ma być jeszcze wydajniejsze, bo 6 grudnia do gry wkroczyło Gemini. Czym w zasadzie jest i dlaczego Demis Hassabis, dyrektor generalny i współzałożyciel Google DeepMind, nazywa je najbardziej wydajnym i najpowszechniejszym modelem, jaki kiedykolwiek wyszedł spod ich rąk?

^{Gemini: Google’s newest and most capable AI model}

Gemini z założenia jest multimodalne. Oznacza to, że może uogólniać, a następnie bezproblemowo rozumieć, operować i łączyć różne typy informacji, w tym tekst, kod, dźwięk, obraz oraz wideo. Działa z pomocą najrozmaitszych urządzeń i odnajdzie się w wielu cyfrowych środowiskach. Gemini 1.0, czyli pierwszą odsłonę modelu dostępną w wersjach Ultra, Pro i Nano, zaaplikowano już do Barda w 170 krajach. Wkrótce na stałe zagości w oprogramowaniach telefonów marki Pixel, a także w wyszukiwarce.

^{Gemini: Explaining reasoning in math and physics}

Prymus na wielu polach

Google w serii krótkich filmików testuje na różne sposoby swój produkt. Mark Rober, youtuber i były inżynier NASA, sprawdził jego umiejętności techniczne i posługując się jego wskazówkami, spróbował złożyć model samolotu. Gemini musiało także rozpoznać filmy, wykazać różnice między dwoma obrazkami i zdekodować co bardziej nieoczywiste emotikony. Uzyskał także lepszy wynik od ekspertów (powyżej 90%) w teście MMLU, czyli wielozadaniowego rozumienia języka. Składają się na niego zadania z 57 przedmiotów, w tym z matematyki, fizyki, historii, prawa czy medycyny. Niektóre dotyczą tylko jednego zagadnienia, inne wymagają znajdowania związków przyczynowo-skutkowych i nieszablonowego, interdyscyplinarnego myślenia.

^{Forrest Gump, Nieoszlifowane diamenty, a może Śniadanie u Tiffany’ego? Gemini w mig rozgryzł nawet te bardziej wysublimowane zagadki słowne.}

– To ważny kamień milowy w rozwoju sztucznej inteligencji i początek nowej ery Google, w którym stale wprowadzamy kolejne innowacje i rozwijamy zdolności naszych modeli. Ekscytują nas możliwości świata w odpowiedzialny sposób wspieranego sztuczną inteligencją – przeczytamy w komunikacie zapowiadającym Gemini. Z tej samej deklaracji wynika, że dopiero przedsmak rewolucji. Model ma zawierać jeszcze więcej korpusu, a chatbot – przetwarzać dodatkowe informacje, dzięki czemu uchroni się od przykrych halucynacji.