Wiesławiec Deluxe –– Dzisiejszy felieton będzie o “Squid Game”

Dzisiejszy felieton będzie o Squid Game. Nie, nie będzie o Squid Game. Dzisiejszy felieton będzie o walce Fury-Wilder 3. Nie, nie będzie o Fury-Wilder 3. Dzisiejszy felieton będzie o tym, co tak naprawdę robię najczęściej przy kompie w ciągu ostatnich dwóch lat. A co robię przy kompie najczęściej w ciągu ostatnich dwóch lat? Oglądam naprzemiennie dwóch najpopularniejszych youtuberów szachowych, czyli Agadmatora i Gotham Chess’a.

Mówiąc szczerze, jeszcze jakieś 5 lat temu nie nigdy bym się nie spodziewał, że w roku 2021 będę siedział przy kompie, śledził komentarze partii szachowych, grał co chwilę przeciwko komputerowi (zazwyczaj gram na chess.com i dostaję regularnie w dupę od notowanego na poziomie 1800 punktów bota o imieniu Wally) i że w ogóle będę ponownie zainteresowany królewską grą. Mimo że w szachy gram od 3 roku życia (nauczył mnie dziadek i to nauczył mnie w nie grać uczciwie – przez pierwsze 3 lata, do wieku 6 lat, grałem z nim niezliczoną ilość razy i za każdym razem przegrywałem – nie było żadnych forów), to odstawiłem tę aktywność całkowicie na półkę przez 15 lat życia poprzedzające rok 2018. Ostatni raz graliśmy dużo w szachy z kolegami w liceum, aż liceum się skończyło, a wraz z nim nawyk – zabrakło mi zatem otoczenia społecznego, w którym pasja mogłaby rozkwitać i samozaparcia, żeby, mimo wszystko, pofatygować się własnym sumptem do jakiegoś klubu szachowego i spędzać tam wolne godziny. Po prostu olałem sprawę.

I tak to zajmowałem się zupełnie innymi rzeczami przez 15 lat, aż przyszedł rok 2018, a wraz z nim wzmianka w necie o meczu pomiędzy Stockfishem (najsilniejszym z tradycyjnych programów szachowych które, od ponad 20 lat i przegranej Garry’ego Kasparowa z IBM Deep Blue w 1997, są wielokrotnie mocniejsze od najlepiej grających arcymistrzów) a Google AlphaZero (programem szachowym nowej generacji, opartym na zupełnie innych założeniach od tradycyjnych silników szachowych, o których za chwilę). Lubię takie motywy i motywiki, więc się od razu w to wkręciłem i zacząłem szukać dodatkowych informacji. Na początek ostrzeżenie: nie mam umysłu ścisłego i mam bardzo duży problem z rozumieniem zapisu matematycznego, co ogranicza do minimum moje zdolności techniczno-inżyniersko-programistyczne. Będę wiec musiał opisać to, co zafascynowało mnie przy okazji meczu Stockfisha z Google AlphaZero, w języku naturalnym, ze wszystkimi tego konsekwencjami w postaci umiarkowanej ścisłości i braku precyzji. No ale dobra.

Szachy są grą – systemem zamkniętym, o precyzyjnie zdefiniowanych regułach i dużej, ale skończonej liczbie możliwych posunięć. Człowiek gra w szachy w sposób heurystyczny, czyli posługując się pewnymi, zazwyczaj przydatnymi, schematami myślenia i na podstawie znajomości tych schematów czy “zaleceń” podejmuje decyzję o kolejnym posunięciu. Przykłady takich schematów: w debiucie staraj się raczej przesuwać pionki położone w centrum szachownicy, a nie piony peryferyjne; w początkowej fazie gry staraj się wyprowadzić na środek pola możliwie dużo figur i unikaj wykonywania wielu ruchów tą samą figurą; sprawdź, czy opłaca się bicie figury przeciwnika przy ryzyku utraty własnej, używając gotowej klasyfikacji wartości poszczególnych figur, gdzie hetman warty jest 9 pionów, wieża 5 pionów, a goniec i skoczek są zamienne i mają wartość 3 pionków itd. Te schematy wnioskowania stanowią w szachach zespół “reguł drugiego rzędu”, nie są to same zasady gry, określające co można, a czego bezwzględnie nie można zrobić, a raczej pewne zalecenia, będące odpowiednikiem porzekadeł brydżowych typu “figur na figur, jak mawiał święty Igór“, albo “druga ręka puszcza, trzecia ręka bije i płacze“. Te reguły są spoko. Upraszczają grę, eliminują bardzo wiele niepotrzebnego i nieekonomicznego myślenia i, jak wszystkie heurystyki, zazwyczaj działają. Z akcentem na zazwyczaj.

Komputer gra w szachy inaczej niż człowiek. Nie opiera swoich decyzji na nieprecyzyjnych, wyrażonych w języku naturalnym zaleceniach, a raczej symuluje wynik wszystkich możliwych posunięć w danej pozycji, a potem wszystkich możliwych posunięć przeciwnika w odpowiedzi, a potem własnych posunięć w kolejnym ruchu, a potem przeciwnika, a potem własnych, a potem przeciwnika, i tak, potencjalnie, ad infinitum. Ponieważ ilość możliwych wariantów kontynuacji rośnie przy każdym kolejnym ruchu wykładniczo, zazwyczaj komputer jest w stanie w ograniczonym czasie “dojść” w swojej analizie jedynie na kilka do kilkunastu posunięć do przodu. Nazywa się to “głębią” analizy i oscyluje generalnie w okolicach 10 posunięć w przyszłość, co jest wynikiem nieosiągalnym dla jakiegokolwiek człowieka.

Jeśli komputer dokonał swojej analizy z głębią 10, znaczy to, że w sposób liniowy, ruch po ruchu i wariant po wariancie, obliczył wszystkie setki miliardów kombinacji możliwych we wszystkich rozgałęziających się co posunięcie wariantach drzewek decyzyjnych i może spośród tych wszystkich kombinacji wybrać najbardziej, jego zdaniem, opłacalną. I wykonać ruch. A potem, jeśli grający przeciwko niemu człowiek lub inny komputer wykona ruch, który nie był przewidziany przez program jako najsilniejsza odpowiedź, powtórzyć operację i przeliczyć wszystkie możliwe kontynuacje do poziomu 10 ruchów do przodu. I tak cały czas. W teorii tak grający program komputerowy z każdym ruchem troszeczkę poprawia swoją pozycję względem mięsnego przeciwnika i po kilkunastu maszynowo najsilniejszych ruchach, go po prostu rozjeżdża, wskutek akumulowania się w pozycji na szachownicy przewagi jednej strony. I faktycznie, obecnie, po kilkudziesięciu latach doskonalenia programów szachowych tak to wygląda, niemniej nie zawsze tak wyglądało.

Czy AI wygra Eurowizję, czyli jak działają algorytmy w muzyce

Dlaczego? Ano dlatego, że kryteria, za pomocą których komputer dokonuje oceny pozycji, są pochodzenia ludzkiego i stanowią szereg sztywnych, zaprogramowanych na stałe algorytmów, takich jak wspomniane już wartościowanie hetmana na poziomie 9, wieży 5, a gońca i skoczka 3 punktów. Komputer ocenia „efekt” każdego posunięcia za pomocą szeregu zdefiniowanych z góry kryteriów, a te stanowią skończoną listę: upewnij się, że wymiany odbywają się z korzyścią materiałową, wyklucz pozycje, w których sekwencja kończy się matem twojego króla, preferuj pozycje, które są w stanie wymusić sekwencję ruchów kończących się matem króla przeciwnika itd. itd. itd. Obecnie tych kryteriów jest multum, każdy silnik komputerowy składa się nie tylko z prostego, liniowego obliczania ścieżek do mata i wyrażonej w punktach sumy wartości pozostających na szachownicy figur, ale także wielu innych „wyspecjalizowanych” zespołów kryteriów. Do tego dochodzi tak zwana księga debiutów, czyli baza sekwencji ruchów otwierających partię, często do głębokości kilkunastu posunięć z góry określająca kontynuację uznaną historycznie za najsilniejszą. Wszystkie te reguły są pochodzenia ludzkiego. Ktoś je zdefiniował, wgrał, a program nie „myśli” jak my, tylko korzysta ze swojej ogromnej przewagi prostej mocy obliczeniowej. Jeśli kryteria oceny są lepsze, to program gra skuteczniej. Jeżeli są toporne, to daje się go, mimo przewagi w mocy obliczeniowej, oszukać, tak jak zrobił to Garry Kasparow w pierwszym meczu przeciwko IBM Deep Blue w 1996 roku. Sposobem pokonania komputera było wówczas wyjście poza schemat i granie nieintuicyjnych i wyglądających „losowo” posunięć, pozwalających mistrzowi świata przemknąć obok dostępnych komputerowi algorytmów oceny pozycji. Dziś, wieloletnim wysiłkiem programistów, wszystkie luki zostały zasklepione i tradycyjne programy szachowe, takie jak Stockfish, rozjeżdżają ludzi jak gąsienice czołgów Skynetu czaszki w ruinach Los Angeles w 2029.

I na tym tle wchodzi w 2018 roku AlphaZero, cały na biało. Tradycyjny silnik szachowy działa jak superszybka maszyna obliczeniowa, realizująca jako kryteria oceny pozycji całą dostępną ludziom wiedzę o szachach. Zabójcze połączenie potęgi linearnej, maszynowej kalkulacji z konserwatywną wiedzą pokoleń leśnych dziadków. Inżynierowie z Google pomyśleli o szachach inaczej: a co jeśli ludzie się mylą i wgrali programom komputerowym nieprawidłowe schematy ewaluacji pozycji, obciążone sztywnymi sposobami myślenia i deformującym nawisem historii dyscypliny? Co stanie się, jeżeli wszystkie dotychczasowe heurystyki wypierdolimy na śmietnik i damy programowi opracować od zera własne pomysły na szachy?

Jak pomyśleli, tak zrobili. Google AlphaZero otrzymał jako dane tylko i wyłącznie reguły gry w szachy, bez żadnych zasad i algorytmów bazujących na historycznie powstałych „heurystykach drugiego poziomu”, a potem otrzymał zadanie grania w szachy samemu ze sobą setki bilionów razy, aby samemu przekonać się, które ze wszystkich możliwych sekwencji posunięć najlepiej obronią się w tym eksperymencie z dziedziny cyfrowego darwinizmu i okażą się być best by test. W miarę rozgrywania samemu ze sobą setek bilionów partii, AlphaZero „uczył się” zachowywać jako wzorce działania najsilniejsze sekwencje posunięć, zapisując je w swojej bazie danych, i odrzucał wszystkie pozostałe kontynuacje jako nieoptymalne. Model uczenia się programu oparty był o schemat sztucznych sieci neuronowych (tu muszę uczciwie przyznać że wymiękam, mam tylko bardzo ogólne pojęcie o tym jak taka sieć może dokładnie wyglądać – jest to prawdopodobnie programowa struktura dowolnie połączonej sieci bramek logicznych, które są w stanie, tak jak zwierzęce neurony, dokonywać binarnej reakcji na sygnał analogowy, w zależności od ustawienia bramki i poziomu natężenia bodźca aferentnego, czyli zwrócić na szerokim zakresie wartości argumentów jedną z dwóch wartości funkcji: 1 = neuron wypala transmitując sygnał dalej, lub 0 = neuron pozostaje w spoczynku, nie uwalniając potencjału czynnościowego).

wszystkie felietony Wiesławca dla Going. MORE

Efekt był w każdym razie olśniewający, bo AlpaZero przechodził, wraz z rozgrywanymi z samym sobą partiami, przez kolejne stadia szachowej samoświadomości niczym dojrzewający do pozbycia się ludzkości program główny z Cyberdyne Systems. Podobno po dwóch godzinach gry z samym sobą pokonywał już benchmarkowy program Elmo, po czterech godzinach Stockfisha, a po ośmiu swojego bardziej wyspecjalizowanego poprzednika, czyli program Alpha Go Zero. Podobnej ewolucji ulegał też styl gry AlphaZero: najpierw preferował klasyczne otwarcie pionem e2-e4, potem przeszedł przez fazę piona hetmańskiego, d2-d4, by finalnie zwrócić się w stronę rzadko granych przez ludzi egzotycznych otwarć zamkniętych typu skoczek na f3 (tzw. otwarcie Retiego) i innych dziwacznych pomysłów. Najlepsze w Alpha Zero było jednak to, że, dzięki zastosowaniu sztucznych sieci neuronowych, zamiast analizować 70 milionów pozycji na sekundę, jak bazujący na podpierającej go mocy obliczeniowej Stockfish, AlphaZero analizował jedynie około 40 tysięcy pozycji na sekundę, ponieważ wszystkie pozostałe odrzucał jako z doświadczenia nieoptymalne (tzw. Monte Carlo Tree Search, szczegółowe wyjaśnienie również znajduje się poza moim zasięgiem – dla chętnych objaśnienienie znajduje się tutaj). AlphaZero wypracował zatem, właściwe dla ludzi, myślenie heurystyczne, ale zastąpił skostniałe heurystyki leśnych dziadków kompletnie nowymi heurystykami, masakrując zarazem tradycyjne programy szachowe ekonomią swojego myślenia. Komentujący grę AlphaZero widzowie mówili, że wypracowane przez program schematy działania wyglądają jak z kosmosu, tak jakby przekazano reguły naszej królewskiej gry jakiejś obcej, wyższej inteligencji i ona dopiero pokazała nam, jak naprawdę należy grać w szachy. Pamiętam jak na jednej z przymusowych korpoimprez opowiadałem po pięciu piwach jakimś przypadkowym ludziom o tym niesamowitym algorytmie, na zmianę z wykładaniem najnowszego stanu wiedzy na temat „czy owady są świadome?”. Reakcją była grzeczna, życzliwa obojętność.

Ukoronowaniem procesu samokształcenia tego potwora, był składający się z tysiąca partii mecz przeciwko Stockfishowi, zakończony wynikiem: 839 remisów, 155 zwycięstw i 6 porażek. Na takim poziomie zaawansowania gry był to pogrom. I tutaj właśnie, szukając zapisów i komentarzy tej partii, trafiłem na Agadmatora, trzydziestotrzyletniego mieszkańca miasta Križevci w północno-wschodniej Chorwacji, który, siedząc w fotelu na tle ciągle tego samego pokoju z wylegującym się na kanapie psem, nagrywał filmy rekonstruujące sposób, w jaki AlphaZero zmiażdżył Stockfisha, wykonując całkowicie nieintuicyjne w świetle dotychczas dostępnej ludziom wiedzy ruchy. Agadmator, najpopularniejszy do niedawna szachowy vloger na świecie, przepięknie pokazywał w jaki sposób Alpha jest w stanie poświęcić kolejne piony, a nawet figury, w forsujących atakach, w taki sposób, jakby jego własne zasoby materiałowe przeszkadzały mu częściowo w osiągnięciu jedynego celu gry w szachy, jakim jest zamatowanie przeciwnika. Wyglądało to tak, jakby ludzkość dotąd umówiła się, że mając zestaw pistolet + kabura, i musząc pozbyć się kabury, żeby móc wyciągnąć pistolet, lepiej strzelać do celu przez kaburę, a najlepiej jeszcze przez futerał, bo kabura warta jest 20 dolarów wobec stówy za pistolet i nie opłaca się jej wyrzucać.

Agadmator ma ranking ELO na poziomie 2000 punktów, co czyni z niego bardzo silnego szachistę-amatora. Ma psa o imieniu Medo. Ma dziewczynę o imieniu Jelena i ostatnio dorobił się córki imieniem Eta. Agadmator ma też typowo słowiańską bródkę, modną jakieś 20 lat temu. Ulubionym szachistą Agadmatora i duchowym patronem kanału jest legendarny Czarodziej z Rygi, Michaił Tal. Agadmator jest raczej spokojnym i wyważonym kolesiem, z odchyleniem w stronę analizowania słynnych partii historycznych (typu Noc w Operze z 1858 roku z udziałem Paula Morphy’ego, występującego w Paryżu przeciwko hrabiemu Isouardowi de Vauvenargues i księciu Brunszwiku Karolowi II w przerwach od słuchania opery) i aktualnych, najsilniej obsadzonych turniejów szachowych. Agadmator dorobił się zestawu trejdmarkowych powiedzonek, w rodzaju „Hello Everyone!”, którym zaczyna każde wideo, „Sorry about that”, wypowiadane w miniprzerwach na manipulacje ze sprzętem czy podrapanie się po nodze, czy słynne „captures-captures- and already as for move seven we have a completely new game”. Zalety Agadmatora: jest spokojny, nieirytujący i słowiańsko solidny. Wady Agadmatora: najwięcej pasji miał na początku prowadzenia kanału, gdy referował na bieżąco potyczki Alphy ze Stockfishem, czy pokazywał najlepsze gry Tala, Kasparowa czy Morphy’ego. Obecnie trochę przysiadł, bo jego działalność się zrutynizowała i polega na codziennym dostarczaniu kontentu w postaci kilku filmów z analizami najnowszych, ale nie tak już ciekawych partii z bieżących turniejów dla światowej czołówki. Entropiczna pułapka powtarzalności czeka na wszystkich.

Głównym konkurentem i Nemezis Agadmatora jest dwudziestopięcioletni mistrz międzynarodowy z Nowego Jorku, Levy Rozman, produkujący na youtube kontent pod pseudonimem Gotham Chess. Levy ma ranking ELO na poziomie 2350 punktów (mocny, profesjonalny szachista) i niespełna miesiąc temu przegonił Agadmatora w ilości subskrybentów kanału, stając się najbardziej popularnym youtubowym specjalistą od szachów na świecie. Na początku, po trafieniu na jego kanał, nie byłem w stanie tego gościa słuchać. Głośny, ekstrawertyczny, krzykliwy, operujący charakterystyczną dla youtuberów cartoonowo-sensacyjną manierą, do tego ewidentnie narcystyczny, w podtypie narcyzmu wrażliwego. Widać po Levim, że uwielbia siebie i nie znosi krytyki, jego sposobem radzenia sobie z silnym dyskomfortem wywołanym nieprzychylnymi komentarzami jest przypinanie co bardziej zaczepnych opinii na górze feeda i odnoszenie się do niesprawiedliwości nieżyczliwego ataku w kolejnym wideo. Aj – ajaj, widać że go to boli i że chce być uwielbiany. To w sumie dość zabawne, widzieć bardzo inteligentnego człowieka, zmagającego się publicznie z widocznym jak na talerzu lekkim zaburzeniem osobowości.

Do tego, ostatnio, w ramach różnych „komercyjnych partnerstw” zaczął wrzucać w środek niektórych filmów wulgarny product placement. Ale na szczęście na tym kończą się wady Leviego Rozmana, a zaczynają zalety. A największa z nich jest taka: to, co nagrywa, jest ciekawe. Umie opowiadać o szachach w żywy i barwny sposób, jest ziomeczkiem z hoodu i native speakerem jednocześnie, język którego używa miejscami brzmi jak wyjęty z planu filmowego Quentina Tarantino, a do tego, co chyba najważniejsze, myśli na bieżąco z rozwojem pozycji używając do analizy sytuacji na szachownicy profesjonalnych, szachowych sposobów wnioskowania, na które, jeśli nie miało się szczęścia trafić do dobrego klubu szachowego, można nie wpaść przez całe życie, myśląc jak Neandertalczyk ciągle na ruch-dwa do przodu (mówię tu o sobie – nawet po 200 latach nie wyciągnąłbym sobie z dupy zasady o równoważeniu braku jasnopolowego laufra po wymuszonej wymianie na skoczka, ustawieniem łańcucha pionków na białych polach, co neutralizuje obecność jasnopolowego gońca przeciwnika – ten szympans nie napisze przypadkiem na maszynie Boskiej Komedii, proszę państwa).

Najlepszą jednak rzeczą, którą Levy zaproponował, jest realizacja hasła make chess personal again – facet postanowił wrócić po wielu latach do rywalizacji w szachach sportowych, mając na uwadze tylko jeden cel: wyrobienie normy na arcymistrza. W pełni to rozumiem, narcyzm wrażliwy lepiej radzi sobie mając przed imieniem i nazwiskiem tytuł Grandmaster. Ku uciesze widzów, efektem ubocznym i wartością dodaną są nagrywane przez Leviego na bieżąco podczas turniejów recapy wygranych/przegranych bądź też zremisowanych partii. Recapy często powstają rzutem na taśmę, ostatkiem sił, późno w nocy, przy lampce i biurku w pokoju hotelowym. Koleś wkłada w nie serce, a opisywane przez niego na świeżo własne partie są sto razy bardziej ciekawe niż kolejne, prawie że perfekcyjne i widziane z perspektywy osoby trzeciej pojedynki pół-autystyka Carlsena z autystyko-robotem Caruaną. Dzięki Leviemu i jego profesjonalnym szachowym wglądom This Monkey is Goin’ to Heaven.