W styczniu zespół DeepMind Google ogłosił, że jego sztuczna inteligencja, nazwana AlphaStar, pokonała dwóch najlepszych profesjonalnych graczy w StarCraft. Ale jak wówczas argumentowaliśmy, nie była to całkiem uczciwa walka. Teraz AlphaStar poprawił swoją wydajność na tyle, aby osiągnąć status Grandmaster w StarCraft II, używając tego samego interfejsu co gracz. Zespół opisał swoją pracę w nowym artykule w Nature.
"To spełnienie marzeń" - powiedział Oriol Vinyals, współautor DeepMind, który był zagorzałym graczem StarCraft 20 lat temu. "AlphaStar osiągnął poziom Grandmaster wyłącznie dzięki sieci neuronowej i algorytmom uczenia się ogólnego przeznaczenia - co było niewyobrażalne dziesięć lat temu, kiedy badałem StarCraft AI za pomocą systemów opartych na regułach".
AlphaStar (Protossi, na zielono) radzący sobie z latającymi jednostkami Zerga za pomocą kombinacji jednostek przeciwlotniczych (Phoenix i Archon).
Pod koniec zeszłego roku informowaliśmy o najnowszych osiągnięciach AlphaZero, bezpośredniego potomka AlphaGo firmy DeepMind, która w 2016 roku znalazła się na pierwszych stronach gazet na całym świecie, pokonując Lee Sedola, (ludzkiego) mistrza świata Go. AlphaGo przeszło w zeszłym roku znaczną modernizację, stając się zdolnym do uczenia się najlepszych strategii bez potrzeby interwencji człowieka. Grając w kółko, AlphaZero nauczył się grać w Go od zera w zaledwie trzy dni i zdecydowanie pokonał oryginalne gry. Jedynym wkładem, jaki otrzymał, były podstawowe zasady gry. Następnie AlphaZero nauczył się grać w trzy różne gry planszowe (szachy, Go i shogi, japońska forma szachów) w ciągu zaledwie trzech dni, bez interwencji człowieka.
Sekretna technika: "uczenie się wzmacniające", w której samo granie w miliony gier pozwala programowi uczyć się z doświadczenia. Działa to, ponieważ AlphaZero jest nagradzany za najbardziej przydatne akcje (tj. Opracowywanie strategii wygrywających). AI robi to, biorąc pod uwagę najbardziej prawdopodobne następne ruchy i obliczając prawdopodobieństwo wygranej dla każdego z nich. Najnowsza wersja łączy naukę głębokiego wzmacniania (wiele warstw sieci neuronowych) z ogólną metodą wyszukiwania drzewa Monte Carlo. Jak pisał w zeszłym roku arcymistrz szachowy Gary Kasparow w artykule naukowym: "Zamiast przetwarzać ludzkie instrukcje i wiedzę z ogromną prędkością, tak jak wszystkie poprzednie maszyny do gry w szachy, AlphaZero gromadzi własną wiedzę".
AlphaStar (czerwony Zerg) broniący wczesnego rusha, w którym przeciwnik zbudował część bazy w pobliżu bazy AlphaStar, wykazując się wysoką skutecznością.
Po sukcesie AlphaZero skupiono się na nowej granicy sztucznej inteligencji: gry z częściowymi (niekompletnymi) informacjami, takie jak poker i gry wideo dla wielu graczy jak Starcraft II. StarCraft II to także gra z niepełnymi informacjami i nie ma jednej najlepszej strategii, podobnie jak granie w papier-kamień-nożyce. Wymaga zdolności planowania w przyszłość i podejmowania decyzji w czasie rzeczywistym na dużej przestrzeni. Mapa gry jest nie tylko ukryta dla graczy, ale muszą oni jednocześnie kontrolować setki jednostek i budynków (wykorzystywane do tworzenia jednostek lub technologii wzmacniających te jednostki). Jak napisał Tim Lee Arsa (zapalony gracz StarCraft) w styczniu:
"StarCraft wymaga od graczy gromadzenia zasobów, budowania dziesiątek jednostek wojskowych i wykorzystywania ich do niszczenia przeciwników. StarCraft stanowi szczególne wyzwanie dla AI, ponieważ gracze muszą realizować długoterminowe plany w ciągu kilku minut gry, dostosowując je w obliczu kontrataków wroga. DeepMind mówi, że przed własnym wysiłkiem nikt nie był bliski zaprojektowania sztucznej inteligencji StarCrafta tak dobrze, jak najlepsi gracze ".
Wcześniejsza iteracja AlphaStar również polegała na głębokim uczeniu się wzmacniającym, aby nauczyć algorytm naśladowania ludzkich strategii. W tym momencie AI okazała się wystarczająco biegła, aby pokonać graczy na poziomie elitarnym podczas około 95% rozgrywek. Następnie zespół DeepMind stworzył różne warianty tego AI, z których każdy przybierak inny styl gry i umieścił je w wirtualnej lidze StarCraft. Dzięki temu agenci mogli uczyć się na własnych błędach i odpowiednio rozwijać strategie. Następnie DeepMind wybrał pięć najsilniejszych botów i wystawił je przeciwko dwóm profesjonalnym graczom: Dario "TLO" Wunsch i Grzegorz "MaNa" Komincz
AI pokonało swoich ludzkich przeciwników we wszystkich dziesięciu grach. To nie była całkiem uczciwa walka. "Ostatecznym sposobem na wyrównywanie szans byłoby użycie AlphaStar w tym samym interfejsie użytkownika, co ludzie" - napisał Lee w styczniu. "Interfejs można oczywiście zwirtualizować, ale gra powinna otrzymywać takie same surowe dane wejściowe jak ludzki gracz i powinna być wymagana do wprowadzania instrukcji za pomocą sekwencji ruchów myszy i naciśnięć klawiszy - z danymi wejściowymi ograniczonymi do prędkości, które mogą osiągnąć ludzkie ręce Jest to jedyny sposób, aby mieć całkowitą pewność, że AlphaStar nie zapewnia nieuczciwej przewagi swojemu oprogramowaniu ".
Grając jak człowiek
Najnowsza wersja AlphaStar ma długą drogę do rozwiązania tych problemów, łącząc głębokie uczenie wzmacniające z uczeniem się wielu agentów i uczeniem się naśladownictwa bezpośrednio z danych gry, po raz kolejny udoskonalonym przez wirtualną ligę. Według postu na blogu Vinyals i współtwórcy DeepMind, Wojciecha Czarneckiego, nowy, ulepszony AlphaStar podlegał tym samym ograniczeniom, na jakich grają ludzie, i grał na Battle.net "przy użyciu tych samych map i warunków, co gracze".
AlphaStar (Zerg, na zielono) wygrywa ostatnią bitwę spotkania za pomocą zaawansowanych jednostek z późnej fazy gry.
"Kluczowym spostrzeżeniem ligi jest to, że grać, aby wygrać, jest niewystarczające", Vinyals i Czarnecki napisali o ulepszeniach w najnowszym wcieleniu AlphaStar. "Zamiast tego potrzebujemy zarówno głównych agentów, których celem jest zwycięstwo w stosunku do wszystkich, jak i agentów wykorzystujących, skupiając się na tym, aby główny agent stał się silniejszy, ujawniając swoje wady, zamiast maksymalizować własny wskaźnik wygranych. Dzięki tej metodzie treningów, obecna liga uczy się kompleksowej strategii StarCraft II - w przeciwieństwie do wcześniejszych projektów, które połączyło agentów wytwarzanych różnymi metodami i algorytmami. "
Sztuczna inteligencja może teraz także grać przeciwko trzem rasom w Starcraft II: Protossom, Terranom i Zergom. (Wcześniejsza wersja grała tylko w Protoss vs. Protoss.) DeepMind zmierzył AlphaStar przeciwko ludzkim graczom w serii gier online. Sztuczna inteligencja została oceniona na poziomie Grandmaster dla wszystkich trzech ras StarCraft II i powyżej 99,8% oficjalnie sklasyfikowanych graczy ludzkich. To pierwsza sztuczna inteligencja, która osiągnęła ten status w popularnej profesjonalnej grze e-sportowej, bez korzystania z uproszczonej wersji gry. To mocne wskazanie, że tego typu algorytmy uczenia maszynowego ogólnego zastosowania mogą być stosowane do rozwiązywania złożonych problemów w świecie rzeczywistym, takich jak asystenci, samochody samobieżne lub robotyka - z których wszystkie wymagają decyzji w czasie rzeczywistym na podstawie niedoskonałej informacji.
"W DeepMind interesuje nas zrozumienie potencjału i ograniczeń otwartego uczenia się, co pozwala nam opracowywać solidne i elastyczne boty, które poradzą sobie ze złożonymi domenami w świecie rzeczywistym" - napisali Vinyals i Czarnecki. "Gry takie jak StarCraft są doskonałym poligonem do rozwijania tych podejść, ponieważ gracze muszą korzystać z ograniczonych informacji, aby podejmować dynamiczne i trudne decyzje, które mają konsekwencje na wielu poziomach i w różnych przedziałach czasowych".
I tym razem wydaje się, że była to uczciwa walka. "Gra AlphaStar była imponująca" - powiedział Wunsch o najnowszej iteracji AI DeepMind. "System jest bardzo wykwalifikowany w ocenie swojej pozycji strategicznej i dokładnie wie, kiedy atakować lub wycofać się z walki z przeciwnikiem. Choć AlphaStar wykazuje doskonałą i precyzyjną kontrolę gry to nie jest nadludzki - na pewno nie na poziomie którego człowiek nie mógłby teoretycznie osiągnąć. Ogólnie rzecz biorąc, rozgrywka z AlphaStar wydaje się to bardzo sprawiedliwa - wrażenia są takie jak podczas gry w "prawdziwą" grę StarCraft przeciwko innemu Grandmasterowi."