Alphazero

AlphaZero är ett datorprogram utvecklat av forskningsföretaget DeepMind för artificiell intelligens för att bemästra schack, shogi och go. Algoritmen använder ett tillvägagångssätt som liknar AlphaGo Zero.

Den 5 december 2017 släppte DeepMind-teamet en preprint som introducerade AlphaZero, som inom 24 timmar uppnådde en övermänsklig spelnivå i tre matcher genom att besegra världsmästarprogrammet, Stockfish, elmo och 3-dagarsversionen av AlphaGoZero. I varje fall använde den anpassade tensorbehandlingsenheter (TPU: er) som Googles program var optimerade att använda. AlphaZero utbildades enbart via "självspel" med 5000 första generationens TPU: er för att generera spelen och 64 andra generationens TPU: er för att träna de neurala nätverken, allt parallellt, utan tillgång till böcker eller spelbord.

Efter fyra timmars träning uppskattade DeepMind att AlphaZero spelade med en högre Elo-betyg än Stockfish 8. Efter 9 timmars träning besegrade algoritmen Stockfish 8 i en tidskontrollerad 100-spelsturnering (28 segrar, 0 förluster och 72 oavgjorda). Den färdiga algoritmen spelas på en enda maskin med fyra TPU: er.

DeepMinds papper om AlphaZero publicerades i tidskriften Science den 7 december 2018. Under 2019 publicerade DeepMind ett nytt dokumenter som beskriver MuZero en ny algoritm som kan generalisera AlphaZero arbetet, som spelar både Atari och brädspel utan kunskap om spelets regler eller representationer.

Kanske Alphazero eller dess tillvägagångssätt kan användas för att utforma det ultimata Bridge-programmet !?

Vi kan naturligtvis ta Dreyfus- injen och säga att bridge är annorlunda, till skillnad från schack och Go, det kräver verkligt mänskligt omdöme och förståelse. Men med tanke på vad som har hänt hittills verkar det optimistiskt. Ur AI ingenjörens synvinkel är det som gör bridge svårt att varje spelare endast har partiell information, så sökutrymmet innehåller alla möjliga distributioner av de okända korten. Det betyder mycket mer att tänka på. Men som vi såg med Go betyder ett mycket stort sökutrymme inte att maskiner inte kan göra det.

Det har varit ett par misslyckade försök. GIB, som alla bridge-spelare känner till, skulle bli världens bästa bridge-spelare lite efter Deep Blue-genombrottet. GIB kan i princip göra dubbeldummy analysen perfekt. Den hanterar partiell information genom att generera ett hundratal layouter som passar vad den redan vet, göra dubbeldummy kontroll på alla och sedan väljer det alternativ som fungerar i det största antalet layouter. GIBt bjuder genom att använda regler som berättar vad de tillåtna buden är i en given situation, genererar layouter som passar budet och sedan göra det val som fungerar i de flesta layouter.

Som GIB: s uppfinnare Matthew Ginsberg upptäckte, blir styrkan inte bättre än en bra amatörspelare. Men om du använde djupinlärningsmetoder och samma typ av hårdvara som AlphaGo använder (det körs i ett nätverk som innehåller hundratals processorer), tror jag att du skulle se en enorm förbättring av styrkan. Det finns gott om händer online för att träna neuralnät. 

Funktionen "flyttgenerering" skulle vara ett nät som tittar på den aktuella situationen och ger dig de troliga kandidaterna för nästa bud eller spel. 'Utvärderingsfunktionen' skulle vara ett annat nät som tittar på en layout och uppskattar hur sannolikt varje kontrakt är med singeldummyspel - att basera allt på artificiell dubbeldummy spel är en av anledningarna till att GIB: s bedömning aldrig har varit så stor. Om man har tillräckligt med processorer att använda, skulle man inte bara vara begränsad till att skapa hundra layouter för att modellera det man inte vet. Man kan skapa fler layouter för att modellera osäkerheten om den spelaren och i själva verket tänka som dom tänker.

Naturligtvis är denna skiss förenklad. Att bygga en AI bridge i världsklass skulle förmodligen vara ett stort programvaruprojekt som krävde dussintals expertpersoners arbete i flera år. Men alla pusselbitar verkar nu vara på platsr. Det tog 44 år att komma från Turings första papper om datorschack till Deep Blue, och det tog ytterligare 20 år att komma från Deep Blue till AlphaGo. En gissning är att det kommer att ta betydligt mindre än 20 år att komma till den punkt där ett djupinlärningssystem kommer att slå de bästa mänskliga bridge spelarna. Det handlar främst om att hitta någon som har en stark önskan att få det att hända och tillräckligt med pengar för att betala för arbetet. Det är inte svårt att tänka på en person som är väldigt rik, har tillgång till hundratals mycket begåvade AI-experter och gillar bridge. Jag börjar undra varför detta inte redan har hänt!

Vad kan vara effekten på bridgevärlden om en AI i världsklass tas fram? Om man tittar på vad som har hänt i schack skulle det nog vara mer bra än dåligt. Eftersom alla som har råd med en grundläggande bärbar dator nu har tillgång till en schackspelare i världsklass har schack tagit fart i många länder där spelet knappast spelades tidigare. Alla schackturneringar med stormästare sänds nu online med tillförlitliga kommentatorer i realtid, så amatörer kan följa vad som händer. Och en utveckling som intresserar bridge spelare, schack AI är bra på att avslöja fusk. Eftersom robotarna vet vad rätt drag är i de flesta positioner kan de upptäcka när någon spelar för bra och ge statistiskt signifikanta bevis för att någon fusker. Den amerikanska schackmästaren och datorexperten Ken Regan har varit en pionjär inom detta område. Faktum är att när du tänker mer på det kan en stark AI vara exakt vad bridgen behöver ...