Industri Nyheder

Er AlphaZero værd at spille?

2018-06-02

DeepMind, et kunstigt intelligensfirma ejet af Google, har udgivet et nyt papir, der beskriver, hvordan holdet brugte AlphaGos maskinlæringssystem til at opbygge et nyt projekt kaldet AlphaZero. AlphaZero bruger AI teknologi kaldet forstærkning læring, som kun bruger grundlæggende regler, ingen menneskelig erfaring, uddannelse fra bunden, fejede brætspil AI.

AlphaZero første sejrede Go og eksploderede et andet brætspil: Under de samme forhold havde systemet otte timers træning og besejrede det første AI, der besejrede mennesker - Li Shishi version AlphaGo; Efter 4 timers træning besejrede AI Elmo det stærkeste skakspil AI Stockfish og besejrede den stærkeste (japanske skak) AI Elmo om 2 timer. Selv den stærkeste Go-spiller, AlphaGo, blev ikke spart. Trænet i 34 timer, AlphaZero slog AlphaGo Zero, som trænede 72 timer.

Diagram / Antal træk, træk eller tab i spillet fra AlphaZero-perspektivet (fra DeepMind Team Paper)

Styrkelse af læring er så kraftfuld. Hvad er det?

Adit Deshpande, en velkendt AI blogger fra University of California, Los Angeles (UCLA), offentliggjorde en serie artikler om Deep Learning Research Review i sin blog, der forklarer magten bag AlphaGos sejr. I sin artikel indførte han, at maskinindlæringsområdet kan opdeles i tre kategorier: overvåget læring, uovervåget læring og forstærkningslæring. Forstærkning læring kan lære forskellige handlinger i forskellige situationer eller miljøer for at opnå de bedste resultater.

Foto / Adit Deshpande's blog Deep Learning Research Review Uge 2: Forstærkning Læring

Vi forestiller os en lille robot i et lille rum. Vi programmerede ikke denne robot til at flytte eller gå eller tage nogen handling. Det står bare der. Vi vil have, at det flytter til et hjørne af rummet, få belønningspoint, når du kommer der og taber point hver gang du går. Vi håber, at robotten vil nå den udpegede placering så langt som muligt, og roboten kan bevæge sig i fire retninger: øst, syd, vest og nord. Roboter er faktisk meget enkle. Hvilken form for adfærd er mest værdifuld? Det er selvfølgelig et udpeget sted. For at opnå den største belønning kan vi kun lade robotter bruge handlinger, der maksimerer værdi.
Foto / Adit Deshpande's blog Deep Learning Research Review Uge 2: Forstærkning Læring

Hvad er værdien af ​​AlphaZero's eksplosion af menneskelige skakspil?

AlphaGo Zero er et gennembrud, er AlphaZero også? Udenlandske eksperter analyserede, at sidstnævnte havde fire gennembrud i teknologi:

Først optimerer AlphaGo Zero i henhold til vindende forholdet, kun betragter sejr, negative to slags resultater; Og AlphaZero er ifølge resultatet for at fortsætte optimeringen, har taget højde for muligheden som slips.

For det andet vil AlphaGo Zero ændre styrets retning for forstærkningslæring, mens AlphaZero ikke vil. Go board er stablet, mens skak og skak ikke er, så AlphaZero er mere alsidig.

Three, AlphaGo Zero fortsætter med at vælge den bedste version af udskiftningshastigheden, mens AlphaZero kun opdaterer et neuralt netværk, hvilket reducerer risikoen for at træne dårlige resultater.

4. Hyperparametrene i søgeafsnittet AlphaGo Zero opnås via Bayesian optimering. Udvælgelsen vil have stor indflydelse på estimeringsresultatet. AlphaZero genbruger den samme hyperparameter for alle spil, så der er ingen grund til at foretage specifikke justeringer for spillet.

Det fjerde paradigme for senior maskinlæringsarkitekt Tu Weiwei fortalte geekpark, at AlphaZero har gennembrud og begrænsninger:

For det første DeepMind Kernen i denne afhandling er at bevise alsidigheden af ​​AlphaGo Zero-strategien på skakproblemet; der er ingen særlig fremhævning i metoden. AlphaZero er faktisk en udvidet version af AlphaGo Zero-strategien fra Go til andre lignende brætspil og slår det andet teknologibaserede brætspil AI. De var de bedste før.

For det andet er AlphaZero kun en "universel" motor til lignende brætspil, der har et veldefineret og perfekt informationsspil. AlphaZero vil stadig have problemer for mere komplekse andre problemer.

Tidligere, da Ryukyu Sun Jian tolkede AlphaGo Zero, sagde han: "Fortified learning kan udvides til mange andre felter, og det er ikke så nemt at bruge det i den virkelige verden. For eksempel kan forstærkning læring bruges til at undersøge nye stoffer og nye stoffer. Strukturen skal søges. Efter søgningen er det lavet til medicin. Så hvordan man virkelig tester medicinen er effektiv. Denne lukkede pris er meget dyr og meget langsom. Det er meget svært for dig at gøre det så enkelt som at spille skak. "

For det tredje har AlphaZero også brug for mange computerressourcer til at løse den relativt "simple" skak problem, og prisen er meget høj. Ifølge geekparker udtalte DeepMind i papiret, at de brugte 5000 første generationens TPU'er til at generere selvspillende spil og brugte 64 anden generation TPU'er til at uddanne neurale netværk. Tidligere sagde nogle eksperter til et bestemt medie om, at selvom TPU's præstation er fantastisk, vil prisen være meget høj. Nogle investorer fra en international venturekapitalorganisation har også skabt venner i denne cirkel. Et af ordene er: "Denne dyre chip, jeg kigger bare på ... & quot;

For det fjerde kan den nuværende AlphaZero være en afstand væk fra & quot; Go God & quot; på Go. Vinderne repræsenterer ikke Gud. Den nuværende netværksstruktur og træningsstrategi er ikke optimal. Faktisk er det værd at fortsætte med at studere.

Selv om der er visse begrænsninger, er dens applikationsscenarier værd at grave. Der er mange andre forskningsområder, der er værd at være opmærksomme på i retning af forskning, der gør maskinindlæringen mere generel, såsom AutoML, migrationsindlæring og så videre. Samtidig er det også værd at opmærksom på, hvordan man videreudvikler en mere generel AI-motor til lavere omkostninger (beregningsomkostninger, domæneekspertomkostninger) og gør AI mere værdifuld i praktiske anvendelser.

Droppture er et specielt område. Ifølge geekparker bruger DJ'er kunstig intelligens teknologi til at matche bilister og passagerer fra urimelige lige afstande (muligvis over floder) til opgaver. Passagerer med den mindste tid på biler har oplevet en masse teknisk optimering. De stødte også på problemer og arbejdede hårdt for dem: Ved træning af kunstige intelligenssystemer kan teknologier som GPU-klynger bruges. Men når chauffører og passagerer matches, kræves det i realtid, og konfigurationen er reduceret. Derfor, hvordan man sikrer nøjagtighed er også en undersøgelse. Personalet har udforsket problemet.

Men Tu Weiwei bekræftede DeepMinds indsats i retning af "universel kunstig intelligens."