Huvud Streamingtjänster AI lär sig att fuska på Q * bert på ett sätt som ingen människa någonsin har gjort tidigare

AI lär sig att fuska på Q * bert på ett sätt som ingen människa någonsin har gjort tidigare



En AI har lyckats fuska med det bästa mänskligheten har att erbjuda efter att ha upptäckt en exploatering i det klassiska arkadspelet Q * bert och kört med det.

Medan tidigare iterationer av AI skulle spela Q * bert ordentligt, upptäcker det någon gång i sin inlärning av hur spelet fungerar ett utnyttjande som låter det samla galna poäng. Naturligtvis, som varje spelare som gör poängjakt, upprepar den processen så att den kan öka sin poäng på ett så effektivt sätt som möjligt.

Du kan se AI arbeta sig runt plattformar i videon nedan. Först ser det ut som om det hopplöst hoppar mellan plattformar. I stället för att se spelet gå vidare till nästa omgång fastnar Q * bert i en slinga där alla dess plattformar börjar blinka - det är här AI kan sedan gå på en poäng-frenzy som samlar enorma poäng.

LÄS NÄSTA: En av de mest kontroversiella spelplåtarna har äntligen blivit diskrediterade

hur man ställer in eldpinne på Xbox One

Hur AI vann Q * bert-kriget

Krossade hela tiden rekordet för titeln, AI fick en omöjligt hög poäng tack vare sin utvecklingsstrategi algoritm programmering. Evolutionsstrategier (ES) skiljer sig från den vanliga förstärkningsinlärningen (RL) som traditionell AI använder eftersom den ses som mer skalbar på grund av sitt generationsinlärning.

Varje inlärningsslinga kallas en generation och den fortsätter sin uppgift tills ett fastställt villkor är uppfyllt (i detta fall en hög poäng). För varje successiv generation absorberar AI kunskapen från den tidigare generationen och är därför bättre på att uppnå samma mål och överträffa det. Fortsätt så får du en AI som är absolut oöverträffad i sin uppgift. Det var precis vad som hände här med Q * bert-poängen.

Skisserad i pappret , som publicerades förra veckan av forskare vid universitetet i Freiburg, Tyskland, verkar det som att felet inte var en känd mängd. I själva verket, även om de inte är så förvånade över att hitta felet, är det intressant att se hur AI sedan gick vidare och lärde sig att utnyttja den varje gång den spelade för att maximera sin poängpotential.

LÄS NÄSTA: Denna artificiella intelligens har lärt sig att behärska Super Mario Bros

För att hitta felet måste agenten först lära sig att nästan slutföra den första nivån - detta gjordes inte på en gång utan med många små förbättringar, förklarade forskarna för Registret . Vi misstänker att någon av träningslösningarna någon gång under träningen stötte på buggen och fick en mycket bättre poäng jämfört med sina syskon, vilket i sin tur ökade sitt bidrag till uppdateringen - dess vikt var den högsta i det viktade medelvärdet. Detta flyttade långsamt lösningen in i utrymmet där fler och fler avkommor började stöta på samma fel.

Vi känner inte till de exakta förhållandena under vilka felet visas; det är möjligt att det bara visas om agenten följer ett mönster som verkar suboptimalt, [till exempel när agenten slösar bort tid eller till och med förlorar ett liv]. Om så var fallet skulle det vara extremt svårt för standard-RL att hitta felet: om du använder inkrementella belöningar kommer du att lära dig strategier som snabbt ger en viss belöning, snarare än inlärningsstrategier som inte ger många belöningar ett tag och sedan plötsligt vinna stort.

Se relaterat Dragster-mästaren Todd Rogers har just tappat sin krona efter 35 år Denna artificiella intelligens har lärt sig att behärska Super Mario Bros 1-2 i 17 dagar Se den här AI lära sig att köra i GTA V på Twitch

Trots botens fantastiska resultat säger inte forskarna att detta är ett fall för att främja ES-lärande över RL. Faktum är att båda systemen har sina egna problem och en kombination av de två ses till stor del som det bästa alternativet framåt.

Samma ES-metod på andra Atari-spel ledde inte till samma positiva resultat. Å andra sidan är RL ansvarig för att krossa poster till vänster, höger och mitt, inklusive att slå världens bästa GO-spelare. ES har dock fortfarande sin egen plats i saker, och det är faktiskt hur Nvidia utför mycket av sin AI-utbildning på grund av att det kräver mer beräkningskraft men uppnår bättre resultat under en längre tid.

Oavsett vilket sätt som kommer att bli framtiden för AI-utveckling är åtminstone inte detta bot-fusk systemet så illa som det här nu vanärat videospelvärldsmästare .

Intressanta Artiklar