AlphaGo, programme de la filiale de Google, Deepmind, qui a secoué l’univers de l’intelligence artificielle en battant le champion du monde de go Lee Sedol, s’est encore surpassé …
Baptisé AlphaGo Zero, ce dernier a battu son ancienne version 100 à 0, le programme ayant appris à jouer de manière autonome sans données tirées de parties humaines. Comme le rapporte 20 Minutes, la version précédente avait été nourrie par plus de 100 000 parties humaines, mais AlphaGo Zero a commencé sans rien.
Ses créateurs lui ont tout simplement injecté les règles du Go (inventé en Chine il y a 2500 ans) et des algorithmes pour jouer contre lui-même. Il s’agit de la technique de ’reinforcement learning’ ou d’apprentissage par renforcement. Autrement dit, lorsqu’un mouvement amène le programme près de la victoire, il en conclut que c’était un coup efficace.
Au jeu du Go, il y a autant de combinaisons possibles que d’atomes dans tout l’espace. Et la progression d’AlphaGo Zero est étourdissante :
- En trois heures, il a atteint le niveau d’un humain débutant.
- En trois jours et 5 millions de parties, il a battu sa version précédente qui avait vaincu Lee Sedol, champion du monde de Go, en 2016.
- En 40 jours, il a terrassé la version la plus performante d’Alpha Go 100 à 0.
Une nouvelle étape a été franchie avec AlphaGo Zero, dans la mesure où, pour apprendre, il n’est "plus contraint par les limites de la connaissance humaine", indique DeepMind.
>> Voir plus d’articles High-Tech sur linfo.re.