AlphaZero (2017) : l'IA qui apprend les échecs en quatre heures

AlphaZero, programme de DeepMind qui a appris les échecs depuis zéro en quatre heures et battu Stockfish 28-0 en 2017. Premier moteur basé sur le deep learning. Révolution méthodologique dont les échecs font partie depuis.

AlphaZero (2017) : l'IA qui apprend les échecs en quatre heures

Le 5 décembre 2017, DeepMind (filiale d’Alphabet/Google) publie un article scientifique qui annonce un séisme dans le monde des échecs informatiques. Leur programme AlphaZero a appris les échecs depuis zéro, à partir des règles seules, en quatre heures de calcul sur 5000 TPU. Et il a battu Stockfish 8 (alors meilleur engin classique du monde) sur 100 parties : 28 victoires, 72 nulles, 0 défaite. Aucun moteur précédent n’avait réussi un tel exploit. Surtout, la méthode est radicalement nouvelle : pas de base d’ouvertures préenregistrée, pas de fonction d’évaluation programmée à la main, pas de connaissance échiquéenne humaine. Juste un réseau neuronal et de la self-play. C’est une rupture méthodologique majeure qui inaugure l’ère du deep learning appliqué aux jeux à information complète.

En bref. Programme développé par DeepMind, publié décembre 2017. Apprentissage en 4 heures à partir des règles seules, par auto-apprentissage par renforcement. Architecture : réseau neuronal de convolution + Monte Carlo Tree Search. Hardware d’entraînement : 5000 TPU de Google. Hardware de jeu : 4 TPU. Match contre Stockfish 8 en cadence 1 min/coup : 28-0-72 (victoires-défaites-nulles) en faveur d’AlphaZero. Style de jeu radicalement différent : sacrifices à long terme, sacrifice de matériel pour l’initiative, jeu de pions bizarres mais efficaces. AlphaZero n’a jamais été distribué publiquement. Son successeur public, Leela Chess Zero (Lc0), reproduit la méthode en open-source à partir de 2018. Aujourd’hui, Lc0 est l’un des deux meilleurs engins au monde avec Stockfish (qui a depuis intégré aussi le deep learning : Stockfish NNUE, 2020).

Le contexte : l’épuisement de la brute force

Depuis Deep Blue (1997), tous les engins d’échecs reposaient sur la même architecture :

  • Recherche par calcul exhaustif : explorer un grand nombre de positions à profondeur contrôlée.
  • Fonction d’évaluation : évaluer une position non finie à partir de critères programmés à la main par les développeurs (matériel, structure de pions, position des pièces).
  • Bases d’ouvertures et de finales : préenregistrées par des grands maîtres.

Cette approche a culminé avec Stockfish (open-source à partir de 2008) et Komodo (commercial). Au plus tard 2010, ces engins jouent à 3300+ Elo, soit largement au-dessus du meilleur humain. Mais les progrès marginaux sont décroissants : entre 2014 et 2017, les Elos n’ont gagné que ~30 points par an. La recherche stagne.

DeepMind, créé en 2010 et acheté par Google en 2014, a déjà fait sensation avec AlphaGo en 2016 : programme qui bat Lee Sedol au jeu de go (jeu jugé plus complexe que les échecs). AlphaGo utilise déjà le deep learning. Le pari logique : appliquer la méthode aux échecs.

La méthode AlphaZero

L’architecture est radicalement différente des engins classiques.

Réseau neuronal de convolution. Au lieu d’une fonction d’évaluation programmée, le programme utilise un réseau neuronal qui prend en entrée la position et sort en sortie un vecteur de probabilités (quels coups jouer) plus une évaluation scalaire (probabilité de gagner). Ce réseau est appris.

Monte Carlo Tree Search (MCTS). Au lieu d’explorer toutes les positions à profondeur contrôlée, le programme explore l’arbre de jeu de manière probabiliste : il développe surtout les branches que le réseau juge prometteuses, ignore les branches sans intérêt apparent. Profondeur effective beaucoup plus grande sur les coups intéressants.

Auto-apprentissage par renforcement. Le programme commence par jouer contre lui-même, complètement aléatoirement. Au fur et à mesure des parties, le réseau neuronal apprend ce qui marche (donne des positions gagnantes) et ce qui ne marche pas. Pas de partie humaine en entrée. Pas de connaissance échiquéenne préprogrammée.

Échelle de calcul. L’entraînement utilise 5000 TPU pendant 4 heures (équivalent à plusieurs centaines de millions de parties contre soi-même). Le jeu utilise 4 TPU.

Le match contre Stockfish (2017)

Le 7 décembre 2017, DeepMind publie le résultat du match.

Format. 100 parties, cadence 1 minute par coup pour AlphaZero, 1 minute par coup pour Stockfish 8 (équivalent au plus haut niveau d’engin de l’époque).

Score. AlphaZero : 28 victoires, 72 nulles, 0 défaite. Soit 64-36 en équivalence points. Domination claire.

Style de jeu. Le plus surprenant. AlphaZero joue souvent des coups qui paraissent absurdes pour un engin classique :

  • Sacrifices de pions sans contre-partie immédiate, juste pour l’initiative à long terme.
  • Pousse de pions sur l’aile-roi à des moments où Stockfish défendait calmement.
  • Préfère systématiquement des positions ouvertes complexes à des positions fermées techniques.

Beaucoup de grands maîtres humains ont commenté la beauté du jeu d’AlphaZero. Magnus Carlsen, dans une interview en 2018, a dit : « C’est le premier programme dont les parties sont effectivement esthétiques à étudier. Avant, les engins jouaient juste. AlphaZero joue magnifiquement. »

La controverse

Plusieurs critiques ont été émises sur le résultat.

La cadence. 1 minute par coup avantage les engins MCTS sur les engins classiques. Stockfish, à cadence plus longue (par exemple 10 minutes par coup), aurait mieux joué proportionnellement à AlphaZero. Le test de DeepMind était biaisé en faveur de leur architecture.

Le hardware. 4 TPU vs CPU : difficile à comparer en équivalence. Certains observateurs disent que Stockfish sur le même hardware aurait été plus fort.

La version de Stockfish. Stockfish 8 (2016). La version contemporaine du match (Stockfish 9, qui sortait en 2018) était déjà plus forte.

DeepMind a refusé de fournir AlphaZero pour des matchs ultérieurs. Ce qui a alimenté les soupçons : on suspecte qu’AlphaZero a peut-être eu plus d’avantages méthodologiques que ceux annoncés.

L’effet : Leela Chess Zero et Stockfish NNUE

Bien qu’AlphaZero n’ait jamais été distribué, sa méthode a été largement reproduite.

Leela Chess Zero (Lc0), lancé en avril 2018 par une équipe open-source, reproduit l’architecture d’AlphaZero. Au début, Lc0 perd systématiquement contre Stockfish. Mais en quelques années (2019-2020), Lc0 atteint un niveau comparable. Aujourd’hui, Lc0 et Stockfish s’échangent la première place dans les championnats d’engins.

Stockfish NNUE (2020). Les développeurs de Stockfish, voyant que le deep learning surpasse parfois leur approche classique, intègrent une NNUE (Efficiently Updatable Neural Network) à Stockfish 12. Le résultat : Stockfish 12 saute de ~80 Elo, devient à nouveau le numéro un mondial. Aujourd’hui, Stockfish utilise un mélange entre la fonction d’évaluation classique (héritage des années 2000) et l’évaluation neuronale.

L’écosystème des engins a donc fusionné les deux approches. Plus de pure brute force. Plus de pur deep learning. Une combinaison.

L’impact sur les humains

L’arrivée d’AlphaZero a aussi changé la pratique humaine.

De nouvelles ouvertures explorées. AlphaZero joue souvent des ouvertures jugées « douteuses » par les humains (poussées de pions agressives, sacrifices d’aile précoces). Plusieurs de ces ouvertures sont depuis intégrées dans le répertoire des grands maîtres. Magnus Carlsen est l’un des premiers à avoir adopté des idées AlphaZero.

De nouvelles évaluations positionnelles. AlphaZero préfère systématiquement la mobilité des pièces sur le matériel. Cette esthétique influence les humains : le sacrifice positionnel à long terme, autrefois rare, devient plus fréquent au sommet.

Les livres récents. Game Changer: AlphaZero’s Groundbreaking Chess Strategies and the Promise of AI (Matthew Sadler et Natasha Regan, 2019) est devenu un best-seller des livres d’échecs. Il analyse 200 parties d’AlphaZero et tire des leçons applicables à la pratique humaine.

Au-delà des échecs

AlphaZero n’est pas qu’un programme d’échecs. C’est une démonstration méthodologique.

Le même algorithme (sans modification) a été appliqué au shogi (échecs japonais) et au go. Dans les trois cas, le programme atteint le niveau humain élite en quelques heures d’entraînement. C’est le premier programme généraliste sur les jeux à information complète.

DeepMind a depuis appliqué la même approche à des problèmes hors jeux : AlphaFold pour la prédiction de structure des protéines (2020), problème de chimie biologique qui a valu un prix Nobel à Demis Hassabis et John Jumper en 2024. Les méthodes inventées sur les échecs ont contribué directement à des découvertes biomédicales.

Pour aller plus loin

Pour les autres étapes de l’histoire des échecs informatiques, voir Deep Blue contre Kasparov (1997) et Stockfish. Pour comprendre la place des moteurs dans la pratique moderne, voir comment progresser aux échecs et plateformes en ligne (qui intègrent désormais Stockfish/Lc0 dans leur analyse). Pour les grands maîtres qui ont adopté les idées AlphaZero, voir Magnus Carlsen. Le glossaire des échecs couvre les concepts liés.