Ils ont inventé l’intelligence artificielle : David Silver, père d’AlphaGo et génie de l’apprentissage automatique

Author:

Né en 1976, ce brillant informaticien britannique, formé au Christ’s College de Cambridge et à l’université de l’Alberta, se spécialise très tôt dans l’apprentissage par renforcement, avec l’objectif de concevoir des agents qui peuvent apprendre directement par essai‑erreur à partir de données brutes.

Ce faisant, il a posé les bases de méthodes qui combinent planification, apprentissage et recherche arborescente pour résoudre des problèmes séquentiels complexes, et permettre aux machines de devenir plus efficaces que leurs concepteurs dans l’exécution de tâches précises.

Le projet AlphaGo

Après avoir cofondé la société de jeux vidéo Elixir Studios, dont il sera le CTO  (Chief Technology Officer ou directeur technique) et le programmeur principal, David Silver est recruté par DeepMind en 2013 pour codiriger l’équipe spécialisée dans l’apprentissage par renforcement.

En s’appuyant sur la puissance de calcul et les architectures de deep learning, il travaille sur le projet AlphaGo qui vise à concevoir un agent capable de battre un humain dans une partie de go. Ce jeu était alors considéré comme un mur infranchissable pour l’IA car il était impossible pour les ordinateurs les plus puissants d’explorer toutes les suites de coups à l’avance.

Lire l’article

Pourtant, en 2016, la victoire d’AlphaGo sur Lee Sedol, champion du monde de la discipline, par un score écrasant de 4 parties à 1, démontre que des technologies d’intelligence artificielle sont désormais capables de surpasser les meilleurs humains dans des jeux de stratégie réputés inaccessibles aux machines.

Pour réussir cet exploit, AlphaGo combine un réseau de politique qui propose les coups les plus prometteurs, un réseau de valeur qui estime la probabilité de victoire à partir d’une position donnée, et une recherche arborescente de type Monte‑Carlo pour explorer efficacement les suites de coups. Dans un premier temps, le système est entraîné à partir de millions de parties déjà jouées, puis ses capacités sont améliorées grâce à l’auto‑jeu, où l’agent se confronte à lui‑même pour perfectionner sa stratégie.

AlphaZero, une IA qui travaille plus intelligemment. © Two Minutes Pappers

AlphaZero, une étape cruciale vers l’auto‑apprentissage pur

Après AlphaGo, David Silver travaille sur le projet AlphaGo Zero visant à concevoir un agent qui apprend à jouer au go uniquement à partir des règles du jeu, comme le ferait un humain. Le système, bien plus puissant que son prédécesseur, progresse en auto-améliorant sa politique et sa fonction de valeur au fil des parties, corrigeant ainsi mécaniquement ses propres erreurs.

Un cran plus loin, il met au point AlphaZero, une version généraliste d’AlphaGo Zero qui, en plus du go, est capable de jouer aux échecs et au shogi. Avec seulement 24 heures de pratique, et plusieurs dizaines de millions de parties jouées contre lui-même, le système est capable de battre les meilleurs programmes informatiques de ces trois disciplines, comme Stockfish pour les échecs ou Elmo pour le shogi.

Avec ces trois projets, David Silver a démontré qu’il était possible de concevoir des systèmes qui apprennent seuls des stratégies de haut niveau, ouvrant ainsi la voie à l’auto-apprentissage pur. En 2019, il a reçu l’ACM Prize in Computing pour sa contribution à l’apprentissage automatique. En 2021, il a été élu Fellow of the Royal Society pour ses travaux sur AlphaGo, puis Fellow de l’Association for the Advancement of Artificial Intelligence en 2022 pour les mêmes raisons. 

Leave a Reply

Your email address will not be published. Required fields are marked *