Né en 1957, dans l’Ohio, Richard Sutton a été formé à l’université Stanford, où il obtient un Bachelor of Arts en psychologie en 1978, puis à l’université du Massachusetts, dont il ressort docteur en informatique en 1984. Il est à l’origine du développement de concepts fondamentaux comme le Temporal Difference learning et les méthodes de gradient, qui permettent aux machines d’ajuster progressivement leurs décisions à partir de signaux de récompense.
Le Temporal Difference learning
Pendant ses études, Richard Sutton s’intéresse à la façon dont l’intelligence fonctionne. Il constate que les capacités du cerveau se renforcent par interaction constante avec l’environnement, ce qui lui permet d’apprendre en continu par un jeu de comparaison entre les réussites et les erreurs.
À partir de cette base, il rédige, à l’université du Massachusetts, la thèse « Temporal Credit Assignment in Reinforcement Learning », qui pose les bases du Temporal Difference learning. Alors que les systèmes de raisonnement reposaient jusqu’ici sur des processus d’apprentissage complexes, cette méthode fonctionne grâce à un algorithme de prédiction sans modèle, qui apprend en s’appuyant sur l’estimation d’une double récompense, l’une immédiate, l’autre l’instant suivant. En cas de décalage, l’algorithme ajuste sa prédiction, et améliore ainsi progressivement sa précision.
Richard Sutton fait partie des principaux contributeurs aux progrès de l’IA. © Amii, YouTube
Les méthodes de gradient
Autre apport essentiel de Richard Sutton, les méthodes de gradient, qui élargissent le champ du Temporal Difference learning, permettent aux agents de s’auto-corriger en apprenant à partir des données. Concrètement, le gradient est un vecteur qui indique à la machine comment les paramètres doivent être modifiés à partir d’une prédiction qu’elle a faite. Cette méthode offre la possibilité aux réseaux de neurones et aux modèles de machine learning de faire moins d’erreurs.
En complément, il développe, en 1990, l’architecture Dyna, qui intègre apprentissage, planification et réaction dans un système unifié d’apprentissage par renforcement pour permettre aux agents d’améliorer leurs performances en combinant expériences réelles et simulées.
Un apport fondamental à l’IA
Professeur à l’université de l’Alberta, chercheur chez DeepMind et chez Keen Technologies, créateur du Reinforcement Learning Artificial Intelligence Lab, co-auteur avec Andrew Barto du livre de référence « Reinforcement Learning: An Introduction », Richard Sutton fait partie des informaticiens qui ont le plus contribué à faire progresser le comportement des machines.
En 2024, il reçoit le prix Turing, l’équivalent du Nobel pour l’informatique, en récompense des travaux qu’il a mené pour poser les bases conceptuelles et algorithmiques de l’apprentissage par renforcement.