Deux informaticiens de pionnière ont remporté le prix de la Turing 2024 pour leur travail dans l’apprentissage du renforcement, une discipline dans laquelle les machines apprennent grâce à une approche d’essai et d’erreur d’essai basée sur les récompenses qui leur permet de s’adapter à une contrainte ou à une dynamique.
Andrew G. Barto, professeur émérite à l’Université du Massachusetts Amherst; Et Richard S. Sutton, professeur à l’Université de l’Alberta, a développé des algorithmes et des théories clés à travers une série séminale d’articles commençant dans les années 1980. Cela comprenait le travail que nous avons un renforcement technique appelé apprentissage temporal différent; Le duo a publié par la suite un manuel académique intitulé Renforcement Learning: An Introduction.
Le mathématicien estimé Alan Turing (photo ci-dessus), après qui le prix Turing est nommé, a également produit un article dans les années 1950 appelé machinerie informatique et intelligence qui remet en question les ordinateurs peut penser et aborder des concepts similaires autour de l’apprentissage de l’expérience.
Au cours des dernières années, l’apprentissage par renforcement a reçu plus d’attention après que Google Deepmind utilise la technique pour construire une IA qui a vaincu les meilleurs joueurs alphago du monde. Et au cours des derniers mois, Deepseek, AI chinois, a fait la une des journaux de son modèle de raisonnement R1 qui change la donne, qui a appuyé le ciel sur l’apprentissage du renforcement pour créer des modèles de base plus rentables.

‘Prix Nobel pour l’informatique’
Le prix Turing, administré par l’Association for Computing Machinery (ACM), a souvent été surnommé le «prix Nobel de l’informatique». Cependant, le prix Nobel lui-même a empiété dans le domaine informatique, en particulier l’IA; Geoff Hinton et John Hopfield ont remporté le prix Nobel de physique pour leur travail dans l’IA fondamentale l’année dernière. Cela a été suivi peu de temps après par Demis Hassabis de Deepmind et John Jumper qui portait le prix Nobel de chimie pour leur travail sur Alphafold.
«Des domaines de recherche passants des sciences cognitives et de la psychologie aux neurosciences ont inspiré le développement de l’apprentissage du renforcement, qui a jeté les fondements de certaines des avancées les plus importantes de l’IA et nous a donné un aperçu plus important du fonctionnement du cerveau», a déclaré le président de l’ACM, Yannis Ioannidis. «Le travail de Barto et Sutton n’est pas une pierre de steppe dont nous sommes maintenant partis. L’apprentissage par renforcement continue de croître et offre un grand potentiel pour de nouvelles progrès dans l’informatique et de nombreuses autres disciplines. Il convient que nous les honorons du prix le plus prestigieux de notre domaine. «
Les autres pionniers notables de l’IA pour remporter le prix Turing incluent le scientifique en chef de l’IA de Meta, Yann LeCun Lecun, qui a reçu le prix en 2018 aux côtés de Geoff Hinton et Yoshua Bengio pour leur travail sur les réseaux neuronaux profonds.
Barto et Sutton partageront le prix en espèces de 1 million de dollars, qui a reçu le soutien de Google.