Apprentissage d'actions temporellement abstraites
Par
Pierre-Luc Bacon
Stanford AI for Human Impact Lab
Mardi 19 mars, 10:30-12:00, Salle 3195, Pavillon André-Aisenstadt
Université de Montréal, 2920 Chemin de la Tour
Résumé:
Comment peut-on arriver à planifier et prendre des décisions complexes ayant des conséquences à long terme ? Cette question se pose depuis les débuts de l'intelligence artificielle : des premiers exploits d'Arthur Samuel en IA dans le jeu de dames, en passant par les algorithmes de planification classiques des années 70, jusqu'aux progrès les plus récents en apprentissage par renforcement. Une solution efficace trouvée à ce problème consiste à éliminer les détails du « comment » par un processus d'abstraction temporel. Bien que nous sachions comment planifier et apprendre à partir d'actions temporellement abstraites données, la question de comment découvrir ces abstractions automatiquement s'est avérée plus difficile. Dans cette présentation, je vais développer les idées maîtresses derrière l'architecture « option-critic » (Bacon et al., 2017) ayant permis une des premières percée sur ce problème en apprentissage par renforcement. Je vais ensuite expliquer comment la notion de « rationalité limitée » de Simon (1957) peut nous aider régulariser les solutions apprises par notre approche. Cette perspective sera mise en correspondance avec le problème de construction de bons préconditionneurs de matrices en algèbre linéaire par la notion de « matrix splitting » de Varga (1962). Je vais finalement conclure avec les plans d'une nouvelle approche permettant de planifier dans un continuum de « buts » à différentes portées dans le temps : un problème d'optimisation à deux niveaux avec un point fixe au plus bas niveau.
Biographie :
Pierre-Luc Bacon a obtenu son doctorat en science informatique en 2018 sous la supervision de Doina Precup à l'Université McGill. Il est actuellement chercheur postdoctoral dans le « Stanford AI for Human Impact Lab » sous la direction d'Emma Brunskill. Ses efforts de recherche en apprentissage par renforcement se concentrent autour du problème d'apprentissage sur de longues portées dans le temps basé sur le cadre théorique des actions temporellement abstraites de Sutton et al. (1999).
Website: http://pierrelucbacon.com.