Passer au contenu

/ Département d'informatique et de recherche opérationnelle

Je donne

Rechercher

Navigation secondaire

Apprentissage d'actions temporellement abstraites - Pierre-Luc Bacon

Apprentissage d'actions temporellement abstraites

Par

Pierre-Luc Bacon

Stanford AI for Human Impact Lab

 

Mardi 19 mars, 10:30-12:00Salle 3195, Pavillon André-Aisenstadt

    Université de Montréal, 2920 Chemin de la Tour

Résumé:

Comment peut-on arriver à planifier et prendre des décisions complexes ayant des conséquences à long terme ? Cette question se pose depuis les débuts de l'intelligence artificielle : des premiers exploits d'Arthur Samuel en IA dans le jeu de dames, en passant par les algorithmes de planification classiques des années 70, jusqu'aux progrès les plus récents en apprentissage par renforcement. Une solution efficace trouvée à ce problème consiste à éliminer les détails du « comment » par un processus d'abstraction temporel. Bien que nous sachions comment planifier et apprendre à partir d'actions temporellement abstraites données, la question de comment découvrir ces abstractions automatiquement s'est avérée plus difficile. Dans cette présentation, je vais développer les idées maîtresses derrière l'architecture « option-critic » (Bacon et al., 2017) ayant permis une des premières percée sur ce problème en apprentissage par renforcement. Je vais ensuite expliquer comment la notion de « rationalité limitée » de Simon (1957) peut nous aider régulariser les solutions apprises par notre approche. Cette perspective sera mise en correspondance avec le problème de construction de bons préconditionneurs de matrices en algèbre linéaire par la notion de « matrix splitting » de Varga (1962). Je vais finalement conclure avec les plans d'une nouvelle approche permettant de planifier dans un continuum de « buts » à différentes portées dans le temps : un problème d'optimisation à deux niveaux avec un point fixe au plus bas niveau.

 

Biographie :

Pierre-Luc Bacon a obtenu son doctorat en science informatique en 2018 sous la supervision de Doina Precup à l'Université McGill. Il est actuellement chercheur postdoctoral dans le « Stanford AI for Human Impact Lab » sous la direction d'Emma Brunskill. Ses efforts de recherche en apprentissage par renforcement se concentrent autour du problème d'apprentissage sur de longues portées dans le temps basé sur le cadre théorique des actions temporellement abstraites de Sutton et al. (1999).

Website: http://pierrelucbacon.com.