Passer au contenu

/ Department of Computer Science and Operations Research

Je donne

Rechercher

Navigation secondaire

Soutenance de thèse - Alexandre Piché

Bonjour à tous,


Vous êtes cordialement invité.e.s à la soutenance de thèse d'Alexandre
Piché, le 29 août, 9h30 à 12h30 (mode hybride).


Title: Searching for Q*

Date: 29 Août 2024 de 9:30 à 12:30 EST

Location: Auditorium 1, MILA

 

Jury

Président rapporteur
Bacon, Pierre-Luc
Directeur de recherchePal, Christopher
Membre régulier
Chandar Anbil, Sarath
Examinateur externe
Guez, Arthur

 

Abstract

Les travaux dans cette thèse peuvent être vue à travers le prisme commun de la “recherche de Q*” et visent à mettre en évidence l’efficacité de la combinaison des systèmes d’apprentissage par renforcement (RL) profond et la planification. Le RL profond nous permet d’apprendre: 1) des politiques riches à partir desquelles nous pouvons échantillonner des actions futures potentielles, et 2) des fonctions Q précises permettant à l’agent d’évaluer l’impact potentiel de ses actions avant de les prendre. La planification permet à l’agent d’utiliser le calcul pour améliorer sa politique en évaluant plusieurs séquences potentielles d’actions futures et en sélectionnant la plus prometteuse. Dans cette thèse, nous explorons différentes façons de combiner ces deux composantes afin qu’elles se renforcent mutuellement et nous permettent d’obtenir des agents plus robustes.

La première contribution de cette thèse cadre le RL et la planification comme un problème d’inférence. Ce cadre nous permet d’utiliser des techniques de Monte Carlo séquentiel pour approximer une distribution sur les trajectoires planifiées optimales. La deuxième contribution met en évidence une connexion entre les réseaux cibles utilisés dans l’apprentissage Q profond et la régularisation fonctionnelle, ce qui nous conduit à une régularisation des fonctions Q plus flexibles et “propres”. La troisième contribution simplifie le problème de RL via l’apprentissage supervisé en modélisant directement le retour futur comme une distribution, permettant à l’agent d’échantillonner des retours conditionnels à l’état présent plutôt qu’être un hyper paramètre spécifique à chaque environnement. Enfin, la quatrième contribution propose un nouvel algorithme d’optimisation itératif basé sur l’auto-évaluation et l’auto-amélioration pour les grands modèles de langage, cet algorithme est utilisé pour réduire le taux d’hallucination des modèles sans compromettre leurs utilités.