Soutenance de thèse - Martin Weyssow
Bonjour à tous,
Vous êtes cordialement invité.e.s à la soutenance de thèse de Martin Weyssow, le Lundi 9 septembre à 9 h.
Title: Aligning Language Models to Code: Exploring Efficient, Temporal, and Preference Alignment for Code Generation.
Date: Lundi 9 septembre de 9:00 h à 12:00 h.
Location: Salle 3195, Pavillon André Aisenstadt
Jury
Président | Jian-Yun Nie |
Directeur de recherche | Houari Sahraoui |
Représentante du doyen | Lyne Da Sylva (EBSI) |
Membre régulier | Benoit Baudry |
Examinateur externe | Martin Monperrus (KTH, Suède) |
Résumé:
Les approches précédentes d'adaptation des modèles de langue pré-entraînés et de grande taille (PLMs, LLMs) pour la génération de code se sont principalement concentrées sur l'amélioration de l'efficacité grâce à des méthodes non-paramétriques ou du fine-tuning complet sur des ensembles de données et des benchmarks spécifiques. Cette focalisation sur l'efficacité du modèle néglige souvent la considération d'aspects clés tels que l'optimisation des coûts de fine-tuning, la préservation des connaissances antérieures, et l'alignement avec les exigences non fonctionnelles. Ces objectifs sont explorés dans trois articles clés, qui constituent les principales contributions de cette thèse. Dans le premier article, nous montrons empiriquement que les techniques de fine-tuning efficaces en paramètres (PEFTs) comme LoRA et QLoRA surpassent le few-shot learning, permettant un fine-tuning efficace des grands LLMs sur du hardware limité. Le deuxième article explore le fine-tuning continu des PLMs de code sur des ensembles de données séquentiels, en abordant l'oubli catastrophique avec des méthodes basées sur la régularisation et la répétition pour équilibrer l'efficacité des tâches et la rétention des connaissances. Dans le troisième article, nous démontrons que l'apprentissage par renforcement via AI feedback (RLAIF) améliore l'alignement des LLMs avec les préférences des utilisateurs lors de la génération de code, tout en améliorant également la correctitude fonctionnelle.
Abstract:
Previous approaches to tuning pre-trained and large language models (PLMs, LLMs) for code generation have primarily focused on boosting effectiveness through parameter-free methods or full fine-tuning on specific datasets and benchmarks. However, this narrow focus often neglects key aspects such as optimizing fine-tuning costs, preserving prior knowledge, and aligning with non-functional requirements. These objectives are explored in three key articles, which form the core contributions of this thesis. In the first article, we empirically show that parameter-efficient fine-tuning techniques (PEFTs) like LoRA and QLoRA outperform few-shot learning, enabling effective fine-tuning of large LLMs on limited hardware. The second article explores continual fine-tuning of code PLMs on sequential datasets, addressing catastrophic forgetting with replay- and regularization-based methods to balance task effectiveness and knowledge retention. In the third article, we demonstrate that reinforcement learning from AI feedback (RLAIF) helps improve the alignment of LLMs with user preferences when generating code while also improving functional correctness.