Passer au contenu

/ Département d'informatique et de recherche opérationnelle

Je donne

Rechercher

Soutenance de thèse - Martin Weyssow

Bonjour à tous,


Vous êtes cordialement invité.e.s à la soutenance de thèse de Martin Weyssow, le Lundi 9 septembre à 9 h.


Title: Aligning Language Models to Code: Exploring Efficient, Temporal, and Preference Alignment for Code Generation.

Date: Lundi 9 septembre de 9:00 h à 12:00 h.

Location:  Salle 3195, Pavillon André Aisenstadt

 

Jury

Président
Jian-Yun Nie
Directeur de rechercheHouari Sahraoui
Représentante du doyenLyne Da Sylva (EBSI)
Membre régulier
Benoit Baudry
Examinateur externe
Martin Monperrus (KTH, Suède)

 

Résumé:

 

Les approches précédentes d'adaptation des modèles de langue pré-entraînés et de grande taille (PLMs, LLMs) pour la génération de code se sont principalement concentrées sur l'amélioration de l'efficacité grâce à des méthodes non-paramétriques ou du fine-tuning complet sur des ensembles de données et des benchmarks spécifiques. Cette focalisation sur l'efficacité du modèle néglige souvent la considération d'aspects clés tels que l'optimisation des coûts de fine-tuning, la préservation des connaissances antérieures, et l'alignement avec les exigences non fonctionnelles.
Ces objectifs sont explorés dans trois articles clés, qui constituent les principales contributions de cette thèse. Dans le premier article, nous montrons empiriquement que les techniques de fine-tuning efficaces en paramètres (PEFTs) comme LoRA et QLoRA surpassent le few-shot learning, permettant un fine-tuning efficace des grands LLMs sur du hardware limité.
Le deuxième article explore le fine-tuning continu des PLMs de code sur des ensembles de données séquentiels, en abordant l'oubli catastrophique avec des méthodes basées sur la régularisation et la répétition pour équilibrer l'efficacité des tâches et la rétention des connaissances.
Dans le troisième article, nous démontrons que l'apprentissage par renforcement via AI feedback (RLAIF) améliore l'alignement des LLMs avec les préférences des utilisateurs lors de la génération de code, tout en améliorant également la correctitude fonctionnelle.

 

Abstract:

 

Previous approaches to tuning pre-trained and large language models (PLMs, LLMs) for code generation have primarily focused on boosting effectiveness through parameter-free methods or full fine-tuning on specific datasets and benchmarks. However, this narrow focus often neglects key aspects such as optimizing fine-tuning costs, preserving prior knowledge, and aligning with non-functional requirements.
These objectives are explored in three key articles, which form the core contributions of this thesis.
In the first article, we empirically show that parameter-efficient fine-tuning techniques (PEFTs) like LoRA and QLoRA outperform few-shot learning, enabling effective fine-tuning of large LLMs on limited hardware.
The second article explores continual fine-tuning of code PLMs on sequential datasets, addressing catastrophic forgetting with replay- and regularization-based methods to balance task effectiveness and knowledge retention.
In the third article, we demonstrate that reinforcement learning from AI feedback (RLAIF) helps improve the alignment of LLMs with user preferences when generating code while also improving functional correctness.