Passer au contenu

/ Département d'informatique et de recherche opérationnelle

Je donne

Rechercher

Soutenance de thèse - Adam Ibrahim

Dear all / Bonjour à tous,

Vous êtes cordialement invité.e.s à la soutenance de thèse d'Adam Ibrahim,

le mardi 11 Juin, à 14h00 (mode hybride).


Title: The Shifting Landscape of Data: Learning to Tame Distributional Shifts

Date: June, 11th, 2024, 2 - 5 pm EST

Location: Auditorium 2 - 6650 rue Saint Urbain

Link: Lien zoom

 

Jury

PrésidentRabusseau, Guillaume
DirecteurMitliagkas, Ioannis
Co-directeur Rish, Irina 
Membre du jury Lacoste-Julien, Simon 
Examinateur externeRazvan, Pascanu

 

Abstract

 

Machine learning (ML) models achieve remarkable performance on tasks they
are trained for. However, they often are sensitive to shifts in the data
distribution, which may lead to unexpected behaviour. This can happen when
the data distribution encountered during deployment differs from that used
for training, leading to considerable degradation of performance. Worse,
attackers may also induce such shifts to fool machine learning models.
Finally, this can even happen when training sequentially on different data
distributions. These *distributional shifts *are pervasive in ML, hindering
the fairness, reliability, safety and efficiency of machine learning
models. This thesis is focused on understanding and improving the
robustness and adaptation of ML models to distributional shifts,
encompassing both theoretical and experimental work.

First, we investigate the fundamental limits of differentiable
multiobjective optimisation. This investigation is important because works
on distributional shifts often rely on game theoretical formulations. We
provide new lower bounds on the speed of convergence of a large class of
methods, along with novel condition numbers that help assess the difficulty
to optimise classes of games, and explain the potential for fast
convergence even without strong convexity or strong concavity.

Second, we address the lack of adversarial robustness against multiple
attack types, a common limitation of state-of-the-art methods. We propose a
domain generalisation-inspired approach, using Risk Extrapolation (REx) to
promote robustness across a range of attacks. Our method achieves
performance superior to existing baselines for both seen and novel types of
attacks.

Finally, we tackle the challenges of continual pretraining for large
language models (LLMs). These models face a trade-off: either they
catastrophically forget previous knowledge when updated on new data, or
they require computationally expensive full retraining. We demonstrate that
a combination of learning rate re-warming, re-decaying, and the replay of
previous data allows LLMs to continually learn from new distributions while
preserving past knowledge. This approach matches the performance of full
retraining, but at a fraction of the computational cost.

Overall, this thesis contributes impactful considerations towards improving
robustness and adaptation to distributional shifts. These contributions
open promising avenues for addressing real-world ML challenges across
multiobjective optimisation, adversarial defense, and continual learning of
large language models.

*Résumé:*

Les modèles d'apprentissage automatique (ML) atteignent des performances
remarquables sur les tâches pour lesquelles ils sont entraînés. Cependant,
ils sont souvent sensibles aux changements dans la distribution des
données, ce qui peut nuir à leur fiabilité. Cela peut se produire lorsque
la distribution des données rencontrées au déploiement diffère de celle vue
pendant l'entraînement, entraînant une dégradation considérable des
performances. Pire encore, les attaquants peuvent également induire de tels
changements afin d'induire les modèles d'apprentissage automatique en
erreur. Enfin, cela peut même arriver si l'entraînement est effectué
séquentiellement sur des distributions de données différentes. Ces *changements
de distribution* sont omniprésents en ML, nuisant à l'équité, à la
fiabilité, à la sécurité et à l'efficacité des modèles d'apprentissage
automatique. Cette thèse se concentre sur la compréhension et
l'amélioration de la robustesse et de l'adaptation des modèles de ML aux
changements de distribution, englobant à la fois des travaux théoriques et
expérimentaux.

Tout d'abord, nous étudions les limites fondamentales de l'optimisation
différentiable à plusieurs objectifs. Une meilleure compréhension de ces
limites est importante car les travaux sur les changements de distribution
reposent souvent sur des formulations de la théorie des jeux. Nous
fournissons de nouvelles bornes inférieures sur la vitesse de convergence
d'une large classe de méthodes, ainsi que de nouvelles métriques de
conditionnement qui aident à évaluer la difficulté d'optimiser des classes
de jeux, et expliquent le potentiel de convergence rapide, même sans forte
convexité ou forte concavité.

Deuxièmement, nous abordons le manque de robustesse aux attaques
adversarielles contre plusieurs types d'attaques, une limitation courante
des méthodes de pointe. Nous proposons une approche inspirée de la
généralisation de domaine, utilisant l'extrapolation des risques (REx) pour
promouvoir la robustesse à plusieurs attaques. Notre méthode atteint des
performances supérieures aux bases de référence existantes, que les
attaques aient été vues ou non lors de l'entraînement.

Enfin, nous nous intéressons aux défis du pré-entraînement continu pour les
grands modèles de langage (LLM). Ces modèles sont confrontés à un
compromis: soit ils oublient de manière catastrophique les connaissances
antérieures lorsqu'ils sont mis à jour sur de nouvelles données, soit ils
nécessitent un réentraînement complet coûteux en calcul. Nous démontrons
qu'une combinaison de réchauffement et de re-décroissance du taux
d'apprentissage, et de réutilisation des données précédemment utilisées
permet aux LLM d'apprendre continuellement à partir de nouvelles
distributions tout en préservant leurs performances sur les données
auparavant apprises. Cette approche permet d'atteindre les performances
d'un réentraînement complet, mais à une fraction du coût en calcul.

Dans l'ensemble, cette thèse apporte des considérations importantes pour
améliorer la robustesse et l'adaptation aux changements de distribution.
Ces contributions ouvrent des voies prometteuses pour relever les défis du
ML du monde réel dans l'optimisation multiobjectif, la défense contre les
adversaires et l'apprentissage continu des grands modèles de langage.