Soutenance de doctorat de Junjie Yang : Amélioration des méthodes de régression par substitution pour la prédiction structurée : une odyssée avec des fonctions de coût
Télécom Paris, 19 place Marguerite Perey F-91120 Palaiseau [getting there], amphi 2 et en visioconférence
Titre original : Enhancing surrogate regression methods for structured prediction: an odyssey with loss functions
Jury
- Florence d’Alché-Buc, Professor, Télécom Paris, France (Directrice de thèse)
- Thomas Bonald, Professor, Télécom Paris, France (Examinateur)
- Claire Boyer, Professor, Université Paris-Saclay, France (Examinateur)
- Carlo Ciliberto, Associate Professor, University College London, United Kingdom (Rapporteur)
- Caio Corro, Associate Professor, INSA Rennes, France (Examinateur)
- Nicolas Courty, Professor, Université Bretagne Sud / IRISA, France (Rapporteur)
- Matthieu Labeau, Associate Professor, Télécom Paris, France (Co-encadrant)
- Titouan Vayer, Researcher, INRIA Lyon, France (Examinateur)
Résumé
L’apprentissage automatique, un domaine en rapide évolution à l’intersection des mathématiques et de l’informatique, a transformé à la fois la recherche scientifique et les applications du monde réel. Au-delà de la classification et de la régression, il permet désormais d’aborder la prédiction structurée, permettant des avancées majeures dans la traduction automatique, l’identification des métabolites et la prédiction de la structure des protéines, pour ne citer que quelques exemples.
en raison de son vaste espace de sortie combinatoire. Les méthodes de régression par substitution, telles que « implicit loss embedding » (ILE) et la régression à noyau de sortie (OKR), abordent cette problématique en projetant les sorties structurées dans un espace de Hilbert, transformant ainsi la SP en un problème d’apprentissage à valeurs vectorielles. Cependant, elles rencontrent encore plusieurs défis : (i) leur performance dépend fortement de la conception complexe de la fonction de coût, (ii) la nature implicite ou de dimension infinie des espaces de substitution limite l’intégration des réseaux de neurones, et (iii) l’inférence reste coûteuse en calcul. Cette thèse vise à améliorer les méthodes de régression de substitution pour surmonter ces limitations. À cette fin, nous exploitons plusieurs familles d’outils mathématiques, notamment le transport optimal (OT), les méthodes à noyaux et l’apprentissage contrastif. Nous abordons tout d’abord la prédiction structurée pour les graphes étiquetés, en tirant parti des récents progrès dans les distances de transport optimal. Nous introduisons la distance « fused network Gromov-Wasserstein » (FNGW), qui intègre les caractéristiques des arêtes dans les calculs. En utilisant FNGW comme fonction de coût dans le cadre ILE, nous développons ILE-FNGW, générant des prédictions sous forme de barycentres FNGW. Pour remédier à la complexité de l’inférence, nous proposons Any2Graph-FNGW, un modèle basé sur un réseau de neurones qui prédit directement dans un espace de graphes détendu, simplifiant ainsi l’inférence grâce à un décodage efficace. Ensuite, en nous appuyant sur OKR, nous introduisons « deep sketched output kernel regression » (DSOKR), un nouveau cadre qui étend les réseaux de neurones en tant qu’espaces d’hypothèses substituts pour des sorties structurées générales. DSOKR construit un sous-espace de dimension finie d’un espace de Hilbert à noyau reproduisant (RKHS) à l’aide d’une technique de projections aléatoires. Cette approche conserve la flexibilité en permettant l’utilisation de n’importe quelle architecture neuronale pour le traitement des entrées, tout en ne nécessitant que la prédiction des coefficients d’une base de dimension finie dans la couche de sortie. Enfin, nous introduisons un nouveau cadre pour la SP, « explicit loss embedding » (ELE), qui remplace les fonctions de coût prédéfinies pour les données structurées par un coût différentiable et apprenable. Ce coût est défini comme la distance euclidienne quadratique entre des représentations vectorielles obtenues par des réseaux de neurones et est appris directement à partir des données de sortie grâce à l’apprentissage contrastif. Cette nouvelle fonction de coût remplit un double objectif : durant l’apprentissage, elle formule un problème de régression substitut de dimension finie, et durant l’inférence, elle définit un objectif de décodage différentiable. Nous évaluons toutes les méthodes proposées sur des tâches de prédiction supervisée de graphes, mettant en avant les caractéristiques distinctes de chaque approche de SP.