Soutenance de doctorat de Gabriel Damay : Arbres de décisions dynamiques : contributions à l’apprentissage automatique interprétable
Télécom Paris, 19 place Marguerite Perey F-91120 Palaiseau [y aller], amphi Rose Dieng-Kuntz et en visioconférence
Titre intégral : Arbres de décisions dynamiques et embedding de graphes basés sur les communautés: contributions à l’apprentissage automatique interprétable
Jury
- M. Matthieu LATAPY, Directeur de recherche, CNRS; Rapporteur
- M. Marc LELARGE, Directeur de recherche, INRIA-ENS; Rapporteur
- M. Jesse READ, Professeur, École Polytechnique; Examinateur
- M. Fragkiskos MALIAROS, Professeur Associé, CentraleSupélec; Examinateur
- M. Vincent LABATUT, Maître de conférence, Avignon Université; Examinateur
- Mme Marine LE MORVAN, Chargée de recherche, INRIA Saclay; Examinatrice
- M. Mauro SOZIO, Professeur, Télécom Paris; Directeur de thèse
Résumé
L’apprentissage automatique est le domaine des sciences informatiques dont le but est de créer des modèles et des solutions à partir de données sans savoir exactement les instructions qui dirigent intrinsèquement ces modèles. Ce domaine a obtenu des résultats impressionnants mais il est le sujet d’inquiétudes en raison notamment de l’impossibilité de comprendre et d’auditer les modèles qu’il produit. L’apprentissage automatique interprétable propose une solution à ces inquiétudes en créant des modèles qui sont interprétables de façon inhérante. Cette thèse contribue à l’apprentissage automatique interprétable de deux façons.
Dans un premier temps, nous étudions les arbres de décision. Il s’agit d’un groupe de méthodes d’apprentissage automatique très connu et qui est interprétable par la façon même dont il est conçu. Cependant, les données réelles sont souvent dynamiques et peu d’algorithmes existent pour maintenir un arbre de décision quand des données peuvent à la fois être ajoutées et supprimées de l’ensemble d’entrainement. Nous proposons un nouvel algorithme nommé FuDyADT pour résoudre ce problème.
Dans un second temps, nous étudions l’embedding de graphes. La technique appelée « embedding » est une technique d’apprentissage automatique très commune. Elle consiste à projeter les noeuds d’un graphe sur un espace vectoriel. Ce type de méthodes est cependant non-interprétable en général. Nous proposons un nouvel algorithme d’embedding appelé PaRFaItE, qui est basé sur la factorisation de la matrice de PageRank personnalisé. Cet algorithme est conçu pour que ses résultats soient interprétables.
Nous étudions chacun de ces algorithmes sur un plan à la fois théorique et expérimental. Nous montrons que FuDyADT est au minimum comparable aux algorithmes de l’état de l’art dans les conditions habituelles, tout en étant également capable de fonctionner dans des contextes inhabituels comme dans le cas où des données sont supprimées. Quant à PaRFaItE, il produit des dimensions d’embedding qui sont alignées avec les communautés du graphe, et qui sont donc interprétables.