Agenda

Soutenance de doctorat d’Emilia Siviero : Apprentissage Statistique pour les Données Spatiales: théorie et algorithmes

Lundi 02 décembre 2024 à 09h30 (heure de Paris) à Télécom Paris

Télécom Paris, 19 place Marguerite Perey F-91120 Palaiseau [y aller], amphi Rose Dieng et en visioconférence

Jury

  • Stephan Clémençon, Télécom Paris, Directeur de thèse
  • Céline Lévy-Leduc, Université Paris Cité, Rapportrice
  • Christophe Denis, Université Paris 1 Panthéon-Sorbonne, Rapporteur
  • Florence D’Alché-Buc, Télécom Paris, Examinatrice
  • Viet-Chi Tran, Université Gustave Eiffel, Examinateur
  • Odalric-Ambrym Maillard, Inria Lille – Nord Europe, Examinateur

Résumé

À l’époque des grandes données, l’accès à des ensembles de données massives, présentant une structure de dépendance spatiale possiblement complexe, augmente de plus en plus. Dans cette thèse, notre objectif est de surmonter les enjeux liés à la structure de dépendance des données spatiales (et spatio-temporelles).

Suite

En un premier temps, nous analysons le Krigeage simple, problème clé en Géostatistique, en adoptant le point de vue de l’apprentissage statistique, i.e. en effectuant une analyse prédictive non paramétrique à partir d’un échantillon fini. Dans ce contexte, la théorie probabiliste standard de l’apprentissage statistique ne s’applique pas directement. De nouvelles garanties sur la capacité de généralisation du prédicteur par Krigeage doivent être établies. Étant donné une réalisation d’un champ aléatoire de covariance inconnue, observé en un nombre fini de sites du domaine spatial, l’objectif est de prédire les valeurs inconnues du champ aléatoire à n’importe quel point du domaine, tout en minimisant le risque quadratique. En raison du caractère non indépendant et non identiquement distribué des données d’apprentissage, déterminer la capacité de généralisation des minimiseurs de risque empiriques est un défi complexe. Dans la première partie de cette thèse, nous présentons des bornes non asymptotiques pour l’excès de risque d’une règle prédictive plug-in imitant le vrai minimiseur. Ces bornes sont établies pour des processus gaussiens stationnaires avec une fonction de covariance isotrope, observés lors de la phase d’apprentissage à des emplacements formant une grille régulière. Nos résultats théoriques, ainsi que le rôle joué par les conditions techniques requises pour les définir, sont illustrés par diverses expériences numériques, sur des données simulées ainsi que sur des données réelles, et ouvrent, nous l’espérons, la voie à de nouveaux développements dans l’apprentissage statistique basé sur des données spatiales.
En un second temps, nous nous concentrons sur les processus de Hawkes spatio-temporels. De nombreux ensembles de données spatio-temporelles, en sociologie, épidémiologie ou sismologie, par exemple, présentent des caractéristiques d’auto-excitation: les événements ont tendance à se regrouper ou à déclencher une série d’événements successifs, ou encore les deux à la fois. Dans ce contexte, les processus de Hawkes spatio-temporels  se révèlent être un outil puissant grâce à leur capacité à capturer ces comportements avec précision. Cependant, traiter efficacement le grand volume de données actuellement disponible s’avère difficile. La deuxième partie de cette thèse vise à développer une technique d’inférence paramétrique rapide et flexible pour obtenir les paramètres des fonctions noyaux impliquées dans la fonction d’intensité d’un processus de Hawkes spatio-temporel. Notre approche statistique combine trois ingrédients clés : (1) nous considérons des fonctions noyaux à support, (2) le domaine spatio-temporel est discrétisé de manière appropriée, et (3) des calculs préalables (approximatifs) sont utilisés. La technique d’inférence que nous proposons consiste en un solveur rapide et statistiquement précis. En complément de la description des aspects algorithmiques, des expériences numériques ont été menées sur des données spatio-temporelles, tant synthétiques que réelles, apportant des preuves empiriques solides de la pertinence de la méthodologie proposée.
.