Nos étudiants remportent le Datathon X-Scor «Maîtriser les grands risques dans un monde en bouleversement»
mardi 16 mars 202180 étudiants ont participé au Datathon, en provenance de Polytechnique (40%), de l’ESCP (40%), de l’ESSEC, de HEC et de Télécom Paris. Chaque équipe était formée de quatre étudiants d’écoles différentes [en savoir plus sur le challenge].
Félicitations à Yohaï-Eliel Berreby et Sylvain Girard (étudiants en 2e année à Télécom Paris), Mathieu Chauvin (ESSEC) et Wael Ismail Mohamad (ESCP).
Yohaï-Eliel revient pour nous sur la participation de son équipe lauréate.
Comment avez-vous pris connaissance du Datathon ?
Sylvain et moi-même avons pris connaissance du datathon grâce à Thomas Houy en septembre 2020. De manière assez amusante, en voyant l’annonce, nous avons chacun pensé à proposer à l’autre de participer 🙂
Nous avions eu l’occasion de travailler ensemble par le passé, notamment dans le cadre de la cybersécurité (l’année dernière, nous avions été finalistes du WaveGame, un évènement cyber comprenant des CTFs organisé par WaveStone). Nous savions que nous ferions une bonne équipe… et nous n’avons pas été déçus.
En quoi a consisté votre participation (« Group 21 ») au Datathon ?
Tout d’abord, un peu de contexte : le datathon consistait à estimer des primes d’assurance pour le compte de SCOR SE, un leader mondial de la réassurance. À cette fin, SCOR nous a fourni des données relatives à chaque contrat, puis, dans un second temps, quelques mois après le début de la compétition, à chaque site assuré. De là, à nous de jouer !
Il nous a fallu analyser les données à notre disposition en comprenant leur signification, afin d’éliminer celles qui étaient redondantes ou sujettes à fausser nos prédictions, et de concentrer nos efforts sur celles qui, d’après nous, auraient la plus grande importance.
Pour ce qui est du choix du modèle, dès le début, nous avons décidé d’orienter nos efforts vers des gradient-boosted decision trees. Nous avons commencé par utiliser la bibliothèque XGBoost, puis nous avons migré vers CatBoost, une bibliothèque développée par Yandex, celle-ci offrant une meilleure précision d’après nos tests, et une ergonomie accrue.
Une fois les données comprises, il nous a fallu les transformer : c’était la phase de feature engineering, nécessaire pour qu’un modèle qui travaille, conceptuellement, sur un espace vectoriel de dimension finie, puisse exploiter utilement une donnée comme “secteur d’activité” ou “marché ciblé”. Là, un feedback loop court est essentiel : naissance d’une idée, implémentation, vérification de l’amélioration de l’efficacité du modèle… et on recommence !
Si de telles transformations s’avéraient relativement simples sur le premier ensemble de données, elles étaient beaucoup plus complexes quand il s’est agi d’intégrer les données relatives aux sites assurés mentionnées plus tôt. Dans un souci d’efficacité, nous avons ignoré la majorité d’entre elles, pour ne retenir que la position des sites et la valeur qui y était assurée. Nous avons utilisé ces informations pour calculer la distribution des biens de chaque client de par le monde, puis nous les avons croisées avec des données extérieures : 108 indicateurs issus du Global Innovation Index, permettant d’évaluer, pour chaque pays traité, sa stabilité politique, la qualité de ses infrastructures, la force de son marché, etc.
Quel prix avez-vous gagné ?
8000 euros à se partager, ainsi que le privilège de réaliser une seconde présentation devant l’Executive Committee de SCOR.
Quelles sont les perspectives de développement ?
Il s’agissait de notre tout premier projet de Data Science. Nous sommes respectivement dans les filières Cybersécurité et Économie (Sylvain), et dans la filière Systèmes Embarqués, dans le cadre d’une alternance centrée sur le développement logiciel et l’infrastructure (Yohaï-Eliel). La Data Science représente pour nous un domaine connexe à nos disciplines de prédilections : nous allons mener notre exploration de celui-ci de front avec nos principaux projets.
Maîtriser les grands risques dans un monde en bouleversement
SCOR, acteur majeur de l’assurance des grands risques industriels, et l’École polytechnique ont lancé un nouveau challenge sur le thème de la prévision des risques climatiques et industriels.
L’intensification des évènements climatiques extrêmes s’accélère : 2018, à l’instar de 2017, avait connu un nombre important de catastrophes naturelles au second semestre. Ce scenario s’est répété en 2019, avec notamment les typhons Faxai et Hagibis, qui ont fait des dégâts très importants au Japon. 2019 a été de fait la troisième année consécutive marquée par des catastrophes de grande ampleur.
L’objet de ce challenge a été, à partir de toutes les données accessibles, quelle qu’en soit leur origine et en faisant appel à l’inventivité des participants sur les données utilisables, d’explorer la capacité de méthodes alternatives à évaluer et maîtriser les grands risques, et d’en prédire le coût.
Les soutenances ont eu lieu le 11 mars 2021.
Illustration d’entête : photo par Phoenix Taylor – Stockvault