La Data Analytics appliquée à la finance chez CFM
mardi 14 avril 2020Fondée en 1991, CFM est un fonds d’investissement spécialisé dans les stratégies d’investissement quantitatives et systématiques. Quantitatives pour mettre l’emphase sur une approche scientifique basée sur la donnée et systématiques insistant sur l’utilisation des dernières technologies en intelligence artificielle, en opposition à discrétionnaires qui relèvent de processus de décision basés avant tout sur l’humain.
L’entreprise, dont le siège est à Paris, emploie 270 personnes de 30 nationalités différentes dans ses bureaux de Londres, New York, Sydney et Tokyo. CFM gère aujourd’hui un portefeuille de plus de 10 milliards de dollars.
Le « Data pipeline »
CFM travaille avec de nombreux fournisseurs de données. Plusieurs types de données viennent ainsi alimenter les algorithmes permettant à l’entreprise de passer ses ordres :
- Les données de marché (les prix en temps réel, les ordres de bourses…) : plus de 10 000 produits suivis représentant plusieurs téraoctets par jour !
- Les indicateurs macro-économiques (les statistiques régionales, le calendrier des annonces des indicateurs…)
- Les fondamentaux des entreprises (comptes d’exploitation…)
- Les données alternatives (textes, graphes, prévisions…)
Rôles et missions du département « Data Analytics »
CFM est organisé en pôles d’expertise, avec notamment une équipe Data Analytics composée de data engineers et de data scientists. Chez CFM la frontière entre les deux responsabilités est volontairement assez floue puisque chaque data scientist est responsable de l’étude, de la mise en production et du support d’un projet.
L’équipe Data Analytics travaille essentiellement sur deux types de données :
Les séries temporelles (prévision)
- Au-delà des modèles classiques de Machine Learning, des outils comme Shap et Eli5 sont utilisés pour la compréhension des modèles et l’outil Dash est privilégié pour la visualisation des données.
Les données alternatives (qualification et intégration)
- Pour les données texte, le NLP (traitement du langage naturel) s’appuie sur des outils comme NLTK ou spaCy et vise à enrichir les modèles avec des caractéristiques comme un sentiment.
- Pour les données graphe, les outils utilisés sont par exemple Neo4J ou NetworkX
Les projets au sein de cette équipe sont organisés selon l’axe « Exploration vers la Production » et suivent ainsi quatre étapes principales :
1. Data Engineering
Accès à l’information via les fournisseurs de données et mise en correspondance
2. Data Qualification
Historique et couverture : on intègre les données les plus anciennes possibles et incluant au moins une crise (crise de 2008 ou celle que l’on traverse actuellement sur le coronavirus). L’intégration d’une crise permet de prendre en compte dans les modèles des comportements inhabituels du marché et vérifier ainsi leur robustesse.
Détection des biais et notamment des deux biais les plus fréquents :
- Le biais de survie : ne garder que ce qui a survécu, et oublier les autres données (entreprise rachetée ou qui a disparu)
- Le biais de l’information future : injecter dans le passé des informations du futur (correction a posteriori de données, Donald Trump considéré comme président dans les années 2000…)
3. Extraction de la valeur
Cette partie recouvre l’utilisation du machine learning pour la prévision des cours.
4. Production et support
Cette dernière étape est clé car elle consiste à déployer en environnement de production des modèles testés, documentés, avec un code performant et maintenable, produisant des logs exhaustifs afin de permettre un suivi de production efficace.
Cas d’applications : prédiction quotidienne d’une donnée financière
Dans ce cas d’étude, la problématique était de prédire de façon quotidienne l’évolution d’une donnée financière. Les données à disposition étaient des données temporelles (données du marché, données macro-économiques, données des compagnies) sur plusieurs années (plus de quatre ans) auxquelles ont été ajoutées de façon ponctuelle des données alternatives (données textuelles issues de la presse et qui peuvent impacter le cours de la donnée financière).
Les données manquantes ne sont ni interpolées, ni remplacées par les données futures (backward filling) afin d’éviter de fausser les modèles en induisant le biais de l’information future. La meilleure approche consistant ici à utiliser un forward filling (utilisation des données précédentes pour remplacer les données manquantes).
Ensuite une bonne pratique consiste à définir un benchmark, généralement un prédicteur naïf comme une moyenne glissante, et d’essayer de faire mieux. En effet, dire dans l’absolu si une valeur de R2 est bonne ou pas n’est pas simple.
Compte-rendu rédigé par Philippe Benezeth, Parfait Fangue et Mohammed Ouedrhiri, étudiants de la promotion 2019-2020 du Mastère Spécialisé Big Data de Télécom Paris.