Newsroom

SESAMm : amener le big data dans le monde de la finance

chaire CNI vignette
Compte-rendu du séminaire des Mastères Spécialisés Big Data et IA du 27 février 2020, avec Toussaint Behaghel et Badr Ghazlane (Diplômé du MS Big Data) de l’entreprise SESAMm.

SESAMm est une start-up Fintech fondée en 2014 spécialisée en big data et en intelligence artificielle pour l’investissement. Grâce à sa plateforme NLP (natural language processing) TextReveal et sa plateforme de data science SignalReveal, SESAMm travaille avec des hedge funds (fonds spéculatifs), banques et gestionnaires d’actifs majeurs en Europe, aux Etats-Unis, en Asie et dans le monde entier sur des cas d’études d’analyse fondamentales aussi bien que quantitatives. L’entreprise compte plus de 40 collaborateurs avec des bureaux à Paris, New York, Metz et Tunis.

La data science au service de l’analyse financière

La spécificité de SESAMm est d’intégrer aux algorithmes standards d’analyse financière, comme par exemple les séries temporelles ou réseaux de neurones, des données externes basées sur son data lake.
Cette immense base de données, représentant plus de 8 milliards de documents (articles, news, médias sociaux) issus de plus deux millions de sources différentes avec dix ans d’historique, est l’une des plus grandes au monde pour cette industrie.
Fournie par des sociétés spécialisées (data providers), l’objectif de celles-ci est de garantir que ces données soient d’excellentes qualité et uniques pour les besoins de SESAMm.
Afin de répondre aux exigences du marché financier, très sensible aux informations récentes, ce data lake est fréquemment enrichi de nouveaux contenus et sources et continue de croître jour après jour.

SESAMm propose trois produits distincts dans ce domaine, tous disposant de fonctionnalités modulaires :

–     TextReveal, plateforme NLP qui permet de construire des indicateurs personnalisés, tels que le sentiment, les émotions ou les scores ESG sur les actifs financiers, les entreprises publiques et privées, les marques, les produits, les cadres, les marchandises, les devises, les crypto-actifs, les concepts économiques, etc.

–     SignalReveal, plateforme de data science, développée en Python, pour la création de signaux et stratégies d’investissement et de stratégies basées sur l’apprentissage automatique, par exemple basés sur des données textuelles de TextReveal.

–     Custom Projects, développements d’indicateurs spécifiques permettant par exemple d’estimer le gain de cette stratégie – le client est accompagné par un spécialiste de chez SESAMm pour l’étude qui pourra s’appuyer aussi bien des fonctionnalités de TextReveal que de SignalReveal.

A titre d’exemple, pour une entreprise donnée, l’analyse de sentiments peut être avec la considération de l’opinion publique concernant le dirigeant du groupe, du point de vue des performances de l’entreprise ou même en comparant l’entreprise ou ses marques par rapport à ses concurrents directs.
Ces travaux sur la réputation de cette entreprise similaire permettent d’attribuer des labels financiers et peuvent par exemple servir pour l’investissement ESG (relatif à des critères environnementaux, sociétaux et de gouvernance).

Exemple de cas d’étude ESG sur Alphabet Inc. exploitant TextReveal

Chacun des outils développés prend en compte la spécificité de la modélisation financière. En l’occurrence, la plateforme SignalReveal met à disposition des outils afin de:

  • Construire des features financières
  • Mettre en place des cross-validation temporelles (embargo, lag – temps de latence)
  • Faciliter l’interprétabilité des modèles
  • Création de stratégies financières

NB : Les points ci-dessus ne sont pas exhaustifs, mais sont ceux qui ont été abordés pendant la conférence.

Plus de maturité pour plus de professionnalisme

Associé à ses compétences technologiques en NLP et en analyse quantitative, l’apport des algorithmes de machine learning à ces dernières représente indéniablement la valeur ajoutée de SESAMm.
Afin de gagner en efficacité, l’entreprise se dirige de plus en plus vers la définition de processus pour établir des standards de qualité et d’exploitation plus forts de l’automatisation et de l’intelligence artificielle. Un département IT est dédié à l’industrialisation des solutions proposées et une équipe Data Quality a été spécifiquement constituée pour étudier et raffiner la donnée exploitée.

Pour rester aussi proche voire dépasser le niveau de l’état de l’art de son domaine, la veille technologique est au cœur des activités de SESAMm. Grâce à des projets dédiés à l’innovation et des stages de fin d’études auprès d’écoles renommées, de nouvelles solutions sont explorées puis améliorées pour être utilisées dans les modèles de machine learning industrialisés et exploités par ses clients.

Une autre application de la data science chez SESAMm est l’utilisation de l’apprentissage par renforcement. Grâce à cette méthode SESAMm a mis au point un agent autonome capable de gérer la mise en relation entre vendeurs et acheteurs de titres financiers, tout en garantissant une transaction optimale. Un exemple concret de cadre d’étude: celui du « market making » appliquée à la crypto-monnaie Bitcoin.  Cette approche peut s’avérer extrêmement pertinente car elle est à mi-chemin entre un apprentissage supervisé et un apprentissage non-supervisé. Néanmoins, la validation reste humaine.

Compte-rendu rédigé par Farid El Attaoui, Aouani El Habib et Cyrille Nouboué,  étudiants de la promotion 2019-2020 du Mastère Spécialisé Big Data de Télécom Paris.