Newsroom

Comment BNP Paribas développe la culture de la donnée auprès de tous ses corps de métier

équipe informatique data scientists
Compte-rendu du séminaire industriel data science des Mastères Spécialisés Big Data et IA de Télécom Paris du jeudi 20 mai 2021 avec Vinh-Thuy Tran et Mariam Barry de BNP Paribas. 

BNP Paribas est une banque française dont les activités à l’international et la présence dans 68 pays en font un groupe bancaire international. Ses principales activités s’articulent autour de 3 pôles : Domestic Markets, International Financial Service et Corporate & Institutional Services.  Le fort intérêt pour la data au sein de ces trois activités a été souligné par Vinh-Thuy Tran, data analyst et data scientist au sein de l’équipe ITG de BNP Paribas et Mariam Barry, doctorante chez BNP Paribas.

Avec plus de 20 000 applications et 100 000 serveurs, le département IT de BNP Paribas est au centre des problématiques big data dans le secteur bancaire. IT GROUP (ITG) vise à coordonner l’ensemble des infrastructures du groupe BNP Paribas afin d’apporter des solutions innovantes en termes de méthodes et de technologies pour les différentes activités du groupe. La grande volumétrie de données disponibles entraîne des défis de mise en production de modèles de machine learning ainsi que des défis métier qui sont abordés lors de ce séminaire.

Contraintes dans le secteur bancaire

A titre d’exemple des enjeux de la modélisation des données dans le secteur bancaire, les intervenants nous ont présenté le cas de l’analyse des données informatiques produites à l’intérieur de BNP Paribas. Ces données sont analysées dans le but de détecter et de prédire les anomalies de l’infrastructure IT. Le traitement de ces données pose trois grands défis.

Le premier concerne les données temporelles, qui sont générées par différents outils à des moments différents. Pour traiter ce type des données Big Data (forte volumétrie) et temporelles, au sein de BNP Paribas, des modèles d’apprentissage en ligne (Online Learning) sont utilisés. Cela signifie qu’une fois les données produites, le modèle apprend à partir de ces dernières, puis elles sont immédiatement supprimées pour ensuite apprendre de nouvelles données.

Le deuxième concerne l’hétérogénéité de la source et la typologie des données : ce sont à la fois des données textuelles, des données numériques et des données catégorielles. De plus, dans de nombreux cas, les données ne sont pas labellisées, ce qui nécessite d’utiliser des modèles non supervisés.

Le troisième défi relève de l’interprétabilité des modèles : même une fois le modèle construit et fonctionnel, il est essentiel, en particulier pour la prise de décisions bancaires critiques, que la prédiction du modèle puisse être expliquée.

Les défis techniques ci-dessus deviennent encore plus difficiles lorsqu’ils doivent être mis en production et intégrés dans l’architecture.

Démocratiser l’accès à la donnée et former des « citizen data scientists »

Vinh-Thuy Tran a cité Stan Lee pour illustrer cet objectif de démocratisation de l’accès à la donnée : « With great power comes great responsibility ». En fournissant un accès à la donnée naît une nouvelle responsabilité sous-jacente :  être capable de l’utiliser.

Pour cela, les contraintes historiques d’un groupe comme BNP Paribas doivent être prises en compte dans tout le parcours de la donnée, que ce soit l’héritage matériel (les systèmes existants doivent être pris en compte) et humain (l’adhésion des métiers est nécessaire).

Comment cela se traduit-il au cours du cycle de vie de la donnée ?

La première étape consiste à collecter, « ingérer » un maximum de données utiles et de qualité afin de les rendre exploitables dans un contexte de typologie de données hétérogènes (inhérent à un grand groupe). Ensuite, la donnée est traitée avec des modèles d’IA, afin de pouvoir ensuite être exposée dans des bases de données accessibles via des API pour que tout le monde puisse utiliser (« consommer ») la donnée.

L’objectif global de BNP Paribas est que les métiers puissent avoir accès et se servir de la donnée. Cela nécessite un travail d’acculturation pour que les métiers se transforment en « citizen data scientists » en les initiant à la data science grâce à des technologies nécessitant peu de compétences en informatique (« low code », « no code »).

D’une manière générale, une des compétences clés attendues de chacun est d’avoir une compréhension de l’ensemble des activités contribuant à la réussite d’un projet Data soit la collecte des besoins, l’identification des macro-solution, la construction des PoV (Proof of Value), l’anticipation de la mise en production…

L’objectif est de basculer d’un mode artisanal avec le mythe du data scientist « licorne » vers un mode industriel avec une répartition des rôles.

Compte-rendu rédigé par Valentina Diproietto, Alexandre Mondin et Zakaria Tizaf, étudiants du Mastère Spécialisé Big Data promotion 2020-2021. 

Illustration d’en-tête : Standret sur Freepik.com