Data scientist, data analyst, data engineer : tous les métiers de la donnée chez PMP Conseil
lundi 8 juillet 2019Compte-rendu du séminaire industriel data science du Mastère Spécialisé « Big Data » du 20 juin 2019.
Au cours de cette session interactive, Anindya Roy, Manager data scientist chez PMP Conseil, est revenu sur son parcours académique (il est spécialiste en apprentissage machine et traitement du langage naturel) et ses expériences professionnelles passées et présente chez PMP Conseil. Quelques cas d’application de la data science sur des missions réalisées pour PMP Conseil ont été évoqués : extraction d’information non structurée dans un contexte de ressources humaines, système de question réponse, voicebots… La présentation s’est ensuite principalement focalisée sur le cycle de vie du projet type en data science. Le rôle du data scientist dans la mise en production d’un tel projet a ensuite été évoqué, ainsi que son articulation et les interactions avec les équipes de data engineers et data analysts.
Cycle de vie du projet en data science
Le projet en data science représente un cycle itératif composé des étapes suivantes :
- Compréhension des enjeux business/métier
- Collecte de données
- Nettoyage et exploration des données
- Construction de modèles
- Evaluation
Lorsque les performances sont jugées suffisantes, le passage en production peut être envisagé.
La compréhension des enjeux business/métier permet de cadrer et d’organiser le projet avec les équipes métiers en définissant clairement la problématique, les objectifs attendus en termes de métrique et de performances associées. Ces indicateurs sont déterminants pour décider de l’atteinte de performances acceptables et la décision d’industrialisation. La cartographie des sources et données associées fait également partie de cette première approche, généralement menée par le data scientist.
La collecte de données incombe généralement au data engineer, qui permet la disponibilité et la mise au format des données internes, mais aussi la complétion par des données externes, enrichissement utile pour combler les manques sur certains types de données mais aussi pour apporter un complément d’information.
Le nettoyage et l’exploration des données relève généralement plutôt des missions du data analyst. Il s’agit d’une première approche des leviers et d’une mise en cohérence du corpus : identification des manques, incohérences, redondances, anomalies/outliers.
Concernant la modélisation, cœur du travail du data scientist, Anindya Roy a présenté son approche par des méthodes simples et explicables dans un premier temps, afin de comprendre les phénomènes sous-jacents et être en mesure de dialoguer avec les équipes métier. Les approches plus élaborées interviennent en général dans un second temps, pour augmenter les performances; elles présentent souvent le désavantage de perdre en lisibilité. Des approches concrètes concernant des modèles de pricing et de recommandations ont été présentées de façon plus détaillée.
Il est crucial que l’évaluation aille bien au-delà d’une simple validation sur des échantillons offline dédiés. Une maquette ou une confrontation du modèle aux données de production est un réel atout, permettant aux métiers et aux analystes d’être plus impliqués dans l’analyse des performances en visualisant en situation les décisions proposées. Ce procédé facilite ainsi l’identification d’éventuelles incohérences ou le questionnement sur certaines zones d’erreurs où le modèle serait moins performant.
Passé cette phase, les forces et faiblesses de(s) premier(s) modèle(s) identifiées, le cycle rentre dans une nouvelle itération : des données complémentaires sont envisagées, les données existantes retravaillées avant une nouvelle modélisation à évaluer.
Lorsque le seuil de performances défini en phase 1 est enfin atteint, la mise en production est envisageable.
L’industrialisation
La phase de passage en production se décompose dans les étapes suivantes : spécifications, développement, tests unitaires et déploiement. Le data scientist intervient plus ponctuellement lors de la phase d’industrialisation, le data engineer prenant alors généralement le relai. Il reste cependant à la charge du data scientist à minima de spécifier l’interface (API) nécessaire à l’application des modèles et de d’évaluer la charge (nombre de requêtes) pour permettre le dimensionnement des ressources. Des règles expertes peuvent être ajoutées en sur-couche à la modélisation ; le data scientist est alors pleinement partie prenante de ces travaux.
Compte-rendu rédigé par Anthony Houdaille et Matthieu Roussel, étudiants du Mastère Spécialisé Big Data de Télécom Paris, promotion 2018-2019.