La data science chez Cdiscount
lundi 2 mars 2020Séminaire du 30 janvier 2020 avec Guillaume Mohr, responsable d’une équipe au département Data Science chez Cdiscount, ancien élève du Mastère Spécialisé Big Data de Télécom Paris (2015-2016).
Cdiscount est une entreprise de e-commerce créée en 1998, appartenant au groupe Casino. Son chiffre d’affaires en 2019 s’élève à 3,9 milliards d’euros. L’entreprise compte au total 1600 salariés et ses locaux sont situés à Bordeaux. Cdiscount est le deuxième site le plus fréquenté en France avec 20 millions de visiteurs uniques par mois.
Les sujets Data Science chez Cdiscount
Les domaines d’application de la data science chez Cdiscount sont variés. Bien entendu, avec son catalogue de 40 millions de références, l’optimisation de la performance et de la pertinence du moteur de recherche du site constitue le sujet central de l’équipe Data. D’autres problématiques sont traitées avec des techniques de data science telles que l’analyse du trafic du site, la détection du trafic généré par des “bots”, la prédiction des ventes ou encore le “scoring” de clients en temps réel pour l’accord d’un paiement en plusieurs fois.
Le rôle du data scientist chez Cdiscount
Le pôle Data Science compte aujourd’hui une quarantaine de personnes, il est organisé en cinq équipes sous la direction du directeur Data. Le travail en équipe (minimum deux personnes) y est fortement encouragé. Chez Cdiscount, le rôle de data scientist est clairement défini. En charge de développer des outils innovants d’aide à la décision, le data scientist est avant tout le garant d’une approche quantitative rigoureuse quant au traitement des données. Il possède les qualités suivantes :
- il est référent machine learning par sa connaissance des algorithmes,
- il est producteur de code pour la manipulation des données et l’implémentation des algorithmes, principalement en Python,
- il a une connaissance du métier, devenu extrêmement technique aujourd’hui.
Exemples de projets Data Science
Une problématique centrale pour Cdiscount concerne les stratégies de référencement sur internet. Il existe différentes manières d’acquérir du trafic : le référencement naturel, le référencement payant, les sites affiliés, les bannières display, les contacts par email et SMS.
L’optimisation du référencement payant vis-à-vis du taux de conversion – Les annonces placées grâce au référencement payant sont obtenues via un système d’enchères automatisé et leur efficacité se mesure au taux de conversion obtenu. Afin d’optimiser les niveaux d’enchères proposés, les espérances de taux de conversion doivent être estimées sur chaque produit et requêtes.
L’élargissement du référencement sur Google Ads – Google Ads propose un système de placement de produit par enchère sur des mots clés. Une problématique consiste à placer des produits correspondants à des recherches voisines. Les techniques employées peuvent être celles du Natural Language Processing (traitement automatique du langage naturel) ou le recours à des métriques de similarité adaptées.
La pertinence des résultats affichés en référencement naturel – Il s’agit de s’assurer que les produits sélectionnés par le moteur de recherche de Cdiscount sont bien pertinents. Pour cela, différents indicateurs sont utilisés tels que la correspondance entre le titre des produits et la requête, les similarités entre titres, images et prix des résultats obtenus, ou encore le taux de clics des utilisateurs.
Actuellement Cdiscount recrute, de nombreuses offres d’emploi ou de stage sont disponibles sur leur site.
Compte-rendu rédigé par Jorge Antequera, Antonin Durieux et Thomas Mensch, étudiants de la promotion 2019-2020 du Mastère Spécialisé Big Data de Télécom Paris.