Octo Technology présente deux projets en data science
jeudi 19 mars 2020Octo Technology est un cabinet de conseil fondé en 1998, présent en France et au Maroc. L’entreprise fait partie du palmarès Great Place to Work des entreprises de moins de 500 salariés où il fait bon travailler. Elle comprend une communauté d’experts reconnus qui valorise et encourage le partage avec des BBL (Brown Bag Lunch) quotidiens et des Codings Dojo hebdomadaires. L’entreprise est organisée en pôles d’expertises (les tribus) avec notammenet deux d’entre elles sur la data :
- une tribu « Data Engineering » qui est composée de consultants certifiés sur des solutions tels que Cassandra, Spark ou AWS,
- l’autre orientée « Data Science » comprenant une expertise approfondie sur le Machine Learning.
Octo Technology accompagne de nombreux clients en France dont la société Sacem qui est venu nous présenter leurs activités ce même jour.
Cas d’application : la Sacem
Vincent Poulain est venu présenter la Sacem (Société des auteurs, compositeurs et éditeurs de musique), société civile créée il y a bientôt 170 ans. Elle est détenue et gérée par ses membres. Sa mission, protéger ses membres et obtenir les rémunérations qui leur sont dues, s’est complexifiée grandement depuis l’essor d’Internet.
La problématique étudiée avec Octo est l’identification des millions d’états de diffusion d’œuvres en ligne car, à l’heure du streaming, l’essentiel du volume de diffusion vient de ces diffuseurs, or les problèmes liés à l’identification de ces diffusions ont augmenté proportionnellement à l’essor de ce mode de consommation.
En décembre 2019, la Sacem a reçu 1,5 milliards de lignes représentant des diffusions en ligne.
Le produit IDENT, piloté par Octo et développé conjointement par Octo et la Sacem, essaye de répondre à ce besoin le plus simplement possible, en le séparant en plusieurs problèmes élémentaires :
- Stockage de masse froid : lecture de fichiers qui n’ont pas d’intérêts à long terme
- Résilience et orchestration : permet d’assurer un service stable malgré la survenance possible de pannes ou d’erreurs
- Identification plein texte : travail de correspondance entre la ligne envoyée par le diffuseur et la ligne inscrite au répertoire de la Sacem pour le morceau de musique concerné
- Chargement massif : chargement de données volumineuses afin d’alimenter le système
- Fournir des conteneurs d’exécution : permet aux composants de s’exécuter de façon isolée et d’être écrits dans les langages de programmation habituellement utilisés à la Sacem
Le produit suit un parcours itératif et continue à s’améliorer sur ce sujet complexe.
Cas d’application : le projet Aura
Présenté par Clément Le Couedic, président d’Aura et Laurent Ribière, membre du conseil d’administration et contributeur bénévole au projet.
Aura est une association à but non lucratif, dont l’objectif est d’améliorer la qualité de vie des malades de l’épilepsie. Cette maladie touche 50 millions de personnes dans le monde et représente la première cause de handicap neurologique en Europe. Elle a un retentissement particulier dans les vies des malades car les crises, imprévisibles et subites, présentent une menace permanente : génératrice d’angoisse, elle restreint les activités que peuvent faire les malades et peut mener à l’isolement social.
Aura cherche à mettre au point un patch connecté détectant les crises, adossé à une application mobile. Le but est de permettre aux malades de mieux connaître leur maladie et de pouvoir s’y adapter, et en premier lieu de mesurer précisément la survenue des crises. En effet, l’épilepsie a un effet amnésique qui fait que les patients ont tendance à sous-évaluer le nombre réel de crises. Des données objectives permettent, outre un meilleur suivi médical, de chercher de manière individualisée les périodes de la journée et les circonstances où les crises sont plus ou moins probables afin que les malades puissent adapter leur rythme de vie. L’objectif à long terme serait de pouvoir identifier les signes avant-coureurs d’une crise pour que les malades puissent se mettre en sécurité.
Le projet est réalisé en partenariat avec l’établissement médical de la Teppe, spécialisé dans l’épilepsie depuis 1856. La première phase est de constituer un jeu de données étiquetées à partir d’examens EEG-vidéos faits en milieu clinique sur plusieurs années. Un jeu de données contenant des enregistrements électroencéphalogramme associé à une vidéo, un électrocardiogramme (ECG) ainsi que d’annotations textuelles comme le compte-rendu du personnel médical. Il s’agit d’identifier parmi cette masse de données les candidats probables correspondant à des crises, afin que les médecins en charge de l’étiquetage puissent les revoir en priorité. Ce jeu de données sert de base d’apprentissage pour identifier les modifications du rythme cardiaque liées aux crises, enregistrées au moyen d’un patch ECG de petite taille placé sur la poitrine.
En parallèle sont menés des tests en milieu clinique comparant la qualité de la méthode au gold standard EEG-vidéo, et une étude sur des volontaires d’un foyer d’accueil de malades, moins précise mais dans des conditions d’utilisation plus représentatives du quotidien.
Le projet Aura est associatif, scientifique et ouvert. L’aspect associatif et non-lucratif favorise l’adhésion et l’implication des patients, médecins et contributeurs. Les code open-source et le patch open-hardware permet à tous de contribuer, notamment des bénévoles ou des personnes mis à dispositions dans le cadre de mécénat d’entreprise. Le projet est conduit en partenariat avec des équipes de chercheurs et donne lieu à des publications.
Compte-rendu rédigé par Kevin Lu, Vladimir Steiner et brice Tayartdeborms, étudiants de la promotion 2019-2020 du Mastère Spécialisé Intelligence Artificielle de Télécom Paris.