Groupe HN : le machine learning pour superviser des systèmes d’informations très distribués à grande échelle
lundi 27 avril 2020Le groupe HN effectue ses prestations dans le domaine de la banque, de la finance, de l’assurance, de l’industrie et de la distribution, notamment. Il dispose également d’un centre de formation professionnelle. Il est partenaire de Télécom Paris et dans le cadre de ce séminaire, il nous présente un projet impliquant un consortium de cinq entreprises.
Le projet est lancé avec le client AG2R-LaMondiale. L’idée est de travailler sur la supervision des systèmes d’information très distribués comportant plusieurs machines (de l’ordre du millier). En effet, il faut aider les opérateurs, qui sont des techniciens qui assurent la surveillance du système d’information, à surveiller le bon fonctionnement du système. Le projet se divise en deux grandes parties : la supervision prédictive et l’aide au diagnostic.
Le but de la supervision prédictive est de détecter tout ce qui pourrait arriver comme panne sur le serveur une heure en avance. En interne, il existe des métriques qui permettent de caractériser l’état du serveur. Le projet consiste donc à développer des modèles de machine learning en utilisant ces logs ou ces métriques en vue de détecter à l’avance des pannes. Ces métriques peuvent être : la consommation de CPU, les volumes d’échange réseau, la mémoire, le GPU ou toutes autres métriques sur le disque, des données catégorielles, etc. Le modèle de machine learning est à priori du type supervisé car les labels sont renseignés. Par contre, les données sont très souvent asymétriques et les labels déséquilibrés.
Plusieurs solutions ont été testées dans le cadre de ce projet. L’une d’entre elles consiste à récupérer l’état récent du serveur et à l’entraîner dans un réseau de neurones en vue de faire de la prédiction. La bonne nouvelle est que l’erreur de prévision diminue lorsque l’historique de données récentes est important.
Une autre solution à explorer de manière approfondie porte sur le calcul de la matrice d’auto corrélation. Les serveurs étant assez différents du point de vue du nombre et du type d’applications qu’ils hébergent, les consommations de CPU et de GPU sont également différentes. La matrice d’auto corrélation renseigne ainsi sur l’état du serveur. Lorsque celle-ci se trouve différente de son état stabilisé, on peut conclure à une situation anormale. Cet outil est une piste à approfondir dans ce projet car, par hypothèse, la formation d’une panne se fait environ 10 minutes avant qu’elle se réalise alors que la fréquence d’échantillonnage de données utilisées pour le calcul de la matrice d’auto corrélation est d’environ 1h.
Le deuxième volet du projet, l’aide au diagnostic, fait également l’objet d’une attention particulière pour les cinq entreprises constituant le consortium de réflexion. Il porte sur l’identification des causes de l’incident et la proposition de solutions correctives.
Compte-rendu rédigé par Mohammed Benayade, Hicham Elouatiki et Jean-Galbert Ongono, étudiants de la promotion 2019-2020 du Mastère Spécialisé Big Data de Télécom Paris.