Albert Bifet

Faire de l’analyse de données et de l’intelligence artificielle sur le Big Data et l’IoT, ce sont ses deux spécialités. Depuis septembre 2015, Albert Bifet est enseignant-chercheur à Télécom Paris et travaille au LTCI sur les flux de données en temps réel.

Entouré d’une équipe de quatre étudiants, deux post-doc et trois stagiaires, il s’attache à faire du machine learning en temps réel. Ses recherches constituent une innovation et une gageure : l’apprentissage automatique standard est fait en utilisant des données déjà stockées qui sont statiques, ce qui nécessite beaucoup de ressources. Le machine learning en temps réel permet de faire l’apprentissage machine efficacement, en utilisant moins de ressources et en adaptant les prédictions des chercheurs aux changements dans les données. Ce qui est très important dans plusieurs contextes applicatifs comme, par exemple, la maintenance prédictive – ou l’analyse et la reconnaissance des signes précurseurs du dysfonctionnement d’un bien. Le chercheur a des collaborations de recherche bien établies avec EDF, Orange, Safran, Telefonica et Huawei.

Architecture d’Apache SAMOA, un logiciel open source pour l’extraction de flux de données distribués, qui fonctionne avec Apache Storm et Apache Flink

Ses travaux précédents l’ont vu participer au développement du logiciel MOA (Massive Online Analysis) en Nouvelle-Zélande. Ce logiciel, le plus téléchargé pour l’analyse des données en temps réel, sert notamment le chercheur dans le cadre de ses recherches actuelles. Albert Bifet a également contribué au développement d’Apache SAMOA, aux Yahoo Labs à Barcelone. Apache SAMOA est un logiciel de Big Data en open source, conçu pour faire du machine learning distribué en temps réel. Il fonctionne sur des clusters d’ordinateurs utilisant des systèmes Hadoop.

En outre, l’élaboration de méthodes pour la classification de data streams adaptatifs, entamée en 2004, est une autre contribution importante du chercheur.

 

Livre publié à MIT Press en 2018 sur les principales techniques de machine learning sur des flux de données en temps réel.