Trustii : une plateforme collaborative en science des données
jeudi 9 décembre 2021Le but : mettre en lien étudiants et entreprises pour des solutions IA souveraines et à moindre coût
Le profil de Data Scientist est actuellement rare et très coûteux. Il est donc difficile pour certaines organisations souhaitant explorer ce nouveau domaine de réussir à mettre en place leurs idées, ainsi qu’à estimer leur éventuel retour sur investissement. D’un autre côté, il y a de plus en plus d’étudiants en sciences des données intéressés, mais qui ne sont pas encore sur le marché.
Le champ des possibles en France et en Europe est important. En effet, la majorité des applications IA sont développées aux États-Unis et coûtent très cher. C’est un vrai frein à l’adoption en masse par les entreprises françaises. Pour combler ce manque, il existe bien sûr des solutions comme Kaggle. Le problème est que ces solutions sont bien souvent très coûteuses et dans la majorité des cas, les données sont stockées aux États-Unis.
D’un côté, les étudiants ont la possibilité de mettre en application leurs connaissances académiques sur des vraies données, et peuvent, pour les meilleurs, remporter des prix pour chaque challenge. De l’autre côté, les entreprises en découverte de ce secteur d’avenir bénéficient du développement d’applications de Machine Learning à moindre coût, gagnent en visibilité et repèrent des talents. Cela peut également déboucher par des offres de stages ou d’emplois par la suite.
Fonctionnement d’un challenge
Il est très simple pour une entreprise de soumettre son propre challenge. Il suffit de se connecter sur la plateforme app.trustii.io, de décrire brièvement sa problématique, puis de charger un jeu de données sous la forme d’un fichier CSV dans lequel se trouvent toutes les données labellisées et les prédictions souhaitées. Les entreprises sont ensuite accompagnées afin de fixer les meilleurs objectifs d’un Auto-ML (configuration, score de prédiction…) en fonction du besoin.
L’Auto-ML est un outil de Machine Learning automatisé basé sur des technologies open source et qui sert de repère pour les Data Scientists participant au challenge. Celui-ci effectue des opérations simples : suppression des valeurs manquantes, essais de différentes configurations, de différents modèles… L’outil est parfois suffisant, mais dans la plupart des cas il faut un Data Scientist de métier pour effectuer une meilleure sélection des variables, nettoyer plus finement le jeu de données ou bien augmenter le score de prédiction.
Il est important de noter que Trustii.io laisse une grande flexibilité aux étudiants quant au choix des outils et des langages pour effectuer le challenge. L’unique condition est le rendu sous forme de notebook. L’attention est ainsi portée sur la fiabilité et les résultats du modèle.
Comparaisons et avantages par rapport aux offres existantes
Un des atouts majeurs de Trustii.io est le coût. La plateforme est en effet bien moins chère que les autres solutions sur le marché, avec un prix de 10 000€ par challenge par entreprise (hors récompense). La confidentialité des données est également un point clé de Trustii.io qui assure que les données fournies sont stockées en Europe, et que l’entreprise peut définir le niveau d’accès à son challenge (public, privée, réservé à certaines universités uniquement). Enfin, elle permet une collaboration entre le monde académique et le monde industriel.
Sur le marché, les autres solutions se résument en deux types : les plateformes de challenges (Kaggle) et les plateformes d’Auto-ML. Ces solutions ont un certain nombre de limitations. Tout d’abord, elles sont pour la plupart basées aux États-Unis, ce qui pose des questions sur la souveraineté des données. Les prix pratiqués sont souvent dissuasifs, surtout pour les entreprises qui ne sont pas encore matures dans ce domaine. Les plateformes d’Auto-ML sont plus adaptées pour faire des « proof of concept » mais ne permettent pas d’obtenir des solutions 100% sur mesure. Enfin, les plateformes de challenges existantes sont dominées par des experts du domaine et n’offrent pas la possibilité notamment aux étudiants de se faire réellement remarquer.
À l’inverse, Trustii.io laisse une plus grande chance à chaque compétiteur. Plutôt que de ne sélectionner que le meilleur modèle, une analyse de chaque modèle est réalisée et permet de consolider les deux ou trois meilleurs en un seul modèle. Ainsi chaque compétiteur est rétribué à hauteur de sa contribution et gagne en visibilité. Le modèle final proposé est également plus robuste, explicable et exhaustif.
Pour conclure, Trustii.io vous invite à participer en tant qu’étudiant au prochain challenge à venir (du 10 au 12 février 2022) qui se tiendra dans le cadre du salon WAICF (World AI Cannes Festival). Pour cela, rendez-vous sur la rubrique Sign up sur Trustii.io et laissez-vous guider par le formulaire d’inscription.
Image d’entête source Avex.asso