Intelligence artificielle : comment la rendre frugale ?
Florence d’Alché-Buc, professeure à Télécom Paris, spécialiste de l’intelligence artificielle, nov. 2024
Florence d’Alché explore les enjeux de la frugalité en IA, dans le cadre de ses travaux autour de la confiance dans l’IA.
Pourquoi la notion d’IA frugale a-t-elle émergé, que suppose-t-elle ? Comment élaguer les modèles d’IA ?
Est-il possible avoir des performances identiques avec un nombre de données nécessaires à l’apprentissage moindre ? Qu’est-ce que l’hybridation, est-ce une piste prometteuse ?
Propos recueillis par Isabelle Mauriac
Podcast
Retrouvez cette interview en format audio dans le cadre des podcasts Télécom Paris Ideas :
Podcast enregistré le 29 février 2024 par Michel Desnoues, Télécom Paris
Une IA très gourmande
En effet, les data centers sur lesquels s’appuie l’IA seraient à l’origine de 2% des émissions de gaz à effet de serre (GES) mondiales, au même niveau que le transport aérien. En France, la part des data centers dans l’empreinte carbone du numérique s’élève à 14% (source : Greenly). Un Data Center de 10000 m2 consomme en moyenne autant qu’une ville de 50000 habitants. Et 40% de cette consommation électrique sont utilisés uniquement pour les refroidir. Au total, les data centers compteraient pour un peu moins de 20% de la consommation mondiale d’électricité liée au secteur numérique (selon le média spécialisé GreenIT). Et cette consommation augmente chaque année.
En regardant l’apprentissage d’un modèle comme ChatGPT3, des chercheurs de l’université de Berkeley ont estimé sa consommation à 1287 MWh, soit une émission de 552 tonnes de CO2e (équivalent CO2), ou plus de 205 vols aller-retour entre Paris et New-York.
Comment rendre l’IA plus frugale ?
La frugalité dans l’intelligence artificielle peut prendre plusieurs formes. Il est d’abord possible de s’attaquer au problème du besoin en données, puisque nos algorithmes d’apprentissage s’appuient sur une quantité assez importante de données. Il s’agit d’essayer de faire de l’IA « efficace en données », donc de réduire le besoin de données pour nos algorithmes. D’un autre côté, il faut s’intéresser aux modèles eux-mêmes : quel que soit le nombre de données en face de ces modèles, comment concevoir de plus petits modèles en termes de paramètres et de place en mémoire également.
Effectivement, pour apprendre avec moins de données, les paradigmes du machine learning sont revisités. Il faut essayer d’apprendre à partir de données partiellement étiquetées, parce que le coût en annotations est souvent énorme. Cela signifie ne pas nécessairement fournir à l’algorithme d’apprentissage des données de chaque classe, ne pas forcément aller annoter toutes les données, et avoir des algorithmes qui s’appuient aussi, d’une part sur des données étiquetées, peut-être en assez petit nombre, et sur un grand nombre de données étiquetées qui ne nécessiteront pas d’annotations.
Puis il est possible de choisir les données à annoter, celles qui sont utiles à l’apprentissage. Il s’agit alors de l’apprentissage actif. Là aussi, c’est un pan important de l’apprentissage appelé « en ligne », où sera adaptée la notation à la tâche à réellement réaliser. Dans ce cas de figure, c’est l’aspect « efficacité en données » qui est traité. Enfin, la taille des modèles est aussi interrogée, parce qu’elle va impacter bien entendu l’étape d’inférence, l’étape soit de prédiction pour les modèles prédictifs, soit de génération pour les modèles de langage.
Plusieurs directions et pistes sont actuellement explorées à Télécom Paris. Pour obtenir des modèles de moindre taille, nous allons essayer de les « contraindre mathématiquement », en incluant des propriétés mathématiques ne nécessitant pas un très grand nombre de paramètres.
Ou bien nous allons utiliser les lois physiques du problème traité si cela s’y prête, pour à nouveau imposer que ces modèles vérifient certaines assertions, certaines propriétés, de manière à s’appuyer sur un nombre limité de paramètres.
En effet, l’hybridation consiste à disposer d’un algorithme d’apprentissage qui s’appuie sur les données, qui s’intéresse à calibrer un modèle, mais en tenant compte également des connaissances disponibles de la tâche à traiter.
L’hybridation est intéressante, par exemple quand je cherche à prédire l’énergie produite par une éolienne. Je vais tenir compte d’un certain nombre de paramètres mécaniques de cette éolienne et finalement des lois de la mécanique, mais aussi de modèles météorologiques, par exemple de prévisions, qui vont finalement me permettre de ne pas avoir une source unique en termes de données, mais aussi une source d’information en termes de modèles.
Citons aussi l’exemple de la biologie ou du médical, en cherchant à faire du ciblage thérapeutique, à découvrir et à prédire si une protéine va permettre d’effectuer une certaine tâche dans la cellule. Bien évidemment, il ne faut pas utiliser un modèle à l’aveugle en s’appuyant sur des données absentes par exemple, mais il convient d’insérer des informations, des connaissances biologiques qui contraignent ce modèle. Donc l’hybridation est une possibilité pour obtenir de la frugalité.
Une IA dégradée ?
En effet, absolument pas, car l’objectif de la frugalité est d’analyser en profondeur le fonctionnement de l’algorithme sur les modèles trop complexes, et d’identifier finalement ce qui est vraiment utile et ce qui n’est pas absolument nécessaire.
Donc ce n’est pas une IA dégradée, ce serait plutôt, je dirais…
Oui c’est très important : il est vrai qu’avec la notion de frugalité, en fait dès qu’il y a calcul et mémoire, il y a ordinateur(s) ou cluster sur lequel l’algorithme d’apprentissage tourne, avec de nombreux paramètres : quand l’outil sera mis en production ? Cet outil tournera-t-il sur votre téléphone portable ? sur le cloud ? Donc le fait de connaître le hardware cible sur lequel votre outil sera utilisé va être essentiel pour arriver à une frugalité plus grande ; nos recherches à l’école travaillent en effet sur ce sujet.
Un projet de chaire sur l’IA durable
En effet, c’est un projet mené avec plusieurs collègues et nous sollicitons des entreprises comme partenaires. L’idée est d’utiliser l’IA sur les deux plans, donc de chercher à l’utiliser pour répondre à des problématiques d’optimisation, de contrôle et de gestion de ressources, comme l’énergie, l’eau, les déchets. Utiliser l’IA pour explorer l’ensemble des matériaux possibles suivant un cahier des charges en termes de spécifications est un autre exemple. Ou bien utiliser l’IA pour la surveillance de forêts, la détection précoce d’incendies, de surveillance de la biodiversité également. Ou encore dans le domaine médical, comment utiliser l’IA pour déterminer des molécules qui vérifient un certain nombre de propriété demandées. C’est une partie de notre projet ; l’autre consiste à prendre au mot…