Quand l’IA apprend à écouter : révolution sonore et machine listening
Gaël Richard, enseignant-chercheur à Télécom Paris, spécialiste du traitement de l’information et co-directeur scientifique de Hi! Paris, mars 2025
Si ses applications se démocratisent auprès du grand public, elles s’enracinent dans des avancées scientifiques complexes, portées notamment par des figures comme Gaël Richard qui a obtenu en 2022 une bourse européenne ERC pour son projet Hi-Audio. Ce programme ambitieux vise à développer des approches hybrides combinant traitement des signaux et apprentissage profond pour analyser et comprendre les sons avec une précision inégalée.
Propos recueillis par Isabelle Mauriac
Podcast
Retrouvez cette interview en format audio dans le cadre des podcasts Télécom Paris Ideas :
Podcast enregistré en janvier 2025 par Michel Desnoues, Télécom Paris
Hi-Audio : une plateforme pour réinventer l’enregistrement musical
Le cœur du projet Hi! Audio repose sur une ambition : développer des méthodes hybrides qui marient des modèles de connaissance explicites – c’est-à-dire des représentations précises des phénomènes physiques ou musicaux – à la puissance de l’apprentissage profond, basé sur des réseaux de neurones. Historiquement, nous concevions des modèles avec peu de paramètres, chacun chargé d’une signification claire et directement liée au phénomène étudié. Ces modèles, bien que frugaux, étaient limités par leur simplicité. Avec l’avènement des réseaux de neurones, dopés par des masses de données et des capacités de calcul colossales, nous avons basculé dans une ère où la machine peut accomplir des tâches complexes – comme reconnaître une voix ou générer un son – sans que nous comprenions toujours pleinement les mécanismes internes de ces algorithmes. Cette opacité, associée à un manque de contrôle, constitue une faiblesse.
L’approche hybride que nous explorons dans Hi! Audio cherche à surmonter ces limites. Prenons l’exemple de la production vocale : nous savons que la parole naît de la vibration des cordes vocales, modulée par la géométrie de la gorge et de la cavité buccale. Nous pouvons construire un modèle simplifié de ce processus, avec quelques paramètres bien définis, et l’intégrer comme une contrainte dans un réseau de neurones.
L’un de nos axes de recherche vise à supprimer la réverbération dans un enregistrement sonore. Pour y parvenir, nous utilisons un algorithme d’apprentissage profond, mais nous lui imposons une contrainte physique : la réverbération résulte d’un filtre acoustique propre à l’espace dans lequel le son a été capté – une salle, par exemple. Nous intégrons cette connaissance au modèle en spécifiant que le filtre à annuler doit correspondre à une réalité physique, comme les réflexions sonores sur les murs.
Un autre exemple concerne la génération musicale. Nous travaillons à produire automatiquement des accompagnements pour une mélodie donnée. Ici, nous exploitons la structure inhérente à la musique – ses motifs rythmiques, ses progressions harmoniques – comme une connaissance préalable. En imposant des contraintes temporelles ou hiérarchiques à l’algorithme, nous guidons la génération pour qu’elle respecte ces principes fondamentaux, plutôt que de produire un résultat chaotique ou déconnecté de la logique musicale.
Enfin, un dernier cas illustre notre approche de la séparation des sources sonores. Les méthodes classiques, dites supervisées, entraînent un modèle sur des enregistrements où les sources mélangées et leurs versions séparées sont connues. Nous explorons une voie différente : apprendre à séparer des sources sans jamais disposer des versions isolées au préalable. Comment ? En modélisant chaque source comme le produit d’un synthétiseur virtuel. Imaginons un enregistrement mêlant quatre instruments : nous associons à chacun un synthétiseur spécifique, dont les sorties, une fois additionnées, reproduisent le signal original. L’algorithme ajuste alors les paramètres de ces synthétiseurs pour reconstruire les sources individuelles. Si, par exemple, nous séparons une voix chantée, nous pouvons contraindre le synthétiseur à respecter les caractéristiques physiques de la production vocale – vibration des cordes vocales, filtration par le conduit vocal – ce qui facilite l’apprentissage et améliore la précision.
Tout à fait. En intégrant des modèles de connaissance explicites, nous réduisons le besoin de données massives pour entraîner nos algorithmes. Traditionnellement, les réseaux de neurones apprennent en ingérant d’énormes quantités d’exemples, ce qui exige des capacités de calcul considérables et génère une empreinte énergétique significative.
Cela se traduit par des modèles plus légers, moins gourmands en calcul et, par extension, plus respectueux des impératifs de sobriété numérique. C’est une réponse concrète aux défis environnementaux posés par l’essor de l’IA.
Une plateforme au service des musiciens et au-delà
La plateforme que nous développons dans Hi! Audio vise à transformer la manière dont les musiciens collaborent et produisent de la musique, tout en servant des objectifs scientifiques plus larges. L’idée est née d’un constat, amplifié par la pandémie de Covid-19 : des orchestres ou groupes ont dû recourir à des enregistrements individuels, réalisés à distance, qui devaient être ensuite resynchronisés manuellement et mixés. Notre plateforme automatise ce processus. Chaque musicien se connecte, enregistre sa piste et le système la synchronise automatiquement avec celles des autres, produisant un mixage cohérent.
D’une part, le mélange final ressemble à un enregistrement classique, comme sur un disque. D’autre part, nous conservons les pistes individuelles, propres et distinctes. Pour les musiciens, cela signifie une flexibilité accrue : ils peuvent collaborer à distance, sans contrainte géographique, tout en obtenant un enregistrement synchronisé. Pour la recherche, c’est une mine d’or : ces enregistrements alimentent des bases de données précieuses pour entraîner des modèles de séparation de sources ou d’analyse musicale. De plus, la plateforme étant accessible mondialement, elle capte une diversité de genres et de traditions – des musiques régionales aux répertoires de toutes les régions du monde – enrichissant ainsi le matériau sonore disponible.
Au-delà de la musique, ces avancées trouvent des applications dans l’IA générative – générer des sons ou transformer des enregistrements – ou dans des tâches plus classiques, comme le débruitage de la parole ou la suppression de réverbération. Elles touchent aussi l’analyse, la transformation et la synthèse sonore dans des contextes variés, de l’audiovisuel à la bioacoustique.
Le machine listening : une accélération universelle ?
Oui, absolument. Nous assistons à une accélération générale dans l’IA, et le machine listening n’échappe pas à cette dynamique. Cette effervescence s’explique par plusieurs facteurs : un nombre croissant d’équipes de recherche s’investissent dans le domaine, portées par un engouement mondial pour l’IA ; les capacités de calcul explosent ; les données disponibles se multiplient. Ces conditions, communes à d’autres secteurs comme la vision par ordinateur ou le traitement du langage naturel, propulsent les avancées à un rythme soutenu.
L’écoute artificielle trouve des applications bien au-delà du domaine musical : la débruitage adaptatif dans les casques audio, l’analyse bioacoustique pour l’étude des écosystèmes sonores naturels, ou l’intégration future dans les voitures autonomes, qui pourraient bénéficier d’une perception sonore pour détecter des signaux d’alerte comme des klaxons ou des sirènes. Dans l’industrie, la maintenance prédictive utilise les signatures acoustiques pour détecter des anomalies dans les machines. Quand un objet est en bon fonctionnement et qu’on le fait vibrer, il émet un certain type de son ; si par exemples les vibrations changent avec le temps, cela peut être une manière de détecter un dysfonctionnement. Ainsi une roue dentée usée n’émettra pas les mêmes vibrations qu’une roue dentée neuve.
Enfin, nous assistons à un essor des modèles de synthèse à partir du texte (Text-to-audio), inspirés des modèles de langage comme ChatGPT, qui permettent de générer des sons et des musiques directement à partir de descriptions textuelles. Ce champ ouvre des perspectives fascinantes pour la synthèse et la création sonore, en imaginant des instruments et timbres encore inexistants.
Oui c’est vrai, cela peut paraître surprenant que les voitures autonomes n’aient pas encore d’oreilles, mais clairement ce sujet intéresse fortement les constructeurs automobiles. Par exemple les Waymo de San Francisco sont bardées de capteurs mais n’ont pas de micr,o- : ce qui veut dire qu’elles ne peuvent pas entendre une sirène qui vient de loin, elles ne peuvent pas entendre un piéton qui lui dit « attention je passe », ou un vélo qui actionne sa sonnette… Donc, pouvoir ajouter une modalité sonore permettrait de rendre la voiture autonome plus sûre.
Avec un synthétiseur, une machine qui génère des sons, il est possible d’analyser un son existant et d’estimer les paramètres permettant de régénérer ce son existant ; il suffit donc de changer légèrement la valeur de ces paramètres pour générer un son qui n’existe pas. Une autre façon est d’apprendre à la machine à générer un grand nombre de sons et tenter d’en générer entre deux classes de sons par exemple. Enfin, il est aussi possible de générer le son d’un instrument fictif à partir d’un texte décrivant les caractéristiques de ce son.