Quand l'IA apprend à écouter : révolution sonore et machine listening

Quand l’IA apprend à écouter : révolution sonore et machine listening

Gaël Richard, enseignant-chercheur à Télécom Paris, spécialiste du traitement de l’information et co-directeur scientifique de Hi! Paris, mars 2025

Le machine listening, ou écoute artificielle, connaît aujourd’hui une accélération fulgurante. Ce champ de recherche, qui repose sur l’intersection du machine learning et de l’apprentissage profond, s’applique à une diversité de signaux sonores pour des usages aussi variés que la synthèse vocale, la séparation des sources sonores ou encore la reconnaissance automatique d’instruments et de voix.

Si ses applications se démocratisent auprès du grand public, elles s’enracinent dans des avancées scientifiques complexes, portées notamment par des figures comme Gaël Richard qui a obtenu en 2022 une bourse européenne ERC pour son projet Hi-Audio. Ce programme ambitieux vise à développer des approches hybrides combinant traitement des signaux et apprentissage profond pour analyser et comprendre les sons avec une précision inégalée.

Propos recueillis par Isabelle Mauriac

Hi-Audio (Hybrid and Interpretable Deep Neural Audio Machines), est un projet « Bourse avancée » (Advanced Grant) du Conseil européen de la recherche (ERC) soutenu par le programme de recherche et d’innovation Horizon 2020 de l’Union Européenne dans le cadre de l’accord 101052978.

Podcast

Retrouvez cette interview en format audio dans le cadre des podcasts Télécom Paris Ideas :

Podcast enregistré en janvier 2025 par Michel Desnoues, Télécom Paris

Hi-Audio : une plateforme pour réinventer l’enregistrement musical

— Votre projet Hi-Audio porte notamment sur la création d’une plateforme permettant l’enregistrement asynchrone de musiciens séparés. Pouvez-vous nous en dire plus sur ce projet et sur les deux avancées majeures qu’il incarne : l’hybridation des approches et la séparation des sources sonores ?

Le cœur du projet Hi! Audio repose sur une ambition : développer des méthodes hybrides qui marient des modèles de connaissance explicites – c’est-à-dire des représentations précises des phénomènes physiques ou musicaux – à la puissance de l’apprentissage profond, basé sur des réseaux de neurones. Historiquement, nous concevions des modèles avec peu de paramètres, chacun chargé d’une signification claire et directement liée au phénomène étudié. Ces modèles, bien que frugaux, étaient limités par leur simplicité. Avec l’avènement des réseaux de neurones, dopés par des masses de données et des capacités de calcul colossales, nous avons basculé dans une ère où la machine peut accomplir des tâches complexes – comme reconnaître une voix ou générer un son – sans que nous comprenions toujours pleinement les mécanismes internes de ces algorithmes. Cette opacité, associée à un manque de contrôle, constitue une faiblesse.

L’approche hybride que nous explorons dans Hi! Audio cherche à surmonter ces limites. Prenons l’exemple de la production vocale : nous savons que la parole naît de la vibration des cordes vocales, modulée par la géométrie de la gorge et de la cavité buccale. Nous pouvons construire un modèle simplifié de ce processus, avec quelques paramètres bien définis, et l’intégrer comme une contrainte dans un réseau de neurones.

Ce faisant, nous obtenons un système qui nécessite moins de données pour être entraîné, qui reste plus interprétable et dont certains paramètres, ancrés dans la physique, offrent un contrôle explicite.

— Pouvez-vous illustrer cela avec des exemples concrets tirés de vos travaux dans Hi-Audio ?

L’un de nos axes de recherche vise à supprimer la réverbération dans un enregistrement sonore. Pour y parvenir, nous utilisons un algorithme d’apprentissage profond, mais nous lui imposons une contrainte physique : la réverbération résulte d’un filtre acoustique propre à l’espace dans lequel le son a été capté – une salle, par exemple. Nous intégrons cette connaissance au modèle en spécifiant que le filtre à annuler doit correspondre à une réalité physique, comme les réflexions sonores sur les murs.

Ainsi, l’algorithme ne se contente pas d’éliminer un effet sonore arbitraire ; il cible précisément l’empreinte acoustique de la pièce, rendant le résultat plus naturel et cohérent.

Un autre exemple concerne la génération musicale. Nous travaillons à produire automatiquement des accompagnements pour une mélodie donnée. Ici, nous exploitons la structure inhérente à la musique – ses motifs rythmiques, ses progressions harmoniques – comme une connaissance préalable. En imposant des contraintes temporelles ou hiérarchiques à l’algorithme, nous guidons la génération pour qu’elle respecte ces principes fondamentaux, plutôt que de produire un résultat chaotique ou déconnecté de la logique musicale.

Enfin, un dernier cas illustre notre approche de la séparation des sources sonores. Les méthodes classiques, dites supervisées, entraînent un modèle sur des enregistrements où les sources mélangées et leurs versions séparées sont connues. Nous explorons une voie différente : apprendre à séparer des sources sans jamais disposer des versions isolées au préalable. Comment ? En modélisant chaque source comme le produit d’un synthétiseur virtuel. Imaginons un enregistrement mêlant quatre instruments : nous associons à chacun un synthétiseur spécifique, dont les sorties, une fois additionnées, reproduisent le signal original. L’algorithme ajuste alors les paramètres de ces synthétiseurs pour reconstruire les sources individuelles. Si, par exemple, nous séparons une voix chantée, nous pouvons contraindre le synthétiseur à respecter les caractéristiques physiques de la production vocale – vibration des cordes vocales, filtration par le conduit vocal – ce qui facilite l’apprentissage et améliore la précision.

— Vos modèles semblent donc plus économes en ressources. Dans un contexte où la sobriété numérique et l’IA frugale sont de plus en plus évoquées, votre travail s’inscrit-il dans ce mouvement ?

Tout à fait. En intégrant des modèles de connaissance explicites, nous réduisons le besoin de données massives pour entraîner nos algorithmes. Traditionnellement, les réseaux de neurones apprennent en ingérant d’énormes quantités d’exemples, ce qui exige des capacités de calcul considérables et génère une empreinte énergétique significative.

Avec notre approche hybride, la machine s’appuie sur une compréhension préalable du phénomène plutôt que de tout redécouvrir par essais et erreurs.

Cela se traduit par des modèles plus légers, moins gourmands en calcul et, par extension, plus respectueux des impératifs de sobriété numérique. C’est une réponse concrète aux défis environnementaux posés par l’essor de l’IA.

Une plateforme au service des musiciens et au-delà

— Passons à l’application concrète de votre projet : cette plateforme d’enregistrement asynchrone. Quels sont ses objectifs et ses bénéfices, pour les musiciens d’abord, mais aussi plus largement dans le traitement sonore ?

La plateforme que nous développons dans Hi! Audio vise à transformer la manière dont les musiciens collaborent et produisent de la musique, tout en servant des objectifs scientifiques plus larges. L’idée est née d’un constat, amplifié par la pandémie de Covid-19 : des orchestres ou groupes ont dû recourir à des enregistrements individuels, réalisés à distance, qui devaient être ensuite resynchronisés manuellement et mixés. Notre plateforme automatise ce processus. Chaque musicien se connecte, enregistre sa piste et le système la synchronise automatiquement avec celles des autres, produisant un mixage cohérent.

Mais le véritable avantage réside ailleurs : chaque piste reste isolée, enregistrée dans son propre environnement acoustique, sans interférence des autres sources. Cela offre une double richesse :

D’une part, le mélange final ressemble à un enregistrement classique, comme sur un disque. D’autre part, nous conservons les pistes individuelles, propres et distinctes. Pour les musiciens, cela signifie une flexibilité accrue : ils peuvent collaborer à distance, sans contrainte géographique, tout en obtenant un enregistrement synchronisé. Pour la recherche, c’est une mine d’or : ces enregistrements alimentent des bases de données précieuses pour entraîner des modèles de séparation de sources ou d’analyse musicale. De plus, la plateforme étant accessible mondialement, elle capte une diversité de genres et de traditions – des musiques régionales aux répertoires de toutes les régions du monde – enrichissant ainsi le matériau sonore disponible.

Au-delà de la musique, ces avancées trouvent des applications dans l’IA générative – générer des sons ou transformer des enregistrements – ou dans des tâches plus classiques, comme le débruitage de la parole ou la suppression de réverbération. Elles touchent aussi l’analyse, la transformation et la synthèse sonore dans des contextes variés, de l’audiovisuel à la bioacoustique.

Le machine listening : une accélération universelle ?

— Abordons maintenant votre terrain de recherche, le machine listening. Dans ce domaine, la vitesse d’évolution du traitement des signaux sonores est-elle comparable à celle d’autres branches de l’IA ?

Oui, absolument. Nous assistons à une accélération générale dans l’IA, et le machine listening n’échappe pas à cette dynamique. Cette effervescence s’explique par plusieurs facteurs : un nombre croissant d’équipes de recherche s’investissent dans le domaine, portées par un engouement mondial pour l’IA ; les capacités de calcul explosent ; les données disponibles se multiplient. Ces conditions, communes à d’autres secteurs comme la vision par ordinateur ou le traitement du langage naturel, propulsent les avancées à un rythme soutenu.

Le traitement des signaux sonores bénéficie ainsi d’une convergence d’innovations techniques et scientifiques, qui ouvrent des perspectives autrefois inimaginables.

— Il existe pléthore d’applications du machine listening dans l’industrie… Lesquelles voulez-vous commenter : la ville intelligente, la bioacoustique ou la maintenance prédictive dans l’industrie ?

L’écoute artificielle trouve des applications bien au-delà du domaine musical : la débruitage adaptatif dans les casques audio, l’analyse bioacoustique pour l’étude des écosystèmes sonores naturels, ou l’intégration future dans les voitures autonomes, qui pourraient bénéficier d’une perception sonore pour détecter des signaux d’alerte comme des klaxons ou des sirènes. Dans l’industrie, la maintenance prédictive utilise les signatures acoustiques pour détecter des anomalies dans les machines. Quand un objet est en bon fonctionnement et qu’on le fait vibrer, il émet un certain type de son ; si par exemples les vibrations changent avec le temps, cela peut être une manière de détecter un dysfonctionnement. Ainsi une roue dentée usée n’émettra pas les mêmes vibrations qu’une roue dentée neuve.

Enfin, nous assistons à un essor des modèles de synthèse à partir du texte (Text-to-audio), inspirés des modèles de langage comme ChatGPT, qui permettent de générer des sons et des musiques directement à partir de descriptions textuelles. Ce champ ouvre des perspectives fascinantes pour la synthèse et la création sonore, en imaginant des instruments et timbres encore inexistants.

— La voiture autonome, elle, n’a pas encore d’oreilles ; pour le moment elle n’utilise pas de micro et il est impossible de parler à une voiture autonome…

Oui c’est vrai, cela peut paraître surprenant que les voitures autonomes n’aient pas encore d’oreilles, mais clairement ce sujet intéresse fortement les constructeurs automobiles. Par exemple les Waymo de San Francisco sont bardées de capteurs mais n’ont pas de micr,o- : ce qui veut dire qu’elles ne peuvent pas entendre une sirène qui vient de loin, elles ne peuvent pas entendre un piéton qui lui dit « attention je passe », ou un vélo qui actionne sa sonnette… Donc, pouvoir ajouter une modalité sonore permettrait de rendre la voiture autonome plus sûre.

— Concernant la génération de sons sur laquelle il existe beaucoup de travaux, comment est-il possible de générer des sons qui n’existent pas encore ?

Avec un synthétiseur, une machine qui génère des sons, il est possible d’analyser un son existant et d’estimer les paramètres permettant de régénérer ce son existant ; il suffit donc de changer légèrement la valeur de ces paramètres pour générer un son qui n’existe pas. Une autre façon est d’apprendre à la machine à générer un grand nombre de sons et tenter d’en générer entre deux classes de sons par exemple. Enfin, il est aussi possible de générer le son d’un instrument fictif à partir d’un texte décrivant les caractéristiques de ce son.

Donc oui, il est tout à fait possible de générer des sons entièrement nouveaux : l’un des enjeux de la génération sonore est précisément de pouvoir dépasser l’ensemble des sons qui existent.