Axys Consultants simplifie les réunions avec la reconnaissance vocale

mercredi 2 décembre 2020

Compte-rendu du séminaire industriel data science des Mastères Spécialisés Big Data et IA de Télécom Paris du jeudi 12 novembre 2020, avec Jean-Luc Marini et Maxence Azzouz-Thuderoz d’Axys Consultants.

Axys Consultants est un cabinet de conseil indépendant dans le management et la transformation digitale. A ce jour Axys Consultants est composé de 240 consultants répartis dans plusieurs business units et filiales et génère 32 M€ de chiffre d’affaires.

Axys Consultants se positionne sur différents practices que sont les achats, la finance, le digital marketing et commerce, mais aussi dans des domaines comme la data, l’accompagnement au changement et le pilotage des projets de transformation digitale. Axys Consultants possède également un laboratoire d’intelligence artificielle (Lab IA) ayant diverses applications (analyse prédictive, chatbots, système de reconnaissance automatique de la parole, solutions de traitement du langage naturel (Natural Language Processing ou NLP), moteur de recherche sémantique dans des bases de connaissance et résolution de problèmes d’optimisation combinatoire).

Le projet Smart Report

Dans le monde du conseil, de nombreuses réunions se tiennent chaque jour. La rédaction des comptes rendus de ces réunions prend un temps considérable. On estime que pour une réunion d’une heure, la rédaction du compte rendu prendra approximativement 1h45 à 2h, ce qui représente un temps colossal. C’est dans ce cadre que s’inscrit le projet Smart Report développé par le Lab IA. L’objectif et l’ambition de ce projet est de permettre d’automatiser la rédaction de ces comptes rendus de réunion à l’aide de l’intelligence artificielle.

Dans ce projet, plusieurs aspects techniques sont abordés :

La transcription textuelle des échanges vocaux,
La synthèse automatique de ces échanges,
L’analyse des sentiments exprimés lors de la réunion,
L’assistance à la rédaction d’un « Relevé d’Information Décision Action » (RIDA).

Système de reconnaissance vocale

Axys Consultants a conçu et mis en œuvre son propre système de reconnaissance vocale via une boîte à outils open source nommée KALDI. Pour qu’il soit efficace, il doit être entraîné avec beaucoup de données du domaine (au minimum 300 heures d’enregistrements audios avec leur transcription textuelle). Le processus de construction de ce système de reconnaissance vocale se déroule à travers deux étapes :

Préparation des données : cette étape consiste à collecter toutes les données nécessaires à l’entraînement du système. Les données ici sont sous forme audio et doivent au préalable être transcrites sous forme textuelle. Axys Consultants a fait appel à un prestataire spécialisé pour la transcription de ces enregistrements audios.
Construction d’un dictionnaire de phonétisation, d’un modèle de langage et d’un modèle acoustique à l’aide de ces données et entraînement du système de reconnaissance automatique de la parole.
Évaluation de la performance du modèle (scoring) à l’aide d’un dataset de test et calcul d’un WER (word error rate) par transcription qui correspond au pourcentage de mots mal ou non reconnus par le système.
Enfin, dans le cas où le résultat est satisfaisant (WER < 15%), on passe à la phase de traitement du langage naturel (NLP) car on considère alors que le système de reconnaissance vocale est robuste.

Traitement du langage naturel

Une fois que la transcription textuelle est réalisée, Axys Consultants procède à l’extraction d’informations via des techniques de NLP telles que :

Le TF-IDF et le plongement lexical ;
La reconnaissance d’entités nommées (NER) ;
Le POS tagging et le dependency parsing.

L’objectif ici étant d’identifier l’objet de la réunion, les participants à la réunion, les organisations et les personnes citées, les dates et périodes ainsi que de classifier les réunions en fonction du vocabulaire employé.

Les différentes étapes du NLP sont les suivantes :

Travailler sur des corpus de documents de type PowerPoint en les soumettant à une phase de normalisation.
Phase de tokenisation qui consiste à séparer un texte en tokens (le plus souvent des mots).
Construire des tables de hashage par entité d’Axys Consultants (Business Unit ou filiale) afin de compter les occurrences de ces suites de tokens et récupérer les mots clés récurrents.
Représenter l’importance d’un token par rapport à un autre dans un corpus en utilisant deux approches : le « TF-IDF » et le « Word Embeddings ».
Reconnaissance d’entité-nommées en utilisant la librairie Spacy de python.

Enfin à partir de ces informations extraites avec le NLP et l’utilisation de tags (expressions clés), le Lab IA va pouvoir proposer aux consultants d’Axys Consultants un assistant à la rédaction d’un RIDA.

Analyse des sentiments

Afin d’effectuer une reconnaissance d’émotions lors de réunions, Axys Consultants a recourt à deux sources d’informations. D’une part, l’enregistrement audio de ces réunions et d’autre part, leur transcription textuelle.

Afin d’opérer une reconnaissance d’émotions à partir du texte, plusieurs techniques peuvent être utilisées comme le « bag of words » qui tient compte uniquement de la fréquence d’apparition des mots sans prendre en considération leur ordre dans les phrases ou le « word embedding » (ou prolongement lexical en français) ou les réseaux de neurones récurrents (RNN) qui sont utilisés afin de tenir compte du sens des mots, mais aussi de leur ordre dans une phrase.

La reconnaissance d’émotions à partir de la voix (SER) consiste à convertir un signal audio en un spectrogramme temps fréquence au moyen d’une transformation de Fourier à court terme (STFT). Ce spectrogramme est ensuite considéré comme une séquence vidéo où chaque plan séquence varie au court du temps et alimente un RNN qui analyse en temps réel les émotions dans une séquence vidéo. Des réseaux de neurones convolutifs (CNN) convertissent chaque image en features qui viennent alimenter une couche de réseaux de neurones récurrents avec une cellule mémoire à court et long terme (LSTM). Ceux-ci permettent alors de détecter les caractéristiques temporelles de l’évolution de la voix.

Plusieurs couches denses avec une activation softmax convertissent la sortie des LSTM en distribution de probabilité sur les émotions. Cette deuxième approche vient en complément de la première (prise en compte de la voix et du texte) et permet d’améliorer la précision de l’identification d’un état émotionnel. Enfin, les émotions peuvent être analysées de façon différente, via un modèle émotionnel discret (classification des émotions sous des étiquettes discrètes comme la joie, la colère, etc..) ou via un modèle émotionnel basé sur des dimensions (représentation des émotions avec des dimensions telles que la valence, l’arousal et la dominance).

Du projet expérimental à la commercialisation

A l’origine, ce projet était expérimental, mais pourrait intéresser certains clients d’Axys Consultants (essentiellement des grands comptes du CAC 40 et du SBF 120). Cette solution intéresse également bon nombre de PME et ETI, notamment pour la partie transcription et résumé en mode SaaS. La commercialisation de ces services pose plusieurs questions pour le groupe :

Axys Consultants ne dispose pas des mêmes ressources que les leaders du secteur du Speech To Text et nécessite des corpus spécialisés par domaine et environnement acoustique.
Quel est le niveau de performance attendu ?
Quelle architecture technique faut-il mettre en place ?
Quelles sont les ressources nécessaires à l’administration de ces services en mode SaaS ?
Nécessité de réaliser une analyse de la valeur.
Adopter une tarification qui tienne compte de la concurrence et des prix de marché.
Adopter un nouveau Business model et envisager la création d’une filiale, car Axys Consultants n’est pas un éditeur de logiciel.

En savoir plus sur Axys Consultants

Compte-rendu rédigé par Samuel Bakebeck, Rémi Genet et Valentin Pannier, étudiants du Mastère Spécialisé Big Data promotion 2020-2021.

Illustration : photo créé par xb100 – fr.freepik.com