Séminaires TALia (traitement automatique du langage naturel/IA)
Vendredi 25 novembre : Embeddings de textes pour l’inférence causale
par Pirmin Lemberger, directeur scientifique IA & NLP chez onepoint.
Dans ce deuxième séminaire de notre série consacrée à la causalité, nous examinerons comme on peut construire des embeddings de texte (de phrases) ajustés pour répondre à des questions causales. Comment par exemple déterminer l’influence causale sur la popularité d’une publication d’un réseau social d’une icône indiquant le genre de son auteur ? Selon toute vraisemblance cette popularité dépendra simultanément de son contenu et du genre affiché. Par ailleurs le genre affiché influera sur le contenu de l’article, typiquement par le choix du sujet ou le style d’écriture. Le texte devient alors une variable de confusion. Dans les situations dites identifiables, les théories de la causalité (Pearl ou Potential outcome) permettent d’ajuster les estimations pour prendre en compte de telles variables de confusion. Mais le TAL pose des problèmes spécifiques liés à la grande dimensionalité des représentations d’un texte. Dans l’article qui sera présenté, nous examinerons une adaptation du modèle BERT et une du modèle génératif LDA a ce problème.
Séminaires précédents
18 nov. : Synthèse d’image à partir du langage naturel
par Antoine Saillenfest, chercheur onepoint
La synthèse d’images à partir de descriptions en langage naturel suscite un fort intérêt qui s’étend bien au-delà de la communauté scientifique. Les derniers mois ont vu l’apparition de nombreux systèmes performants parmi lesquels on trouve Imagen, Midjourney ou encore DALL-E 2. Ce dernier repose sur un modèle contrastif nommé CLIP (pour Contrastive Language-Image Pre-training). CLIP permet la génération de représentations d’images robustes et de taille réduite qui contiennent de l’information d’ordre sémantique et de style. DALL-E 2, aussi nommé unCLIP, exploite ces représentations robustes dans le cadre d’un processus de génération d’image basé sur des modèles de diffusion. Ce séminaire a pour ambition, au travers l’analyse des composants du système DALL-E 2, d’illustrer l’apport du TAL dans les approches modernes de la synthèse d’images.
28 oct. : Une introduction à la théorie de la causalité de Judea Pearl.
par Pirmin Lemberger, directeur scientifique IA & NLP chez onepoint.
La prise en compte d’aspects causaux dans les modèles de Machine Learning offre la promesse de construire des modèles d’IA plus robustes, plus interprétables et moins sujets à certains biais. Une théorie de la causalité riche et élégante a été développée ces deux dernières décennies par Judea Pearl et ses collègues. Désormais ses implications sont étudiées dans le domaine du TAL. Une première direction de recherche concerne l’élaboration de modèles causaux dans lesquels les variables prédictives (le « traitement »), les variables cibles (l’« effet) » ou les variables de confusions (« confounders ») sont des documents textuels. Une seconde direction de recherche, plus ardue, est la prise en compte d’aspects causaux pour améliorer des modèles de TAL. Ce séminaire est le premier d’une série dans lequel nous présenteront de manière synthétiques les concepts et les outils, graphiques et algébriques, de la théorie de la causalité de J. Pearl. Suivront des séminaires consacrés aux questions spécifiques à la prise en compte de la causalité dans le TAL et, plus généralement, à la prise en compte des aspects causaux dans des modèles de Deep Learning.
23 sept. : Utilisation de tests unitaires pour améliorer un modèle de génération de code.
Par Nathanaël Beau, doctorant au Laboratoire de Linguistique Formelle à l’Université de Paris-Cité.
La synthèse de programme ou la génération de code vise à générer un programme qui satisfait à la spécification d’un problème exprimé en langage naturel. Des approches récentes utilisant des modèles de langue pré-entraînés à grande échelle ont montré des résultats prometteurs notamment avec Github Copilot développé par OpenAI. Ces modèles suivent souvent une procédure de fine-tuning supervisé pour entraîner un modèle à générer du code à partir de paires de descriptions de problèmes en langage naturel et de programmes. Un tel paradigme ignore certains signaux importants mais potentiellement utiles dans la spécification du problème, tels que les tests unitaires, ce qui entraîne souvent des performances médiocres lors de la résolution de tâches de codage complexes non vues. Aujourd’hui, nous présentons l’architecture CodeRL intégrant les tests unitaires grâce au Reinforcement Learning pour fine-tuner un modèle pré-entrainé de génération de code.
16 sept. : Une introduction au meta-learning
par Jean Vassoyan , doctorant en IA & Adaptive Learning chez onepoint et Centre Borelli.
Le méta learning est un paradigme du machine learning qui vise à créer des modèles spécialement optimisés pour apprendre de nouvelles tâches rapidement. D’une certaine manière, il s’agit d’une formalisation/généralisation du processus de transfer learning. Mais contrairement à ce dernier, le méta learning est particulièrement adapté aux situations de « few-shot learning », où l’on ne dispose que de très peu d’exemples par classe. Ainsi, en méta learning, l’objectif n’est pas d’entraîner un modèle à bien exécuter une tâche mais de préparer ce modèle à apprendre de nouvelles tâches rapidement.
9 sept. : S4, un modèle de séquences pour l’apprentissage des dépendances à longue portée
par Pirmin Lemberger, directeur scientifique IA & NLP chez onepoint.
L’un des problèmes fondamentaux rattaché aux modèles de séquences est de parvenir à modéliser les dépendances à longue distance entre leurs éléments constitutifs (mots, tokens, phonèmes, molécules etc.). Différentes architectures de réseaux de neurones comme les 1D-CNN, les LSTM enrichis d’un mécanisme d’attention ou, plus récemment, les Transformers apportent chacune une réponse partielle à cette problématique. Toutefois aucun de ces modèles ne parvient à modéliser de très longues séquences (>10.000 éléments). Dans ce séminaire, nous introduirons le modèle S4 développé récemment à partir d’idées issues de la théorie du contrôle et qui parvient à relever ce défi. S4 repose sur une formulation mathématique précise de l’idée de mémoire instantanée d’un historique et peut s’utiliser tel quel, sans adaptation d’architecture, à toutes sortes de données séquentielles (textes, sons, séquences ADN, …). S4 dépasse l’état de l’art dans un grand nombre de situations et a permis de résoudre certains problèmes ardus restés jusqu’ici sans solution comme la tâche Path-X. Nous discuterons la pertinence de S4 pour le traitement automatique du langage.
2 sept. : Désambiguïsation de mots en contexte basée sur le PageRank
par Angelo Ortiz Tandazo en stage dans le cadre de TALia.
Dans le cadre de mon M2 de recherche, je fais un stage de recherche autour de la désambiguïsation de sens de mots. L’idée derrière mes travaux, c’est de s’affranchir des gros modèles de langues qui occupent les premières places dans les tâches de désambiguïsation en contexte (Word-in-context, SemEval 2021 – tâche 2) et d’utiliser une méthode faiblement supervisée. En l’occurrence, ma méthode repose sur l’algorithme de PageRank (personnalisé), initialement conçu par Google pour le classement des résultats à des requêtes dans les moteurs de recherche. L’algorithme de PageRank est utilisé pour quantifier la proximité entre deux mots, qui sera par la suite exploitée dans le contexte d’un mot pour désambiguïser ce dernier. Dans ce séminaire, je décris ma méthode, les résultats et les limitations.
24 juin : Le Beam Search cherche-t-il vraiment à résoudre le problème de Maximum a Posteriori ?
par Nathanaël Beau, doctorant CIFRE chez onepoint et à l’Université Paris-Cité
Dans le problème de Neural Machine Translation (NMT), on cherche à maximiser le produit des probabilités de chacun des mots générés par notre modèle (Maximum a Posteriori decoding). Comme il n’est pas possible de tester toutes les séquences de mots possibles (on considère des vocabulaires de plus de 20 000 mots), on utilise le beam search, un algorithme de parcours de graphe, pour explorer une partie de l’espace des possibilités des traductions. Dans ce séminaire, nous nous intéresserons à l’apport réel du beam search, qui ne réside pas dans la résolution du Maximum a Posteriori problem.
17 juin : Une introduction aux auto-encodeurs variationnels
par Pirmin Lemberger, directeur scientifique IA & NLP chez onepoint.
Les auto-encodeurs variationnels (VAE) constituent une classe de modèles génératifs conçus pour apprendre et échantillonner des distributions de probabilités sur des jeux de données complexes : images, sons, vidéos, textes, graphes…. Ce séminaire présentera une introduction qui se voudrait mathématiquement aussi rigoureuse que le permet le sujet dans le cadre des techniques variationnelles appliqués à des modèles avec variables latentes. L’une des applications des VAE qui nous intéresse dans le cadre de TALia est la détection d’anomalies.
10 juin : Word-Sense Disambiguation (via PageRank over Wikipedia)
par Angelo Ortiz Tandazo en stage dans le cadre de TALia.
In this talk, I will go over my current work within my internship on word-sense disambiguation (WSD). Specifically, I will cover a PageRank-based unsupervised disambiguation method over Wikipedia abstracts, its limitations and its potential addition to a machine learning-based WSD pipeline.
13 mai : L’algorithme de Reinforcement Learning TRPO (Trust Region Policy Optimization)
par Jean Vassoyan , doctorant en IA & Adaptive Learning chez onepoint.
“Trust Region Policy Optimization” (TRPO) est un algorithme phare du Deep Reinforcement Learning, conçu pour remédier à deux limites majeures de l’approche classique « Vanilla Policy Gradient » : cette dernière n’est pas sample efficient et elle présente des problèmes de convergence. Pour remédier à ces défauts, TRPO propose une méthode d’optimisation basée sur la mise en place de « régions de confiance », garantissant une amélioration de la policy à chaque itération et permettant la réutilisation de données anciennes.
6 mai : Explanations for NLP Models from Case-Based Reasoning
par Pirmin Lemberger, directeur scientifique IA & NLP chez onepoint.
L’un des principaux défis du machine learning actuel est la construction de modèles dont les prédictions sont aisément interprétables par des non spécialistes. C’est une tâche particulièrement ardue pour les réseaux de neurones dont le fonctionnement naturel est celui d’une boite noire. Parmi les nombreuses approches proposées récemment, nous examinerons l’approche par prototypes. Il s’agit d’une tentative de formaliser la manière dont raisonnent les humains lorsqu’ils procèdent par analogie. L’idée consistant à rapprocher une observation pour laquelle on souhaite faire une prédiction de situations typiques (les prototypes) déjà vues par le passé qui aident à prendre des décisions à la fois pertinentes et intelligibles. Cette approche, déjà ancienne, est aujourd’hui combinée aux modèles de deep learning. Après des premiers résultats encourageants en vision artificielle, cette approche est depuis peu appliquée au Traitement Automatique du Langage qui sera l’objet de ce séminaire.
29 avril : Apprentissage actif : principes généraux et spécificités deep learning
par Bérengère Mathieu, docteure en IA & NLP chez onepoint.
Afin d’entraîner et d’évaluer une méthode de machine learning, disposer de données n’est souvent pas suffisant : il faut également posséder une vérité terrain, indiquant pour un certain nombre de données le résultat attendu. Construire cette vérité terrain est un processus généralement chronophage et fastidieux. Les méthodes d’apprentissage explorent les possibilités pour un modèle de machine learning, entraîné à l’aide d’une vérité terrain succincte, d’indiquer un sous-ensemble de données pour lequel la production d’une vérité terrain sera fortement bénéfique. Ainsi la vérité terrain n’est plus construite à l’aveugle, mais de manière efficace, en se limitant aux données nécessaires pour que le modèle de machine learning puisse apprendre correctement. Après l’étude des grands principes de l’apprentissage actif, nous verrons que des stratégies spécifiques doivent être mises en œuvre pour les réseaux de neurones, la question du nombre de données d’entraînement ne pouvant être séparée de celle de leur architecture.