Télécom Paris Ideas
Les interactions humain-machine à l'ère de ChatGPT

Les interactions humain-machine à l’ère de ChatGPT

Damien Rudaz, doctorant à Télécom Paris, décembre 2024.

Damien Rudaz (source @_DamienRudaz sur XTwitter)À l’heure où les IA génératives interviennent aussi dans notre manière de converser avec les humains, Damien Rudaz nous parle de ses recherches autour des interactions entre humains et robots et de leur évaluation.

C’est le sujet de sa thèse qu’il a conduite chez Aldebaran Robotics, l’entreprise qui a créé les robots Pepper et Nao, connus dans le monde entier.

Propos recueillis par Isabelle Mauriac

Podcast

Retrouvez cette interview en format audio dans le cadre des podcasts Télécom Paris Ideas :

Podcast Michel Desnoues, Télécom Paris

Robot social, quézaco ?

Sur ce sujet qui peut paraître assez classique, vous nous dites que même dans la littérature scientifique, cette interaction est souvent traitée comme une boîte noire, on ne sait pas vraiment ce qui s’y passe et l’interaction, notamment naturelle, avec le robot n’est pas directement abordée. Vous avez choisi de creuser le sujet sous l’angle de l’ergonomie et de la sociologie linguistique et vous avez investigué trois terrains, à la Cité des Sciences de Paris-La Villette, chez Aldebaran et en laboratoire. Pouvez-vous nous dire ce que vous avez observé et ce qui se passe dans cette boîte noire de l’interaction, comment les robots émergent ou n’émergent pas en tant qu’agent social ?

Ce terme de robot social est un terme très utilisé et qui peut correspondre à un robot humanoïde, avec des bras, étant capable de comprendre le langage, capable de répondre, et les questions sont : « que se cache-t-il derrière ce terme de robot social ? Les robots sociaux sont-ils vraiment traités de façon sociale dans les interactions réelles avec des humains ? ».

Cela répondait à une vision spécifique de ce qu’est la socialité. Il pourrait exister deux définitions : se dire qu’un robot social est simplement un robot ayant des propriétés objectives qui le rendent social parce qu’il est humanoïde, qu’il a des yeux, qu’il peut bouger sa tête, ou alors…

… considérer que le robot social est traité socialement par les humains dans les interactions concrètes. Dans ce cas-là, un robot dit « social » est produit de façon à être traité socialement par les humains dans les interactions qu’il aura par la suite avec eux.

Or, parmi les interactions avec des robots que nous avons observées, à la Cité des Sciences ou chez Aldébaran, nous avons beaucoup plus remarqué un travail interactionnel à la charge des humains : des micro-pratiques mises en œuvre en tant qu’humain pour faciliter l’interaction.

Pouvez-vous nous donner quelques exemples de ces interactions et de ce soutien des humains au robot ?

Il y a un phénomène que j’appelle « jouer l’avocat du robot », observé surtout à la Cité des Sciences. Cela revient à reconfigurer l’interaction avec le robot de façon à ce que son comportement paraisse pertinent à la personne qui est en train de lui parler. Autour du robot et de la personne qui interagit principalement, un petit public va se former (la famille de cette personne, ses amis, ou d’autres regardant ce qui se passe), qui va souvent intervenir lorsque la personne qui parle au robot commence à avoir des difficultés pour comprendre ce que le robot est en train de faire. L’humain est alors en quelque sort rendu responsable de l’échec du robot alors que le robot a un comportement tout à fait pertinent, en l’occurrence attendre simplement qu’il se voit répondre bonjour.

Cette façon de jouer l’avocat du robot fait partie d’un ensemble de pratiques qui vont permettre de maintenir le robot comme un agent social plutôt que de complètement rompre l’interaction et d’arrêter de lui parler.

Vous évoquez les droits et les devoirs interactionnels du robot. Qu’est-ce que c’est précisément ?

Ce sont tous les comportements qui vont manifester le fait que le robot a des droits et des devoirs dans l’interaction. Alors par droits et devoirs, j’entends cette moralité des interactions quotidiennes, où si je produis par exemple un « bonjour », je crée une pression normative sur mon interlocuteur de produire une réponse. Des régularités dans l’interaction sont observées, comme le fait de ne pas répondre immédiatement lorsqu’une requête est rejetée. Si vous me demandez « viens-tu à mon anniversaire demain ? » et que je dis oui, alors pas de problème, je pourrai répondre immédiatement. Mais si je dis « c’est compliqué, je ne suis pas sûr », je vais souvent laisser un temps de latence assez important entre la question et la réponse. Or il est parfaitement possible, lorsqu’un robot nous pose cette question-là, de lui répondre immédiatement « non » et, en faisant cela, sera manifesté un traitement du robot comme n’étant pas inclus dans cet ordre moral. Autre exemple, si je dis « bonjour » en face d’une personne, je créé une pression normative pour que soit répondu « bonjour » à mon « bonjour ». Cela se rapproche du concept d’Erving Goffman, assez bien connu en sociologie, de la protection de la face : il y a tendance à un certain nombre de comportements pour éviter que notre interlocuteur perde la face. Par exemple typiquement, si vous dites « bonjour » au chauffeur de bus, il vous regarde, ne répond rien ou vous dit « pardon ? », cela crée un malaise. C’est quelque chose de fréquemment vu avec le robot…

Un deuxième critère pour qualifier les droits du robot est tout simplement qu’il soit traité comme compétent dans l’interaction. Enfin un troisième critère est qu’il ne soit pas traité comme prédéterminé, que son comportement soit traité comme un comportement libre et qui n’est pas entièrement scripté à l’avance par des humains.

Pouvez-vous nous parler de l’exemple du robot réceptionniste d’Aldebaran censé pointer les entrées et les sorties du personnel et qui finalement, au bout d’un certain nombre de passages, était court-circuité par les salariés eux-mêmes qui raccourcissaient l’interaction ?

C’était quelque chose d’assez intéressant de pouvoir mettre un robot dans un hall d’accueil et de voir des interactions se dérouler sur le long terme ; c’est assez rare en recherche de pouvoir contraindre des gens d’interagir avec un robot tous les jours pendant deux ans et j’ai pu observer cette interaction lors du check-in et du check-out sur le robot d’accueil d’Aldebaran. C’était assez rébarbatif mais parfaitement maîtrisé au point que certains optimisaient complètement le type d’interaction qu’ils allaient avoir avec le robot en tapant dans le capteur du robot à leur arrivée, ce qui faisait lever la tête du robot parce qu’il cherchait la source du choc. Or, le fait que le robot lève la tête lui faisait immédiatement voir le visage de l’humain, lequel voyait alors le visage du robot et criait son nom, puis répondait immédiatement par l’affirmative à la question que le robot n’avait pas encore posée parce que l’humain connaissait la fenêtre de temps pendant laquelle le robot pouvait entendre une réponse, puis passait son chemin… comme une espèce de speedrun du robot.

Et une forme de brutalisation un peu quand même ?

Oui, il y avait quelque chose de cathartique un peu là-dessus, mais c’était surtout une optimisation des algorithmes et des mécanismes du robot qui n’avait plus rien d’une interaction sociale :

…il s’agissait non pas de réagir à ce que le robot faisait mais d’anticiper systématiquement ce qu’il allait faire…

Donc dans ce cas, qu’est ce qui était respecté dans les droits et devoirs interactionnels du robot ?

Rien ne cochait les trois éléments définis précédemment, basés sur une littérature assez importante en robotique sociale. Il n’y avait pas de traitement du robot comme étant un agent moral qui avait des droits et des devoirs interactionnels : on pouvait lui saisir la tête et crier son nom sans problème, il n’était pas traité comme compétent et il n’était certainement pas traité comme libre de ses de ses actions. Au contraire, il était orienté comme entièrement scripté à tout niveau.

IA générative, nouvelles perspectives

Quelques-unes des limites du robot dans ses interactions avec l’humain sont atteintes, mais pour autant il y a quand même l’impression que le domaine a beaucoup progressé récemment, notamment avec donc l’arrivée de ChatGPT. Qu’est ce que les IA génératives ont changé aux robots et aux agents conversationnels ?

Énormément de choses ! Auparavant on se basait sur des applications faites avec des règles, tout bêtement les « rule-based chatbots». Ils ne sont pas forcément simplistes, il peut y avoir beaucoup de règles et un répertoire immense de réponses possibles pour le robot, mais il faut une grosse équipe d’ingénieurs qui va coder à la main les réponses possibles, ou un système qui va permettre au robot de combiner différentes parties de phrases, mais le robot va rester une forme de débutant interactionnel.

Hubert Dreyfus, un grand critique de de l’IA, affirmait, et cela se confirme jusqu’à maintenant, que des robots exclusivement basés sur des règles ne peuvent pas faire mieux qu’un débutant humain en interaction, puisque seuls les débutants suivent exclusivement les règles.

Aux échecs, après un grand nombre de parties, le joueur va s’affranchir des règles et agir de façon beaucoup plus instinctive.

Il s’agit du tout début des agents conversationnels… ChatGPT est bien loin de tout cela !

Les choses ont commencé à changer pour les entreprises de robotique en 2022, où effectivement ChatGPT a été rendu accessible au grand public et de nouveaux modèles de langage ont permis d’avoir des interactions conversationnelles. Pour l’instant les entreprises de taille moyenne en robotique ou les chercheurs individuels se contentent de brancher tout bêtement le robot à l’API de ChatGPT ou d’autres modèles de langage (idéalement, qui n’envoient pas les données sur les serveurs américains). Dans ces cas-là, ce que dit l’humain est traduit au robot à travers le module de reconnaissance vocale du robot, puis envoyé sous forme de prompt au modèle de langage, enfin on va lire la réponse qui a été faite par le modèle de langage à l’humain à travers le module de synthèse vocale du robot. C’est presque fait avec des bouts de scotch, pour l’instant.

Dans la plupart des cas, il y aura une sorte de traduction des paramètres pertinent de l’interaction sous forme écrite, que ce soient les paroles humaines ou les perceptions du robot. Si par exemple il perçoit deux personnes via ses capteurs, il peut intégrer cela au prompt et dire « l’humain a dit cela en étant à côté d’une autre personne et en bougeant sa main vers la droite », et ensuite le modèle de langage va faire son travail et renvoyer un prompt écrit.

Donc, avec cette méthode-là, il est nécessaire d’avoir une décision quasiment constante des humains pour savoir que faire verbaliser, ce qu’il faut articuler en langage de la situation perçue par le robot à travers ses capteurs ?

Peut-être qu’à l’avenir, et sans doute beaucoup de laboratoires travaillent là-dessus actuellement, il ne faudra plus passer par la verbalisation et l’articulation de ce que le robot voit pour produire une réponse d’un modèle de langage ; mais actuellement, il y a cette espèce de chimère entre un robot connecté à une API qui envoie les informations à un modèle de langage entraîné sur des données essentiellement textuelles. Les données conversationnelles, transcrites sous forme plus ou moins précises, sont assez minimes dans les data sets fournis aux modèles de langage.

Donc un robot produit du contenu sous forme conversationnelle à l’oral à partir de données qui n’impliquent pas toujours les pratiques typiques mises en œuvre par les humains dans les interactions conversationnelles ; cela pose un certain nombre de problèmes, puisque le robot ne paraît pas naturel dans son comportement.

Ce qui manque souvent sont des pratiques que l’ethnométhodologue Harold Garfinkel appelle « vues mais pas remarquées » et que nous mobilisons tous en tant qu’humains experts de la conversation dans nos interactions, mais que nous avons du mal à détecter par leur absence.

Je donne un exemple très basique : lorsque je parle avec un autre humain, je peux manifester que le sujet en cours s’étiole ou qu’il devient moins pertinent pour l’interaction en cours avec des « ouais… c’est comme ça… qu’est-ce que tu veux… » . Et la personne en face de moi va juste répondre « ouais… », et il pourra y avoir des tours qui s’enchaînent ainsi quatre ou cinq fois de suite avec juste des « ouais… » . Je vous mets au défi de trouver une IA qui produit ce type de pratique de façon pertinente !

Un autre exemple assez commun est l’absence de relance dans les interactions entre robot et humain où la relance serait à la charge du robot. Il y a plein de raisons à cela, notamment le fait que souvent les « UX » (les ergonomes chargés d’améliorer « l’expérience utilisateur » des humains qui interagissent avec le robot) ne veulent pas que les robots relancent afin d’éviter que les humains soient constamment stimulés par le robot. Mais même lorsque ce serait pertinent, le robot n’est pas capable d’exécuter proprement une relance parce qu’une relance n’est pas simplement attendre deux cents millisecondes de silence et dire « au fait, ça va, toi ? », mais c’est prendre en compte le type de silence qui a lieu, et à partir de ce silence-là, produire une relance qui a du sens par rapport à l’interaction en cours. Par exemple si je vous dis « ça va ? » et que j’attends deux cents millisecondes, vous avez presque l’obligation de me dire « oui moi, ça va et toi ? » . Donc c’est un silence avec une certaine charge normative. Si par contre, arrivé à la fin de notre dialogue et avec un silence assez long, la conversation ne sera pas relancée de la même façon.

Pour rebondir sur cet exemple, que faudrait-il pour que le robot puisse interpréter tel ou tel silence de façon correcte et quels sont les progrès espérés en la matière ?
En effet, traiter les silences comme des événements à part entière serait déjà un pas important dans beaucoup de systèmes conversationnels actuels.

C’est-à-dire ne pas relancer uniquement en fonction d’un timer – quand le robot voit qu’il s’est écoulé cinq cents millisecondes et qu’il est programmé pour parler après cinq cents millisecondes de silence – mais relancer lorsque le silence qui précède ou qui suit son propre tour de parole, est un silence d’un certain type. Par exemple si je dis « bah… voilà » ou si je dis « j’étais au cinéma hier » et que je n’ai pas de réponse pendant trois secondes, je peux m’orienter par rapport à ce silence pour produire une relance.

D’une façon générale, c’est un problème de compétences du robot ou en tout cas de maîtrise des comportements humains de sa part, qui de surcroît varient souvent d’une culture à l’autre…

Oui, et c’est une question qui commence à se poser dans les interactions humains-robots et surtout pour les linguistes ou les sociologues qui étudient ces interactions-là : est-il possible de se baser sur le comportement d’un robot connecté à un modèle de langage comme un comportement agrégeant un certain nombre de normes culturelles, comme étant une manifestation d’une tendance culturelle commune ? Donc est-il possible d’imaginer que le robot ait une forme de compétence ? Ou au contraire la définition de la situation que fait le robot n’est-elle pas insuffisante pour nous orienter par rapport à la situation ?

Le comportement du robot a-t-il un sens ?

Alors, quels seraient les nouvelles problématiques à relever par les chercheurs ou plutôt les nouveaux challenges concernant ces IA ?

Dans mon domaine très spécifique, la linguistique ou la sociologie, une des questions récentes que les chercheurs se posent est « à quel degré faire confiance au comportement d’un robot dans une situation sociale pour indiquer à l’observateur ce qui est en train de se dérouler ? ». Ceci lorsque sont observées des interactions naturelles entre des humains et des robots qui sont souvent branchés sur des modèles de langage.

Admettons qu’une personne demandant à un robot « peux-tu danser ? » et que le robot se mette à danser et dise « Ah oui, dansons !», en tant qu’observateurs extérieurs qui ne connaissons pas forcément la culture dans laquelle évolue cette personne, pouvons-nous nous baser sur la réponse du robot comme étant une indication que la personne a vraiment produit une requête demandant au robot de danser et non pas une question factuelle « peux-tu danser » ?

Entre humains, nous nous basons sur les comportements et les réponses des interlocuteurs pendant une conversation pour savoir ce qui est vraiment en train de se passer dans l’interaction, ce qui est une façon d’éviter de plaquer nos propres catégories de pensée, nos a priori sur les interactions observées.

Mais quand un robot est dans l’interaction, qu’en est-il du comportement du robot ? Faut-il le traiter comme le comportement d’un membre compétent de la société, comme un comportement qui fait sens ?

Le chercheur Pierre-Yves Oudeyer parlait des modèles de langage comme des agrégateurs de tendances culturelles et, en ce sens, comme pouvant faire ressortir certaines pratiques typiques des humains, et donc comme ayant une forme de compétence.

Ou alors au contraire ne faudrait-il pas plutôt considérer le comportement du robot comme indéfinissable et ne pas traiter le robot comme si ses comportements allaient créer de l’intelligibilité sur les situations observées ?

Vidéo

Damien Rudaz (vignette vidéo)

Vidéo Michel Desnoues, Télécom Paris

 

Télécom Paris Ideas