Pourquoi les algorithmes de reconnaissance faciale ne peuvent pas être parfaitement équitables sur tous les fronts en même temps
mardi 6 octobre 2020(modifié le 9 février 2021)
La partie la plus troublante dans cette histoire est qu’il a été montré que certains algorithmes de reconnaissance faciale sont moins précis pour les visages noirs que pour les visages blancs. Mais pourquoi est-ce le cas et que peut-on faire contre cela ?
L’erreur est humaine… et algorithmique
Les humains ne sont pas exempts d’erreurs. Nous reconnaissons bien les visages de personnes que nous connaissons, mais nous commettons beaucoup d’erreurs lorsqu’il s’agit d’identifier le visage d’un inconnu[1]. Les humains souffrent également de ce que l’on appelle ORB – « own race bias »[2], ce qui signifie que nous avons plus de difficultés à reconnaître le visage d’une personne appartenant à une autre ethnie. Ce biais peut conduire à de nombreuses discriminations liées à l’identification erronée de personnes. En moyenne, les algorithmes commettent moins d’erreurs que les humains[3], mais ils ne sont pas encore parfaits. Comme tout algorithme de prédiction, les algorithmes de reconnaissance faciale font des prédictions probabilistes basées sur des données d’entrée incomplètes – comme les pixels d’une photo floue. De telles prédictions ne sont jamais sans erreur. Comme le risque d’erreur algorithmique existe toujours, les questions que l’on doit se poser sont : quel est le niveau d’erreur acceptable ? quelles sont les types d’erreurs à prioriser ? et a-t-on besoin d’un taux d’erreur strictement identique pour chaque groupe de la population ?
Comme les humains, les algorithmes de reconnaissance faciale génèrent deux types d’erreurs : les faux positifs et les faux négatifs. Les premiers se produisent quand l’algorithme pense à tort qu’il existe une correspondance entre deux visages (situation vécue par Robert Williams). Les seconds se produisent quand l’algorithme pense à tort qu’il n’y a pas de correspondance.
Les conséquences découlant de ces deux erreurs peuvent être très différentes selon le cas d’usage. Par exemple, si la police utilise un algorithme de reconnaissance faciale pour localiser un suspect, un faux positif peut conduire à l’arrestation d’un innocent. Alternativement, quand la police aux frontières utilise la reconnaissance faciale pour déterminer si la photo d’un passeport correspond bien à la personne qui le présente, un faux positif permettra à un imposteur de passer la frontière avec un passeport volé. Chaque cas d’usage va générer des coûts différents pour chaque type d’erreur, coûts sociétaux mais surtout des coûts pour l’individu concerné. Un faux négatif qui empêche le déverrouillage d’ un smartphone génère de l’agacement pour l’utilisateur, mais cet agacement est sans commune mesure de l’humiliation subie par une personne innocente arrêtée parce que son visage ressemble plus ou moins à celui d’un criminel recherché. Pour chaque cas d’usage, le taux de sensibilité devra être ajusté par rapport au type d’erreur à privilégier et les risques y associés. Si l’on tente à diminuer le taux de faux négatifs, cela aura pour effet d’augmenter le taux de faux positifs, et vice versa. Il n’est généralement pas possible de minimiser à la fois le taux de faux positifs et le taux de faux négatifs.
Discrimination et technologie
Une discrimination se manifeste quand, pour un groupe de population donné (par exemple, la population africaine-américaine aux Etats-Unis), il y a un taux d’erreurs plus élevé, qu’il s’agisse de faux négatifs ou de faux positifs. La plupart des développeurs envoient leurs algorithmes au National Institute of Standards and Technology (NIST) des Etats-Unis, pour être testés sur les différences de taux d’erreurs sur différentes parties de la population. Le NIST utilise une grande base de données gouvernementale de photos de passeports, de visas mais également des photos d’arrestations, et teste l’algorithme selon différentes nationalités, genres, voire parfois différentes ethnies. Les résultats sont rendus publics ce qui permet de constater des différences importantes dans le taux d’erreur selon la nationalité ou la couleur de peau. Ces résultats montrent de grandes différences entre algorithmes, certains algorithmes atteignant un niveau de performance quasi-identique entre différents groupes démographiques, alors que d’autres ont du mal à reconnaître certains types de visages.
Ce type de différence de performance peut être due à des données d’entraînement inadéquates ou à une limitation intrinsèque de l’algorithme d’apprentissage lui-même. Si les données d’entraînement contiennent un million d’exemples d’hommes Blancs et seulement deux exemples de femmes Noires, l’algorithme d’apprentissage aura plus de difficultés à distinguer les visages de femmes Noires. Pour corriger cela, on peut soit utiliser des données d’entraînement représentatives de la totalité de la population (ce qui est souvent impossible), ou bien donner des pondérations différentes aux données d’entraînement pour simuler la proportion qui existerait dans un jeu de données représentatives de la population.
Les données d’entraînement inadéquates ne sont pas la seule cause de performances inégales. Certains algorithmes présentent des difficultés intrinsèques pour extraire des traits singuliers de certains types de visages. Par exemple, les visages de bébés ont tendance à se ressembler et sont notoirement difficiles à distinguer les uns des autres. Certains algorithmes pourront s’avérer plus performants si on leur présente davantage d’exemples d’entraînement. Si ces correctifs ne donnent pas de résultats, il est possible d’imposer une « contrainte d’équité », forçant l’algorithme à égaliser la performance entre plusieurs groupes de population.
Malheureusement, ceci peut avoir l’effet d’amoindrir le niveau de performance pour les autres groupes, voire de la dégrader de façon inacceptable. Si on impose une contrainte d’équité, il est d’abord nécessaire d’identifier quels sont les groupes de population concernés. Est-ce qu’un algorithme de reconnaissance faciale doit traiter chaque couleur de peau ou origine ethnique de la même façon, y compris pour les groupes dont les effectifs sont relativement faibles? Toute population pourrait en effet être divisée en un nombre presque illimité de strates.
Et quel niveau de différence de performance est-il possible de tolérer entre plusieurs groupes : doit-il être rigoureusement identique ou des différences sont-elles acceptables ? Et quel est l’effet de la contrainte d’équité sur la performance algorithmique ? En effet, un algorithme de reconnaissance faciale parfaitement ‘équitable’ pourrait s’avérer si peu performant qu’il sera parfaitement inutile en pratique.
En tant que société, nous vivons déjà dans un environnement très imparfait, où les humains commettent de nombreuses erreurs d’identification, surtout pour les visages appartenant à d’autres ethnies. Les algorithmes ont vocation à réduire ces erreurs et discriminations, mais cela ne veut pas dire que les algorithmes auront des performances strictement identiques quelque soit le groupe de la population.
Préoccupations éthiques
Quand nous permettons de collecter des données sur l’ethnie ou la couleur de peau afin d’aider à concevoir des algorithmes moins discriminatoires, nous consentons également à un compromis délicat. L’Europe interdit le plus souvent la collecte de données ethniques et ceci pour de bonnes raisons. Les bases de données ethniques ont permis aux Nazis et aux gouvernements de collaboration de localiser et d’assassiner 6 millions de Juifs dans les années 1940. Et pourtant les données sur l’ethnie ou la couleur de peau peuvent aider à concevoir des algorithmes moins discriminatoires. De plus, un algorithme « conscient de la couleur de peau » peut apprendre à compenser la discrimination en créant des modèles différents pour plusieurs groupes de population. Par exemple un modèle « peau foncée » et un modèle « peau claire ». Mais ceci va à l’encontre d’un principe important adopté en France et dans d’autres pays qui stipule que les règles doivent être aveugles aux couleurs[4].
Si l’équité parfaite est impossible, faut-il interdire les algorithmes de reconnaissance faciale ? Certaines villes des Etats-Unis ont imposé un moratoire sur l’usage de la reconnaissance faciale par la police aussi longtemps que les problèmes de fiabilité et de discrimination ne sont pas résolus. L’Etat de Washington a promulgué une loi qui requiert un programme de tests contre les biais, et un contrôle stricte de l’usage de la reconnaissance faciale par la police.
Un des aspects de cette loi est de rendre obligatoire une étude des impacts différentiés du système sur différents sous-groupes de la population et l’obligation d’introduire des mesures pour corriger les différences de performance. Cette approche nous paraît pertinente car cela créera de fortes incitations à mesurer et améliorer les biais en continu, même si, comme nous l’avons expliqué, il sera probablement impossible d’atteindre une équité parfaite sur tous les fronts en même temps.
__________________________________________________
By Stéphan Clémençon and Winston Maxwell, Télécom Paris, Institut Polytechnique de Paris
__________________________________________________
[1] P. Jonathon Phillips, Amy N. Yates, Ying Hu, Carina A. Hahn, Eilidh Noyes, Kelsey Jackson, Jacqueline G. Cavazos, Géraldine Jeckeln, Rajeev Ranjan, Swami Sankaranarayanan, Jun-Cheng Chen, Carlos D. Castillo, Rama Chellappa, David White, Alice J. O’Toole, ‘Face recognition accuracy of forensic examiners, superrecognizers, and face recognition algorithms’ Proceedings of the National Academy of Sciences Jun 2018, 115 (24) 6171-6176; DOI: 10.1073/pnas.1721355115
[2] Wong, Hoo Keat et al. “The Own-Race Bias for Face Recognition in a Multiracial Society.” Frontiers in psychology vol. 11 208. 6 Mar. 2020, doi:10.3389/fpsyg.2020.00208
[3] Jonathan Phillips et al., note 1.
[4] Levade, Anne. « Discrimination positive et principe d’égalité en droit français », Pouvoirs, vol. 111, no. 4, 2004, pp. 55-71.