Détecter,évaluer les risques des impacts discriminatoires des algorithmes d'IA

(1)

HAL Id: hal-02616963

https://hal.archives-ouvertes.fr/hal-02616963

Preprint submitted on 25 May 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Détecter,évaluer les risques des impacts discriminatoires des algorithmes d’IA

Philippe Besse

To cite this version:

Philippe Besse. Détecter,évaluer les risques des impacts discriminatoires des algorithmes d’IA. 2020.

�hal-02616963�

(2)

D´etecter, ´evaluer les risques des impacts discriminatoires des algorithmes d’IA

Contribution au s´ eminaire conjoint: D´ efenseur des Droits & CNIL Philippe Besse ^∗

28 Mai 2020

R´ esum´ e

Faisant suite au d´ eploiement du RGPD, la Commission Europ´ eenne a publi´ e, en f´ evrier 2020 un livre blanc pour une approche de l’IA bas´ ee sur l’excellence et la confiance et dont les recommandations sont largement issues du guide pour une IA digne de confiance r´ edig´ e en 2019 par un groupe d’experts europ´ eens. Au del` a des questions prioritaires de protec- tion des donn´ ees au cœur des missions de la CNIL, ce livre blanc soul` eve avec insistance d’autres questions relatives aux risques des impacts des algorithmes d’apprentissage automatique sur notre soci´ et´ e : qualit´ e, re- productibilit´ e de d´ ecisions algorithmiques, opacit´ e des algorithmes et ex- plicabilit´ e des d´ ecisions, biais et risques de discrimination. En nous ba- sant sur des exemples concrets : score de cr´ edit, pr´ e-recrutement pr´ edictif, nous d´ ecrivons quels outils, proc´ edures, indicateurs (cf. tutoriel), pour- raient participer ` a la construction d’un DIA ou Discrimination Impact Assessment souhait´ e par le rapport Villani (2018) et coh´ erent avec la liste d’´ evaluation du groupe des experts europ´ eens. Les exemples trait´ es montrent les difficult´ es et mˆ eme l’impossibilit´ e d’un audit ex post d’un syst` eme d’intelligence artificielle (SIA) sur la base d’algorithmes d’appren- tissage. Nous concluons sur quelques recommandations dont la n´ ecessit´ e de la mise en place d’audits sur la base de documentations pr´ ecises et exhaustives ex ante d’un SIA.

Mots-cl´ es : intelligence artificielle, apprentissage automatique, discrimination, effet disproportionn´ e, testing, r´ eglementation europ´ eenne.

∗

Universit´ e de Toulouse – INSA, Institut de Math´ ematiques – UMR CNRS 5219, Obser-

vatoire International des Impacts Soci´ etaux de l’IA et du Num´ erique – Universit´ e Laval

(3)

English title : Detecting, assessing the risks of discriminatory impacts of AI algorithms ; Contribution to the joint seminar : D´ efenseur des Droits & CNIL.

Abstract : Following the deployment of the RGPD, the European Commission published in February 2020 a White Paper for an approach to AI based on ex- cellence and trust. Its recommendations are largely derived from the guide for trustworthy AI drawn up in 2019 by a group of European experts. Beyond the priority data protection issues at the very heart of the CNIL’s missions, this white paper insistently raises other issues related to the risks of the impacts of machine learning algorithms on our society : quality, reproducibility of al- gorithmic decisions, opacity of algorithms and explanability of decisions, bias and risks of discrimination. Based on practical examples : credit scoring, predic- tive hiring, we describe which tools, procedures, indicators (cf. tutorial), could participate in the construction of a Discrimination Impact Assessment (DIA) desired by the Villani report (2018) and consistent with the evaluation list of the European experts group. These examples reveal the difficulties and even the impossibility of an ex-post audit of an artificial intelligence system (AIS) based on learning algorithms. We conclude with a few recommendations, inclu- ding the need to set up audits on the basis of accurate and exhaustive ex-ante documentation of an AIS.

keywords : artificial intelligence, machine learning, bias, discrimination, dis-

parate impact, testing, european regulation.

(4)

1 Introduction

1.1 Du RGPD ` a une IA ´ ethique

La publication du RGPD (2018) et son int´ egration dans les lois nationales ont consid´ erablement impact´ e la gestion des donn´ ees dont celles impliquant des personnes physiques. La CNIL d´ eveloppe un outil d’´ evaluation du bon usage des donn´ ees sous la forme d’un logiciel d’Analyse d’Impact relative ` a la Protection des donn´ ees (Privacy Impact Assessment). Par ailleurs, l’Autorit´ e de la Concur- rence traque les risques d’entrave ` a la concurrence de la part des moteurs de recherche, sites de comparateurs de prix.

Ces points ne seront pas abord´ es mais rappelons le consid´ erant (71) du RGPD (2018) qui recommande :

[...] Afin d’assurer un traitement ´ equitable et transparent ` a l’´ egard de la personne concern´ ee, [...] le responsable du traitement devrait utili- ser des proc´ edures math´ ematiques ou statistiques ad´ equates aux fins du profilage, appliquer les mesures techniques et organisationnelles appropri´ ees pour faire en sorte, en particulier, que les facteurs qui entraˆınent des erreurs dans les donn´ ees ` a caract` ere personnel soient corrig´ es et que le risque d’erreur soit r´ eduit au minimum, s´ ecuriser les donn´ ees ` a caract` ere personnel d’une mani` ere qui tienne compte des risques susceptibles de peser sur les int´ erˆ ets et les droits de la personne concern´ ee, et pr´ evenir, entre autres, les effets discrimina- toires [...]

Les risques provoqu´ es par les impacts dus ` a l’opacit´ e, aux biais, aux erreurs des d´ ecisions algorithmiques n’ont finalement pas ou peu ´ et´ e pris en compte dans une r´ eglementation visant en priorit´ e la protection des donn´ ees. Ils ont ´ et´ e en revanche largement comment´ es dans de tr` es nombreuses d´ eclarations, chartes pour une IA ´ ethique au service de l’humanit´ e. Citons par exemple :

— Enjeux ´ Ethiques de l’Algorithme et de l’Intelligence artificielle (CNIL 2017) ´ egalement tr` es pr´ esents dans le

— 5` eme partie du rapport Villani (2018), et la

— D´ eclaration de Montr´ eal pour un d´ eveloppement responsable de l’IA (2018) qui cite par ailleurs pas moins de 28 rapports nationaux ou pro- fessionnels.

1.2 Vers un nouveau r` eglement pour l’IA

De son cˆ ot´ e la Commission Europ´ eenne (CE) a r´ euni un groupe d’experts ind´ ependants de haut niveau sur l’IA qui propose un ensemble de

— lignes directrices en mati` ere d’´ ethique pour une IA digne de confiance (2019) qui ont ´ et´ e suivies par la publication d’un livre blanc :

— Intelligence Artificielle: une approche europ´ eenne ax´ ee sur l’excellence et la confiance (2020).

Ce livre souligne l’importance prise par l’IA, qui combine donn´ ees, algorithmes

et puissance de calcul, dans tous les aspects de la vie des citoyens, en liste les

(5)

b´ en´ efices attendus, mais met ´ egalement en exergue les risques potentiels, tels que l’opacit´ e de la prise de d´ ecisions, la discrimination, qui accompagnent son d´ eveloppement et sa mise en œuvre. C’est un enjeu majeur car l’acceptabilit´ e de l’IA et donc son adoption par les citoyens ne seront possibles que si celle-ci est digne de confiance. La CE, qui ambitionne de faire de l’Europe un acteur mondial de premier plan en mati` ere d’innovation dans l’´ economie fond´ ee sur les donn´ ees et dans ses applications, insiste sur la n´ ecessit´ e de cette confiance fond´ ee sur les droits fondamentaux de la dignit´ e humaine et la protection de la vie priv´ ee.

Il s’agit donc pour la CE de proposer les ´ el´ ements clefs d’un futur cadre r´ eglementaire bas´ e sur un ´ ecosyst` eme de confiance en prenant en compte les lignes directrices en mati` ere d’´ ethique ´ elabor´ ees par le groupe d’experts et dont la liste d’´ evaluation servirait de base pour un programme indicatif destin´ e aux d´ eveloppeurs de l’IA et une ressource mise ` a la disposition des ´ etablissements de formation. La CE insiste sur la liste des exigences ´ enum´ er´ ees par le groupe d’experts en remarquant que si certaines sont prises en compte par les r´ egimes l´ egislatifs ou r´ eglementaires existants, d’autres (e.g. transparence, contrˆ ole hu- main) ne sont pas couvertes ou qu’il est de toute fa¸ con difficile de d´ eceler et de prouver d’´ eventuelles infractions ` a la l´ egislation, notamment aux dispositions juridiques qui prot` egent les droits fondamentaux, ` a cause de l’opacit´ e des algo- rithmes d’IA.

Par ailleurs, suivant en cela le groupe d’experts, la CE insiste tout parti- culi` erement sur une classe de syst` emes d’intelligence artificielle (SIA) bas´ es sur des algorithmes d’apprentissage automatique et donc sur le rˆ ole fondamental des donn´ ees utilis´ ees pour leur entraˆınement.

Remarque : algorithmes d´ eterministes ou proc´ eduraux ou encore d’IA symbolique. Cet article laisse apparemment de cˆ ot´ e cette classe d’algo- rithmes d´ ecisionnels (e.g. calcul de taxes, impˆ ots, allocations ou prestations so- ciales bas´ es sur un ensemble de r` egles de d´ ecision d´ eterministes qui peuvent tout autant pr´ esenter des impacts de d´ esavantage ou risques de discrimination indi- recte malgr´ e une apparente neutralit´ e. La d´ etection de ces risques rel` eve de l’ana- lyse experte des r` egles de d´ ecisions cod´ ees dans l’algorithme. N´ eanmoins, la com- plexit´ e de l’algorithme peut ˆ etre telle (cf. Parcoursup) qu’une l’analyse experte ex post ne sera pas en mesure d’´ evaluer l’´ etendue des risques. En cons´ equence, l’algorithme d´ eterministe peut ˆ etre trait´ e avec le mˆ eme niveau d’opacit´ e et les mˆ emes outils qu’un algorithme d’apprentissage non lin´ eaire.

1.3 Focus sur la non-discrimination ou ´ equit´ e d’une d´ ecision algorithmique

Parmi les exigences largement partag´ ees pour une IA de confiance, trois

questions sont essentielles (Besse et al. 2019-a) et doivent s’imposer ` a des SIA

conduisant ` a des d´ ecisions impactant des personnes. Ces d´ ecisions peuvent ˆ etre

la cons´ equence d’une pr´ evision d’un algorithme d’apprentissage opaques en-

traˆın´ es sur des donn´ ees ou celle de l’ex´ ecution d’un ensemble complexe de r` egles

de d´ ecision d´ eterministes cod´ ees dans un programme.

(6)

1. Quel est le niveau de pr´ ecision, de reproductibilit´ e d’une d´ ecision issue d’un SIA par apprentissage ?

2. Quelle explication d’une d´ ecision peut-elle ˆ etre apport´ ee en fonction du niveau (concepteur, utilisateur, usager) et du domaine concern´ es ? 3. Quels sont les risques de biais discriminatoires ` a l’encontre d’un groupe

vuln´ erable prot´ eg´ e par la loi ?

Nous allons nous int´ eresser plus particuli` erement aux questions difficiles de d´ etection des risques de discrimination tout en remarquant que celles-ci im- pliquent les deux pr´ ec´ edentes de mˆ eme que le type d’informations disponibles car autoris´ ees par la loi (RGPD) dans les bases de donn´ ees.

La liste d’´ evaluation du groupe d’experts, base de r´ eflexion de la CE, r´ eserve la section 5 Diversit´ e, non-discrimination et ´ equit´ e aux questions de discrimi- nation. Relevons seulement trois questions de cette longue liste adress´ ees aux concepteurs d’un SIA :

— Avez-vous pr´ evu une d´ efinition appropri´ ee de l’´ equit´ e que vous appliquez dans la conception des SIA ?

— Avez-vous mis en place des processus pour tester et contrˆ oler les biais

´

eventuels au cours de la phase de mise au point, de d´ eploiement et d’uti- lisation du syst` eme ?

— Avez-vous pr´ evu une analyse quantitative ou des indicateurs pour mesu- rer et tester la d´ efinition appliqu´ ee de l’´ equit´ e ?

Ce document ainsi que le tutoriel disponible sur un d´ epˆ ot public (Besse et al. 2020), qui permet de reproduire les r´ esultats num´ eriques et graphiques ci- apr` es, sont une contribution pour aider un concepteur d’un SIA ` a apporter des

´ el´ ements de r´ eponse ` a ces questions. La section suivante s’int´ eresse aux modes de d´ etection d’une discrimination issue d’une d´ ecision avant d’aborder, section 3, le cas o` u cette d´ ecision est issue d’un algorithme d’apprentissage automatique ou que la complexit´ e rend opaque. Un exemple num´ erique analogue au calcul d’un score de cr´ edit illustre section 4 ces outils quantitatifs avant d’´ etudier section 5 les risques sp´ ecifique de discrimination ` a l’embauche de la part d’algorithmes de pr´ e-recrutement. Ces ´ el´ ements concrets nous permettent de conclure sur les modes op´ eratoires ` a n´ ecessairement mettre en place pour l’audit d’un SIA et quelques recommandations regroup´ ees dans le tableau 1.

2 D´ etecter une discrimination

Les lois europ´ eennes comme am´ ericaines interdisent explicitement toute forme

de discrimination vis-` a-vis d’une personne (discrimination directe) ou d’un groupe

(discrimination indirecte). N´ eanmoins, qualifier, prouver une discrimination, res-

tent des questions difficiles ` a traiter et qui d´ ependent des cadres juridiques,

usages culturels et aussi des domaines concern´ es : acc` es ` a l’emploi, le cr´ edit,

l’assurance, la sant´ e... dans l’exemple tr` es sensible de l’acc` es ` a l’emploi, des

approches radicalement diff´ erentes sont mises en œuvre : testing vs. effet dis-

proportionn´ e.

(7)

Table 1 – Proposition de recommandations

1. Anticiper un futur r` eglement europ´ een pour une IA digne de confiance int´ egrant une liste d’´ evaluation ex ante des syst` emes d’IA sur le mˆ eme principe que l’analyse d’impact relatif ` a la protection des donn´ ees.

2. R´ eglementer la production et la diffusion de la documentation pro- duite ex ante sur les risques algorithmiques, support potentiel indis- pensable d’un audit ind´ ependant.

3. R´ eglementer l’identification des responsabilit´ es humaines ` a toutes les ´ etapes — donn´ ees, entraˆınement, test, certification, exploitation

— d’un syst` eme d’IA pour un contrˆ ole qualit´ e et une am´ elioration tout le temps de sa dur´ ee de vie.

4. Promouvoir (normalisation ?) les indicateurs statistiques de d´ etection et mesure de discriminations algorithmiques indirectes.

5. Faciliter la production de statistiques anonymes d’origine ethnique n´ ecessaires ` a l’´ evaluation d’une discrimination potentielle.

2.1 Testing

La d´ etection et mˆ eme la preuve d’une discrimination directe envers une per- sonne peut ˆ etre obtenue par testing. Cette pratique consiste ` a adresser ` a des dates distinctes deux dossiers, par exemple de candidature ` a un emploi. A l’ex- ception de la caract´ eristique discriminatoire ` a tester : genre, origine ethnique, tranche d’ˆ age, quartier d’habitation... les dossiers sont strictement similaires tout en introduisant des diff´ erences mineures afin d’´ eviter d’´ eventer le proc´ ed´ e.

Son usage ` a ´ et´ e ´ elargi (cf. Riach et Rich 2002) avec le d´ eploiement d’enquˆ etes syst´ ematiques afin de viser l’objectif d’une mesure statistique de la discrimina- tion indirecte envers un groupe. Les communaut´ es acad´ emiques en Sociologie et Economie ont produit une vaste bibliographie ` ´ a ce sujet (Rich 2014). En France, c’est la doctrine officielle diffus´ ee par le Comit´ e National de l’Information Statis- tique et d´ eploy´ ee p´ eriodiquement par la DARES (Direction de l’Animation, des Etudes, de la Recherche et des Statistiques) lorsqu’il s’agit d’´ ´ etudier les risques de discrimination ` a l’embauche. D’autres enquˆ etes par testing se ont ´ egalement cibl´ e l’acc` es ` a l’assurance, au cr´ edit ou encore au logement (cf. les rapports de recherche du TEPP).

2.2 Effet disproportionn´ e

Aux USA, une approche tr` es diff´ erente est d´ evelopp´ ee avec la notion d’adverse

ou disparate impact (effet disproportionn´ e). L’´ evaluation de l’effet dispropor-

tionn´ e consiste ` a estimer le rapport de deux probabilit´ es : probabilit´ e d’une

d´ ecision favorable pour une personne du groupe sensible au sens de la loi sur la

(8)

mˆ eme probabilit´ e pour une personne de l’autre groupe. Elle est appliqu´ ee depuis 1971 (Barocas et Selbst 2017) pour mesurer des discriminations indirectes dans l’acc` es ` a l’emploi, le logement, et a donn´ e lieu ` a une r´ eglementation officielle de son usage notamment pour l’acc` es ` a l’emploi :

Civil Rights act & Code of Federal Regulations

Title 29 - Labor: Part 1607—Uniform Guidelines on Em- ployee Selection Procedures (1978)

— D. Adverse impact and the “four-fifths rule.” A selection rate for any race, sex, or ethnic group which is less than four-fifths (4/5) (or eighty percent) of the rate for the group with the highest rate will generally be regarded by the Federal enforcement agencies as evidence of adverse impact, while a greater than four-fifths rate will generally not be regarded by Federal enforcement agen- cies as evidence of adverse impact. Smaller differences in selec- tion rate may nevertheless constitute adverse impact, where they are significant in both statistical and practical terms or where a user’s actions have discouraged applicants disproportionately on grounds of race, sex, or ethnic group. Greater differences in selec- tion rate may not constitute adverse impact where the differences are based on small numbers and are not statistically significant, or where special recruiting or other programs cause the pool of minority or female candidates to be atypical of the normal pool of applicants from that group.

L’estimation de ce rapport de probabilit´ es (odds ratio) est donc compar´ ee ` a 0, 8.

Une valeur inf´ erieure n’induit pas n´ ecessairement des poursuites juridiques mais oblige une entreprise ` a justifier, pour des raisons ´ economiques, les raisons de ce d´ es´ equilibre.

2.3 Remarques

Les ´ el´ ements de ces approches statistiques sont ´ egalement pr´ esents dans un guide publi´ e par le D´ efenseur des Droits et la CNIL (2012). Il d´ ecrit une ap- proche m´ ethodologique ` a l’intention des acteurs de l’emploi pour mesurer et progresser dans l’´ egalit´ e des chances sans volont´ e coercitive ni obligation juri- dique. En pr´ ealable, ce guide pose la question de l’opportunit´ e de construire des statistiques ethniques alors que, contrairement aux USA, l’origine des personnes ne peut ˆ etre enregistr´ ee dans une base de donn´ ees. Cette apparente protection des droits des personnes soul` eve un probl` eme lorsqu’il est question d’´ evaluer une possible discrimination. La difficult´ e peut ˆ etre contourn´ ee en adoptant une iden- tification de l’origine par le patronyme au prix d’une perte sans doute mineure mais ` a ´ evaluer de pr´ ecision. Ce guide ´ evoque la pratique du testing mais incite

´ egalement les services de ressources humaines d’une entreprise ` a produire des tableaux statistiques (tables de contingence) desquels il serait facile d’extraire une ´ evaluation quantitative de l’effet disproportionn´ e.

Chacune des approches : testing vs. disparate impact pr´ esente des avantages

(9)

mais ´ egalement des d´ efauts, biais ou difficult´ es de mise en œuvre. Le testing met bien en ´ evidence une discrimination directe, intentionnelle, et peut conduire

`

a une action en justice lorsqu’une personne est concern´ ee. En revanche, uti- lis´ ee lors d’une enquˆ ete syst´ ematique, il d´ eploie des dossiers fictifs, fournis des r´ esultats indicatifs, qui ne sont pas repr´ esentatifs de la politique d’embauche effective d’une entreprise sur l’ensemble des ses postes. Les enquˆ etes men´ ees par la DARES ne conduisent pas ` a des actions en justice et la r´ ecente strat´ egie name and shame du gouvernement stigmatisant certaines entreprises a suscit´ e de vives pol´ emiques en janvier 2020.

Les enquˆ etes par testing ne n´ ecessitent pas une participation des entreprises concern´ ees mais sont d’un coˆ ut ´ elev´ e et soul` event de lourdes difficult´ es pour tenter d’approcher la r´ ealit´ e des embauches. En revanche, l’´ evaluation de l’effet disproportionn´ e est de coˆ ut tr` es faible mais implique une contribution loyale des services de ressources humaines ou une obligation r´ eglementaire. Il est

´ eventuellement biais´ e puisque les dossiers ne sont pas identiques et n´ ecessite donc une analyse ou la recherche d’autres explications possibles mais confon- dues des ´ ecarts observ´ es.

3 Discrimination algorithmique

Une d´ ecision algorithmique ajoute une couche d’opacit´ e sur une situation d´ ej` a complexe.

3.1 Algorithmes d’apprentissage automatique

Depuis une dizaine d’ann´ ees, beaucoup plus pour l’acc` es au cr´ edit, des proc´ edures algorithmiques d’apprentissage supervis´ e sont d´ eploy´ ees pour au- tomatiser l’aide ` a la d´ ecision. Le principe consiste, sur la base de donn´ ees mas- sives historicis´ ees, ` a estimer un mod` ele statistique ou entraˆıner un algorithme qui reproduit au mieux les d´ ecisions d´ ej` a connues afin d’appliquer ce mod` ele ou algorithme ` a de nouvelle situations. Les d´ ecisions automatis´ ees qui en d´ ecoulent, constituent l’application quotidienne et tr` es largement la plus r´ epandue des SIA dans nos quotidiens. Tous les domaines sont concern´ es : recommandations pour la vente en ligne, risque de rupture de contrat, de fraude, de d´ efaillance d’un syst` eme, de r´ ecidive... aide au diagnostic m´ edical.

3.2 Indicateurs statistiques de discrimination

Le probl` eme ´ emergeant de la discrimination algorithmique s’exprime sim-

plement : si un algorithme est entraˆın´ e sur des donn´ ees biais´ ees, il reproduit

tr` es fid` element ces biais syst´ emiques ou de soci´ et´ e ; plus grave, il risque mˆ eme

de les renforcer. Tr` es prolixe, le monde acad´ emique a propos´ e quelques dizaines

d’indicateurs (Zliobait˙e 2017) afin d’´ evaluer des biais potentiels. N´ eanmoins,

beaucoup de ces indicateurs s’av` erent tr` es corr´ el´ es ou redondants (Friedler et

(10)

al. 2019). Empiriquement, trois niveaux de biais discriminatoires doivent ˆ etre pris en compte en priorit´ e :

1. L’effet disproportionn´ e reflet du biais social ou de population par lequel un groupe est historiquement (e.g. revenu des femmes) d´ esavantag´ e. La mise en ´ evidence de ce biais soul` eve des questions techniques, politiques

´

evidentes. Renforcer algorithmiquement ce biais serait ouvertement dis- criminatoire, il importe de d´ etecter, ´ eliminer, un tel risque. Serait-il poli- tiquement opportun d’introduire automatiquement une part de discrimi- nation positive afin d’att´ enuer la discrimination sociale ? C’est technique- ment l’objet d’une vaste litt´ erature acad´ emique nomm´ ee apprentissage

´

equitable (fair learning) et ´ evoqu´ e dans le travail des experts (ligne di- rectrice 52) pour am´ eliorer le caract` ere ´ equitable de la soci´ et´ e.

2. Les taux d’erreur de pr´ evision et donc les risques d’erreur de d´ ecisions sont-ils les mˆ emes pour chaque groupe ? Ainsi, si un groupe est sous- repr´ esent´ e dans la base d’apprentissage, il est tr` es probable que les d´ ecisions le concernant seront moins fiables. C’est typiquement le cas en reconnais- sance faciale et ce risque est ´ egalement pr´ esent dans les applications de l’IA en sant´ e (Besse et al. 2019-b).

3. Mˆ eme si les deux crit` eres pr´ ec´ edents sont trouv´ es ´ equitables et surtout si les taux d’erreur identiques sont relativement importants, les erreurs peuvent ˆ etre dissym´ etriques (plus de faux positifs, moins de faux n´ egatifs) au d´ etriment d’un groupe. Cet indicateur (comparaison des rapports de cote ou odds ratio) est ainsi au cœur de la controverse concernant l’´ evaluation COMPAS du risque de r´ ecidive aux USA (Larson et al. 2016).

3.3 Difficult´ es d’´ evaluation

Contrairement ` a des prises de position tr` es na¨ıves, des d´ ecisions algorith- miques ne sont pas plus objectives que des d´ ecisions humaines. Il est mˆ eme facile de montrer sur des exemples (num´ eriques ci-apr` es, De Arteaga et al. 2019) que les biais humains sont fid` element reproduits voire amplifi´ es mˆ eme si la variable sensible (genre, origine, ˆ age...) est absente de la base de donn´ ees car cette infor- mation est pr´ esente, d’une fa¸ con ou d’une autre, dans les autres variables jouant le rˆ ole de variables de substitution ou proxy. Autre cons´ equence importante de cette situation, le testing est compl` etement inop´ erant (cf. section suivante) pour d´ etecter une discrimination face ` a un algorithme.

En cons´ equence, les biais, risques de discrimination, doivent ˆ etre soigneuse-

ment ´ evalu´ es tr` es en amont lors de la constitution des bases de donn´ ees et lors

de la proc´ edure d’apprentissage afin de les corriger : fairness by design, au risque

de ne plus ˆ etre ` a mˆ eme de pouvoir les d´ etecter. C’est d’autant plus n´ ecessaire

que beaucoup des algorithmes d’apprentissage automatique (e.g. r´ eseaux de

neurones profond ou pas) parmi les plus performants sont opaques ` a toute in-

terpr´ etation ´ el´ ementaire, ` a toute explication des d´ ecisions, contrairement ` a des

mod` eles ´ el´ ementaires de statistique ou d’arbre de d´ ecision.

(11)

4 Exemple num´ erique de discrimination algo- rithmique

Le probl` eme s’´ enonce simplement : un algorithme entraˆın´ e ` a prendre des d´ ecisions ` a partir de donn´ ees sociales biais´ ees reproduit fid` element ces biais et peut mˆ eme les amplifier et donc induire de fortes discriminations en lien avec le sexe, l’ˆ age, l’origine des personnes. Nous proposons d’illustrer sur un exemple num´ erique ´ el´ ementaire les difficult´ es rencontr´ ees pour la d´ etection et l’´ evaluation de ces risques fondamentaux.

4.1 Donn´ ees

Les donn´ ees publiques utilis´ ees imitent le contexte du calcul d’un score de cr´ edit. Elles sont extraites (´ echantillon de 45 000 personnes) d’un recensement de 1994 aux USA et d´ ecrivent l’ˆ age, le type d’emploi, le niveau d’´ education, le statut marital, l’origine ethnique, le nombre d’heures travaill´ ees par semaine, la pr´ esence ou non d’un enfant, les revenus ou pertes financi` eres, le genre et le niveau de revenu bas ou ´ elev´ e. Elles servent de r´ ef´ erence ou bac ` a sable pour tous les d´ eveloppements d’algorithmes d’apprentissage automatique ´ equitable.

Il s’agit de pr´ evoir si le revenu annuel d’une personne est sup´ erieur ou inf´ erieur

`

a 50k$ et donc de pr´ evoir, d’une certaine fa¸ con, sa solvabilit´ e connaissant ses autres caract´ eristiques socio-´ economiques. L’´ etude compl` ete et les codes de cal- cul sont disponibles (Besse et al. 2020) mais l’illustration est limit´ ee ` a un r´ esum´ e succinct de l’analyse de la discrimination selon le sexe.

4.2 R´ esultats

Les donn´ ees ont ´ et´ e al´ eatoirement r´ eparties en deux ´ echantillons d’appren- tissage (36 000), destin´ es ` a l’estimation des mod` eles ou entraˆınement des algo- rithmes, et de test (9000) pour ´ evaluer les diff´ erents indicateurs. Les r´ esultats sont regroup´ es dans la figure 1.

Ils mettent en ´ evidence un biais de soci´ et´ e important : seulement 11, 6% des femmes ont un revenu ´ elev´ e contre 31, 5% des hommes. Le rapport DI = 0, 38 est donc tr` es disproportionn´ e. Il est compar´ e avec celui de la pr´ evision de niveau de revenu par un mod` ele classique lin´ eaire de r´ egression logistique linLogit : DI = 0, 25. Significativement moins ´ elev´ e (intervalles de confiance disjoints), il montre que ce mod` ele renforce le biais et donc discrimine nettement les femmes dans sa pr´ evision. La proc´ edure na¨ıve (linLogit-w-s) qui consiste ` a ´ eliminer la variable dite sensible (genre) du mod` ele ne supprime en rien (DI = 0, 27) le biais discriminatoire car le genre est de toute fa¸ con pr´ esent ` a travers les valeurs prises par les autres variables (effet proxy). Une autre cons´ equence de cette d´ ependance est que le testing (changement de genre toutes choses ´ egales par ailleurs) ne d´ etecte plus (DI = 0.90) aucune discrimination !

Un algorithme non lin´ eaire plus sophistiqu´ e (random forest) est tr` es fid` ele

au biais des donn´ ees avec un indicateur (DI = 0, 36) pas significativement

diff´ erent de celui du biais de soci´ et´ e et fournit une meilleure pr´ ecision : 0, 86 au

(12)

Figure 1 – Pr´ ecision de la pr´ evision (accuracy) et effet disproportionn´ e estim´ e par un intervalle de confiance sur un ´ echantillon test (taille 9000) pour diff´ erents mod` eles ou algorithmes d’apprentissage.

lieu de 0, 84 pour la r´ egression logistique. Cet algorithme ne discrimine pas plus mais c’est au prix de l’interpr´ etabilit´ e du mod` ele. Opaque comme un r´ eseau de neurones, il ne permet pas d’expliquer une d´ ecision ` a partir de ses param` etres comme cela est facile avec le mod` ele de r´ egression. Enfin, la derni` ere ligne pro- pose une fa¸ con simple, parmi une litt´ erature tr` es volumineuse, de corriger le biais pour plus de justice sociale. Deux algorithmes sont entraˆın´ es, un par genre et le seuil de d´ ecision (revenu ´ elev´ e ou pas, accord ou non de cr´ edit...) est abaiss´ e pour les femmes : 0, 3 au lieu de celui par d´ efaut de 0, 5 pour les hommes. C’est une fa¸ con, parmi beaucoup d’autres, d’introduire une part de discrimination positive et d’att´ enuer le biais pour une soci´ et´ e plus ´ equitable.

Les autres types de biais sont ´ egalement ` a consid´ erer. Par principe, la pr´ ecision de la pr´ evision pour un groupe d´ epend de sa repr´ esentativit´ e. Si ce dernier est sous-repr´ esent´ e, l’erreur est plus importante ; c’est typiquement le cas en re- connaissance faciale mais pas dans l’exemple trait´ e. Alors qu’elles sont deux fois moins nombreuses dans l’´ echantillon, le taux d’erreur de pr´ evision est de l’ordre de 7, 9% pour les femmes et de 17% pour les hommes. Il faut donc consid´ erer le troisi` eme type de biais pour se rendre compte que c’est finalement

`

a leur d´ esavantage. Le taux de faux positifs est plus important pour les hommes

(0, 08) que pour les femmes (0, 02). Ceci avantage les hommes qui b´ en´ eficient

plus largement d’une d´ ecision favorable mˆ eme ` a tort. En revanche, le taux de

faux n´ egatifs est plus important pour les femmes (0, 41), ` a leur d´ esavantage,

que pour les hommes (0, 38). Noter que la proc´ edure ´ el´ ementaire d’att´ enuation

du biais en entraˆınant deux algorithmes, un pour chaque genre, conduit ` a une

l´ eg` ere augmentation du taux d’erreur pour les femmes, qui se rapproche un peu

(13)

de celui des hommes, et surtout produit un taux de faux positifs plus ´ elev´ es pour les femmes. Aussi, sur cet exemple, l’introduction d’une dose de discrimination positive intervient sur les trois types de biais pour en r´ eduire l’importance.

4.3 Discussion

Nous pouvons tirer quelques enseignements de cet exemple rudimentaire imitant le calcul d’un score d’attribution de cr´ edit bancaire.

— Sans pr´ ecaution, si un biais est pr´ esent dans les donn´ ees, il est reproduit et mˆ eme renforc´ e par un mod` ele lin´ eaire ´ el´ ementaire.

— Un algorithme plus sophistiqu´ e, non lin´ eaire et impliquant les interactions entre les variables, ne fait que reproduire le biais mais, opaque, ne permet plus de justification des choix si l’effet disproportionn´ e est juridiquement attaquable (DI < 0, 8).

— La proc´ edure de testing, d´ ej` a peut convaincante pour ´ evaluer une dis- crimination indirecte ex post, est compl` etement inadapt´ ee face ` a une proc´ edure algorithmique.

— Actuellement en Europe, une ou un data scientist est libre de produire ce qu’il peut ou veut, en fonction de ses comp´ etences et de sa d´ eontologie personnelle : de l’algorithme ´ el´ ementaire interpr´ etable mais discrimina- toire ` a celui incluant une part arbitraire de discrimination positive. Au- cune proc´ edure de contrˆ ole que ce soit ex ante ou ex post, n’est en vigueur

`

a ce jour pour le remettre en cause.

— La recherche d’une moins mauvaise solution sera l’affaire d’un compro- mis entre les trois exigences de base pour une IA de confiance : contrˆ ole de la discrimination, qualit´ e (robustesse r´ eplicabilit´ e) d’une d´ ecision et explicabilit´ e de cette d´ ecision. En effet, le meilleur algorithme en termes de pr´ ecision est opaque, ininterpr´ etable, et donc inadapt´ e pour ´ eviter aux USA, une proc´ edure judiciaire si l’effet disproportionn´ e est trop impor- tant. De plus, la correction ou l’att´ enuation de l’effet disproportionn´ e entraˆıne une d´ egradation de la qualit´ e de la pr´ evision. Les r´ ecents tra- vaux de recherche en apprentissage ´ equitable visent cette recherche de meilleur compromis.

En r´ esum´ e, la d´ etection d’un risque algorithmique de discrimination indi-

recte vis ` a vis d’un groupe est une question complexe bas´ ee sur l’estimation

d’indicateurs statistiques impliquant ´ egalement les autres exigences de qualit´ e

et explicabilit´ e. Cette estimation est de plus soumise ` a l’acc` es ` a l’information

sensible dont l’enregistrement (e.g. origine ethnique) peut ˆ etre interdite par le

RGPD ; interdiction contournable par des proc´ ed´ es (e.g. analyse du patronyme)

pouvant nuire ` a la pr´ ecision.

(14)

5 Discrimination algorithmique ` a l’embauche

5.1 Contexte

L’exemple pr´ ec´ edent est certes tr` es p´ edagogique car il permet d’expliciter tous les aspects techniques mais n’est pas compl` etement repr´ esentatif de la r´ ealit´ e des probl` emes rencontr´ es lors du d´ eploiement d’un SIA. Une approche plus r´ ealiste se heurte imm´ ediatement au manque de disponibilit´ es de donn´ ees pour des raisons l´ egitimes et l´ egales de confidentialit´ e ou secret commercial. Les analyses de cas de discrimination algorithmique sont n´ eanmoins tr` es nombreuses dans la litt´ erature essentiellement aux USA ; citons le cas des pratiques de police pr´ edictive (Ferguson 2017), de justice pr´ edictive (Larson et al. 2016) ou de l’acc` es aux soins (Lee et al. 2019). D’autres sont ` a rechercher dans les rapports annuels de l’institut de recherche AINow (Myers West et al. 2019) de l’Universit´ e de New-York. Pour des raisons tant juridiques que culturelles ou technologiques, la France est moins concern´ ee par les exemples pr´ ec´ edents alors que le risque de discrimination pour l’acc` es ` a l’emploi est un sujet d’actualit´ e r´ ecurrent et identifi´ e comme une application ` a risque ´ elev´ e par la Commission Europ´ eenne.

Avec un retard classique sur la situation aux USA, nous assistons ` a une expansion tr` es rapide des offres de plateformes, sites, logiciels de ressources hu- maines, proposant d’inclure des capacit´ es d’IA dans les phases de gestion des candidatures ` a des offres d’emploi. Ceci peut concerner des analyses automa- tiques de CV, biographies ou vid´ eos. Une recherche sur internet avec les mots clefs ”recrutement pr´ edictif” est tr` es informative ` a ce sujet. Nous ne ferons pas une ´ etude exhaustive des offres propos´ ees mais nous limiterons ` a quelques exemples ` a comparer ` a l’offre am´ ericaine.

5.2 Situation aux USA

Raghavan et al. (2019) proposent une ´ etude syst´ ematique des annonces et pratiques de 18 entreprises qui vendent des solutions algorithmiques de pr´ e- recrutement de candidats ` a l’embauche. L’article est focalis´ e sur les efforts mis en œuvre pour d´ etecter et ´ eventuellement att´ enuer les biais discriminatoires.

Par souci d’homog´ en´ eit´ e, l’analyse est volontairement limit´ ee aux pr´ esentations disponibles sur internet. Toutes ces entreprises, sauf trois, se pr´ eoccupent des biais pouvant r´ esulter des d´ ecisions automatiques, sept mentionnent la r` egle des 4/5` emes ou le besoin de contrˆ oler l’effet disproportionn´ e ; certaines proposent de l’att´ enuer, non pour des raisons ´ ethiques, mais d’argumentation commerciale :

´ economiser des proc´ edures coˆ uteuses de justification juridiques en cas d’effet disproportionn´ e trop marqu´ e. L’article se conclut par un ensemble de recom- mandations appelant ` a plus de transparence dans les choix technologiques, la prise en compte d’autres crit` eres de biais que l’effet disproportionn´ e qui peut ˆ etre difficile voire impossible ` a ´ evaluer sans l’acc` es ` a l’information sensible.

Un autre article (De-Arteaga et al. 2919) compl` ete ce point de vue par

l’analyse de pr` es de 400.000 biographies professionnelles en anglais aspir´ ees sur

internet. Le contexte est diff´ erent car il ne s’agit pas d’une proc´ edure de pr´ e-

(15)

embauche mais de savoir si le contenu des biographies permet de pr´ evoir le poste de travail occup´ e parmi les 38 identifi´ es comme ´ etant les plus fr´ equents de pro- fesseur ` a rappeur. Diff´ erents types de repr´ esentation des donn´ ees et algorithmes de pr´ evision sont test´ es et l’´ etude des biais est abord´ ee de fa¸ con sp´ ecifique. Les auteurs montrent que la pr´ ecision de la pr´ evision es sensiblement la mˆ eme en prenant ou non en compte l’information relative au genre pr´ esente dans la bio- graphie avec le pr´ enom et le pronom personnel qui est ` a la troisi` eme personne.

Ils montrent ´ egalement que pour les professions pour lesquelles le d´ es´ equilibre est le plus marqu´ e, les erreurs commises aggravent le d´ es´ equilibre. Ceci est ob- tenu en comparant les taux de faux positifs selon le genre. Cet article ne met pas en ´ evidence les biais de soci´ et´ e de premier niveau (effet disproportionn´ e ou de population) sur la s´ election ` a l’emploi mais ceux de deuxi` eme et troisi` eme niveau qui impactent sur les d´ es´ equilibres de r´ epartition des emplois. Ceci est observ´ e mˆ eme si l’information sur le genre n’est pas pr´ esente explicitement dans les donn´ ees car elles est implicitement pr´ evisible ` a partir des contenus des bio- graphies.

Une illustration concr` ete de ces ph´ enom` enes a ´ et´ e observ´ ee chez Amazon (2018) dont la proc´ edure automatique de pr´ es´ election sur des postes techniques ne s´ electionnait plus de femmes. Comme l’algorithme devait consid´ erablement rendre opaque la prise de d´ ecision et sans doute pour ´ eviter toute complication juridique sur la base du code de r´ egulation f´ ed´ eral, Amazon s’est empress´ e de stopper l’utilisation de ce syst` eme d’IA.

5.3 Quelques exemples en France

Les aides technologiques ` a l’embauche (hiring tech) sont bien moins d´ evelopp´ ees en France mais de nombreuses initiatives ´ emergent rapidement en surfant sur la vague des battages m´ ediatiques big data et IA. Relevons quelques exemples repr´ esentatifs mais tr` es peu renseign´ es issus d’une analyse rapide de l’offre pr´ esente sur internet.

CV Catcher de JobiJoba propose une strat´ egie sp´ ecifique d’analyse automa- tique de CV mais pas pour op´ erer une pr´ e-s´ election de ceux-ci. Il s’agit d’orienter le candidat, parmi les quelques centaines d’offres de postes permanents de l’en- treprise, vers ceux les plus adapt´ es ` a son profil. La d´ emarche est sans doute utile pour des types d’emplois sp´ ecifiques dont le march´ e est tendu mais aucune indication n’est fournie sur la mani` ere de proc´ eder.

Assessfirst est tr` es pr´ esente dans les recherches sur les navigateurs ou les classements. Cette entreprise annonce un algorithme de pr´ ediction d’affinit´ e.

L’objectif, pour les professionnels de ressources humaines, serait de pr´ evoir la capacit´ e naturelle de deux personnes ` a travailler ensemble : collaborateur et son futur manager, deux membres d’une ´ equipe en mode projet. Cette affinit´ e est calcul´ ee sur la base d’un questionnaire de personnalit´ e, d’un test de raisonne- ment et d’un questionnaire de motivation. Ces donn´ ees seraient non-biais´ ees, exemptes de tout facteurs externes ou historiques pouvant affecter la relation.

Malheureusement aucune citation ou rapport de pr´ esentation ne viennent ´ etayer

ces affirmations.

(16)

Le cabinet de recrutement cl´ ementine assure que les algorithmes de recru- tement pr´ edictif sont loin de l’id´ ee de d´ eshumaniser les m´ ethodes de recrutement traditionnelles mais permettraient avant tout de diminuer la discrimination ` a l’embauche pour que tout un chacun soit jug´ e selon des crit` eres de comparai- son identiques. Les algorithmes ne se soucieraient pas de savoir si un candidat a la peau noire, est une femme, n’est plus tout jeune ou est handicap´ e. Big Data et algorithmes seraient donc utilis´ es pour pr´ edire la probabilit´ e de succ` es ou d’´ echec d’un candidat potentiel en comparant son profil ` a celui de milliers d’autres salari´ es occupant un poste similaire. Ces annonces n’en disent pas plus sur les mani` eres de proc´ eder et mesures prises pour en ´ eviter les biais.

La soci´ et´ e 365talents propose un autre type de service. Il s’agit d’offrir aux employ´ es d’une entreprise un syst` eme automatique de recommandations de postes en mobilit´ e. Le syst` eme serait capable de capter les comp´ etences impli- cites des employ´ ees afin d’estimer des niveaux d’expertise ` a partir des sources de donn´ ees connues (CV, entretien de carri` ere) ou d´ eclar´ ees. Le collaborateur peut alors recevoir des suggestions personnalis´ ees de postes en mobilit´ e interne, de missions ou de formation. L’entreprise est cette fois plus pr´ ecise en indiquant que le syst` eme est bas´ e sur un ou des algorithmes de traitement du langage naturel (naturel language processing ou NLP) utilisant une technique de repr´ esentation vectoriel des mots du dictionnaire (word embedding). Nous pouvons ensuite faire l’hypoth` ese qu’un syst` eme de recommandations du type de ceux utilis´ es dans la vente en ligne permet de rapprocher des repr´ esentations quantitatives des comp´ etences avec celles des profils de poste. Il n’est fait aucune mention d’une

´ evaluation de la qualit´ e attendu de ce proc´ ed´ e ni des risques de biais discri- minatoires alors que ceux-ci sont connus et document´ es pour les m´ ethodes de plongement de mots (Brunet et al. 2019).

easyrecrue propose de faciliter le pr´ e-recrutement par une analyse automa-

tique de vid´ eos. Pas de reconnaissance faciale, de la gestuelle ou des intonations

mais une analyse du vocabulaire employ´ e afin de s´ electionner le groupe de can-

didats qui seront convoqu´ es pour un entretien. La proc´ edure est cette fois mieux

document´ ee car accompagn´ ee, par un conseil scientifique universitaire, elle est le

r´ esultat d’un travail de th` ese (CIFRE) qui a donn´ e lieu ` a une publication (He-

mamou 2018). Cet article compare les performances des combinaisons de plu-

sieurs descripteurs de diversit´ e lexicale, de vectorisation de mots (word2vec...)

et retient comme meilleur pr´ edicteur un algorithme non lin´ eaire dits de forˆ ets

al´ eatoires (agr´ egation opaque d’arbres binaires de d´ ecision). L’algorithme a ´ et´ e

entraˆın´ e sur une s´ election de 305 parmi 607 vid´ eos pour lesquels l’´ evaluation par

un s´ electionneur humain ´ etait tranch´ ee : ”avis favorable” ou ”avis r´ eserv´ e”. La

qualit´ e est ´ evalu´ ee par un crit` ere classique d’aire sous la courbe ROC (0,69). En

r´ esum´ e et pour apporter des ´ el´ ements succincts de r´ eponse ` a la liste d’´ evaluation

des experts de la CE, l’algorithme ne fait pas beaucoup mieux que le hasard

(0,5) sur une version simplifi´ ee du probl` eme. Les auteurs ne s’inqui` etent pas de

la repr´ esentativit´ e de ce faible ´ echantillon ni des risques de reproduction des

biais discriminatoires du recruteur humain.

(17)

5.4 Remarques

Il est remarquable qu’en France peu de regards critiques n’´ emergent sur le d´ eploiement rapide de SIA pour l’aide automatique ` a l’embauche comparative- ment au volume des articles concernant les op´ erations de testing de la DARES.

Seules des recensions des travaux de Cathy O’Neil (2016) ou des traductions de ses entretiens ne r´ ev` elent des remises en cause efficaces de ces proc´ ed´ es mais, comme pr´ ec´ edemment, cela concerne principalement la situation aux USA. Il est pourtant facile de consid´ erer que la situation est identique en France lorsque des entreprises comme LinkedIn sont concern´ ees.

De toute ´ evidence, rares sont les questions (qualit´ e, transparence, non dis- crimination) pr´ esentes dans la liste d’´ evaluation du groupe d’experts europ´ eens auxquelles il serait possible d’apporter une r´ eponse en consid´ erant les pr´ esentations disponibles bien trop sommaires de ces algorithmes appliqu´ es en France aux proc´ edures d’embauche. Il est notable qu’aux USA, l’usage officiel de prise en compte de l’effet disproportionn´ e a une influence r´ eelle sur les pratiques. La le¸con ` a en tirer est que l’adh´ esion d’une charte ´ ethique, l’affichage de bonnes intentions ou des d´ eclarations incantatoires sur l’objectivit´ e des algorithmes, ne suffisent pas ` a changer les habitude ou prot´ eger les usagers. Le d´ eploiement d’un futur r` eglement europ´ een encadrant la r´ ealisation, la certification, l’exploitation des SIA est indispensable voire une urgence.

6 Conclusion

La d´ etection d’une pratique discriminatoire est difficile. Cette difficult´ e est encore renforc´ ee par la superposition d’une couche d’opacit´ e lorsque la discri- mination est la cons´ equence d’une d´ ecision ou aide ` a la d´ ecision algorithmique.

Toutes les institutions et r´ egulateurs s’accordent sur la n´ ecessit´ e de pouvoir auditer de tels syst` emes que ce soit ex ante ou ex post (Castets-Renard 2020).

Une chose est ` a retenir de cette rapide pr´ esentation et des exemples qu’ils

soient num´ eriques ou d’analyse qualitative des produits sur internet. Sans do-

cumentation pr´ ecise et exhaustive sur le processus qui a conduit ` a la mise en

exploitation d’un SIA, du recueil des donn´ ees ` a sa v´ erification, voire sa certifi-

cation, un audit ex post est impossible. Les enquˆ etes classiques par testing sont

hors-jeu et tester un syst` eme sur des donn´ ees r´ ealistes, n´ ecessiterait une immer-

sion compl` ete dans la complexit´ e du domaine d’application concern´ e. Le risque

serait ´ evidemment de ne tester que certains aspects du syst` eme, certaines situa-

tions ou types de donn´ ees. La question principale reste donc la repr´ esentativit´ e

de ces tests par rapport ` a l’usage r´ eel qui est fait du syst` eme. Cette question

est de facto un pr´ ealable indispensable ` a la cr´ eation d’un syst` eme d’IA : quelles

donn´ ees pour quel objectif ? Si elle n’a pas ´ et´ e pos´ ee explicitement et docu-

ment´ ee ex ante, une analyse ex post ne peut conduire qu’` a une remise en cause

de la fiabilit´ e du syst` eme, en termes de qualit´ e de d´ ecision ou de biais, devant

l’impossibilit´ e d’en d´ efinir pr´ ecis´ ement le domaine d’usage. La mise en place

de cette documentation ex ante sera la cons´ equence de l’ex´ ecution de la liste

(18)

d’´ evaluation du groupe des experts europ´ eens reprise par le livre blanc de la CE. Elle suit le mˆ eme principe et la mˆ eme logique que l’analyse d’impact rela- tif ` a la confidentialit´ e des donn´ ees (privacy impact assessment) et devrait ˆ etre formalis´ ee dans une r´ eglementation ` a venir.

Des capacit´ es et des comp´ etences, ` a la fois techniques (statistique, apprentis- sage automatique) et juridiques de la part des r´ egulateurs ou de soci´ et´ es ad hoc, sont indispensables pour auditer a minima une telle documentation. Il s’agira en tout premier lieu, de s’assurer que la v´ erification ex ante de conception d’un syst` eme d’IA a ´ et´ e mise en place tr` es en amont dans un souci de contrˆ ole exi- geant de la qualit´ e ` a toutes les ´ etapes : repr´ esentativit´ e statistique des donn´ ees d’entraˆınement en fonction de l’objectif, proc´ edure d’apprentissage et ´ evaluation des erreurs, des biais, validation, ´ eventuelle certification et mise en exploitation.

Le cahier des charges doit ´ egalement int´ egrer une surveillance du bon fonc- tionnement du SIA afin d’en contrˆ oler tout risque de d´ erive et d’identifier les causes et responsabilit´ es humaines en cas d’erreurs. Ce processus qualit´ e peut imposer de devoir r´ e-entraˆıner p´ eriodiquement l’algorithme afin d’y int´ egrer des situations ou cas de figures initialement omis de la base de donn´ ees. ` A titre d’exemple, dans le domaine de la sant´ e aux USA, cette boucle de r´ etroaction est explicitement d´ ecrite dans les proc´ edures de la FDA (Food and Drug Admi- nistration) pour la certification des syst` emes de sant´ e connect´ es (AI/ML-SaMD ou Artificial Intelligence and Machine Learning Software as a Medical Device).

Ces ´ el´ ements conclusifs ` a un ensemble de recommandations list´ ees en intro- duction (tableau 1).

R´ ef´ erences

— Barocas S., Selbst A. (2016). Big Data’s Disparate Impact, 104 California Law Review, 104 671.

— Besse P., Besse Patin A., Castets Renard C. (2019-a). Implications ju- ridiques et ´ ethiques des algorithmes d’intelligence artificielle dans le do- maine de la sant´ e, soumis, HAL preprint.

— Besse P., Castets-Renard C., Garivier A., Loubes J.-M. (2019-b). L’IA du Quotidien peut elle ˆ etre ´ Ethique? Loyaut´ e des Algorithmes d’Appren- tissage Automatique, Statistique et Soci´ et´ e, 6-3.

— Besse P., Castets Renard C., Loubes J.-M., Risser L. (2020). Evaluation ´ des Risques des Algorithmes d’Apprentissage Statistique de l’IA: res- sources p´ edagogiques, tutoriels R et python en ligne consult´ es le 8/05/2020.

— Brunet, M.-E., Alkalay-Houlihan C., Anderson A., Zemzl R. (2019). Un- derstanding the Origins of Bias in Word Embeddings, arXiv preprint.

— Castets-Renard C. (2020). Comment construire une intelligence artifi- cielle responsable et inclusive?, Recueil Dalloz, p 225.

— De-Arteaga M., Romanov A. et al. (2019). Bias in Bios: A Case Study of Semantic Representation Bias in a High-Stakes Setting, Proceedings of the Conference on Fairness, Accountability, and Transparency.

— Ferguson A. (2017). The Rise of Big Data Policing : Surveillance, Race,

(19)

and the Future of Law Enforcement, NYU Press.

— Friedler S., Scheidegger C., Venkatasubramanian S., Choudhary S., Ha- milton E., Roth D. (). Comparative study of fairness-enhancing inter- ventions in machine learning. Proceedings of the Conference on Fairness, Accountability, and Transparency, p. 329–38.

— Hemammou L., Wajntrob G., Martin J.-C., Clavel C. (2018). Entretien vid´ eo diff´ er´ e: mod` ele pr´ edictif pour la pr´ e-s´ election de candidats sur la base du contenu verbal, proceedings WACAI 2018.

— Larson J., Mattu S., Kirchner L., Angwin J. (2016). How we analy- zed the compas recidivism algorithm. ProPublica, en ligne consult´ e le 28/04/2020.

— Lee P, Le Saux M, Siegel R, et al (2019) Racial and ethnic disparities in the management of acute pain in US emergency departments: Meta- analysis and systematic review. The American Journal of Emergency Medicine, 37, p 1770–77.

— Myers West S., Whittaker M., Crawford K. (2019). Discriminating Sys- tems : Gender, Race and Power, in AINowInstitute Report.

— O’Neil C. (2016). Weapons of Math Destruction : How Big Data Increases Inequality, Crown Random House.

— Raghavan M., Barocas S., Kleinberg J., Levy K. (2019) Mitigating bias in Algorithmic Hiring : Evaluating Claims and Practices, Proceedings of the Conference on Fairness, Accountability, and Transparency.

— Riach P.A., Rich J. (2002). Field Experiments of Discrimination in the Market Place, The Economic Journal, Vol. 112 (483), p F480-F518.

— Rich J. (2014). What Do Field Experiments of Discrimination in Mar- kets Tell Us? A Meta Analysis of Studies Conducted since 2000, IZA Discussion Paper, No. 8584.

— Zliobait´ e I. (2017). Measuring discrimination in algorithmic decision ma-

king, Data Min. Knowl. Disc., 31, p 1060–89.

Détecter,évaluer les risques des impacts discriminatoires des algorithmes d'IA

HAL Id: hal-02616963

https://hal.archives-ouvertes.fr/hal-02616963

Preprint submitted on 25 May 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Détecter,évaluer les risques des impacts discriminatoires des algorithmes d’IA

Philippe Besse

To cite this version:

Philippe Besse. Détecter,évaluer les risques des impacts discriminatoires des algorithmes d’IA. 2020.

�hal-02616963�

D´etecter, ´evaluer les risques des impacts discriminatoires des algorithmes d’IA

Contribution au s´ eminaire conjoint: D´ efenseur des Droits & CNIL Philippe Besse ∗

28 Mai 2020

R´ esum´ e

Mots-cl´ es : intelligence artificielle, apprentissage automatique, discrimination, effet disproportionn´ e, testing, r´ eglementation europ´ eenne.

Universit´ e de Toulouse – INSA, Institut de Math´ ematiques – UMR CNRS 5219, Obser-

vatoire International des Impacts Soci´ etaux de l’IA et du Num´ erique – Universit´ e Laval

English title : Detecting, assessing the risks of discriminatory impacts of AI algorithms ; Contribution to the joint seminar : D´ efenseur des Droits & CNIL.

keywords : artificial intelligence, machine learning, bias, discrimination, dis-

parate impact, testing, european regulation.

1 Introduction

1.1 Du RGPD ` a une IA ´ ethique

Ces points ne seront pas abord´ es mais rappelons le consid´ erant (71) du RGPD (2018) qui recommande :

— Enjeux ´ Ethiques de l’Algorithme et de l’Intelligence artificielle (CNIL 2017) ´ egalement tr` es pr´ esents dans le

— 5` eme partie du rapport Villani (2018), et la

— D´ eclaration de Montr´ eal pour un d´ eveloppement responsable de l’IA (2018) qui cite par ailleurs pas moins de 28 rapports nationaux ou pro- fessionnels.

1.2 Vers un nouveau r` eglement pour l’IA

De son cˆ ot´ e la Commission Europ´ eenne (CE) a r´ euni un groupe d’experts ind´ ependants de haut niveau sur l’IA qui propose un ensemble de

— lignes directrices en mati` ere d’´ ethique pour une IA digne de confiance (2019) qui ont ´ et´ e suivies par la publication d’un livre blanc :

— Intelligence Artificielle: une approche europ´ eenne ax´ ee sur l’excellence et la confiance (2020).

Ce livre souligne l’importance prise par l’IA, qui combine donn´ ees, algorithmes

et puissance de calcul, dans tous les aspects de la vie des citoyens, en liste les

1.3 Focus sur la non-discrimination ou ´ equit´ e d’une d´ ecision algorithmique

Parmi les exigences largement partag´ ees pour une IA de confiance, trois

questions sont essentielles (Besse et al. 2019-a) et doivent s’imposer ` a des SIA

conduisant ` a des d´ ecisions impactant des personnes. Ces d´ ecisions peuvent ˆ etre

la cons´ equence d’une pr´ evision d’un algorithme d’apprentissage opaques en-

traˆın´ es sur des donn´ ees ou celle de l’ex´ ecution d’un ensemble complexe de r` egles

de d´ ecision d´ eterministes cod´ ees dans un programme.

1. Quel est le niveau de pr´ ecision, de reproductibilit´ e d’une d´ ecision issue d’un SIA par apprentissage ?

2. Quelle explication d’une d´ ecision peut-elle ˆ etre apport´ ee en fonction du niveau (concepteur, utilisateur, usager) et du domaine concern´ es ? 3. Quels sont les risques de biais discriminatoires ` a l’encontre d’un groupe

vuln´ erable prot´ eg´ e par la loi ?

La liste d’´ evaluation du groupe d’experts, base de r´ eflexion de la CE, r´ eserve la section 5 Diversit´ e, non-discrimination et ´ equit´ e aux questions de discrimi- nation. Relevons seulement trois questions de cette longue liste adress´ ees aux concepteurs d’un SIA :

— Avez-vous pr´ evu une d´ efinition appropri´ ee de l’´ equit´ e que vous appliquez dans la conception des SIA ?

— Avez-vous mis en place des processus pour tester et contrˆ oler les biais

´

eventuels au cours de la phase de mise au point, de d´ eploiement et d’uti- lisation du syst` eme ?

— Avez-vous pr´ evu une analyse quantitative ou des indicateurs pour mesu- rer et tester la d´ efinition appliqu´ ee de l’´ equit´ e ?

Ce document ainsi que le tutoriel disponible sur un d´ epˆ ot public (Besse et al. 2020), qui permet de reproduire les r´ esultats num´ eriques et graphiques ci- apr` es, sont une contribution pour aider un concepteur d’un SIA ` a apporter des

2 D´ etecter une discrimination

Les lois europ´ eennes comme am´ ericaines interdisent explicitement toute forme

de discrimination vis-` a-vis d’une personne (discrimination directe) ou d’un groupe

(discrimination indirecte). N´ eanmoins, qualifier, prouver une discrimination, res-

tent des questions difficiles ` a traiter et qui d´ ependent des cadres juridiques,

usages culturels et aussi des domaines concern´ es : acc` es ` a l’emploi, le cr´ edit,

l’assurance, la sant´ e... dans l’exemple tr` es sensible de l’acc` es ` a l’emploi, des

approches radicalement diff´ erentes sont mises en œuvre : testing vs. effet dis-

proportionn´ e.

Table 1 – Proposition de recommandations

1. Anticiper un futur r` eglement europ´ een pour une IA digne de confiance int´ egrant une liste d’´ evaluation ex ante des syst` emes d’IA sur le mˆ eme principe que l’analyse d’impact relatif ` a la protection des donn´ ees.

2. R´ eglementer la production et la diffusion de la documentation pro- duite ex ante sur les risques algorithmiques, support potentiel indis- pensable d’un audit ind´ ependant.

3. R´ eglementer l’identification des responsabilit´ es humaines ` a toutes les ´ etapes — donn´ ees, entraˆınement, test, certification, exploitation

— d’un syst` eme d’IA pour un contrˆ ole qualit´ e et une am´ elioration tout le temps de sa dur´ ee de vie.

4. Promouvoir (normalisation ?) les indicateurs statistiques de d´ etection et mesure de discriminations algorithmiques indirectes.

5. Faciliter la production de statistiques anonymes d’origine ethnique n´ ecessaires ` a l’´ evaluation d’une discrimination potentielle.

2.1 Testing

2.2 Effet disproportionn´ e

Aux USA, une approche tr` es diff´ erente est d´ evelopp´ ee avec la notion d’adverse

ou disparate impact (effet disproportionn´ e). L’´ evaluation de l’effet dispropor-

tionn´ e consiste ` a estimer le rapport de deux probabilit´ es : probabilit´ e d’une

d´ ecision favorable pour une personne du groupe sensible au sens de la loi sur la

Civil Rights act & Code of Federal Regulations

Title 29 - Labor: Part 1607—Uniform Guidelines on Em- ployee Selection Procedures (1978)

L’estimation de ce rapport de probabilit´ es (odds ratio) est donc compar´ ee ` a 0, 8.

Une valeur inf´ erieure n’induit pas n´ ecessairement des poursuites juridiques mais oblige une entreprise ` a justifier, pour des raisons ´ economiques, les raisons de ce d´ es´ equilibre.

2.3 Remarques

´ egalement les services de ressources humaines d’une entreprise ` a produire des tableaux statistiques (tables de contingence) desquels il serait facile d’extraire une ´ evaluation quantitative de l’effet disproportionn´ e.

Chacune des approches : testing vs. disparate impact pr´ esente des avantages

mais ´ egalement des d´ efauts, biais ou difficult´ es de mise en œuvre. Le testing met bien en ´ evidence une discrimination directe, intentionnelle, et peut conduire

Contribution au s´ eminaire conjoint: D´ efenseur des Droits & CNIL Philippe Besse ^∗