HAL Id: hal-01827579
https://hal.archives-ouvertes.fr/hal-01827579
Submitted on 2 Jul 2018
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Éthique et traitement automatique des langues
Karën Fort, Maxime Amblard
To cite this version:
Karën Fort, Maxime Amblard. Éthique et traitement automatique des langues. Journée éthique et
intelligence artificielle, Jul 2018, Nancy, France. �hal-01827579�
Ethique et traitement automatique des langues ´
Kar¨ en Fort et Maxime Amblard
karen.fort@paris-sorbonne.fr / maxime.amblard@loria.fr
2 juillet 2018
Une th´ ematique en ´ eclosion dans un domaine ”ancien”
Le traitement automatique des langues en bref L’´ ethique dans le TAL
´ Ethiques et TAL : quelle approche ?
Conclusion et perspectives
Une th´ ematique en ´ eclosion dans un domaine ”ancien”
Le traitement automatique des langues en bref L’´ ethique dans le TAL
´ Ethiques et TAL : quelle approche ?
Conclusion et perspectives
Des applications (et des probl` emes) dans notre quotidien. . .
Google Translate
. . . enfants de la guerre (froide)
Les 2 ”r´ evolutions” du TAL par l’exemple
et la multiplication des questions ´ ethiques
Ann´ ees 90 : apprentissage (statistique)
I tra¸cabilit´ e
I reconnaissance du travail des producteurs [Kenny, 2011]
I biais dans l’´ evaluation
Depuis quelques ann´ ees : apprentissage (neuronal)
I tra¸cabilit´ e
I reconnaissance du travail des producteurs [Kenny, 2011]
I biais dans l’´ evaluation
I interpr´ etabilit´ e
A noter qu’en TAL les r´ ` esultats des m´ ethodes neuronales sont loin
d’ˆ etre aussi impressionnants que dans d’autres domaines
L’ogre a faim !
pour le nourrir, nous devenons des employeurs
N´ ecessit´ e de grandes masses de donn´ ees annot´ ees pour
entraˆıner et
´ evaluer les syst` emes Exemple :
→ 100 000 mots annot´ es pour entraˆıner un tagger :
Il/CLS est/V sain/ADJ et/CC sauf/P ./PONCT
$
Au final : des analyses plus ou moins maˆıtris´ ees
Environ 98 % d’exactitude pour l’analyse morphosyntaxique [Denis and Sagot, 2010]. . . c’est-` a-dire 1 erreur toutes les 5 phrases environ :
Il/CLS est/V sain/ADJ et/CC sauf/P ./PONCT
Entre 69 et 88 % d’exactitude pour la d´ etection d’ironie [Karoui et al., 2015]
95 % de F-mesure pour la d´ esidentification (anonymisation) et une tˆ ache par d´ efinition irr´ ealisable :
mon p` ere a fond´ e un le plus grand cabinet d’ophtalmologiste de la ville
Une th´ ematique en ´ eclosion dans un domaine ”ancien”
Le traitement automatique des langues en bref L’´ ethique dans le TAL
´ Ethiques et TAL : quelle approche ?
Conclusion et perspectives
Une ´ eclosion r´ ecente, des acteur · trice · s vari´ e · e · s
2018 2017 2016 2015 2014 2013 2012 2011 2010 G. Adda et J.
Mariani (LREC 2010) sur Amazon MT
D. Kenny The ethics of
Machine Translation
(2011°
Revue TAL
"TAL et éthique"
Journée d'études ATALA
"éthique et TAL"
Atelier ETeRNAL à TALN 2015
Atelier ETICA² à LREC 2016
Atelier Ethics in NLP à EACL 2017
Atelier Ethics in NLP à NAACL 2018 Blog
"éthique et tal"
Enquête
"éthique et TAL"
Charte
"éthique et big data"
K. Fort, G.
Adda et K.B.
Cohen (CL 2011) sur Amazon
MT
Groupe ´ ethique et TAL
Blog http://www.ethique-et-tal.org/
IR G. Adda (LIMSI-CNRS, Paris-Saclay)
MCF M. Amblard (LORIA / Universite de Lorraine, Nancy) PR J-Y. Antoine (LI / Universit´ e Rabelais, Tours)
Indus. A. Couillault (Apoliade, Paris) MCF K. Fort (Sorbonne Univ., Paris) Indus. H. de Mazancourt (Yseop, Paris)
CR A. N´ ev´ eol (LIMSI-CNRS, Paris-Saclay)
Une th´ ematique en ´ eclosion dans un domaine ”ancien”
´ Ethiques et TAL : quelle approche ?
Une vision souvent cons´ equentialiste
Les apports de l’´ ethique d´ eontologique
Conclusion et perspectives
Une th´ ematique en ´ eclosion dans un domaine ”ancien”
´ Ethiques et TAL : quelle approche ?
Une vision souvent cons´ equentialiste
Les apports de l’´ ethique d´ eontologique
Conclusion et perspectives
Les apports du cons´ equentialisme
R´ eflexion sur les applications d´ evelopp´ ees [Lefeuvre et al., 2015] :
I qui repr´ esentent un risque concernant la vie priv´ ee des citoyens :
I
extraction automatique de
sentiments
,
I
identification de
leaders d’opinion
, etc.
I dont les effets n´ egatifs ne sont pas toujours ´ evalu´ es sur le temps long :
I
aide au handicap
Le temps long : l’exemple de l’aide au handicap
Une th´ ematique en ´ eclosion dans un domaine ”ancien”
´ Ethiques et TAL : quelle approche ?
Une vision souvent cons´ equentialiste
Les apports de l’´ ethique d´ eontologique
Conclusion et perspectives
Environnement / Acteur · trice · s / Donn´ ees
Modèles / Outils
Centralisé
Décentralisé Production
Utilisation
Environnement / Acteur · trice · s / Donn´ ees
Producteur·trice·s
Chercheur·se·s, ingénieur·e·s
Modèles / Outils
Centralisé
Décentralisé Utilisateur·trice·s
Production
Utilisation Gouvernements
Entreprises
Environnement / Acteur · trice · s / Donn´ ees
Producteur·trice·s
Biais Chercheur·se·s,
ingénieur·e·s
Modèles / Outils
Centralisé
Décentralisé Utilisateur·trice·s
Production
Utilisation Gouvernements
Entreprises
Environnement / Acteur · trice · s / Donn´ ees
Données Producteur·trice·s
Biais Chercheur·se·s,
ingénieur·e·s
Modèles / Outils
Centralisé
Décentralisé Utilisateur·trice·s
Production
Utilisation Gouvernements
Entreprises
Données
Consentement et propri´ et´ e des donn´ ees (explicites et implicites)
France TV Info
Type de cr´ eation des donn´ ees
Données Producteur·trice·s
Biais Chercheur·se·s,
ingénieur·e·s
Modèles / Outils
Centralisé
Décentralisé Utilisateur·trice·s
Production
Utilisation Gouvernements
Entreprises
Données Production
Explicite implicite
Production Implicite ou pas
⇒ La fronti` ere entre production et utilisation s’att´ enue
Données Producteur·trice·s
Biais Chercheur·se·s,
ingénieur·e·s
Modèles / Outils
Centralisé
Décentralisé
Producteur·trice Utilisateur·trice·s Production
Amélioration Utilisation Gouvernements
Entreprises
Données Production
Explicite implicite
Production Implicite ou pas
Evaluation ´ vs publicit´ e
France TV Info
Evaluation ´
Données Producteur·trice·s
Biais Chercheur·se·s,
ingénieur·e·s
Modèles / Outils
Centralisé
Décentralisé
Producteur·trice·s Utilisateur·trice·s Production
Amélioration Utilisation
Évaluation vs publicité Gouvernements
Entreprises
Données Production
Explicite implicite
Production Implicite ou pas
Pouvoir sur les donn´ ees
France TV Info
Pouvoir sur les donn´ ees : consentement ´ eclair´ e ( ?)
Pouvoir sur les donn´ ees : consentement ´ eclair´ e ( ?)
Données Producteur·trice·s
Biais Chercheur·se·s,
ingénieur·e·s
Modèles / Outils
Centralisé
Décentralisé
Producteur·trice·s Utilisateur·trice·s Production
Amélioration Utilisation
Évaluation vs publicité Gouvernements
Entreprises
Données Production
Explicite implicite
Production Implicite ou pas Consentement
éclairé
Consentement réellement
éclairé ? Évaluation ?
Conclusion sch´ ema 1/2 : tra¸cabilit´ e ?
Données Producteur·trice·s
Biais Chercheur·se·s,
ingénieur·e·s
Modèles / Outils
Centralisé
Décentralisé
Producteur·trice·s Utilisateur·trice·s Production
Amélioration Utilisation
Évaluation vs publicité Gouvernements
Entreprises
Données Production
Explicite implicite
Production Implicite ou pas Consentement
éclairé
Conclusion sch´ ema 2/2 : N´ ecessit´ e d’avoir du temps
Données Producteur·trice·s
Biais Chercheur·se·s,
ingénieur·e·s
Modèles / Outils
Centralisé
Décentralisé
Producteur·trice·s Utilisateur·trice·s Production
Amélioration Utilisation
Évaluation vs publicité Gouvernements
Entreprises
Données Production
Explicite implicite
Production Implicite ou pas Consentement
éclairé
Consentement réellement
éclairé ? Évaluation ?
Temps : acteur·trice·s problématiques
Une th´ ematique en ´ eclosion dans un domaine ”ancien”
´ Ethiques et TAL : quelle approche ?
Conclusion et perspectives
Un tournant ?
Actuellement :
- moins de soumissions aux ateliers sur le sujet (LREC 2018, NAACL 2018)
+ th´ ematique reprise dans l’appel g´ en´ eral de certaines conf´ erences (TALN, LREC, ACL (dans Multidisciplinary)) + certaines sous-th´ ematiques prennent leur essort :
I
r´ eplicabilit´ e et reproductibilit´ e (COLING 2018, LREC 2018)
I