• Aucun résultat trouvé

Éthique et traitement automatique des langues

N/A
N/A
Protected

Academic year: 2021

Partager "Éthique et traitement automatique des langues"

Copied!
41
0
0

Texte intégral

(1)

HAL Id: hal-01827579

https://hal.archives-ouvertes.fr/hal-01827579

Submitted on 2 Jul 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Éthique et traitement automatique des langues

Karën Fort, Maxime Amblard

To cite this version:

Karën Fort, Maxime Amblard. Éthique et traitement automatique des langues. Journée éthique et

intelligence artificielle, Jul 2018, Nancy, France. �hal-01827579�

(2)

Ethique et traitement automatique des langues ´

Kar¨ en Fort et Maxime Amblard

karen.fort@paris-sorbonne.fr / maxime.amblard@loria.fr

2 juillet 2018

(3)

Une th´ ematique en ´ eclosion dans un domaine ”ancien”

Le traitement automatique des langues en bref L’´ ethique dans le TAL

´ Ethiques et TAL : quelle approche ?

Conclusion et perspectives

(4)

Une th´ ematique en ´ eclosion dans un domaine ”ancien”

Le traitement automatique des langues en bref L’´ ethique dans le TAL

´ Ethiques et TAL : quelle approche ?

Conclusion et perspectives

(5)

Des applications (et des probl` emes) dans notre quotidien. . .

Google Translate

(6)

. . . enfants de la guerre (froide)

(7)

Les 2 ”r´ evolutions” du TAL par l’exemple

et la multiplication des questions ´ ethiques

Ann´ ees 90 : apprentissage (statistique)

I tra¸cabilit´ e

I reconnaissance du travail des producteurs [Kenny, 2011]

I biais dans l’´ evaluation

Depuis quelques ann´ ees : apprentissage (neuronal)

I tra¸cabilit´ e

I reconnaissance du travail des producteurs [Kenny, 2011]

I biais dans l’´ evaluation

I interpr´ etabilit´ e

A noter qu’en TAL les r´ ` esultats des m´ ethodes neuronales sont loin

d’ˆ etre aussi impressionnants que dans d’autres domaines

(8)

L’ogre a faim !

pour le nourrir, nous devenons des employeurs

N´ ecessit´ e de grandes masses de donn´ ees annot´ ees pour

entraˆıner et

´ evaluer les syst` emes Exemple :

→ 100 000 mots annot´ es pour entraˆıner un tagger :

Il/CLS est/V sain/ADJ et/CC sauf/P ./PONCT

$

(9)

Au final : des analyses plus ou moins maˆıtris´ ees

Environ 98 % d’exactitude pour l’analyse morphosyntaxique [Denis and Sagot, 2010]. . . c’est-` a-dire 1 erreur toutes les 5 phrases environ :

Il/CLS est/V sain/ADJ et/CC sauf/P ./PONCT

Entre 69 et 88 % d’exactitude pour la d´ etection d’ironie [Karoui et al., 2015]

95 % de F-mesure pour la d´ esidentification (anonymisation) et une tˆ ache par d´ efinition irr´ ealisable :

mon p` ere a fond´ e un le plus grand cabinet d’ophtalmologiste de la ville

(10)

Une th´ ematique en ´ eclosion dans un domaine ”ancien”

Le traitement automatique des langues en bref L’´ ethique dans le TAL

´ Ethiques et TAL : quelle approche ?

Conclusion et perspectives

(11)

Une ´ eclosion r´ ecente, des acteur · trice · s vari´ e · e · s

2018 2017 2016 2015 2014 2013 2012 2011 2010 G. Adda et J.

Mariani (LREC 2010)  sur Amazon MT

D. Kenny The ethics of

Machine Translation

(2011°

Revue TAL

"TAL et éthique"

Journée d'études ATALA

"éthique et TAL"

Atelier ETeRNAL à TALN 2015

Atelier ETICA²  à LREC 2016

Atelier Ethics in NLP à EACL 2017

Atelier Ethics in NLP à NAACL 2018 Blog

"éthique et tal"

Enquête

"éthique et TAL"

Charte

"éthique et big data"

K. Fort, G.

Adda et K.B.

Cohen  (CL 2011)  sur Amazon

MT

(12)

Groupe ´ ethique et TAL

Blog http://www.ethique-et-tal.org/

IR G. Adda (LIMSI-CNRS, Paris-Saclay)

MCF M. Amblard (LORIA / Universite de Lorraine, Nancy) PR J-Y. Antoine (LI / Universit´ e Rabelais, Tours)

Indus. A. Couillault (Apoliade, Paris) MCF K. Fort (Sorbonne Univ., Paris) Indus. H. de Mazancourt (Yseop, Paris)

CR A. N´ ev´ eol (LIMSI-CNRS, Paris-Saclay)

(13)

Une th´ ematique en ´ eclosion dans un domaine ”ancien”

´ Ethiques et TAL : quelle approche ?

Une vision souvent cons´ equentialiste

Les apports de l’´ ethique d´ eontologique

Conclusion et perspectives

(14)

Une th´ ematique en ´ eclosion dans un domaine ”ancien”

´ Ethiques et TAL : quelle approche ?

Une vision souvent cons´ equentialiste

Les apports de l’´ ethique d´ eontologique

Conclusion et perspectives

(15)

Les apports du cons´ equentialisme

R´ eflexion sur les applications d´ evelopp´ ees [Lefeuvre et al., 2015] :

I qui repr´ esentent un risque concernant la vie priv´ ee des citoyens :

I

extraction automatique de

sentiments

,

I

identification de

leaders d’opinion

, etc.

I dont les effets n´ egatifs ne sont pas toujours ´ evalu´ es sur le temps long :

I

aide au handicap

(16)

Le temps long : l’exemple de l’aide au handicap

(17)

Une th´ ematique en ´ eclosion dans un domaine ”ancien”

´ Ethiques et TAL : quelle approche ?

Une vision souvent cons´ equentialiste

Les apports de l’´ ethique d´ eontologique

Conclusion et perspectives

(18)

Environnement / Acteur · trice · s / Donn´ ees

Modèles / Outils

Centralisé

Décentralisé Production

Utilisation

(19)

Environnement / Acteur · trice · s / Donn´ ees

Producteur·trice·s

Chercheur·se·s, ingénieur·e·s

Modèles / Outils

Centralisé

Décentralisé Utilisateur·trice·s

Production

Utilisation Gouvernements

Entreprises

(20)

Environnement / Acteur · trice · s / Donn´ ees

Producteur·trice·s

Biais Chercheur·se·s,

ingénieur·e·s

Modèles / Outils

Centralisé

Décentralisé Utilisateur·trice·s

Production

Utilisation Gouvernements

Entreprises

(21)

Environnement / Acteur · trice · s / Donn´ ees

Données Producteur·trice·s

Biais Chercheur·se·s,

ingénieur·e·s

Modèles / Outils

Centralisé

Décentralisé Utilisateur·trice·s

Production

Utilisation Gouvernements

Entreprises

Données

(22)

Consentement et propri´ et´ e des donn´ ees (explicites et implicites)

France TV Info

(23)

Type de cr´ eation des donn´ ees

Données Producteur·trice·s

Biais Chercheur·se·s,

ingénieur·e·s

Modèles / Outils

Centralisé

Décentralisé Utilisateur·trice·s

Production

Utilisation Gouvernements

Entreprises

Données Production

Explicite implicite

Production Implicite ou pas

(24)

⇒ La fronti` ere entre production et utilisation s’att´ enue

Données Producteur·trice·s

Biais Chercheur·se·s,

ingénieur·e·s

Modèles / Outils

Centralisé

Décentralisé

Producteur·trice Utilisateur·trice·s Production

Amélioration Utilisation Gouvernements

Entreprises

Données Production

Explicite implicite

Production Implicite ou pas

(25)

Evaluation ´ vs publicit´ e

France TV Info

(26)

Evaluation ´

Données Producteur·trice·s

Biais Chercheur·se·s,

ingénieur·e·s

Modèles / Outils

Centralisé

Décentralisé

Producteur·trice·s Utilisateur·trice·s Production

Amélioration Utilisation

Évaluation vs publicité Gouvernements

Entreprises

Données Production

Explicite implicite

Production Implicite ou pas

(27)

Pouvoir sur les donn´ ees

France TV Info

(28)

Pouvoir sur les donn´ ees : consentement ´ eclair´ e ( ?)

(29)

Pouvoir sur les donn´ ees : consentement ´ eclair´ e ( ?)

Données Producteur·trice·s

Biais Chercheur·se·s,

ingénieur·e·s

Modèles / Outils

Centralisé

Décentralisé

Producteur·trice·s Utilisateur·trice·s Production

Amélioration Utilisation

Évaluation vs publicité Gouvernements

Entreprises

Données Production

Explicite implicite

Production Implicite ou pas Consentement

éclairé

Consentement réellement

éclairé ? Évaluation ?

(30)

Conclusion sch´ ema 1/2 : tra¸cabilit´ e ?

Données Producteur·trice·s

Biais Chercheur·se·s,

ingénieur·e·s

Modèles / Outils

Centralisé

Décentralisé

Producteur·trice·s Utilisateur·trice·s Production

Amélioration Utilisation

Évaluation vs publicité Gouvernements

Entreprises

Données Production

Explicite implicite

Production Implicite ou pas Consentement

éclairé

(31)

Conclusion sch´ ema 2/2 : N´ ecessit´ e d’avoir du temps

Données Producteur·trice·s

Biais Chercheur·se·s,

ingénieur·e·s

Modèles / Outils

Centralisé

Décentralisé

Producteur·trice·s Utilisateur·trice·s Production

Amélioration Utilisation

Évaluation vs publicité Gouvernements

Entreprises

Données Production

Explicite implicite

Production Implicite ou pas Consentement

éclairé

Consentement réellement

éclairé ? Évaluation ?

Temps :  acteur·trice·s  problématiques

(32)

Une th´ ematique en ´ eclosion dans un domaine ”ancien”

´ Ethiques et TAL : quelle approche ?

Conclusion et perspectives

(33)

Un tournant ?

Actuellement :

- moins de soumissions aux ateliers sur le sujet (LREC 2018, NAACL 2018)

+ th´ ematique reprise dans l’appel g´ en´ eral de certaines conf´ erences (TALN, LREC, ACL (dans Multidisciplinary)) + certaines sous-th´ ematiques prennent leur essort :

I

r´ eplicabilit´ e et reproductibilit´ e (COLING 2018, LREC 2018)

I

biais de l’apprentissage (ACL 2018)

(34)

D´ epasser les totems et les tabous

Totems :

I reproductibilit´ e

I biais de l’apprentissage (en particulier genr´ e)

I transparence des algorithmes Tabous :

I tra¸cabilit´ e

I conditions de productions des ressources langagi` eres (chercheur · se employeur · e)

d´eontologie

(35)
(36)

En tant que chercheur · se · s

Difficult´ es :

I poser l’´ ethique comme un enjeu de recherche dans le domaine

I d´ efinir/circonscrire les probl` emes Besoins :

I collaborations (avec des philosophes, par exemple)

I d´ eculpabiliser les chercheur · se · s

(37)

Merci

pour votre temps

et votre attention

(38)

Annexes

Bibliographie

(39)

Adda, G. and Mariani, J. (2010).

Language resources and amazon mechanical turk : legal, ethical and other issues.

In Legal Issues for Sharing Language Resources workshop in International Conference on Language Resources and

Evaluation (LREC). European Language Resources Association (ELRA).

Antoine, J.-Y. and Lefeuvre, A. (2014).

Pour une r´ eflexion ´ ethique sur les cons´ equences de l’usage des ntic : le cas des aides techniques (` a composante langagi` ere ou non) aux personnes handicap´ ees.

In Actes de la journ´ ee ATALA ´ Ethique et TAL.

Denis, P. and Sagot, B. (2010).

Exploitation d’une ressource lexicale pour la construction d’un

´ etiqueteur morphosyntaxique ´ etat-de-l’art du fran¸ cais.

(40)

In

Traitement Automatique des Langues Naturelles : TALN 2010, Montr´ eal, Canada.

Fort, K., Adda, G., and Cohen, K. B. (2011).

Amazon Mechanical Turk : Gold mine or coal mine ? Computational Linguistics (editorial), 37(2) :413–420.

Karoui, J., Benamara Zitoune, F., Moriceau, V., Aussenac-Gilles, N., and Hadrich Belguith, L. (2015).

D´ etection automatique de l’ironie dans les tweets en fran¸ cais.

In

22eme Conference sur le Traitement Automatique des Langues Naturelles (TALN 2015), pages pp. 1–6, Caen, France.

Kenny, D. (2011).

The ethics of machine translation.

(41)

Ethique cons´ equentialiste et traitement automatique des langues : une typologie de facteurs de risques adapt´ ee aux technologies langagi` eres.

In

Atelier Ethique et TRaitemeNt Automatique des Langues (ETeRNAL’2015), conf´ erence TALN’2015, Actes de la 1e Ethique et TRaitemeNt Automatique des

Langues (ETeRNAL’2015), Caen (France), pages 53–66, Caen,

France.

Références

Documents relatifs

trouver un mot (ou une phrase) au hasard dans les textes d’une

On rencontre alors deux probl`emes majeurs : soit on vise `a couvrir un grand domaine de la langue, et la quantit´e de donn´ees linguistiques disponibles est insuffisante pour

Nous avons vu qu’un facteur de risquesp eut impliquer plusieurs impacts de vulnérabilité de notre typologie (des capacités cognitives d’un locuteur au système linguistique

Nous avons appliqué DBscan pour regrouper les hashtags similaires. Nous avons considéré que les hashtags, qui se trouvent dans un même cluster, représentent un même

Nous avons répliqué l’expérience sur cette nouvelle base (qui n’est pas non plus celle de l’article initial), mais ne sommes pas parvenus à en reproduire les résultats (0,87

À partir de ce corpus enrichi (D2T, Data vers Texte), nous avons proposé un premier modèle neuronal pour la génération de textes sous contrainte syntaxique, un modèle qui apprend

Mais au-delà de ces applications où les problèmes éthiques sont bien connus (truismes), il semble que de nombreuses autres applications, où les atteintes potentielles à

[r]