Productions participatives de corpus annotés : des modèles encore incertains

(1)

HAL Id: hal-02418826

https://hal.inria.fr/hal-02418826

Submitted on 19 Dec 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Productions participatives de corpus annotés : des modèles encore incertains

Karën Fort

To cite this version:

Karën Fort. Productions participatives de corpus annotés : des modèles encore incertains. Colloque

Jeunes Chercheurs PRAXILING, Nov 2019, Montpellier, France. �hal-02418826�

(2)

Productions participatives de corpus annot´ es : des mod` eles encore incertains

Kar¨ en Fort

karen.fort@sorbonne-universite.fr

8 novembre 2019

(3)

D’o` u je parle

Voir http://karenfort.org/

I Cr´ eation de ressources langagi` eres pour le Traitement automatique des langues (TAL)

I Ethique et TAL

(4)

Production participative (crowdsourcing )

Jeux ayant un but que j’ai particip´ e ` a cr´ eer :

Portail de jeux pour les langues et atelier r´ ecurrent :

Games4NLP

(5)

Les productions participatives

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Conclusion et perspectives

(6)

Les productions participatives

Des participants qu’on ne choisit pas Au-del` a des mythes

Red´ efinition

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Conclusion et perspectives

(7)

Production participative / myriadisation (crowdsourcing )

Crowdsourcing is ”the act of a company or institution taking a function once performed by employees and out- sourcing it to an undefined (and generally large) network of people in the form of an open call.”[Howe, 2006]

I pas d’identification ou de s´ election des participants a priori (appel ouvert)

I massif (en termes de production et de participation)

I (relativement) peu cher

(8)

Des r´ eussites remarquables

Wikip´ edia ¹ (octobre 2019) :

I plus de 158 million d’articles en 279 langues

I plus de 800 millions de pages de la Wikip´ edia fran¸ caise vues en septembre

Distributed Proofreaders (Gutenberg Project) ² : I pr` es de 40 000 livres num´ eris´ es et corrig´ es

Num´ erisation des d´ eclarations de conflits d’int´ erˆ ets des ´ elus ³ : I 11 095 extraits de d´ eclarations saisis en moins d’une

semaine

I pr` es de 8 000 participants

1. https://stats.wikimedia.org/v2/#/all-wikipedia-projects

2. https://www.pgdp.net/c/

(9)

Les productions participatives

Games with a purpose (GWAP) not

remunerated

direct / explicit

indirect /

Microworking Citizen science

remunerated

(10)

Les productions participatives

Des participants qu’on ne choisit pas Au-del` a des mythes

Red´ efinition

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Conclusion et perspectives

(11)

Mythe #1 : C’est nouveau !

Instructions pour les voyageurs et les employ´ es des colonies

Sciences participatives :

I publi´ ees par le Museum National d’Histoire Naturelle

I premi` ere ´ edition en 1824

(12)

Mythe #2 : Ca implique beaucoup de participants

1 10 20 30 40 50 60 70 80 90

100 000 200 000 300 000 400 000 500 000

Joueurs class´es selon leur score

Nombredepoints

Nombre de points par joueur

Nombre de joueurs sur Phrase Detectives selon le nombre de points gagn´ es

dans le jeu (f´ ev. 2011 - f´ ev. 2012)

(13)

Une foule de participants ? JeuxDeMots

20 100 200 300 400 500 600

250 000 500 000 750 000 1 000 000

Joueurs class´es selon leur score

Nombredepoints

Nombre de points par joueur

Nombre de joueurs sur JeuxDeMots selon leur classement dans le jeu

(14)

Une foule de participants ? ZombiLingo

(15)

Une foule de travailleurs ? [Fort et al., 2011]

Nombre de Turkers actifs sur Amazon Mechanical Turk : I annonc´ e : plus de 500 000

I 80 % des tˆ aches (HIT) sont r´ ealis´ es par les 20 % des Turkers les plus actifs [Deneme, 2009]

⇒ travailleurs vraiment actifs (en 2011) : entre 15 059 et 42 912

(16)

Mythe #3 : Ca implique des non-experts

Extraits du forum de ZombiLingo

(17)

Les productions participatives

Des participants qu’on ne choisit pas Au-del` a des mythes

Red´ efinition

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Conclusion et perspectives

(18)

Production participative

Profiter d’une foule de ”non-experts” ?

(19)

Production participative

Profiter d’une foule de ”non-experts” ?

→ Trouver/former des experts (de la tˆ ache) dans la foule

(20)

Les productions participatives

Les jeux ayant un but : l’exemple de ZombiLingo Les jeux ayant un but

La syntaxe de d´ ependances, en jeu Derri` ere le rideau

R´ esultats

Les incertitudes du mod` ele

Conclusion et perspectives

(21)

JeuxDeMots : jouer ` a faire des associations d’id´ ees. . .

. . . pour cr´ eer un r´ eseau lexical [Lafourcade and Joubert, 2008]

Pr` es de 300 million de relations (cr´ e´ ees par env. 6 000 joueurs), mises ` a jour constamment

I jeu par pairs

I des relations de plus en plus complexes, typ´ ees

I des challenges

I des proc` es

I etc

(22)

Phrase Detectives : jouer les d´ etectives. . .

. . . pour annoter des anaphores [Chamberlain et al., 2008]

3,5 millions de d´ ecisions de 45 000 joueurs (2016)

I corpus pr´ e-annot´ e I instructions d´ etaill´ ees I formation

I 2 modes de jeu : I annotation

I validation (correction

d’annotations)

(23)

FoldIt : jouer ` a replier des prot´ eines. . .

. . . pour r´ esoudre des probl` emes de structure crystalline [Khatib et al., 2011]

R´ esolution de la structure cristalline de la prot´ eine responsable de la propagation du virus du SIDA chez les macaques rh´ esus Solution ` a un probl` eme non

r´ esolu depuis plus de 10 ans I trouv´ ee en quelques

semaines

I par une ´ equipe de joueurs I qui va permettre la cr´ eation

de m´ edicaments

antir´ etroviraux

(24)

FoldIt : jouer ` a replier des prot´ eines. . .

. . . sans aucune connaissance pr´ ealable en biochimie [Cooper et al., 2010]

Formation par ´ etapes

I tutoriel d´ ecompos´ e par concepts I puzzles pour chaque concept

I l’acc` es aux puzzles suivants n’est octroy´ e que si le niveau du

joueur est suffisant

(25)

Les productions participatives

Les jeux ayant un but : l’exemple de ZombiLingo Les jeux ayant un but

La syntaxe de d´ ependances, en jeu Derri` ere le rideau

R´ esultats

Les incertitudes du mod` ele

Conclusion et perspectives

(26)

Une tˆ ache complexe

I guide d’annotation I 29 types de relation I approx. 50 pages

I des d´ ecisions contre-intuitives (pas de la grammaire d’´ ecoliers, de la linguistique) : aobj = au

[...] avoir recours au type de mesures [...]

c-` a-d que la tˆ ete de la relation est ici une pr´ eposition

→ d´ ecomposer la complexit´ e de la tˆ ache [Fort et al., 2012],

pas la simplifier !

(27)

http://zombilingo.org/

(28)

(29)

(30)

Les productions participatives

Les jeux ayant un but : l’exemple de ZombiLingo Les jeux ayant un but

La syntaxe de d´ ependances, en jeu Derri` ere le rideau

R´ esultats

Les incertitudes du mod` ele

Conclusion et perspectives

(31)

Organiser une production de qualit´ e

Corpus non annoté (Wikipedia) corpus de référence (Sequoia)

Jeu Formation

REFForm. & Ctrl

REFÉval Éval

Texte brut

A

NNOTATION

(sans correction) Pré-annotation

avec 2 analyseurs

score de confiance par joueur

EXPJeu

F

^ORMATION

(avec correction)

C

ONTRÔLE (avec correction)

É

VAL

(sans correction) EXPÉval

(32)

Pr´ etraitement des donn´ ees

corpus librement disponibles et distribuables

(33)

Pr´ etraitement des donn´ ees

corpus librement disponibles et distribuables

Pr´ e-annotation avec deux parsers

1. un statistique : Talismane [Urieli, 2013]

2. un symbolique, bas´ e sur la r´ e-´ ecriture de graphes : FrDep-Parse [Guillaume and Perrier, 2015]

→ les joueurs ne jouent que les relations sur lesquelles les deux

parsers ne donnent pas les mˆ emes r´ esultats

(34)

Formation, contrˆ ole et ´ evaluation

R´ ef´ erence : 3 099 phrases du corpus Sequoia [Candito and Seddah, 2012]

REF Train&Control REF Eval non utilis´ e

50 % 25 % 25 %

1 549 phrases 776 phrases 774 phrases I REF Train&Control est utilis´ e pour former les joueurs

I REF Eval est utilis´ e comme un corpus brut, pour ´ evaluer les

annotations produites

(35)

Formation

Obligatoire pour chaque relation

I phrases du corpus REF Train&Control

I retour visuel en cas d’erreur

(36)

Gestion de la fatigue cognitive et des joueurs au long court

M´ ecanisme de contrˆ ole

Des phrases de REF Train&Control sont propos´ ees r´ eguli` erement 1. si le joueur ´ echoue ` a trouver la bonne r´ eponse, un retour

visuel avec la solution lui est propos´ e

(37)

Gestion de la fatigue cognitive et des joueurs au long court

M´ ecanisme de contrˆ ole

Des phrases de REF Train&Control sont propos´ ees r´ eguli` erement 1. si le joueur ´ echoue ` a trouver la bonne r´ eponse, un retour

visuel avec la solution lui est propos´ e

2. apr` es un certain nombre d’erreurs sur une mˆ eme relation, le joueur ne peut plus jouer et doit refaire la formation

correspondante

(38)

Gestion de la fatigue cognitive et des joueurs au long court

M´ ecanisme de contrˆ ole

Des phrases de REF Train&Control sont propos´ ees r´ eguli` erement 1. si le joueur ´ echoue ` a trouver la bonne r´ eponse, un retour

visuel avec la solution lui est propos´ e

2. apr` es un certain nombre d’erreurs sur une mˆ eme relation, le joueur ne peut plus jouer et doit refaire la formation

correspondante

→ nous en d´ eduisons un niveau de confiance dans le joueur, pour

cette relation

(39)

Les productions participatives

Les jeux ayant un but : l’exemple de ZombiLingo Les jeux ayant un but

La syntaxe de d´ ependances, en jeu Derri` ere le rideau

R´ esultats

Les incertitudes du mod` ele

Conclusion et perspectives

(40)

Production : taille des corpus cr´ e´ es

Au 10 juillet 2016

I 647 joueurs (1 460 au 9 octobre 2019)

I ont produit 107 719 annotations (496 462 au 9 octobre 2019)

→ ressource qui ´ evolue constamment !

(41)

Evaluation de la qualit´ ´ e

sur le corpus REF

Eval

aux.tps suj aux.pass aff det obj.cpl a obj mo

d.rel dep.co

ord obj.pats p

obj.o de obj co

ord obj mo d 0

0.5 1

F-measure

Talismane FrDep-Parse Game

(42)

Densit´ e des annotations

sur le corpus REF

Eval

aux.tps suj aux.pass aff det obj.cpl a obj mo

d.rel dep.co

ord obj.pats p

obj.o de obj co

ord obj mo d 0

2 4

numb er of answ ers p er annotation

→ besoin de davantage d’annotations sur certaines relations

(43)

Les productions participatives

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Cr´ eer un jeu : un savoir-faire complexe Produire des donn´ ees de qualit´ e

Motiver la participation : de l’extrins` eque vers l’intrins` eque

Conclusion et perspectives

(44)

Types de joueurs selon [Bartle, 1996]

Motiver les joueurs en fonction de leur type

I Achievers : aiment r´ eussir dans le jeu

I Explorers : aiment connaˆıtre les coins cach´ es du jeu I Socializers : aiment interagir avec les autres

I Killers : aiment attaquer les autres joueurs

(45)

Classements (pour tout le monde)

Crit` eres :

I

(46)

Fonctionnalit´ es cach´ ees (pour les explorateurs)

I qui apparaissent al´ eatoirement

I diff´ erents effets : apparition d’objet, lien vers un autre jeu, etc.

(47)

Duels (pour les ”socialiseurs” (et les tueurs ?))

I s´ electionner un ennemi

I lui proposer un duel sur un type de relation

(48)

Badges ( ?) (pour les collectionneurs)

I jouer toutes les phrases pour une relation

I jouer toutes les phrases pour un corpus

(49)

Les productions participatives

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Cr´ eer un jeu : un savoir-faire complexe Produire des donn´ ees de qualit´ e

Motiver la participation : de l’extrins` eque vers l’intrins` eque

Conclusion et perspectives

(50)

Donn´ ees de qualit´ e vs Fonctionnalit´ es fun

pr´ eserver le cercle vertueux n’est pas si facile

phrase qui disparaˆıt soudainement dans ZombiLingo : + le joueur est surpris : fun !

- le joueur clique n’importe o` u : ressource de mauvaise qualit´ e

joueur qui a trouv´ e une faille dans JeuxDeMots [Lafourcade and Joubert, 2008] pour obtenir du temps :

+ cr´ ee de la meilleure donn´ ee : bonne qualit´ e

- g´ en` ere de l’envie et de la col` ere dans la communaut´ e de joueurs : mauvais pour

le jeu

(51)

Donn´ ees de qualit´ e vs Fonctionnalit´ es fun

pr´ eserver le cercle vertueux n’est pas si facile

phrase qui disparaˆıt soudainement dans ZombiLingo : + le joueur est surpris : fun !

- le joueur clique n’importe o` u : ressource de mauvaise qualit´ e

joueur qui a trouv´ e une faille dans JeuxDeMots [Lafourcade and Joubert, 2008] pour obtenir du temps :

+ cr´ ee de la meilleure donn´ ee : bonne qualit´ e

- g´ en` ere de l’envie et de la col` ere dans la communaut´ e de joueurs : mauvais pour

le jeu

(52)

Donn´ ees de qualit´ e vs Fonctionnalit´ es fun

pr´ eserver le cercle vertueux n’est pas si facile

phrase qui disparaˆıt soudainement dans ZombiLingo : + le joueur est surpris : fun !

- le joueur clique n’importe o` u : ressource de mauvaise qualit´ e

joueur qui a trouv´ e une faille dans JeuxDeMots [Lafourcade and Joubert, 2008] pour obtenir du temps :

+ cr´ ee de la meilleure donn´ ee : bonne qualit´ e

- g´ en` ere de l’envie et de la col` ere dans la communaut´ e de joueurs : mauvais pour

le jeu

(53)

Les productions participatives

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Cr´ eer un jeu : un savoir-faire complexe Produire des donn´ ees de qualit´ e

Motiver la participation : de l’extrins` eque vers l’intrins` eque

Conclusion et perspectives

(54)

Extrins` eque : ` a relancer constamment

Exemple de ZombiLingo (influence de la semaine de la langue fran¸ caise)

(55)

Quand on ne relance pas

(56)

Intrins` eque : apprentissage d’une langue

favoriser la transmission inter-g´ en´ erationnelle en produisant des donn´ ees

Katana et Grand Guru, le jeu des mots perdus

Ressources linguistiques

(lexiques, idiomes)

Text

TextText

Divertissement

génération de tâches Tâches non

linguistiques Tâches linguistiques

Production participative

Apprentissage d'une langue

(57)

Les productions participatives

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Conclusion et perspectives

(58)

Jouir de la foule est un art [Baudelaire,

Les foules

]

Faire r´ ealiser des tˆ aches complexes n´ ecessite de : I connaˆıtre les dimensions de complexit´ e de la tˆ ache

→ pour outiller ` a bon escient I former les joueurs et les ´ evaluer

→ pour les s´ electionner

Obtenir des ressources de qualit´ e n´ ecessite de : I d´ eterminer les moyens et les formes de

l’´ evaluation

I cr´ eer un cercle vertueux

Gain de points

Qualité de la ressource

(59)

Bientˆ ot sur vos ´ ecran !

Le jeu pour Universal Dependencies : http://zombiludik.org/

(60)

https://github.com/zombilingo

http://zombilingo.org/export

(61)

Appendix

Amazon Mechanical Turk : une plate-forme de l´ egendes

Bibliographie

(62)

Le Turc m´ ecanique de von Kempelen

Un joueur d’´ echecs m´ ecanique cr´ e´ e par J. W. von Kempelen

en 1770 :

(63)

Le Turc m´ ecanique de von Kempelen

En fait, un maˆıtre d’´ echecs ´ etait cach´ e dans la machine :

(64)

Le Turc m´ ecanique de von Kempelen

C’est l’intelligence artificielle artificielle !

(65)

Et Amazon cr´ ea AMT

Amazon cr´ ee une pour ses propres besoins

plate-forme de travail parcellis´e

et en ouvre l’acc` es en 2005 (moyennant 10 % des transactions)

(66)

Amazon Mechanical Turk

MTurk

(67)

Amazon Mechanical Turk

MTurk est une plate-forme de myriadisation : le travail est

externalis´ e via le Web et r´ ealis´ e par de nombreuses personnes (la

foule), ici les Turkers

(68)

Amazon Mechanical Turk

MTurk est une plate-forme de myriadisation du travail parcellis´ e :

les tˆ aches sont d´ ecoup´ ees en sous-tˆ aches (HIT) et leur ex´ ecution

est pay´ ee par les Requesters

(69)

Amazon Mechanical Turk

MTurk est une plate-forme de myriadisation du travail parcellis´ e :

les tˆ aches sont d´ ecoup´ ees en sous-tˆ aches (HIT) et leur ex´ ecution

est pay´ee .

(70)

Amazon Mechanical Turk

MTurk est une plate-forme de myriadisation du travail parcellis´ e :

les tˆ aches sont d´ ecoup´ ees en sous-tˆ aches (HIT) et leur ex´ ecution

est pay´ee .

(71)

Caract´ eristiques d’AMT

R´ emun´ eration :

I ` a la tˆ ache (ill´ egal en France sauf (rares) exceptions) : moins de 2 $ /h

I pas de relation explicite entre les Turkers et les Requesters Tˆ aches :

I nouveaux usages : par exemple, des cr´ eations artistiques, comme http://www.thesheepmarket.com/

I des tˆ aches traditionnellement r´ ealis´ ees par des employ´ es

salari´ es : transcription, traduction (agences LDC, ELDA), etc

(72)

AMT : le rˆ eve devenu r´ ealit´ e ?

[Snow et al., 2008]

(73)

AMT : le rˆ eve devenu r´ ealit´ e ?

[Snow et al., 2008]

C’est tr` es peu cher, rapide, de bonne qualit´ e

et c’est un hobby pour les Turkers !

(74)

AMT permet de r´ eduire les coˆ uts

Tr` es basse r´ emun´ eration ⇒ coˆ uts faibles ? Oui, mais. . . I coˆ ut de mise au point de l’interface

I coˆ ut de cr´ eation de protections contre les spammers I coˆ ut de validation et de post-traitement

certaines tˆ aches (par exemple, la traduction du pachto vers l’anglais) g´ en` erent des coˆ uts similaires aux coˆ uts habituels dans le domaine, du fait du manque de Turkers

qualifi´ es [Novotney and Callison-Burch, 2010].

(75)

AMT permet de produire des ressources de qualit´ e ?

I permet de produire des ressources de qualit´ e dans certains cas pr´ ecis (par exemple, la transcription simple)

I mais :

I la qualit´ e est insuffisante lorsque la tˆ ache est complexe (par exemple, le r´ esum´ e [Gillick and Liu, 2010])

I l’interface d’AMT pose parfois probl` eme [Tratz and Hovy, 2010]

I les Turkers posent parfois probl` eme (tricheurs, spammers) I le mod` ele de r´ emun´ eration ` a la tˆ ache pose

probl` eme [Kochhar et al., 2010]

I pour certaines tˆ aches simples les outils de TAL produisent de

meilleurs r´ esultats qu’AMT [Wais et al., 2010].

(76)

AMT : un passe-temps pour les Turkers ?

[Ross et al., 2010, Ipeirotis, 2010] montre que :

I Turkers sont avant tout motiv´ es par l’argent (91 %) :

I 20 % consid` erent AMT comme leur source de revenu primaire ; I 50 % comme leur source de revenu secondaire ;

I l’aspect loisir n’est important que pour une minorit´ e (30 %).

I 20 % des Turkers passent plus de 15 h par semaine sur AMT, et contribuent ` a 80 % des tˆ aches.

I le salaire horaire moyen observ´ e est inf´ erieur ` a 2 $ .

(77)

Est-ce qu’AMT est ´ ethique et/ou l´ egal ?

´ Ethique :

I pas d’identification : pas de lien officiel entre Requesters et Turkers et entre Turkers

I pas de possibilit´ e de se syndiquer, pour protester contre des manquements des Requesters ou ester en justice

I pas de salaire minimum (< 2 $/h en moyenne)

I possibilit´ e de refuser de payer les Turkers

(78)

Est-ce qu’AMT est ´ ethique et/ou l´ egal ?

(79)

Est-ce qu’AMT est ´ ethique et/ou l´ egal ?

L´ egalit´ e :

I accord de licence d’Amazon : les Turkers sont consid´ er´ es comme des travailleurs ind´ ependants ⇒ ils sont suppos´ es se d´ eclarer comme tels et payer les cotisations aff´ erentes I illusoire, vus le niveau de r´ emun´ eration

⇒ les ´ Etats perdent une source de revenus l´ egitime

(80)

Bartle, R. (1996).

Hearts, clubs, diamonds, spades : Players who suit MUDs.

The Journal of Virtual Environments, 1(1).

Candito, M. and Seddah, D. (2012).

Le corpus Sequoia : annotation syntaxique et exploitation pour l’adaptation d’analyseur par pont lexical.

In Proceedings of the Traitement Automatique des Langues Naturelles (TALN), Grenoble, France.

Chamberlain, J., Poesio, M., and Kruschwitz, U. (2008).

Phrase Detectives : a web-based collaborative annotation game.

In Proceedings of the International Conference on Semantic Systems (I-Semantics’08), Graz, Austria.

Cooper, S., Treuille, A., Barbero, J., Leaver-Fay, A., Tuite, K., Khatib, F., Snyder, A. C., Beenen, M., Salesin, D., Baker, D., and Popovi´ c, Z. (2010).

The challenge of designing scientific discovery games.

(81)

In Proceedings of the Fifth International Conference on the Foundations of Digital Games, FDG ’10, pages 40–47, New York, NY, USA. ACM.

Deneme (2009).

How many turkers are there ?

http ://groups.csail.mit.edu/uid/deneme/.

Fort, K., Adda, G., and Cohen, K. B. (2011).

Amazon Mechanical Turk : Gold mine or coal mine ? Computational Linguistics (editorial), 37(2) :413–420.

Fort, K., Nazarenko, A., and Rosset, S. (2012).

Modeling the complexity of manual annotation tasks : a grid of analysis.

In International Conference on Computational Linguistics (COLING), pages 895–910, Mumbai, India.

Gillick, D. and Liu, Y. (2010).

(82)

In Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, CSLDAMT ’10, pages 148–151, Stroudsburg, PA, USA.

Association for Computational Linguistics.

Guillaume, B. and Perrier, G. (2015).

Dependency Parsing with Graph Rewriting.

In

Proceedings of IWPT 2015, 14th International Conference on Parsing Technologies, pages 30–39, Bilbao, Spain.

Howe, J. (2006).

The rise of crowdsourcing.

Wired Magazine, 14(6).

Ipeirotis, P. (2010).

The new demographics of mechanical turk.

http ://behind-the-enemy-lines.blogspot.com/2010/03/new-

demographics-of-mechanical-turk.html.

(83)

Khatib, F., DiMaio, F., Cooper, S., Kazmierczyk, M., Gilski, M., Krzywda, S., Zabranska, H., Pichova, I., Thompson, J., Popovi´ c, Z., et al. (2011).

Crystal structure of a monomeric retroviral protease solved by protein folding game players.

Nature structural & molecular biology, 18(10) :1175–1177.

Kochhar, S., Mazzocchi, S., and Paritosh, P. (2010).

The anatomy of a large-scale human computation engine.

In Proceedings of Human Computation Workshop at the 16th ACM SIKDD Conference on Knowledge Discovery and Data Mining, KDD 2010, Washington D.C.

Lafourcade, M. and Joubert, A. (2008).

JeuxDeMots : un prototype ludique pour l’´ emergence de relations entre termes.

In Proceedings of the Journ´ ees internationales d’Analyse

(84)

Cheap, fast and good enough : automatic speech recognition with non-expert transcription.

In Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), HLT’10, pages 207–215, Stroudsburg, PA, USA. Association for Computational Linguistics.

Ross, J., Irani, L., Silberman, M. S., Zaldivar, A., and Tomlinson, B. (2010).

Who are the crowdworkers ? : shifting demographics in mechanical turk.

In Proceedings of the 28th of the international conference extended abstracts on Human factors in computing systems, CHI EA ’10, pages 2863–2872, New York, NY, USA. ACM.

Snow, R., O’Connor, B., Jurafsky, D., and Ng., A. Y. (2008).

Cheap and fast - but is it good ? evaluating non-expert annotations for natural language tasks.

In Proceedings of EMNLP 2008, pages 254–263.

(85)

A taxonomy, dataset, and classifier for automatic noun compound interpretation.

In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages 678–687, Uppsala, Sweden. Association for Computational Linguistics.

Productions participatives de corpus annotés : des modèles encore incertains

HAL Id: hal-02418826

https://hal.inria.fr/hal-02418826

Submitted on 19 Dec 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Productions participatives de corpus annotés : des modèles encore incertains

Karën Fort

To cite this version:

Karën Fort. Productions participatives de corpus annotés : des modèles encore incertains. Colloque

Jeunes Chercheurs PRAXILING, Nov 2019, Montpellier, France. �hal-02418826�

Productions participatives de corpus annot´ es : des mod` eles encore incertains

Kar¨ en Fort

karen.fort@sorbonne-universite.fr

8 novembre 2019

D’o` u je parle

Voir http://karenfort.org/

I Cr´ eation de ressources langagi` eres pour le Traitement automatique des langues (TAL)

I Ethique et TAL

Production participative (crowdsourcing )

Jeux ayant un but que j’ai particip´ e ` a cr´ eer :

Portail de jeux pour les langues et atelier r´ ecurrent :

Games4NLP

Les productions participatives

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Conclusion et perspectives

Les productions participatives

Des participants qu’on ne choisit pas Au-del` a des mythes

Red´ efinition

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Conclusion et perspectives

Production participative / myriadisation (crowdsourcing )

Crowdsourcing is ”the act of a company or institution taking a function once performed by employees and out- sourcing it to an undefined (and generally large) network of people in the form of an open call.”[Howe, 2006]

I pas d’identification ou de s´ election des participants a priori (appel ouvert)

I massif (en termes de production et de participation)

I (relativement) peu cher

Des r´ eussites remarquables

Wikip´ edia 1 (octobre 2019) :

I plus de 158 million d’articles en 279 langues

I plus de 800 millions de pages de la Wikip´ edia fran¸ caise vues en septembre

Distributed Proofreaders (Gutenberg Project) 2 : I pr` es de 40 000 livres num´ eris´ es et corrig´ es

Num´ erisation des d´ eclarations de conflits d’int´ erˆ ets des ´ elus 3 : I 11 095 extraits de d´ eclarations saisis en moins d’une

semaine

I pr` es de 8 000 participants

1. https://stats.wikimedia.org/v2/#/all-wikipedia-projects

2. https://www.pgdp.net/c/

Les productions participatives

Les productions participatives

Des participants qu’on ne choisit pas Au-del` a des mythes

Red´ efinition

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Conclusion et perspectives

Mythe #1 : C’est nouveau !

Instructions pour les voyageurs et les employ´ es des colonies

Sciences participatives :

I publi´ ees par le Museum National d’Histoire Naturelle

I premi` ere ´ edition en 1824

Mythe #2 : Ca implique beaucoup de participants

Nombre de joueurs sur Phrase Detectives selon le nombre de points gagn´ es

dans le jeu (f´ ev. 2011 - f´ ev. 2012)

Une foule de participants ? JeuxDeMots

Nombre de joueurs sur JeuxDeMots selon leur classement dans le jeu

Une foule de participants ? ZombiLingo

Une foule de travailleurs ? [Fort et al., 2011]

Nombre de Turkers actifs sur Amazon Mechanical Turk : I annonc´ e : plus de 500 000

I 80 % des tˆ aches (HIT) sont r´ ealis´ es par les 20 % des Turkers les plus actifs [Deneme, 2009]

⇒ travailleurs vraiment actifs (en 2011) : entre 15 059 et 42 912

Mythe #3 : Ca implique des non-experts

Extraits du forum de ZombiLingo

Les productions participatives

Des participants qu’on ne choisit pas Au-del` a des mythes

Red´ efinition

Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele

Conclusion et perspectives

Production participative

Profiter d’une foule de ”non-experts” ?

Production participative

Profiter d’une foule de ”non-experts” ?

→ Trouver/former des experts (de la tˆ ache) dans la foule

Les productions participatives

Wikip´ edia ¹ (octobre 2019) :

Distributed Proofreaders (Gutenberg Project) ² : I pr` es de 40 000 livres num´ eris´ es et corrig´ es

Num´ erisation des d´ eclarations de conflits d’int´ erˆ ets des ´ elus ³ : I 11 095 extraits de d´ eclarations saisis en moins d’une