HAL Id: hal-02418826
https://hal.inria.fr/hal-02418826
Submitted on 19 Dec 2019
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Productions participatives de corpus annotés : des modèles encore incertains
Karën Fort
To cite this version:
Karën Fort. Productions participatives de corpus annotés : des modèles encore incertains. Colloque
Jeunes Chercheurs PRAXILING, Nov 2019, Montpellier, France. �hal-02418826�
Productions participatives de corpus annot´ es : des mod` eles encore incertains
Kar¨ en Fort
karen.fort@sorbonne-universite.fr
8 novembre 2019
D’o` u je parle
Voir http://karenfort.org/
I Cr´ eation de ressources langagi` eres pour le Traitement automatique des langues (TAL)
I Ethique et TAL
Production participative (crowdsourcing )
Jeux ayant un but que j’ai particip´ e ` a cr´ eer :
Portail de jeux pour les langues et atelier r´ ecurrent :
Games4NLP
Les productions participatives
Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele
Conclusion et perspectives
Les productions participatives
Des participants qu’on ne choisit pas Au-del` a des mythes
Red´ efinition
Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele
Conclusion et perspectives
Production participative / myriadisation (crowdsourcing )
Crowdsourcing is ”the act of a company or institution taking a function once performed by employees and out- sourcing it to an undefined (and generally large) network of people in the form of an open call.”[Howe, 2006]
I pas d’identification ou de s´ election des participants a priori (appel ouvert)
I massif (en termes de production et de participation)
I (relativement) peu cher
Des r´ eussites remarquables
Wikip´ edia 1 (octobre 2019) :
I plus de 158 million d’articles en 279 langues
I plus de 800 millions de pages de la Wikip´ edia fran¸ caise vues en septembre
Distributed Proofreaders (Gutenberg Project) 2 : I pr` es de 40 000 livres num´ eris´ es et corrig´ es
Num´ erisation des d´ eclarations de conflits d’int´ erˆ ets des ´ elus 3 : I 11 095 extraits de d´ eclarations saisis en moins d’une
semaine
I pr` es de 8 000 participants
1. https://stats.wikimedia.org/v2/#/all-wikipedia-projects
2. https://www.pgdp.net/c/
Les productions participatives
Games with a purpose (GWAP) not
remunerated
direct / explicit
indirect /
Microworking Citizen science
remunerated
Les productions participatives
Des participants qu’on ne choisit pas Au-del` a des mythes
Red´ efinition
Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele
Conclusion et perspectives
Mythe #1 : C’est nouveau !
Instructions pour les voyageurs et les employ´ es des colonies
Sciences participatives :
I publi´ ees par le Museum National d’Histoire Naturelle
I premi` ere ´ edition en 1824
Mythe #2 : Ca implique beaucoup de participants
1 10 20 30 40 50 60 70 80 90
100 000 200 000 300 000 400 000 500 000
Joueurs class´es selon leur score
Nombredepoints
Nombre de points par joueur
Nombre de joueurs sur Phrase Detectives selon le nombre de points gagn´ es
dans le jeu (f´ ev. 2011 - f´ ev. 2012)
Une foule de participants ? JeuxDeMots
20 100 200 300 400 500 600
250 000 500 000 750 000 1 000 000
Joueurs class´es selon leur score
Nombredepoints
Nombre de points par joueur
Nombre de joueurs sur JeuxDeMots selon leur classement dans le jeu
Une foule de participants ? ZombiLingo
Une foule de travailleurs ? [Fort et al., 2011]
Nombre de Turkers actifs sur Amazon Mechanical Turk : I annonc´ e : plus de 500 000
I 80 % des tˆ aches (HIT) sont r´ ealis´ es par les 20 % des Turkers les plus actifs [Deneme, 2009]
⇒ travailleurs vraiment actifs (en 2011) : entre 15 059 et 42 912
Mythe #3 : Ca implique des non-experts
Extraits du forum de ZombiLingo
Les productions participatives
Des participants qu’on ne choisit pas Au-del` a des mythes
Red´ efinition
Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele
Conclusion et perspectives
Production participative
Profiter d’une foule de ”non-experts” ?
Production participative
Profiter d’une foule de ”non-experts” ?
→ Trouver/former des experts (de la tˆ ache) dans la foule
Les productions participatives
Les jeux ayant un but : l’exemple de ZombiLingo Les jeux ayant un but
La syntaxe de d´ ependances, en jeu Derri` ere le rideau
R´ esultats
Les incertitudes du mod` ele
Conclusion et perspectives
JeuxDeMots : jouer ` a faire des associations d’id´ ees. . .
. . . pour cr´ eer un r´ eseau lexical [Lafourcade and Joubert, 2008]
Pr` es de 300 million de relations (cr´ e´ ees par env. 6 000 joueurs), mises ` a jour constamment
I jeu par pairs
I des relations de plus en plus complexes, typ´ ees
I des challenges
I des proc` es
I etc
Phrase Detectives : jouer les d´ etectives. . .
. . . pour annoter des anaphores [Chamberlain et al., 2008]
3,5 millions de d´ ecisions de 45 000 joueurs (2016)
I corpus pr´ e-annot´ e I instructions d´ etaill´ ees I formation
I 2 modes de jeu : I annotation
I validation (correction
d’annotations)
FoldIt : jouer ` a replier des prot´ eines. . .
. . . pour r´ esoudre des probl` emes de structure crystalline [Khatib et al., 2011]
R´ esolution de la structure cristalline de la prot´ eine responsable de la propagation du virus du SIDA chez les macaques rh´ esus Solution ` a un probl` eme non
r´ esolu depuis plus de 10 ans I trouv´ ee en quelques
semaines
I par une ´ equipe de joueurs I qui va permettre la cr´ eation
de m´ edicaments
antir´ etroviraux
FoldIt : jouer ` a replier des prot´ eines. . .
. . . sans aucune connaissance pr´ ealable en biochimie [Cooper et al., 2010]
Formation par ´ etapes
I tutoriel d´ ecompos´ e par concepts I puzzles pour chaque concept
I l’acc` es aux puzzles suivants n’est octroy´ e que si le niveau du
joueur est suffisant
Les productions participatives
Les jeux ayant un but : l’exemple de ZombiLingo Les jeux ayant un but
La syntaxe de d´ ependances, en jeu Derri` ere le rideau
R´ esultats
Les incertitudes du mod` ele
Conclusion et perspectives
Une tˆ ache complexe
I guide d’annotation I 29 types de relation I approx. 50 pages
I des d´ ecisions contre-intuitives (pas de la grammaire d’´ ecoliers, de la linguistique) : aobj = au
[...] avoir recours au type de mesures [...]
c-` a-d que la tˆ ete de la relation est ici une pr´ eposition
→ d´ ecomposer la complexit´ e de la tˆ ache [Fort et al., 2012],
pas la simplifier !
http://zombilingo.org/
Les productions participatives
Les jeux ayant un but : l’exemple de ZombiLingo Les jeux ayant un but
La syntaxe de d´ ependances, en jeu Derri` ere le rideau
R´ esultats
Les incertitudes du mod` ele
Conclusion et perspectives
Organiser une production de qualit´ e
Corpus non annoté (Wikipedia) corpus de référence (Sequoia)
Jeu Formation
REFForm. & Ctrl
REFÉval Éval
Texte brut
A
NNOTATION(sans correction) Pré-annotation
avec 2 analyseurs
score de confiance par joueur
EXPJeu
F
ORMATION(avec correction)
C
ONTRÔLE (avec correction)É
VAL(sans correction) EXPÉval
Pr´ etraitement des donn´ ees
corpus librement disponibles et distribuables
Pr´ etraitement des donn´ ees
corpus librement disponibles et distribuables
Pr´ e-annotation avec deux parsers
1. un statistique : Talismane [Urieli, 2013]
2. un symbolique, bas´ e sur la r´ e-´ ecriture de graphes : FrDep-Parse [Guillaume and Perrier, 2015]
→ les joueurs ne jouent que les relations sur lesquelles les deux
parsers ne donnent pas les mˆ emes r´ esultats
Formation, contrˆ ole et ´ evaluation
R´ ef´ erence : 3 099 phrases du corpus Sequoia [Candito and Seddah, 2012]
REF Train&Control REF Eval non utilis´ e
50 % 25 % 25 %
1 549 phrases 776 phrases 774 phrases I REF Train&Control est utilis´ e pour former les joueurs
I REF Eval est utilis´ e comme un corpus brut, pour ´ evaluer les
annotations produites
Formation
Obligatoire pour chaque relation
I phrases du corpus REF Train&Control
I retour visuel en cas d’erreur
Gestion de la fatigue cognitive et des joueurs au long court
M´ ecanisme de contrˆ ole
Des phrases de REF Train&Control sont propos´ ees r´ eguli` erement 1. si le joueur ´ echoue ` a trouver la bonne r´ eponse, un retour
visuel avec la solution lui est propos´ e
Gestion de la fatigue cognitive et des joueurs au long court
M´ ecanisme de contrˆ ole
Des phrases de REF Train&Control sont propos´ ees r´ eguli` erement 1. si le joueur ´ echoue ` a trouver la bonne r´ eponse, un retour
visuel avec la solution lui est propos´ e
2. apr` es un certain nombre d’erreurs sur une mˆ eme relation, le joueur ne peut plus jouer et doit refaire la formation
correspondante
Gestion de la fatigue cognitive et des joueurs au long court
M´ ecanisme de contrˆ ole
Des phrases de REF Train&Control sont propos´ ees r´ eguli` erement 1. si le joueur ´ echoue ` a trouver la bonne r´ eponse, un retour
visuel avec la solution lui est propos´ e
2. apr` es un certain nombre d’erreurs sur une mˆ eme relation, le joueur ne peut plus jouer et doit refaire la formation
correspondante
→ nous en d´ eduisons un niveau de confiance dans le joueur, pour
cette relation
Les productions participatives
Les jeux ayant un but : l’exemple de ZombiLingo Les jeux ayant un but
La syntaxe de d´ ependances, en jeu Derri` ere le rideau
R´ esultats
Les incertitudes du mod` ele
Conclusion et perspectives
Production : taille des corpus cr´ e´ es
Au 10 juillet 2016
I 647 joueurs (1 460 au 9 octobre 2019)
I ont produit 107 719 annotations (496 462 au 9 octobre 2019)
→ ressource qui ´ evolue constamment !
Evaluation de la qualit´ ´ e
sur le corpus REF
Evalaux.tps suj aux.pass aff det obj.cpl a obj mo
d.rel dep.co
ord obj.pats p
obj.o de obj co
ord obj mo d 0
0.5 1
F-measure
Talismane FrDep-Parse Game
Densit´ e des annotations
sur le corpus REF
Evalaux.tps suj aux.pass aff det obj.cpl a obj mo
d.rel dep.co
ord obj.pats p
obj.o de obj co
ord obj mo d 0
2 4
numb er of answ ers p er annotation
→ besoin de davantage d’annotations sur certaines relations
Les productions participatives
Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele
Cr´ eer un jeu : un savoir-faire complexe Produire des donn´ ees de qualit´ e
Motiver la participation : de l’extrins` eque vers l’intrins` eque
Conclusion et perspectives
Types de joueurs selon [Bartle, 1996]
Motiver les joueurs en fonction de leur type
I Achievers : aiment r´ eussir dans le jeu
I Explorers : aiment connaˆıtre les coins cach´ es du jeu I Socializers : aiment interagir avec les autres
I Killers : aiment attaquer les autres joueurs
Classements (pour tout le monde)
Crit` eres :
I
Fonctionnalit´ es cach´ ees (pour les explorateurs)
I qui apparaissent al´ eatoirement
I diff´ erents effets : apparition d’objet, lien vers un autre jeu, etc.
Duels (pour les ”socialiseurs” (et les tueurs ?))
I s´ electionner un ennemi
I lui proposer un duel sur un type de relation
Badges ( ?) (pour les collectionneurs)
I jouer toutes les phrases pour une relation
I jouer toutes les phrases pour un corpus
Les productions participatives
Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele
Cr´ eer un jeu : un savoir-faire complexe Produire des donn´ ees de qualit´ e
Motiver la participation : de l’extrins` eque vers l’intrins` eque
Conclusion et perspectives
Donn´ ees de qualit´ e vs Fonctionnalit´ es fun
pr´ eserver le cercle vertueux n’est pas si facile
phrase qui disparaˆıt soudainement dans ZombiLingo : + le joueur est surpris : fun !
- le joueur clique n’importe o` u : ressource de mauvaise qualit´ e
joueur qui a trouv´ e une faille dans JeuxDeMots [Lafourcade and Joubert, 2008] pour obtenir du temps :
+ cr´ ee de la meilleure donn´ ee : bonne qualit´ e
- g´ en` ere de l’envie et de la col` ere dans la communaut´ e de joueurs : mauvais pour
le jeu
Donn´ ees de qualit´ e vs Fonctionnalit´ es fun
pr´ eserver le cercle vertueux n’est pas si facile
phrase qui disparaˆıt soudainement dans ZombiLingo : + le joueur est surpris : fun !
- le joueur clique n’importe o` u : ressource de mauvaise qualit´ e
joueur qui a trouv´ e une faille dans JeuxDeMots [Lafourcade and Joubert, 2008] pour obtenir du temps :
+ cr´ ee de la meilleure donn´ ee : bonne qualit´ e
- g´ en` ere de l’envie et de la col` ere dans la communaut´ e de joueurs : mauvais pour
le jeu
Donn´ ees de qualit´ e vs Fonctionnalit´ es fun
pr´ eserver le cercle vertueux n’est pas si facile
phrase qui disparaˆıt soudainement dans ZombiLingo : + le joueur est surpris : fun !
- le joueur clique n’importe o` u : ressource de mauvaise qualit´ e
joueur qui a trouv´ e une faille dans JeuxDeMots [Lafourcade and Joubert, 2008] pour obtenir du temps :
+ cr´ ee de la meilleure donn´ ee : bonne qualit´ e
- g´ en` ere de l’envie et de la col` ere dans la communaut´ e de joueurs : mauvais pour
le jeu
Les productions participatives
Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele
Cr´ eer un jeu : un savoir-faire complexe Produire des donn´ ees de qualit´ e
Motiver la participation : de l’extrins` eque vers l’intrins` eque
Conclusion et perspectives
Extrins` eque : ` a relancer constamment
Exemple de ZombiLingo (influence de la semaine de la langue fran¸ caise)
Quand on ne relance pas
Intrins` eque : apprentissage d’une langue
favoriser la transmission inter-g´ en´ erationnelle en produisant des donn´ ees
Katana et Grand Guru, le jeu des mots perdus
Ressources linguistiques
(lexiques, idiomes)
Text
TextText
Divertissement
génération de tâches Tâches non
linguistiques Tâches linguistiques
Production participative
Apprentissage d'une langue
Les productions participatives
Les jeux ayant un but : l’exemple de ZombiLingo Les incertitudes du mod` ele
Conclusion et perspectives
Jouir de la foule est un art [Baudelaire,
Les foules
]
Faire r´ ealiser des tˆ aches complexes n´ ecessite de : I connaˆıtre les dimensions de complexit´ e de la tˆ ache
→ pour outiller ` a bon escient I former les joueurs et les ´ evaluer
→ pour les s´ electionner
Obtenir des ressources de qualit´ e n´ ecessite de : I d´ eterminer les moyens et les formes de
l’´ evaluation
I cr´ eer un cercle vertueux
Gain de points
Qualité de la ressource