• Aucun résultat trouvé

Chapitre 5 Tâches de myriadisation implémentées 83

6.3 Myriadisation de ressources variées avec Recettes de Grammaire et Ayo !

6.3.2 Myriadisation de graphies alternatives

La plateforme P_Prod_Var permet aux participants de proposer une orthographe alternative pour un seul mot ou bien pour une séquence de mots. Cette deuxième option facilite la tâche des participants, mais conduit parfois à des séquences alternatives dont le nombre de tokens diffère de la version originale, et ne peut donc pas être immédiatement aligné. Dans de tels cas et lorsque cela était possible,les graphies alternatives ont été manuellement alignées sur la version originale.

Par exemple, la séquence de 14 tokens en alsacien :

Ma kààt's eifàch a so assa, noch wàrm ( zum Bispìl mìt Äpfelmüas ) (V2) a été proposée comme alternative à la séquence de 13 tokens :

Ma kààt's eifàch aso assa, noch wàrm ( zum Bispìl mìt Äpfelmüas ) (V1) (« On peut servir comme ça, encore chaud (par exemple avec de la compote de pommes) ») Cela produit l’alignement présenté dans le tableau 6.4 et la création de 4 paires de graphies alternatives.

Les tableaux 6.5 et 6.6 donnent des exemples de graphies collectées pour l’alsacien et le créole mauricien respectivement. Les listes complètes sont publiées dans les annexes C.1 et C.2.

139. Voir : https://repository.ortolang.fr/api/content/bisame_gsw/head/ pour l’alsacien et https://

repository.ortolang.fr/api/content/ayo_mfe/head/pour le créole mauricien.

Paire 1 2 3 4

V1 Ma kàt's eifàch a so assa, noch wàrm zum Beispiel mìt Äpfelmüeÿ

V2 Ma kààt's eifàch aso assa, noch wàrm zum Bispìl mìt Äpfelmüas

Tableau 6.4 – Alignement de séquence alternative proposée par un participant pour la phrase correspondant au français « On peut servir comme ça, encore chaud (par exemple avec de la compote de pommes). »

Cas de l’alsacien

mot original variante 1 variante 2 variante 3 variante 4 variante 5

'r er

Dr D'r De Der

Dreiha Drahja Dreihe draje drüs d'rüs

e a

Galrìewle Galerewle Galerieble Galriawla Galerìewle Galriawla

Griaÿ Grees Gress Greÿ

Griaÿpütta Greespüdde Greÿpütte Griesbap Griespüdde GrussFlutta

güet gùt güat guet

kàt kààt kànt kànn kàt's

Tableau 6.5 – Extrait des graphies alternatives myriadisées sur Recettes de Grammaire.

Lorsqu’ils ont renseigné ces informations dans leur profil, nous connaissons la ville ou le village d’origine des participants ainsi que les langues qu’ils parlent. Dans le cas de l’alsacien, quatre des zones dialectales principales sont représentées par les dix participants ayant ajouté un texte ou des graphies alternatives et ayant renseigné le lieu où ils ont appris l’alsacien (voir figure 6.4).

Au total, 215 paires de graphies alternatives ont été myriadisées sur Recettes de Grammaire. Les mots concernés sont de catégories variées, comme l’illustrent les cas de [Dr – D'r – De – Der] (déterminant « le »), de [Griaÿ – Grees – Gres – Greÿ] (nom commun « semoule »), de [güet – gùt – güat – guet] (adjectif ou adverbe « bien »), etc. On retrouve parmi ces paires l’alternance des voyelles-a et -e caractéristiques des variantes du sud et du nord de l’Alsace, mais aussi des alternances consonantiques telles que -dd- et -tt-, ou des motifs de variation plus complexes tels que l’alternance -eih-, -ahj-, -eih- , -aj-.

Figure 6.4 – Ville ou village de provenance de dix participants ayant produit des données variées.

Cas du créole mauricien

mot original variante 1 variante 2

pandan pendan

kouyer kuyer couyere

karay caraill tranpe trampe lane-la lannee la bizin bisin di riz diri conzelé konzele

Tableau 6.6 – Extrait des graphies alternatives myriadisées sur Ayo !.

Dans le cas du créole mauricien les trois participants ayant renseigné leurs villes d’origine pro-viennent de zones urbaines proches de la capitale Port Louis.

La taille de cette ressource ne nous permet naturellement pas de couvrir l’ensemble du vocabu-laire. Néanmoins, nous pouvons utiliser ces ressources pour inférer les mécanismes de la variation à l’écrit. Nous donnons un exemple d’exploitation de la ressource produite pour l’alsacien dans le chapitre 8.

6.4 Conclusion

Les expériences de myriadisation que nous avons menées nous ont permis de valider une des hypothèses formulées dans l’introduction : « Il n’y a pas de raison que le succès d’une entreprise participative (en termes de qualité des ressources produites) dépende de la langue à laquelle elle est appliquée. ». En effet, les annotations produites par les participants dans le cas de l’alsacien, pour lequel le corpus brut était disponible en quantité suffisante, montrent l’intérêt de la démarche.

Les nombre de participants sur nos plateformes (une centaine de locuteurs ont contribué dans le cas de l’alsacien, et 17 dans le cas du créole guadeloupéen et du créole mauricien) est tout à fait respectable, notamment comparé aux chiffres rapportés par des expériences de myriadisa-tion similaires portant sur des langues présentant un nombre bien plus important de locuteurs. D’après Chamberlain et al. (2013), la première version de Phrase Detectives (pour l’anglais) a par exemple attiré 2 000 joueurs en 32 mois, tandis que Jeux de Mots (pour le français) a recruté 2 700 joueurs en 56 mois, avec une moyenne de 48 joueurs par mois.

Néanmoins, nous n’avons pas pu valider la seconde hypothèse formulée : « Concernant la quan-tité de locuteurs à mobiliser, la motivation de ceux-ci quant à l’urgence de disposer de ressources et d’outils adaptés suffit à compenser un nombre de locuteurs moindre. ». En effet, la partici-pation que nous avons suscitée suit la même tendance que celle observée dans les entreprises de myriadisation mentionnées ci-dessus : peu de participants produisent la majorité des données et le maintien d’une communauté active de participants demande un effort de communication per-manent. C’est ce constat qui nous a d’une part poussée à développer les fonctionnalités ludiques de nos plateformes et nous a d’autre part encouragée à engager un dialogue plus soutenu pour favoriser un réel échange avec les communautés d’internautes.

L’enthousiasme des participants ayant contribué via la fonctionnalité « Moi, j’aurais dit ça comme ça ! » est un premier pas dans ce sens. Cette fonctionnalité permet de reconnaître la di-versité des pratiques linguistiques et le (relatif) succès rencontré confirment que celle-ci constitue un enjeu réel pour le traitement automatique de ces langues.

En définitive, les résultats obtenus sont encourageants en termes de qualité, mais il existe une marge de progression quant à la quantité des participants et de ressources produites par ceux-ci. Dans la suite de ce travail, nous montrons comment nous avons évalué les ressources d’ores et déjà obtenues en les intégrant au développement de nouveaux outils de traitement.

Apprentissage supervisé sur le

corpus myriadisé

Sommaire