Lexique combiné ParCoLex - Un treebank pour le serbe : constitution et exploitations

La licence permissive de srLex nous a permis de fusionner les deux lexiques afin de maximiser leur utilité. Pour évaluer la pertinence de cette idée, nous avons d’abord com- paré la couverture mutuelle des lexiques, ainsi que leur couverture sur un échantillon de ParCoLab. L’échantillon utilisé contient 16 389 tokens (sans signes de ponctuation), cor- respondant à 6 301 formes fléchies uniques. Pour chacun des deux lexiques, nous avons calculé le pourcentage des formes fléchies uniques ainsi que le pourcentage des tokens de l’échantillon (des occurrences des formes fléchies uniques) qu’il couvrait. Les résultats sont présentés dans le tableau 6.3.

SrLex étant plus large, les chiffres obtenus étaient prévisibles : Wikimorph-sr couvre seulement 20 % des entrées de srLex, alors que srLex contient plus de 41 % des entrées de Wikimorph-sr. Il existe également une différence importante en faveur de srLex en ce qui concerne la couverture de l’échantillon, que ce soit au niveau des formes fléchies uniques (92,8 % vs 63,3 %) ou des occurrences (93,8 % vs 73,2 %). Ceci s’explique sans doute par la méthode adoptée dans la création de srLex : les lemmes ajoutés durant l’étape

d’enrichissement manuel ont été choisis à partir des taux de fréquence calculés à partir d’un corpus web de taille importante.

Il est néanmoins intéressant de noter qu’une part importante d’entrées de Wikimorph- sr ne figurent pas dans srLex. Il nous a donc semblé pertinent de fusionner ces deux ressources et de vérifier si cet ajout augmentait encore l’utilité du lexique. La dernière ligne du tableau 6.3 présente le résultat de cette manipulation. Le lexique fusionné, nommé ParCoLex, contient au total 7 180 665 entrées uniques <forme fléchie, lemme, étiquette morphosyntaxique détaillée>, qui représentent 1 956 094 formes fléchies uniques provenant de 157 886 lemmes. La fusion a effectivement permis d’augmenter encore l’excellente couverture de srLex : nous observons un gain de 2,4 % sur les formes fléchies uniques, et de 4 % sur le nombre total d’occurrences des formes fléchies dans l’échantillon.

Lexique Entrées Lemmes Couverture de Couverture échantillon l’autre lexique formes fléchies occurrences Wikimorph-sr 3 066 214 117 445 20,8 % 63,3 % 73,2 % srLex 5 327 361 105 358 41,1 % 92,8 % 93,8 % ParCoLex 7 180 665 157 886 NA 95,2 % 97,8 %

Table 6.3 – Tests de couverture avec les 3 lexiques

Par conséquent, nous avons retenu ParCoLex comme outil de travail pour la suite. Il a été intégré dans la méthode globale de bootstrapping récursif et a également été exploité plus tard, dans les expériences de parsing. Plus de détails sur ce point seront donnés dans le chapitre 9. Le lexique est également disponible à l’adresse suivante : https://github. com/aleksandra-miletic/serbian-nlp-resources/tree/master/Lexicons/ParCoLex.

Mise en œuvre de la méthode

adoptée

Après avoir défini les guides d’annotation (cf. chapitre 5) et créé le lexique morphosyntaxique (cf. chapitre 6), il nous reste encore un aspect de la préparation matérielle de la campagne d’annotation à traiter : l’initialisation de la méthode. Plus particulièrement, il nous faut identifier le corpus à annoter, optimiser les guides d’annotation, et mettre en œuvre les outils chargés de la préannotation automatique. Notre choix de corpus est présenté dans la section 7.1. Vu la complémentarité des besoins en ce qui concerne l’op- timisation des guides et l’initialisation des outils, nous combinons ces deux points : les guides sont utilisés pour créer des ressources d’entraînement initiales pour les outils. L’en- traînement initial de l’étiqueteur morphosyntaxique est décrit dans la section 7.2, celui du lemmatiseur dans la section 7.3, et celui du parser dans la section 7.4. Enfin, nous effec- tuons également une évaluation formelle des guides d’annotation à travers une évaluation de l’accord-inter-annotateurs (cf. section 7.5).

L’application des guides d’annotation et la constitution des ressources d’entraînement initiales sont faites par les annotateurs expérimentés, alors que l’initialisation des outils et la mise en place des évaluations de l’accord inter-annotateurs sont effectués par le taliste.

7.1 Corpus sélectionné pour l’annotation

Au moment du choix du contenu pour le treebank à constituer, nous avions à notre disposition un échantillon de texte dont le traitement avait déjà été entamé dans le cadre de l’un de nos travaux antérieurs (Miletic, 2013). Il s’agit du corpus ParCoTrain, présenté dans la section 1.2.1. Pour rappel, le corpus contient 150 000 tokens, il est doté d’une annotation en parties du discours et partiellement lemmatisé. Comme ces couches d’annotation existantes pouvaient se montrer utiles dans le présent travail, nous avons décidé de

baser notre corpus annoté syntaxiquement sur le même échantillon de texte. Nous avons pourtant limité la taille du treebank visée à 100 000 tokens : premièrement, cette taille est comparable à celle du corpus croate utilisé par Agić et al. (2013b) et Agić & Ljubešić (2015), ce qui facilite la comparaison des résultats obtenus sur ces corpus ; deuxième- ment, nous avons considéré que ce chiffre était plus réaliste étant donné nos contraintes de temps. Par conséquent, nous avons repris du corpus ParCoTrain le contenu de deux ouvrages : Bašta, pepeo de Danilo Kiš (échantillon basta) et Testament de Vidosav Steva- nović (échantillon testament )1_{. La structure du corpus sélectionné et l’état de l’annotation}

au démarrage de la constitution du treebank sont présentés dans le tableau 7.1.

Sous-échantillon Tokens Annotation POS Lemmatisation basta 55 783 Oui Non

testament 45 642 Oui Oui Total 101 425

Table 7.1 – Structure et état de l’annotation de l’échantillon sélectionné

Le genre textuel du corpus choisi appelle un commentaire. En effet, il s’agit d’un corpus littéraire. Or, une pratique plus courante est d’utiliser des textes journalistiques pour constituer un treebank (cf. Marcus et al., 1993 ; Abeillé et al., 2003 ; Agić & Ljubešić, 2014) : les textes journalistiques sont plus souvent libres de droits, ce qui facilite la diffusion de la ressource créée, et ils sont considérés comme moins complexes du point de vue syntaxique que les textes littéraires, ce qui simplifie l’apprentissage des parsers.

Le premier point n’était pas problématique dans notre cas : nous avions déjà l’accord des ayant droits pour la diffusion du corpus à des fins non commerciales2. En revanche, la question de la difficulté intrinsèque du texte était pertinente. Il était cependant difficile d’évaluer l’ampleur de l’effet que ce paramètre pouvait avoir sur l’apprentissage du parsing. Le fait d’exploiter un corpus déjà mis en place avait également un avantage pratique : cela nous évitait de passer par l’étape importante de récolte et de prétraitement des textes.

Le corpus retenu a été divisé en cinq échantillons d’environ 20 000 tokens chacun. Ce sont donc ces échantillons qui ont été traités tour à tour en suivant la méthode proposée dans la section 4.2. Pour faciliter leur identification dans la suite de ce document, nous nommons le corpus retenu ParCoTrain-Synt, et indiquons les différents échantillons comme 1_20, 2_20, 3_20, et ainsi de suite.

1. Kiš, Danilo. Bašta, pepeo, 2010. Podgorica : Narodna knjiga. Stevanović, Vidosav. Testament, 1986. Beograd : SKZ.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 154-159)