Étiquetage morphosyntaxique du serbe - Étiqueteurs morphosyntaxiques

3.2 Étiqueteurs morphosyntaxiques

3.2.7 Étiquetage morphosyntaxique du serbe

Malgré cette diversité d’approches et outils, le serbe reste une langue relativement peu explorée en ce qui concerne l’étiquetage en parties du discours et l’analyse morphosyntaxique fine. Le tableau 3.7 présente les conditions d’évaluation détaillées pour chacun des travaux mentionnés ci-dessous.

Les meilleurs résultats rapportés jusqu’à maintenant en annotation morphosyntaxique détaillée du serbe sont ceux cités par Jakovljević et al. (2014). Ces auteurs indiquent que AlfaNum POS tagger (Sečujski, 2009), un étiqueteur basé sur des règles, atteint une exactitude de 93,2 % sur un jeu de plus de 700 étiquettes (Jakovljević et al., 2014, p. 43-44). Malheureusement, cet outil n’est pas librement disponible.

Quant aux outils statistiques, plusieurs algorithmes ont été testés sur le serbe selon des modalités différentes. BTagger (Gesmundo & Samardžić, 2012), le seul étiqueteur par apprentissage automatique développé pour le serbe, met en place un système de classifi- cation bi-directionnelle de séquences basé sur l’algorithme de perceptron. Il atteint une exactitude de 86 % en analyse morphosyntaxique fine avec un jeu d’étiquettes détaillé de plus de 900 tags.

TreeTagger (Schmid, 1994) a été évalué par Utvić (2011) et a obtenu le score de 96,5 % sur un jeu d’étiquettes minimaliste de 16 tags. Cet entraînement a été fait sur un corpus de 1 million de tokens, qui n’est malheureusement pas en diffusion libre.

HunPos (Halácsy et al., 2007) a été testé sur le croate et le serbe par Agić et al. (2013a). Les auteurs ont signalé une exactitude de 87 % pour le croate et de 85 % pour le serbe avec un jeu d’étiquettes détaillé de plus de 600 tags, et des scores de 97 % et 96 % respectivement pour l’étiquetage en parties du discours.

Dans une expérience antérieure à la thèse (Miletic, 2013), nous avons testé trois outils : BTagger, TreeTagger et TnT (Brants, 2000b). Le jeu d’étiquettes utilisé encode les parties du discours et les sous-catégories grammaticales (47 étiquettes). Les étiqueteurs ont atteint une exactitude moyenne de 94 % (BTagger), 93 % (TnT) et 92 % (TreeTagger).

Plus récemment, Ljubešić et al. (2016) ont utilisé un étiqueteur basé sur les CRF sur le croate et le serbe. L’outil a atteint respectivement 98,11 % et 97,86 % d’exactitude sur les étiquettes des parties du discours (12 tags), alors qu’ en étiquetage morphosyntaxique détaillé avec plus de 1200 étiquettes il a obtenu respectivement 92,53 % et 92,33 %.

Si l’on observe les travaux effectués sur des corpus de tailles relativement comparables (80-110 K tokens) (cf. tableau 3.7) avec des outils librement disponibles, une tendance claire se dégage : en accord avec les observations globales concernant la dispersion des données au niveau morphosyntaxique (cf. section 2.3.2), les résultats de l’étiquetage du serbe semblent impactés auss bien par la taille du jeu d’étiquettes que par le choix de l’étiqueteur. En effet, comme le montre le travail d’Agić et al. (2013a), l’exploitation d’un

Outil Algorithme Travail d’éval. Corpus Taille Jeu étiq. Exact. (%) AlfaNum (Sečujski, 2009) symbolique (Jakovljević et al., 2014) - - >700 93,2 BTagger (Ges- mundo & Sa- mardžić, 2012) perceptron (Gesmundo & Samardžić, 2012) MultextEast 108 K >900 86,0 (Miletic, 2013) ParCoTrain 100 K 47 94,0 TnT (Brants, 2000b) HMM à trigrammes (Miletic, 2013) ParCoTrain 100 K 47 93,0 TreeTagger (Schmid, 1994) arbres de déci- sion (Miletic, 2013) ParCoTrain 100 K 47 92,0 (Utvić, 2011) INTERA 1 M 16 96,5 HunPos (Halácsy et al., 2007) HMM à trigrammes (Agić et al., 2013a) SETimes.hr 89 K >600 85,0 12 96,0 Ljubešić et al. (2016) CRF (Ljubešić et al., 2016) hr500K 500 K >1200 92,3 12 97,9

Table 3.7 – Étiquetage morphosyntaxique du serbe

jeu minimaliste de 12 étiquettes permet de dépasser le seuil d’exactitude de 96 %. Avec un jeu de taille moyenne (47 étiquettes), les performances de différents outils sont au- tour de 92-94 % (cf. Miletic, 2013). Enfin, avec un jeu à plusieurs centaines d’étiquettes, les résultats chutent à 85-86 % (cf. Gesmundo & Samardžić, 2012 ; Agić et al., 2013a). À notre connaissance, le seul étiqueteur statistique qui dépasse ces valeurs avec un jeu d’étiquettes étendu est celui de Ljubešić et al. (2016). Ces résultats indiquent qu’un l’algorithme puissant (CRF) facilite l’étiquetage du serbe d’une manière importante comparé à d’autres algorithmes plus simples, comme l’arbre de décisions de TreeTagger, le HMM à bigrammes de TnT, celui à trigrammes de HunPos, voire le perceptron de BTagger. Il ne faut cependant pas négliger le fait que cet outil a été entraîné sur un corpus bien plus large que les autres outils (500 000 tokens). Une partie de l’amélioration est certainement due à ce fait.

Malheureusement, ce travail est ultérieur au moment où nous devions faire le choix de l’étiqueteur (automne 2015) ; nous n’avons donc pas pu l’exploiter. Précisons que l’outil sélectionné doit être capable de travailler avec un jeu d’étiquettes étendu. En effet, bien que nous envisagions la séparation de l’annotation morphosyntaxique en plusieurs couches dans le corpus final, le processus de création du corpus pose des exigences différentes. Dans cette étape, l’objectif est de fournir une annotation de base qui sera corrigée par les annotateurs humains. Cela signifie qu’elle doit contenir toutes les informations visées : les étiquettes des parties du discours, mais aussi les traits morphosyntaxiques fins. La manière

la plus simple de le faire est de baser la préannotation sur un jeu d’étiquettes étendu, avec des étiquettes détaillées englobant tous ces éléments. Par conséquent, l’étiqueteur choisi doit être capable de maîtriser un tel jeu.

Parmi les étiqueteurs présentés ci-dessus, deux ont été évalués selon cette modalité : BTagger et HunPos. Ils ont été entraînés sur des corpus de tailles relativement proches, et ils obtiennent des résultats quantitatifs comparables : 86 % d’exactitude pour BTagger, et 85 % pour HunPos. Nous avons cependant éliminé BTagger en raison d’un désavantage pratique important : sa vitesse d’exécution. Lors de nos propres expériences décrites dans (Miletic, 2013), BTagger s’est montré l’outil le plus lent parmi ceux testés : un cycle d’apprentissage sur un corpus d’entraînement de 60 000 tokens prenait 1 h 20 min, et un cycle d’évaluation sur 20 000 tokens durait 40 minutes. À titre de comparaison, l’exécution de TnT et de TreeTagger dans les mêmes conditions ne prenait que quelques secondes. Des observations comparables ont été faites par Agić et al. (2013a) : dans le cadre d’une évaluation préliminaire, BTagger avait mis plus de 6 h pour l’entraînement et 87 sec pour l’évaluation, alors que HunPos avait mis respectivement 1,1 sec et 0,11 sec. Nous avons donc retenu ce dernier pour la suite de notre travail.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 85-87)