Étiquetage morphosyntaxique - Un treebank pour le serbe : constitution et exploitations

Comme il a été indiqué dans la section 3.2.7, nous avons retenu l’étiqueteur Hun- Pos (Halácsy et al., 2007) pour l’étiquetage morphosyntaxique de notre corpus. HunPos est un outil basé sur le modèle HMM (Hidden Markov models (cf. section 3.2.1). Il s’agit en effet d’une nouvelle implémentation de l’étiqueteur TnT de Brants (2000b) qui apporte quelques améliorations par rapport à l’outil original.

Tout d’abord, HunPos rend possible l’exploitation d’un contexte d’apprentissage plus large. Dans le calcul de probabilités, au niveau des étiquettes TnT exploite seulement l’étiquette du token courant, tandis que HunPos utilise également l’étiquette précédente. Cet élargissement du contexte au niveau des étiquettes a apporté jusqu’à 10 % de réduction d’erreur (Halácsy et al., 2007, p. 210). En réalité, la taille du contexte exploité n’est pas limitée par HunPos, mais les auteurs indiquent que les fenêtres au delà de 2 tokens n’ont pas donné d’améliorations supplémentaires.

HunPos tente également d’améliorer le traitement des formes inconnues, le point faible principal des modèles HMM. Pour pallier ce problème, TnT dispose d’un module d’analyse de suffixes qui, durant l’apprentissage, créé une base de suffixes de tokens peu fréquents dans le corpus d’entraînement et mémorise la distribution des tags pour chaque suffixe. Ces informations sont ensuite utilisées dans l’étiquetage pour traiter les formes inconnues en fonction de leur terminaison. Cependant, ce module peut proposer un nombre d’étiquettes très élevé, dont certaines ne sont pas plausibles du tout. Pour limiter cet effet, HunPos permet l’utilisation d’un lexique, dont le rôle est de proposer les labels possibles pour la forme inconnue, alors que l’analyseur de suffixes leur attribue des poids et choisit le label final.

Dans la suite, nous décrivons la démarche que nous avons suivie pour préparer HunPos à l’utilisation dans le cadre de notre méthode de bootstrapping itératif.

7.2.1 Utilisation d’un modèle HunPos entraîné sur le croate

D’après le schéma de notre méthode globale (cf. chapitre 4), le premier entraînement des outils automatiques devrait être exécuté sur un échantillon annoté manuellement dans sa totalité : le corpus que nous avons retenu dispose d’une annotation morphosyntaxique, mais elle ne contient que l’indication des parties du discours (cf. section 7.1), alors que nous visons ici une annotation en traits morphosyntaxiques fins. Dans son état actuel, le corpus n’est donc pas adapté à un premier entraînement de HunPos. Une solution possible serait d’enrichir le corpus actuel en traits morphosyntaxiques de manière manuelle. Cependant, les détails des résultats de HunPos rapportés dans (Agić et al., 2013a) suggèrent qu’il pourrait être possible d’utiliser le modèle existant entraîné sur le croate pour faire une

préannotation automatique sur notre échantillon initial en serbe.

Comme mentionné ci-dessus, le modèle de HunPos testé dans ce travail a été entraîné exclusivement sur des données croates. Néanmoins, il a pu annoter des textes serbes avec une exactitude très proche de celle obtenue sur le croate : 87 % pour le croate vs 85 % pour le serbe. Les évaluations ont été effectuées aussi bien sur des textes journalistiques (du même domaine que le corpus d’apprentissage) que sur des textes issus de Wikipédia, pour les deux langues. Les taux d’exactitude rapportés dans (Agić et al., 2013a) sont repris dans le tableau 7.2.

croate serbe

presse Wikipedia presse Wikipédia 87,72 % 81,52 % 85,56 % 82,79 %

Table 7.2 – Exactitude de HunPos dans (Agić et al., 2013a)

Comme il a déjà été observé sur la syntaxe (cf. section 3.4.3), le modèle croate semble plus affecté par le changement de domaine (journalistique vs encyclopédique) que par le changement de langue (croate vs serbe). Ce fait nous permettait d’envisager une utilisation du modèle croate sur nos données en serbe. Cependant, deux questions importantes se posaient. Tout d’abord, nous avons remarqué que le modèle est déstabilisé par le changement de domaine. Lors de son application sur ParCoTrain-Synt, l’écart entre le genre textuel du corpus d’apprentissage et du corpus à annoter risquait d’être encore plus mar- qué (journalistique vs littéraire). Il était difficile d’estimer à quel point les performances du modèle seraient affectées par cette transposition. La deuxième question concernait les différences entre le jeu d’étiquettes et le schéma d’annotation sur lesquels le modèle a été entraîné et les nôtres. Le jeu d’étiquettes intégré au modèle était le jeu croate du projet MultextEast (Erjavec, 2012)3, fondé sur les mêmes principes de base que le jeu d’étiquettes serbe du même projet. Comme nous l’avons vu dans la section 5.1, notre jeu d’étiquettes, et notamment le schéma d’annotation associé, diffèrent en plusieurs points de celui de MultextEast. Qui plus est, les divergences entre les deux schémas d’annotation ne peuvent pas être éliminées par une correction automatique, le traitement correct de certains cas de figure étant fortement dépendant du contexte. La correction manuelle de la sortie du modèle croate devrait donc inclure non seulement la correction des erreurs d’annotation proprement dites, mais aussi les interventions nécessaires pour faire conver- ger le schéma d’annotation du modèle vers celui de ParCoTrain-Synt. Il était tout à fait justifié de se demander si cela n’éliminerait pas l’avantage présupposé d’une préannota- tion automatique. Pour mieux estimer l’ampleur de cet effet, une première évaluation de

3. Le jeu d’étiquettes croate est présenté en détail à l’adresse suivante : http://nl.ijs.si/ME/V4/ msd/html/msd-hr.html

la sortie de HunPOS sur notre corpus a été effectuée.

7.2.2 Évaluation du modèle croate sur un échantillon de ParCoTrain- Synt

Cette évaluation se fonde sur une correction manuelle en deux temps : d’abord, la sortie de l’outil a été corrigée en accord avec le schéma d’annotation de MultextEast, et dans un deuxième temps, la correction a été effectuée selon le schéma d’annotation de ParCoTrain- Synt. La première étape nous a permis d’évaluer la part d’erreurs d’étiquetage proprement dites dans la sortie de l’outil, alors que la deuxième nous a servi à évaluer l’effort global nécessaire pour adapter la sortie du modèle croate aux exigences du schéma d’annotation de ParCoTrain-Synt. Cette expérience a été effectuée sur un échantillon de 2122 tokens.

Le taux d’erreur et la précision ont été calculés à trois niveaux : au niveau des éti- quettes des parties du discours, des étiquettes détaillées globales, mais aussi des traits morphosyntaxiques individuels. Pour rappel, les étiquettes du projet MultextEast sont des étiquettes positionnelles, encodant la partie du discours, mais aussi de nombreuses autres propriétés morphosyntaxiques, comme le genre, le nombre, le cas, la forme verbale, etc. Bien qu’une étiquette soit considérée comme incorrecte dès qu’elle contient un trait erroné, dans la perspective d’une correction manuelle, une étiquette contenant plusieurs attributs incorrects est plus lourde à corriger que celle qui n’en comporte qu’un seul : l’annotateur humain doit vérifier et, si nécessaire, corriger chacun de ces traits. Évaluer le taux d’erreur à ce niveau permet donc d’estimer le nombre d’interventions nécessaires de la part de l’annotateur humain. Les résultats sont présentés dans le tableau 7.3. Nous utilisons le taux d’erreur comme métrique : il s’agit du pourcentage d’unités qui ont été mal annotées.

Niveau d’évaluation Schéma d’annotation MultextEast ParCoLab Parties du discours 8,2 % 12,06 % Étiquette détaillée 22,05 % 26,20 % Traits individuels 11,89 % 16,01 %

Table 7.3 – Évaluation initiale du modèle croate appliqué au contenu de ParCoTrain-Synt

Quand on observe les résultats selon le schéma MultextEast, on constate une baisse d’exactitude d’environ 4 % au niveau des parties du discours et d’environ 8 % pour les étiquettes détaillées par rapport aux résultats de (Agić et al., 2013a). Cela semble confirmer notre hypothèse que le changement de genre entraîne une détérioration de performances. Quand la sortie du modèle est confrontée au schéma d’annotation de ParCoTrain-Synt, le taux d’erreur sur les étiquettes complètes monte de 22,05 % à 26,20 %. Au niveau

des traits individuels, ces 26 % d’étiquettes incorrectes représentent 16,01 % de traits qui nécessitent une intervention de l’annotateur humain.

Afin d’estimer l’effet exact de ce taux d’erreur sur le processus de correction, nous avons évalué la vitesse de l’annotation manuelle à partir de cette préannotation et l’avons comparée à la vitesse d’annotation manuelle intégrale (à partir du texte nu). Sans préan- notation automatique, un annotateur expérimenté traite en moyenne 500 tokens/h, alors qu’il atteint la vitesse moyenne de 620 tokens/h en corrigeant la sortie du modèle croate. On réalise donc un gain d’environ 24 % de tokens par heure. Nous avons donc exploité cette préannotation pour valider le premier échantillon de 20 000 tokens de ParCoTrain-Synt.

L’accélération observée est cependant moins importante qu’on le souhaiterait. Les an- notateurs ont indiqué que les interventions les plus chronophages concernaient les cor- rections dues aux différences entre les schémas d’annotation. Nous avons donc utilisé les 20 000 tokens validés pour ré-entraîner HunPos et obtenir ainsi un modèle intégrant le schéma d’annotation de notre corpus. Notre inquiétude principale était qu’un échantillon de cette taille ne serait pas suffisant pour entraîner un modèle aussi performant que le mo- dèle croate existant (qui a été développé sur un corpus de 87 000 tokens). Nous avons donc évalué le modèle ré-entraîné aussi bien du point de vue de ses performances (évaluation quantitative), que de ses effets sur les temps de correction.

7.2.3 Ré-entraînement de HunPos sur le premier échantillon de ParCoTrain-Synt

Nous avons effectué une validation croisée à 10 itérations en utilisant comme corpus d’évaluation les 20 000 tokens issus de l’annotation avec HunPos après correction manuelle. L’apprentissage a été effectué dans les mêmes conditions que pour le modèle croate : aucune ressource externe n’a été utilisée. La variation de l’exactitude est assez importante entre différentes itérations, entre 70 % et 83 % (cf. tableau 7.4). Ceci était attendu étant donné la taille très limitée du corpus d’entraînement. Néanmoins, malgré la différence de taille entre les corpus d’entraînement pour le modèle croate (87 000 tokens) et le modèle ré- entraîné (20 000 tokens), les performances de base des deux modèles sur ParCoTrain-Synt sont très proches (respectivement 77,95 % et 78,82 % d’exactitude).

Exact. Test1 Test2 Test3 Test4 Test5 Test6 Test7 Test8 Test9 Test10 76,23 82,97 83,52 79,83 80,68 70,91 83,28 78,47 74,52 77,73 Moyenne 78,82

Taille moyenne du corpus d’entraîn. : 18 370 tokens Taille moyenne du corpus d’éval. : 2 040 tokens

Table 7.4 – Évaluation de HunPos sur un échantillon de 20 K tokens

beaucoup plus importante par rapport à l’annotation manuelle intégrale. Nous avons utilisé le modèle ré-entraîné de HunPos pour annoter un nouvel échantillon de 20 000 tokens, non compris dans le corpus d’entraînement. Cette fois-ci, l’annotateur expert traite en moyenne 800 tokens/h, et l’annotateur novice atteint la vitesse de 325 tokens/h. Il s’agit donc d’une augmentation du nombre de tokens traités de respectivement 60 % et plus de 300 % par rapport à l’annotation manuelle intégrale (cf. tableau 7.5).

Scénario Annotateur Vitesse d’annotation Annot. manuelle Expert 500 tok/h

Novice 80 tok/h

Préannot. modèle croate Expert 620 tok/h (+24 %) Novice non mesuré (-) Préannot. modèle ré-entraîné Expert 800 tok/h (+60 %)

Novice 325 tok/h (+300 %)

Table 7.5 – Vitesse d’annotation manuelle en fonction du modèle de préannotation

Ayant jugé ces résultats concluants, nous avons retenu le modèle ré-entraîné comme outil de travail et l’avons utilisé pour effectuer la préannotation du deuxième échantillon de 20K tokens. La suite du travail sur l’annotation morphosyntaxique de notre corpus est décrite dans la section 8.4.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 159-163)