Parsing du serbe - Un treebank pour le serbe : constitution et exploitations

3.4 Parsers

3.4.3 Parsing du serbe

À notre connaissance, les premières expériences en parsing statistique basées sur un corpus en serbe ont été effectuées par Jakovljević et al. (2014). Leurs évaluations sont effectuées sur un échantillon de treebank initial d’environ 7 000 tokens annoté avec un

jeu d’étiquettes proche de celui du projet Prague Dependency Treebank9. Plusieurs algorithmes du parser Malt ont été testés sur ces données, le plus performant atteignant 58 points en LAS et 66 points en UAS. Il semble probable que ces résultats ont été largement déterminés par la taille restreinte du corpus d’entraînement, notamment si l’on considère les résultats obtenus par Malt sur le croate dans (Berović et al., 2012) (71 points en LAS, et 84 points en UAS) sur un corpus d’entraînement de 60 000 tokens annoté avec un jeu de 80 étiquettes syntaxiques, lui aussi largement basé sur celui de PDT. Les conditions d’évaluation pour ces travaux, ainsi que pour tous les autres évoqués dans la suite, sont données dans la table récapitulative 3.16.

Comme le projet de création de treebank pour le serbe décrit dans (Jakovljević et al., 2014) n’a pas abouti à la diffusion d’un corpus complet, d’autres travaux ont exploré des pistes alternatives pour la constitution des modèles de parsing pour le serbe. Par exemple, Agić et al. (2013b) et Agić & Ljubešić (2015) exploitent la proximité prononcée du serbe et du croate et se servent exclusivement des données annotées en croate pour entraîner des parsers et les appliquer aux deux langues. Dans les deux travaux, le corpus de base est le même : il s’agit de SETimes.hr, un corpus journalistique contenant environ 87 000 tokens (Agić & Ljubešić, 2014). Dans Agić et al. (2013b), le corpus est doté d’une annotation morphosyntaxique détaillée suivant les schémas d’annotation du projet MultextEast (cf. section 2.3.1), ainsi que d’une couche d’annotation syntaxique avec un jeu d’étiquettes basé sur celui de PDT, mais largement simplifié, présenté dans (Merkler et al., 2013). Le parser utilisé est MST (McDonald et al., 2006), et l’apprentissage est effectué avec des traits du deuxième ordre et l’algorithme non projectif. L’évaluation est faite sur les deux langues, sur deux échantillons différents : le premier en domaine (sur des textes journalistiques) et l’autre hors domaine (sur des textes de Wikipédia). Sur les textes journalistiques, le parser MST obtient un score LAS de 76,7 points et un score UAS de 81,6 points sur le croate, alors que sur le serbe ses résultats sont respectivement de 75,4 points et de 80,6 points. On remarque que les scores pour les deux langues sont très proches ; ceci est le cas dans le deuxième scénario d’évaluation, avec une variation inférieure à 1,5 point en LAS et inférieure à 1 point en UAS. En revanche, la perte est plus marquée lors du passage vers les textes encyclopédiques : environ 5 points en LAS et 1,5 point en UAS (cf. tableau 3.16). Dans un travail récent, le corpus SETimes.hr a été doté de couches d’annotation supplé- mentaires en accord avec les schémas d’annotation du projet UD (Agić & Ljubešić, 2015). Les auteurs reprennent le scénario d’évaluation de (Agić et al., 2013b) : ils entraînent le parser Mate de Bohnet (2010) sur le corpus croate et l’évaluent sur des échantillons en serbe et en croate. 16 scénarios d’évaluation sont mis en place en variant les paramètres sui- vants : schéma d’annotation syntaxique (SETimes.hr ou UD), données morphosyntaxiques exploitées (étiquettes POS ou traits morphosyntaxiques), langue d’évaluation (croate ou

Outil Algorithme Eval. Corpus Taille #T #D LAS UAS Malt (Nivre, 2009a) transitions (Jakovljević et al., 2014) AlfaNum 7 K 748 28 58 66 MST (McDo- nald et al., 2006)

graphes (Agić et al., 2013b)

SETimes 87 K 662 15

en domaine croate 76,7 81,6

serbe 75,4 80,6

hors domaine croate 71,9 80,0

serbe 72,4 80,6

Mate (Boh- net, 2010)

graphes (Agić & Lju- bešić, 2015) SETimes 87 K 662 15 en domaine croate POS 76,3 82,2 POS+traits 79,2 84,3 serbe POS 74,0 80,8 POS+traits 77,8 83,0 hors domaine croate POS 67,9 77,1 POS+traits 73,7 80,7 serbe POS 71,1 79,8 POS+traits 74,7 82,6 Croatian UD 87 K 14 39 en domaine croate POS 77,9 84,8 POS+traits 81,5 86,9 serbe POS 75,8 82,4 POS+traits 81,5 86,0 hors domaine croate POS 72,4 80,8 POS+traits 77,3 84,5 serbe POS 75,2 82,1 POS+traits 77,9 83,7

Table 3.16 – Expériences en parsing du serbe et du croate

serbe) et type d’échantillon d’évaluation (en domaine ou hors domaine). Les résultats obtenus avec le schéma UD représentent l’état de l’art en parsing du serbe : le parser Mate a atteint un score LAS de 81,5 points et un score UAS de 86,9 points sur l’échantillon Wikipédia (cf. tableau 3.16). Par ailleurs, ils confirment les observations de (Agić et al., 2013b) : un parser entraîné sur le croate maintient sa stabilité globale en traitant le serbe et semble plus affecté par le changement de domaine que par le changement de langue.

Avant de considérer le choix de l’outil pour notre travail, deux remarques importantes sont à faire. Premièrement, on constate que les résultats du parser Mate obtenus sur le schéma d’annotation de UD sont systématiquement plus élevés que ceux réalisés sur le schéma de SETimes. Comme l’évaluation a été faite sur les mêmes échantillons avec le même parser, cela indique que le schéma d’annotation UD facilite la tâche. Cela soulève une nouvelle fois la question du choix du schéma d’annotation pour notre treebank, qui nous a conduit à ne pas opter pour UD. Rappelons que les raisons de cette décision ont été formulées dans la section 2.3.5.

Deuxièmement, en comparant les résultats obtenus sur les étiquettes POS seules à ceux obtenus avec l’utilisation des traits morphosyntaxiques détaillés, nous constatons des améliorations importantes (jusqu’à 5 % en LAS et jusqu’à 3 % en UAS), indépendamment du schéma d’annotation et du scénario d’évaluation. Ceci confirme encore une fois l’intérêt de disposer de ce type d’informations dans le cadre du parsing du serbe.

Compte tenu de ces résultats, il aurait été logique de retenir le parser Mate pour la constitution de notre corpus. Cependant, nous avions des réserves concernant la vitesse d’exécution de ce parser. Même si Agić & Ljubešić (2015) indiquent que l’outil est rapide, ils ne donnent pas d’informations explicites sur sa vitesse d’entraînement et de parsing. Cependant, les précisions fournies dans (Bohnet, 2010) montrent que, bien que l’outil soit optimisé pour le parsing, son temps d’apprentissage reste important : à titre d’exemple, il met 44 h pour effectuer l’apprentissage sur le corpus espagnol d’environ 427 000 tokens. Même si nous ne nous attendions pas à avoir de corpus d’entraînement de taille compa- rable, ce rapport ne nous a pas semblé favorable. Rappelons encore une fois que la vitesse d’apprentissage est critique dans notre environnement de travail, qui prévoit plusieurs cycles d’entraînement et de parsing.

Ce fait nous a amenée à considérer l’utilisation d’un parser par transitions. Comme nous l’avons vu dans la section 3.4.2, ces outils sont plus rapides que les parsers par graphes, et différentes extensions ont été développées pour compenser leur point faible principal - le traitement des structures non projectives. Or, un parser de ce type a été développé au sein de l’équipe CLLE-ERSS : il s’agit du parser Talismane créé par Assaf Urieli dans le cadre de sa thèse (cf. Urieli, 2013). Cet outil est basé sur les algorithmes à base de transitions décrits dans (Nivre, 2008). Initialement paramétré et testé sur le français, il atteint un score LAS de 86,9 à 88,0 points et un score UAS de 89,5 à 90,4 points sur cette langue, en fonction de la configuration utilisée (Urieli, 2013, p. 154). Ces résultats sont comparables à ceux obtenus par d’autres parsers comme Berkeley (Petrov et al., 2006), MSTParser (McDonald et al., 2006), et MaltParser (Nivre et al., 2006) sur le français, dont les performances sont présentées dans (Candito et al., 2010b). Talismane intègre en effet une chaîne de traitement complète, capable d’effectuer la tokénisation, l’étiquetage morphosyntaxique et le parsing. Il permet également de définir avec précision l’exploitation de différents traits d’apprentissage (tokens, étiquettes POS, lemmes, informations morphosyntaxiques détaillées). Par ailleurs, l’outil n’utilise pas les traits morphosyntaxiques désambiguïsés du corpus d’apprentissage, mais les puise plutôt dans un lexique externe en gardant toute l’ambiguïté rencontrée. Cette particularité est censée lui assurer une meilleure robustesse dans une situation réelle où il doit traiter un texte brut.

Au-delà de toutes ces propriétés techniques, Talismane présentait également un avan- tage pratique important : A. Urieli maintient des liens actifs avec le laboratoire CLLE, ce qui ouvrait la possibilité d’établir un contact direct avec lui. Cette situation privilégiée

d’être en contact avec l’auteur d’un outil était très prometteuse : elle pouvait nous per- mettre d’avoir une meilleure prise en main ainsi qu’une compréhension plus approfondie de l’outil que l’on ne pouvait s’attendre avec d’autres outils. Pour toutes les raisons citées ci-dessus, notre choix s’est arrêté sur Talismane.

Dans le document Un treebank pour le serbe : constitution et exploitations (Page 100-104)