• Aucun résultat trouvé

Analyse et étiquetage morphosyntaxique des unités textuelles

Chapitre 5 Identifier les traitements et leurs connaissances

5.4 Analyse et étiquetage morphosyntaxique des unités textuelles

Objectifs

Après l‘identification de la langue et le découpage, le fragment est représenté par une liste d‘unités textuelles. Ces unités sont analysées et donnent, si elles correspondent aux formes du lexique, accès aux informations grammaticales contenues dans le lexique. A partir de ces informations, on construit une représentation du document qui est un enrichissement du document d‘origine : le document sera pourvu de métadonnées qui peuvent concerner des unités, mais aussi des parties du document ou bien des parties d‘unités.

L‘étiquetage morphosyntaxique consiste à fournir une description morphosyntaxique des unités textuelles. Cette description consiste en la catégorie grammaticale et éventuellement des traits morphosyntaxiques. Contrairement à ce qu‘on peut penser, nous considérons que le lemme ne fait pas partie de la description morphosyntaxique. La lemmatisation fera l‘objet d‘un traitement discuté par la suite.

Le terme morphosyntaxique mérite une explication. D‘un point de vue lexical, la formation des mots relève exclusivement de la morphologie. Si on décrit le paradigme flexionnel d‘un mot, on fait une description morphologique du mot : on énumère toutes les formes d‘un même mot en appliquant des règles morphologiques à partir d‘une forme canonique. Les mots ont des propriétés syntaxiques : en premier lieu la catégorie grammaticale du mot, mais aussi les traits morphologiques relevant de la flexion contextuelle67. Ces informations sont utilisées par la désambiguïsation lexicale qui repose sur le contexte syntaxique des mots. Du point de vue que nous prenons, celui de l‘étiquetage du mot (lexical, morphologique) ou bien celui de la désambiguïsation (syntaxique, utilisant des connaissances morphologiques), dépend donc notre choix entre les termes respectifs morphologique ou morphosyntaxique.

Méthodes

La morphologie des langues étant pour la plus grande partie très régulière, même dans ses irrégularités, l‘analyse morphosyntaxique peut se faire complètement par règles. Cette méthode est d‘autant plus tentante que seule l‘approche par règles semble garantir une couverture complète sur les mots communs68. On peut mentionner ici la morphologie à deux niveaux introduit par [Koskenniemi, 1983] en alternative viable pour les règles génératives qui étaient le cadre en vigueur depuis les années 60.

La solution la plus simple à implémenter est néanmoins celle du lexique : l‘accès aux informations est direct et l‘effort de calcul minimal. En revanche, la couverture du lexique est incertaine et un coût de gestion est lié à sa maintenance.

Les méthodes par apprentissage construisent un lexique et des règles ou des probabilités à partir d‘un corpus d‘entraînement. Si un phénomène n‘est pas couvert par ce corpus, l‘analyse

67 La distinction entre flexion inhérente et contextuelle a été proposée par [Booij, 1994], séparant les marqueurs

imposés par la syntaxe (par exemple les marques d‘accord des verbes et des adjectifs) de ceux qui ne le sont pas (par exemple le trait du nombre pour les noms). Il s‘en sert pour démontrer que dérivation et flexion ne sont pas deux opérations distinctes, l‘une étant présyntaxique (lexical), l‘autre post-syntaxique. Ce faisant il réfute

l‘hypothèse du split morphology introduite au début des années 80.

68

Gare au traitement des noms propres, dans les trois approches, afin de ne pas lemmatiser le nom de ville Paris

96 fournie n‘est pas fiable. Pour réduire la dépendance du corpus, un lexique généraliste peut être exploité, ajoutant en contrepartie un effort de gestion non négligeable, vu la quantité de données concernée.

Les systèmes d'analyse de langues, selon qu‘ils donnent un poids prépondérant aux règles ou au lexique, peuvent être situés sur un axe, comme dans la figure 15. Sur les extrémités de l‘axe nous trouvons d‘un coté les systèmes à base de règles sans lexique et les systèmes à base de lexique sans règles de l‘autre.

Figure 15 : Axe des systèmes d'analyse morphologique

Lametyzator est un raciniseur polonais qui agit par simple accès au dictionnaire Morfologik69, ce qui explique le grand nombre d‘entrées dans ce lexique. Ce raciniseur se trouve donc à l‘extrême droite de l‘axe ci-dessus. A son opposé, à l‘extrême gauche de l‘axe, on peut situer Stempel, un raciniseur/lemmatiseur heuristique qui n‘agit que par des règles apprises sur du lexique. Les deux ont été enchaînés dans le projet Morfologik dans un composant nommé Stempelyzator, donnant un léger gain des résultats par la combinaison des deux ([Weiss, 2005]). Notons que les deux composants obtiennent les mêmes résultats séparément seulement si Stempel est entraîné sur les formes de 60.000 lemmes, ce qui correspond à un lexique de large couverture. L‘approche hybride augmente de quelques pourcents les résultats par lexique, et cela dès un apprentissage sur 5000 lemmes. Comme il contient les connaissances des deux extrémités, on peut placer ce système hybride exactement au milieu, même si dans la pratique le dictionnaire fournit la plupart des analyses grâce à sa couverture. L‘effort de gestion de lexique peut être réduit par l‘introduction de règles morphologiques qui agissent conjointement avec le lexique. La quantité de données à gérer est alors fortement réduite avec quelques règles simples d‘affixation qui affectent des mots moins fréquents. Par exemple, pour réduire le nombre d‘entrées dans le lexique polonais, nous avons introduit une règle en polonais qui interprète l‘utilisation du préfixe nie (« non ») collé à tout nom, adjectif ou participe présent. Par cette seule règle, nous avons réduit d‘un bon tiers le nombre d‘entrées du lexique.

PL niebędącą = nie + będącą (accusatif/instrumentalis féminin du participe présent de być, être) -> lemme : niebędący

nieśmieceniu = nie + śmieceniu (datif/locatif du nom śmieceni, le fait de disperser des déchets) -> lemme : nieśmieceniu

nieniemieckojęzycznego = nie + niemieckojęzycznego (adjectif, germanophone) -> lemme : nieniemieckojęzycznego

Le nombre d‘entrées économisées allège la gestion du lexique, mais ne donne pas d‘estimation de l‘utilité de la règle dans l‘analyse. Pour la connaître, il faudrait comparer une analyse purement lexicale avec une analyse par règle d‘un grand corpus.

69

Voir http://www.cs.put.poznan.pl/dweiss/xml/projects/lametyzator/index.xml?lang=en et

97 Les exemples suivants illustrent comment les règles peuvent remplacer des grandes parties de lexique. En espagnol, la pronominalisation des compléments d‘objet direct et indirect s‘agglutinent à l‘impératif, l‘infinitif et le gérondif. On voit dans les exemples qu‘une des voyelles de la racine peut prendre un accent pendant cette opération. L‘intégration de quelques règles permet d‘économiser un grand nombre d‘entrées par verbe dans le lexique.

ES hablarle (lui parler) = hablar + le hablándole (en lui parlant) = hablando + le háblale (parle-lui) = habla+ le

dàmelo (donne-le-moi) = da + me + lo (donne + me + le) En portugais, un phénomène similaire se produit par l‘insertion d‘endoclitiques. Au conditionnel et au futur, la pronominalisation du complément d‘objet direct se trouve injectée entre le radical du verbe et les terminaisons du verbe, entourée de traits d‘union. L‘insertion peut en plus introduire des transformations du radical et du pronom, comme dans le deuxième exemple.

PT inscrever-nos-emos (nous nous inscrirons) lavá-las-ão = lavar + as + ão (ils les laveront)

La présence de tirets nécessite néanmoins des règles différentes de celles que nous venons de voir : il ne s‘agit plus de décomposer ce qui est collé, mais de composer ce qui est considéré comme des mots séparés. Plusieurs unités textuelles qui se suivent sont rassemblées pour n‘en faire qu‘une seule.

Pour compléter les règles polonaises, nous pourrions imaginer des règles qui rattrapent des erreurs orthographiques de personnes qui écriraient un espace ou un tiret entre le préfixe nie et le mot sur lequel porte la négation.

PL nie wojskową > niewojskową (non militaire)

Nous appelons règles lexicales les règles qui régissent la composition ou la décomposition d‘unités textuelles, et qui, en même temps peuvent fournir une description morphologique sur les unités traitées. Cette grammaire de règles lexicales utilise un lexique de bases morphologiques (aussi appelées racines), d‘affixes (préfixes, suffixes) et d‘endoclitiques qui sont des suites de caractères qui ne sont pas autonomes.

L‘optimisation du traitement et de la gestion du lexique en même temps passe par un bon équilibre entre lexique et règles d‘analyse morphologique. Les unités fréquentes et irrégulières (ce sont souvent les mêmes) se trouvent dans le lexique, les moins fréquentes et une partie de celles qui sont construites sont interprétées par des règles.

Certains phénomènes de langue se prêtent plus à un traitement par règle que d‘autres, comme l‘insertion d‘endoclitiques ou la préfixation. D‘après notre expérience, la suffixation est plus difficile à mettre en œuvre, la préfixation ayant en général peu d‘incidence sur les autres caractères du mot ou sur la catégorie de l‘unité70. Les règles de suffixation sont par conséquent plus complexes. Les exemples suivants de suffixation en néerlandais illustrent cette complexité. Le suffixe loos exprime « l‘absence » et est un marqueur d‘adjectif. L‘ajout d‘un e de liaison a pour effet de doubler la consonne ou la simplification de la voyelle le

70

Même si c‘est possible : en français le préfixe anti combiné à un nom le transforme en adjectif, comme dans

98 devançant, conformément aux règles d‘orthographe néerlandaise. La base est un substantif, mais l‘ensemble un adjectif.

NL goddeloos = god + e + loos (impie, littéralement sans dieu) tomeloos = toom + e + loos (effréné, littéralement sans bride)

Afin de savoir si le codage d‘une règle vaut la peine, il faudrait dans l‘idéal savoir s‘il s‘agit d‘un phénomène courant ou pas. La productivité est néanmoins impossible à mesurer dans l‘absolu : il est possible de chiffrer le nombre d‘unités concernées en simulant la règle par une expression régulière sur un corpus, ce qui donne un chiffre relatif. Cependant, comme le nombre de règles est élevé et ce chiffrage peu fiable, on se fie en général à l‘intuition du linguiste qui choisit quelles règles implémenter, d‘autant plus que le paramètre de l‘optimisation du code doit également être pris en compte. Si le système est optimisé pour prendre les informations dans le lexique, alors le phénomène traité par règle ne doit pas être trop courant non plus, sinon le système perd en efficacité.

Pour certaines langues morphologiquement très riches, comme le hongrois, le finnois et le turc, il est impossible de traiter les unités seulement avec du lexique. Dans ces langues, des suffixes, chaînes de caractères sans autonomie qui ne sont pour autant pas des désinences flexionnelles, peuvent s‘agglutiner à la fin d‘un mot. Ces suffixes sont constructeurs du sens des syntagmes en exprimant ce qui s‘exprime dans d‘autres langues par des moyens syntaxiques. Pour cette raison, on appelle ces langues agglutinantes, même si le même phénomène existe dans une moindre mesure dans d‘autres langues. L‘agglutination de l‘article défini au nom en suédois est bien une opération d‘agglutination, mais on ne considère pas pour autant le suédois comme une langue agglutinante. L‘exemple en finnois est une forme fléchie de talo (maison), dont le cas est l‘inessif71.

SV alv (elfe), alven (l‘elfe) = alv + en

alver (elfes), alverna (les elfes) = alver + na FI talossani = talossa (dans maison) + ni (ma)

Les systèmes qui traitent les langues agglutinées disposent nécessairement d‘un composant d‘analyse par règles. Pour le hongrois, nous pouvons citer par exemple le système Humor ([Prószéky, 1994]) de MorphoLogic qui repose sur un ensemble de bases morphologiques (= lexique) et un ensemble de règles. Pour le finnois, il convient de citer le Machinese Phrase Tagger de Connexor dont un bref aperçu peut être trouvé dans [Järvinen et al., 2004]72. Le modèle du finnois de [Koskenniemi, 1983], qui repose massivement sur des règles, ne convient pas aux systèmes pour lesquels le temps d‘exécution de l‘analyse est critique. Pour cette raison, le système d‘analyse pour le finnois que nous avons mis en place repose fortement sur des règles, mais seulement pour les phénomènes d‘agglutination. La flexion fait partie du lexique, même si le système flexionnel est très élaboré, ce qui donne un lexique de taille inégalée. Nous le décrivons un peu plus dans le chapitre 9 qui traite de l‘acquisition de lexique.

Les langues agglutinantes sont aussi des langues compositionnelles, c‘est-à-dire que la composition de mots composés se fait par agglutination de plusieurs mots autonomes par

71

L‘inessif exprime le lieu dans lequel se déroule l‘action exprimée par la phrase.

72 Tenu compte de la difficulté de traitement des langues agglutinantes, il ne nous semble pas une coïncidence

que deux des fournisseurs internationaux de technologies d‘analyse de TAL soient hongrois et finlandais.

Connexor (http://www.connexor.com/) est fournisseur d‘entre autres Lingway (http://www.lingway.com/), Fast

99 ailleurs. Si la décomposition en mots autonomes est importante pour l‘application, l‘utilisation d‘un lexique avec les possibles composants et d‘une grammaire de décomposition s‘imposent. On peut imaginer des approches où le corpus est le lexique et où les règles sont génériques et reposent sur la similarité entre les mots. Le principal problème que nous y voyons est que ce type d‘approche pourra décomposer des mots qui ne sont pas à décomposer, comme par exemple toffee (caramel) en néerlandais en tof (chouette) et fee (fée). Il ne saura pas non plus faire le choix de ne pas décomposer. Federbett est le mot allemand pour couette, et serait décomposé par ce type de système en Feder (plume) et Bett (lit), ce qui n‘est morphologiquement pas faux, mais pas souhaitable pour toutes les applications, notamment pour la recherche d'information. Ou encore la marque de carte de crédit MasterCard qui, en anglais, serait décomposé en Master (maître) et Card (carte).

Le processus de composition étant productif, il faut des règles de décomposition, qui s‘appuient sur le lexique, pour donner une description morphologique pour les mots hors vocabulaire. Si l‘unité textuelle contient des espaces ou des tirets, la question de l‘indexation des composants se pose autant que pour les mots compositionnels, avec seulement la difficulté de la décomposition en moins.

L‘équilibre entre règles et lexique a des conséquences directes sur le nombre d‘informations lexicales à gérer, et plus particulièrement sur le nombre de mots-formes. Les informations liées aux mots-formes peuvent être plus ou moins riches, augmentant la masse de données à gérer selon le détail de description.

La description grammaticale associée au mot-forme consiste généralement en la catégorie grammaticale et les traits morphologiques. Il existe une certaine hiérarchie entre ces informations. De la catégorie grammaticale dépendent les attributs et certains attributs peuvent en engendrer d‘autres. Par exemple, la description d‘un nom en allemand aura comme catégorie grammaticale nom, les attributs liés au nom sont le genre, le nombre et le cas. Ils auront respectivement une des valeurs masculin/féminin/neutre, singulier/pluriel et nominatif/accusatif/datif/génitif. S‘il s‘agit d‘un mot composé, un attribut optionnel l‘indiquera et de cet attribut dépendra l‘attribut de la composition, qui prendra par exemple la valeur nom nom si le mot composé est composé de deux noms. Chaque valeur de catégorie grammaticale possède ainsi un schéma de traits morphologiques qui lui correspond.

Figure 16 : Schéma du nom en allemand

Ces schémas peuvent être utilisés pour contrôler la cohérence des descriptions fournies dans le lexique, quel que soit le format du lexique. Ces schémas ne sont malheureusement pas universels : ils sont différents pour chaque langue et dépendent de la granularité de description choisie. Ainsi, pour une même langue, le découpage en catégories grammaticales dépend de la source, comme le montrent les quelques comparaisons suivantes. Nous avons pris des mots grammaticaux, car les disparités s‘affichent souvent sur ceux-ci.

100 Mot Lexique 3.5 Morphalou Lefff

le article functionWord déterminant ce adjectif functionWord déterminant pour préposition functionWord préposition

Tableau 5 : Disparités de catégories grammaticales entre trois lexiques

La différence dans les noms des attributs et des valeurs s‘explique en général par une absence de standardisation que cherche à combler l‘ISO 24613:2008 avec le répertoire des catégories de données (voir 4.2.5). Parfois, les différences sont plus théoriques, surtout en ce qui concerne les catégories, à moins qu‘il ne s‘agisse d‘erreurs. A titre d‘exemple : le mot oh est marqué adverbe dans Lefff73, onomatopée et nom dans Lexique 3.5 et interjection dans Morphalou.

Une façon de simplifier la gestion de connaissances d‘un système multilingue est d‘utiliser les mêmes codes pour différentes langues pour encoder les descriptions. Les propriétés des langues sont limitées, et se ressemblent. Au fur et à mesure que les langues s‘ajoutent, le référentiel est complété : des codes sont ajoutés et certains s‘interprètent légèrement différemment pour ne pas ajouter inutilement des codes quand un code similaire existe déjà. L‘ajout d‘un nouveau code demande de connaître tous les codes et donc de disposer d‘un accès facile à l‘ensemble des codes existants.

Un peu plus haut, nous avions décrit une description morphosyntaxique comme une description grammaticale qui consiste en la catégorie grammaticale et les traits morphologiques. Certains de ces traits sont plutôt sémantiques, comme le marquage de prénom, de nom d‘entreprise ou de marque de voiture. [Paroubek et Rajman, 2000] considère « comme pertinente, pour une description morphosyntaxique, toute information permettant de caractériser le comportement d‘un mot dans son contexte d‘annotation par rapport à l‘ensemble fini de traits comportementaux définis a priori. » Les noms propres ont effectivement un comportement syntaxique différent des autres noms. Par exemple, quand ils sont utilisés comme nom propre, la majorité de ces noms n‘acceptent pas de déterminant devant. Dans la littérature, en dépit de ce comportement différent, ces mots sont tout de même considérés comme des noms propres. Pour la désambiguïsation morphosyntaxique il serait sans doute mieux de disposer d‘une catégorie spécifique pour ces noms afin d‘exploiter ces différences.

Au regard des opérations morphologiques effectuées, la dérivation et la flexion sont très similaires. L‘on pourrait militer pour inclure la dérivation dans les paradigmes flexionnels, mais leur irrégularité mènerait à une multiplication des paradigmes. En contre-argument, nous invoquons également le glissement sémantique qui a lieu : le sens du mot dérivé ne peut pas être confondu au mot d‘origine parce que l‘affixe a un apport sémantique indéniable.

Connaissances

Après découpage, le fragment est représenté par une liste d‘unités textuelles (u1, u2, … , un). La fonction etiq d‘analyse et d‘étiquetage morphosyntaxique fournit pour chaque unité textuelle ui, une ou plusieurs descriptions dM. Ces descriptions contiennent la catégorie grammaticale cat et un ensemble de traits Tm. La catégorie et les traits font partie de listes

101 prédéfinies pour chaque langue. Cette fonction peut prendre en compte le contexte pour fournir ces résultats, mais ce n‘est pas obligatoire.

ux i ux ux j Cetiq u Dm etiq , , , , x = la position de u, DmdM1,dM2,...,dMn,n1 avec dM cati,Tmj

catiS, S cat1,cat2,...,catn'

et Tmj tM1,tM2,...,tMn''

Pour ce faire, etiq prend en compte un ensemble de connaissances Cetiq qui servent à analyser les unités afin d‘attribuer une ou plusieurs descriptions à chaque unité.

Deux cas se présentent pour l‘analyse des unités textuelles. Dans le premier cas l‘unité u est présente dans le lexique Letiq de la base de connaissances en tant que mot-forme f et la mise en correspondance avec l‘ensemble des descriptions Dm est directe. Aucune analyse n‘est faite et on attribue à u l‘ensemble des descriptions associées à f.

Dans l‘autre cas, l‘unité n‘existe pas dans le lexique. Il faut alors passer par une analyse morphosyntaxique en appliquant les règles ri des grammaires pour la dérivation Gder, l‘agglutination Gagg et la composition Gcomp. Ces grammaires sont respectivement constituées de règles rDer, rAgg et rComp. Chaque type de règle essaie de décomposer l‘unité textuelle d‘une façon différente.

Une règle de dérivation rDer décompose une unité textuelle en un mot-forme et un élément. Pour fournir la description Dmb à l‘unité textuelle, la règle prend la description Dma du mot-forme en la modifiant éventuellement.

Une règle d‘agglutination rAgg décompose une unité textuelle en une autre unité textuelle et