• Aucun résultat trouvé

2.1 M´ethodes non-stochastiques : r`egles et heuristiques

2.1.2 Lemmatisation des noms et adjectifs du fran¸cais avec XFST

La construction d’un lemmatiseur du fran¸cais avec les outils de Xerox est une occasion de d´etailler et pr´eciser certains aspects d´ej`a ´evoqu´es dans la section 1.3.1. Atteindre une large couverture du fran¸cais est un travail ´enorme, qui peut heureusement ˆetre divis´e en tˆaches relativement ind´ependantes : par exemple, la morphologie des verbes peut se faire ind´ependamment de celle des noms et des adjectifs. Les transducteurs alors cr´e´es sont ensuite unis en un seul grand transducteur.

2.1.2.1 La d´efinition des lexiques avec lexc

Noms et adjectifs partagent le mˆeme syst`eme de flexion et sont regroup´e dans le mˆeme lexique. Le cœur de ce lexique est constitu´e de la liste des lemmes. Les lemmes sont organis´es par cat´egories qui gouvernent les diff´erents genres, nombres et cat´egorie syntaxique qu’un mot peut prendre. Par exemple, un « adjectif r´egulier » est un adjectif qui se trouve au masculin comme au f´eminin, au singulier comme au pluriel. Certains mots peuvent ˆetre `a la fois nom et adjectif, d’autres sont invariables, etc.

Le lexique est au format lexc et divis´e en sous-lexiques. Le sous-lexique principal, nom-adj, contient tous les lemmes ; chaque « cat´egorie » de lemme se voit attribuer un lexique particulier qui d´efinit les traits morphologiques des mots de ces cat´egories.

2.1 M´ethodes non-stochastiques : r`egles et heuristiques 43

Exemple : ajust´e est un adjectif r´egulier, il est d´efini par l’entr´ee suivante dans le sous-lexique nom-adj :

ajust´e reg-adj ;

Le sous-lexique reg-adj est la classe de continuation d’adjectifs r´eguliers comme ajust´e : LEXICON reg-adj ++Masc reg-adj-num; ++Fem reg-adj-num; LEXICON reg-adj-num +SG+Adj # ; +PL+Adj # ;

Ainsi, ajust´e peut prendre quatre formes lexicales diff´erentes (masculin ou f´eminin, singu-lier ou pluriel). Les ´etiquettes morphosyntaxiques sont de la forme +Etiq, et constituent chacune un seul symbole dans l’automate. Le + qui pr´ec`ede l’´etiquette du genre est en fait un s´eparateur entre le lemme et ses ´etiquettes.

Pour assurer une large couverture et analyser certains n´eologismes, des pr´efixes couramment em-ploy´es et tr`es productifs sont optionnellement ajout´es `a chaque racine (demi-, pseudo-, re-, anti-, euro-, etc.) Le lexique est en fait s´epar´e en deux parties : les mots commen¸cant par un son vocalique (une voyelle ou un h non aspir´e) et les autres.

Traitement des exceptions. Le traitement des flexions r´eguli`eres est l’objet de la section suivante, mais il faut d´ej`a prendre en compte les exceptions. Deux cat´egories d’exceptions se pr´esentent : d’une part, celles qui sont suffisamment nombreuses pour faire l’objet d’une r`egle, et d’autre part, celles qui doivent ˆetre trait´ees individuellement. Le premier cas est ´evoqu´e plus bas.

Dans le deuxi`eme cas on trouve les exceptions uniques en leur genre (œil/yeux, ail/aulx, etc.) ou des mots emprunt´es aux langues ´etrang`eres, ou des ensembles de mots qui suivent une forme r´eguli`ere mais sont peu nombreux (comme hibou, chou, genou etc. qui ont un pluriel en -x ). Pour celles-ci, les exceptions sont prises en compte directement par le lexique.

Exemple : ciel a un pluriel irr´egulier en cieux, mais ´egalement en ciels (selon la significa-tion, mais celle-ci n’est pas consid´er´ee ici). Le pluriel de ciel apparaˆıt alors deux fois dans le lexique :

ciel++Masc++PL+Noun:cieux # ; ciel++Masc++PL+Noun ;

La premi`ere forme aura donc un pluriel irr´egulier, alors que la seconde suivra le mod`ele de flexion habituel.

2.1.2.2 Flexions et r`egles morphologiques `a deux niveaux avec twolc

Les r`egles `a deux niveaux ´ecrites pour traiter le pluriel et le f´eminin des noms et adjectif du fran¸cais consistent `a mettre en correspondance les formes lexicales et les formes de surface. Les r`egles `a deux niveaux sont des r`egles gouvernant la correspondance de deux symboles, un symbole de surface et un symbole lexical. Dans la situation pr´esente, ce sont les ´etiquettes qui vont ˆetre r´ealis´ee par un symbole de surface : ainsi, +PL sera r´ealis´e par s en surface ; +SG par 0 (la notation de twolc pour epsilon).

Exemple : la correspondance entre la forme de surface de l’adjectif d´ebutantes et sa forme lexicale donne

d ´e b u t a n t + +Fem +PL +Adj

| | | | | | | | | | | |

44 Des approches sp´ecifiques de l’analyse morphologique en g´en´eral...

Le syst`eme de r`egles d´efini doit prendre en compte diff´erents cas de figure. Pour le pluriel, il faut prendre en compte les mots se terminant par une sifflante (x, z ou s) qui ne sont pas marqu´es au pluriel, la plupart des mots se terminant en -al, -ail, -au qui ont un pluriel en -aux, etc. Pour le f´eminin, les mots se terminant en -e qui n’ont g´en´eralement pas de marque suppl´ementaire, ou qui ont leur pluriel en -esse, etc. Un jeu d’une quinzaine de r`egles suffit `a traiter la plupart des cas, les exceptions ´etant prises en compte dans le lexique.

Il reste cependant le probl`eme des noms compos´es, comme porte-fenˆetre, cul-de-lampe, carte bleue, chair `a saucisse, etc. Si certains se comportent bien pour le syst`eme de flexion d´ecrit jusqu’ici (ie. seule la derni`ere partie du mot compos´e est fl´echie), d’autres subissent des flexions `a l’int´erieur du compos´e. En partant du principe qu’un mot compos´e est toujours compos´e de deux mots parties, au d´ebut et `a la fin du compos´e, on distingue quatre cat´egories de noms compos´es qui n´ecessitent un traitement particulier :

1. les deux parties du compos´e varient et en nombre ; 2. seule la premi`ere partie du compos´e varie en nombre ; 3. les deux parties varient en genre et en nombre ; 4. seule la premi`ere partie varie en genre et en nombre.

Comme la premi`ere partie du compos´e varie comme n’importe quel mot, on d´efinit un jeu de r`egles de « pr´etraitement » s’appliquant avec les r`egles sur les flexions proprement dites, qui copient les ´etiquettes morphologiques `a l’int´erieur du compos´e selon la nature du mot compos´e (chacune des quatre cat´egorie correspondant `a un symbole diacritique sp´ecial).

Exemple : chef-d’œuvre appartient `a la deuxi`eme cat´egorie. L’analyse de chefs-d’œuvre est alors : c h e f 0 0 0 - d ’ o e u v r e + ^pls +Masc +PL +Noun | | | | | | c h e f + +Masc +PL - d ’ o e u v r e + 0 +Masc 0 0 | | | | | c h e f 0 0 s - d ’ o e u v r e 0 0 0 0 0

Le symbole ^pls d´enote l’appartenance de chef d’œuvre `a la deuxi`eme cat´egorie de mot compos´e, et d´eclenche les r`egles copiant +PL et +Masc `a la fin de chef et la suppression de +PL dans la premi`ere ´etape.

2.1.2.3 La compilation du transducteur lexical avec xfst Le transducteur lexical final est obtenu en plusieurs ´etapes :

1. compilation avec lexc des deux lexiques, et avec twolc des deux jeux de r`egles ; 2. composition avec lexc de chacun des deux lexiques avec les deux jeux de r`egles ; 3. union des deux transducteurs obtenus pour obtenir un lexique unique ;

4. composition avec xfst du lexique avec des r`egles de r´e´ecriture de nettoyage qui suppriment les divers signes diacritiques (+, ^`e, etc.) pour donner le lexique final.

Les r`egles de nettoyage sont sp´ecifi´ees par des expressions r´eguli`eres et compil´ees avec xfst. L’au-tomatisation du processus peut se faire avec des outils comme make, comme lors de la compilation de programmes complexes en C.

Finalement, le transducteur obtenu r´ealise directement la transduction entre niveau lexical et niveau de surface ; toutes les ´etapes interm´ediaires ont ´et´e « absorb´ees » par le composition des transducteurs successifs (nettoyage et jeux de r`egles).

2.1 M´ethodes non-stochastiques : r`egles et heuristiques 45

Exemple : la correspondance entre po´etesse et sa forme lexicale se fait r´eellement en trois ´etapes : les deux jeux de r`egles morphologiques, et le nettoyage des symboles interm´ediaires (l’analyse se fait du bas vers le haut) :

p o `e t e 0 0 +Fem +SG +Noun

| | | | | | | | | |

p o `e t e + ^sse +Fem +SG +Noun

| | | | | | | | | |

p o `e t e + ^sse +Fem +SG 0

| | | | | | | | | |

p o ´e t e s s e 0 0

Mais le transducteur final r´ealise cette correspondance directement : p o `e t e 0 0 +Fem +SG +Noun

| | | | | | | | | |

p o ´e t e s s e 0 0

L’exemple ci-dessus illustre ´egalement la r´eversibilit´e du processus : si l’analyse se fait « de bas en haut » `a partir d’une forme de surface, la g´en´eration se fait identiquement « de haut en bas ».