• Aucun résultat trouvé

Partie II Apprentissage de connaissances morphologiques 57

Chapitre 4 Analyse morphologique par segmentation 71

4.2 Description de la méthode

4.2.3 Segmentation des mots

Les mots sont segmentés par comparaison des graphies des mots contenant la même base afin

de détecter les frontières entre segments partagés et segments différents. Lors de cette étape,

toutes les bases acquises précédemment sont examinées l’une après l’autre et les mots dans

4.2. Description de la méthode

ainsi possible d’identifier plusieurs segments dans chaque mot qui peuvent être aussi bien des

préfixes que des suffixes.

Les Figures 4.4 présentent les segmentations proposées pour les mots contenant la base

océan, à diverses étapes de la segmentation. Avant segmentation, chaque mot comprend au plus

3 segments : un préfixe, la base (océan) et un suffixe (voir Figure 4.4a).

Les critères suivants sont utilisés pour effectuer la segmentation :

1. Inclusion d’un tiret : les tirets sont considérés comme marquant des frontières de segments.

Ainsi, comme le montre la Figure 4.4b, le segmentmédio- est segmenté enmédio + -.

2. Inclusion d’un autre affixe lié à la même base. Si un préfixe p

1

se termine par un autre

préfixep

2

également lié àb, alors il est découpé en deux segments. De même, si un suffixe

s

1

débute par un autre suffixes

2

également lié à b, alors il est découpé en deux segments.

C’est le cas par exemple pour le suffixeiques qui est découpé enique + s (voir Figure 4.4c).

Cette segmentation est récursive. En effet, le segment iennes est découpé en ienne + s,

puis ienne est découpé en ien + ne et enfinien est découpé enie + n.

3. Inclusion d’un autre affixe des listes P ou S. Par exemple si un préfixe p

1

débute par un

préfixe p

2

appartenant à la liste P, alors il peut être découpé en deux segments. De la

même manière, si un suffixe s

1

se termine par un suffixe s

2

appartenant à la liste S, alors

il peut être découpé en deux segments. C’est pour cette raison que le suffixe ographie est

segmenté en ograph + ie car le suffixeie appartient à la listeS (voir Figure 4.4d).

Les segments ainsi obtenus sont étiquetés par l’une des trois catégories d’affixes suivantes :

préfixe, suffixe et segment de liaison, en fonction de leur position dans le mot par rapport à

la base. Ainsi, les tirets, compte tenu de leur distribution (ils apparaissent toujours entre deux

autres segments), sont systématiquement étiquetés comme des segments de liaison. Les segments

qui peuvent apparaître en toute fin de mots prennent l’étiquette suffixe. C’est le cas par exemple

des segmentss ou ique. À l’inverse, les segments qui peuvent apparaître en début de mot sont

étiquetés comme préfixes. C’est le cas du segmentsub. De plus, afin de prendre en compte les

mots composés, nous donnons une étiquette temporaire aux segments qui contiennent une autre

base. Ces segments ont pour étiquette « base potentielle ». C’est le cas par exemple du segment

ograph.

Chapitre 4. Analyse morphologique par segmentation

intra−

océan

médio−

non−

proto−

sub

sub−

trans

e

ie

ien

ienne

iennes

iens

ique

iques

isation

ite

ites

itique

ographe

ographes

ographie

ographiques

s

(a)

intra

médio

non

proto

sub océan

trans

e

ie

ien

ienne

iennes

iens

ique

iques

isation

ite

ites

itique

ographe

ographes

ographie

ographiques

s

(b)

intra − médio non proto sub océan trans e ie ique isation ite itique ographe ographie ographiques s n s ne

(c)

intra − médio non proto sub océan trans e ie ique isation it ograph s n s e ique iques ie ne

(d)

Fig.4.4: Étapes de la segmentation des mots contenant la même base : (a) avant segmentation ;

(b) après segmentation basée sur les tirets ; (c) après segmentation par comparaison aux autres

4.2. Description de la méthode

A la suite de la comparaison des mots contenant la même base, de nouveaux affixes, qui

n’appartiennent pas aux listesPetS peuvent être découverts et ces derniers doivent être validés,

afin d’éviter une baisse trop importante de la précision des segmentations. La procédure de

validation que nous appliquons est similaire à la méthode de validation des nouveaux morphèmes

proposée par [Déjean, 1998] et consiste à prendre en compte la proportion d’affixes déjà connus,

c’est-à-dire appartenant aux listesP etS, par rapport aux nouveaux affixes.

La méthode de H. Déjean permet la découverte de nouveaux morphèmes en vérifiant si les

suffixes découverts correspondent à des morphèmes déjà identifiés auparavant. Si la moitié de ces

éléments appartiennent à la liste des morphèmes déjà découverts, alors les autres morphèmes sont

ajoutés à la liste. Prenons l’exemple du Tableau 4.8. Dans cet exemple, la chaîne de caractères

consider peut être suivie de 5 séquences différentes : +able,+ably,+ation, +ed et+ing. Trois

de ces séquences appartiennent à la liste des morphèmes déjà identifiés, ce qui correspond à plus

de la moitié. Les segments+able et+ably sont donc validés.

Morphèmes trouvés Mots Nouveaux morphèmes

considerable +able

considerably +ably

+ation consideration

+ed considered

+ing considering

Tab.4.8: Exemple de validation des nouveaux morphèmes tiré de [Déjean, 1998, p. 70].

Dans la mesure où les alignements que notre système produit par comparaison des mots

permettent aussi bien de découvrir de nouveaux préfixes que de nouveaux suffixes, nous avons

dû adapter cette méthode de validation. Nous validons les suffixes en fonction des préfixes avec

lesquels ils apparaissent, tandis que les préfixes sont validés en fonction des suffixes avec lesquels

ils apparaissent.

Prenons l’exemple de la Table 4.9, qui présente l’ensemble des mots non préfixés contenant

la basehous.

Mots Suffixes Bases Suffixes

de la potentielles inconnus

listeS

housekeeping +ekeeping

housing +ing

household +ehold

house’s +e’s

house +e

housed +ed

Tab. 4.9: Validation des suffixes pour les mots contenant la base hous et commençant par la

chaîne vide.

Chapitre 4. Analyse morphologique par segmentation

Soit |A

1

|le nombre de suffixes appartenant à la listeS,|A

2

|le nombre de bases potentielles

et |A

3

| le nombre de suffixes inconnus. Pour les exemples de la Table 4.9, |A

1

|=3, |A

2

|= 2 et

|A

3

|=1. Les suffixes inconnus, ainsi que les bases potentielles ne sont validés que si les conditions

suivantes sont remplies :

|A

1

|+|A

2

|

|A

1

|+|A

2

|+|A

3

| a et

|A

1

|

|A

1

|+|A

2

| b

La première inégalité permet de mesurer la proportion d’affixes déjà connus et de bases

potentielles par rapport à tous les affixes. La seconde inégalité complète la première et permet

d’éviter la validation de suffixes inconnus si le nombre de bases potentielles est très important

(ce qui peut arriver si la base correspond à un préfixe de la langue par exemple).

aetbsont des paramètres fixés manuellement. D’après nos expériences, les valeurs par défaut

suivantes permettent généralement d’obtenir de bons résultats : a≥0,8etb= 0,1.

Pour les exemples de la Table 4.9, et pour les valeurs suivantes : a = 0,8 et b = 0,1, les

bases potentiellesekeeping etehold ainsi que le nouveau suffixee’s sont validés (

3+2

3+2+1

>0,8et

3

3+2

>0,1).

La validation des préfixes se fait de manière totalement similaire. Considérons les exemples

de la Table 4.10. Il s’agit de l’ensemble de mots contenant la basehous et se terminant par le

suffixe+e. Dans ce cas,|A

1

|=2 (la chaîne vide est toujours considérée comme un préfixe valide),

|A

2

|= 4 et|A

3

|=0. Les bases potentielles glass,green,light etware sont validées dans le cas où

a= 0,8 etb= 0,1 car

2+4

2+4+0

>0,8et

2

2+4

>0,1

Mots Préfixes Bases Préfixes

de la potentielles inconnus

listeP

glasshouse glass+

greenhouse green+

lighthouse light+

rehouse re+

warehouse ware+

house ²+

Tab. 4.10: Validation des préfixes pour les mots contenant la base “hous” et se terminant par

le suffixe ‘e’.

Nous validons de cette manière les préfixes apparaissant avec tous les suffixes possibles. De la

même manière, nous faisons une itération sur la liste des préfixes possibles, y compris la chaîne

vide, pour valider les suffixes.

Les segmentations valides de chaque mot sont stockées. Nous conservons ainsi tous les

ments proposés car un mot peut contenir plusieurs bases différentes et donc être aligné et

seg-menté plus d’une fois. Quand toutes les bases ont été analysées, nous examinons les segments

stockés pour chaque mot et supprimons les bases potentielles. Cette étape a pour objectif de

vérifier que la base contenue dans un segment identifié comme base potentielle a bien été

vali-dée lors de l’alignement du mot en fonction de cette base. Les bases potentielles sont donc soit

remplacées par d’autres segments, découverts au cours du processus (en entier ou seulement en

partie) ou alors étiquetées en fonction de leur position dans le mot par une des catégories

d’af-fixes (préfixe, suffixe ou segment de liaison) si aucun remplacement n’est possible. On rencontre

4.2. Description de la méthode

dée. Enfin, nous calculons la fréquence d’occurrence de chaque segment étiqueté. La fréquence

d’occurrence correspond au nombre de mots différents dont l’analyse inclut le segment.