Partie II Apprentissage de connaissances morphologiques 57
Chapitre 4 Analyse morphologique par segmentation 71
4.2 Description de la méthode
4.2.3 Segmentation des mots
Les mots sont segmentés par comparaison des graphies des mots contenant la même base afin
de détecter les frontières entre segments partagés et segments différents. Lors de cette étape,
toutes les bases acquises précédemment sont examinées l’une après l’autre et les mots dans
4.2. Description de la méthode
ainsi possible d’identifier plusieurs segments dans chaque mot qui peuvent être aussi bien des
préfixes que des suffixes.
Les Figures 4.4 présentent les segmentations proposées pour les mots contenant la base
océan, à diverses étapes de la segmentation. Avant segmentation, chaque mot comprend au plus
3 segments : un préfixe, la base (océan) et un suffixe (voir Figure 4.4a).
Les critères suivants sont utilisés pour effectuer la segmentation :
1. Inclusion d’un tiret : les tirets sont considérés comme marquant des frontières de segments.
Ainsi, comme le montre la Figure 4.4b, le segmentmédio- est segmenté enmédio + -.
2. Inclusion d’un autre affixe lié à la même base. Si un préfixe p
1se termine par un autre
préfixep
2également lié àb, alors il est découpé en deux segments. De même, si un suffixe
s
1débute par un autre suffixes
2également lié à b, alors il est découpé en deux segments.
C’est le cas par exemple pour le suffixeiques qui est découpé enique + s (voir Figure 4.4c).
Cette segmentation est récursive. En effet, le segment iennes est découpé en ienne + s,
puis ienne est découpé en ien + ne et enfinien est découpé enie + n.
3. Inclusion d’un autre affixe des listes P ou S. Par exemple si un préfixe p
1débute par un
préfixe p
2appartenant à la liste P, alors il peut être découpé en deux segments. De la
même manière, si un suffixe s
1se termine par un suffixe s
2appartenant à la liste S, alors
il peut être découpé en deux segments. C’est pour cette raison que le suffixe ographie est
segmenté en ograph + ie car le suffixeie appartient à la listeS (voir Figure 4.4d).
Les segments ainsi obtenus sont étiquetés par l’une des trois catégories d’affixes suivantes :
préfixe, suffixe et segment de liaison, en fonction de leur position dans le mot par rapport à
la base. Ainsi, les tirets, compte tenu de leur distribution (ils apparaissent toujours entre deux
autres segments), sont systématiquement étiquetés comme des segments de liaison. Les segments
qui peuvent apparaître en toute fin de mots prennent l’étiquette suffixe. C’est le cas par exemple
des segmentss ou ique. À l’inverse, les segments qui peuvent apparaître en début de mot sont
étiquetés comme préfixes. C’est le cas du segmentsub. De plus, afin de prendre en compte les
mots composés, nous donnons une étiquette temporaire aux segments qui contiennent une autre
base. Ces segments ont pour étiquette « base potentielle ». C’est le cas par exemple du segment
ograph.
Chapitre 4. Analyse morphologique par segmentation
intra−
océan
médio−
non−
proto−
sub
sub−
trans
e
ie
ien
ienne
iennes
iens
ique
iques
isation
ite
ites
itique
ographe
ographes
ographie
ographiques
s
(a)
intra
−
médio
non
proto
sub océan
trans
e
ie
ien
ienne
iennes
iens
ique
iques
isation
ite
ites
itique
ographe
ographes
ographie
ographiques
s
(b)
intra − médio non proto sub océan trans e ie ique isation ite itique ographe ographie ographiques s n s ne(c)
intra − médio non proto sub océan trans e ie ique isation it ograph s n s e ique iques ie ne(d)
Fig.4.4: Étapes de la segmentation des mots contenant la même base : (a) avant segmentation ;
(b) après segmentation basée sur les tirets ; (c) après segmentation par comparaison aux autres
4.2. Description de la méthode
A la suite de la comparaison des mots contenant la même base, de nouveaux affixes, qui
n’appartiennent pas aux listesPetS peuvent être découverts et ces derniers doivent être validés,
afin d’éviter une baisse trop importante de la précision des segmentations. La procédure de
validation que nous appliquons est similaire à la méthode de validation des nouveaux morphèmes
proposée par [Déjean, 1998] et consiste à prendre en compte la proportion d’affixes déjà connus,
c’est-à-dire appartenant aux listesP etS, par rapport aux nouveaux affixes.
La méthode de H. Déjean permet la découverte de nouveaux morphèmes en vérifiant si les
suffixes découverts correspondent à des morphèmes déjà identifiés auparavant. Si la moitié de ces
éléments appartiennent à la liste des morphèmes déjà découverts, alors les autres morphèmes sont
ajoutés à la liste. Prenons l’exemple du Tableau 4.8. Dans cet exemple, la chaîne de caractères
consider peut être suivie de 5 séquences différentes : +able,+ably,+ation, +ed et+ing. Trois
de ces séquences appartiennent à la liste des morphèmes déjà identifiés, ce qui correspond à plus
de la moitié. Les segments+able et+ably sont donc validés.
Morphèmes trouvés Mots Nouveaux morphèmes
considerable +able
considerably +ably
+ation consideration
+ed considered
+ing considering
Tab.4.8: Exemple de validation des nouveaux morphèmes tiré de [Déjean, 1998, p. 70].
Dans la mesure où les alignements que notre système produit par comparaison des mots
permettent aussi bien de découvrir de nouveaux préfixes que de nouveaux suffixes, nous avons
dû adapter cette méthode de validation. Nous validons les suffixes en fonction des préfixes avec
lesquels ils apparaissent, tandis que les préfixes sont validés en fonction des suffixes avec lesquels
ils apparaissent.
Prenons l’exemple de la Table 4.9, qui présente l’ensemble des mots non préfixés contenant
la basehous.
Mots Suffixes Bases Suffixes
de la potentielles inconnus
listeS
housekeeping +ekeeping
housing +ing
household +ehold
house’s +e’s
house +e
housed +ed
Tab. 4.9: Validation des suffixes pour les mots contenant la base hous et commençant par la
chaîne vide.
Chapitre 4. Analyse morphologique par segmentation
Soit |A
1|le nombre de suffixes appartenant à la listeS,|A
2|le nombre de bases potentielles
et |A
3| le nombre de suffixes inconnus. Pour les exemples de la Table 4.9, |A
1|=3, |A
2|= 2 et
|A
3|=1. Les suffixes inconnus, ainsi que les bases potentielles ne sont validés que si les conditions
suivantes sont remplies :
|A
1|+|A
2|
|A
1|+|A
2|+|A
3| ≥a et
|A
1|
|A
1|+|A
2| ≥b
La première inégalité permet de mesurer la proportion d’affixes déjà connus et de bases
potentielles par rapport à tous les affixes. La seconde inégalité complète la première et permet
d’éviter la validation de suffixes inconnus si le nombre de bases potentielles est très important
(ce qui peut arriver si la base correspond à un préfixe de la langue par exemple).
aetbsont des paramètres fixés manuellement. D’après nos expériences, les valeurs par défaut
suivantes permettent généralement d’obtenir de bons résultats : a≥0,8etb= 0,1.
Pour les exemples de la Table 4.9, et pour les valeurs suivantes : a = 0,8 et b = 0,1, les
bases potentiellesekeeping etehold ainsi que le nouveau suffixee’s sont validés (
3+23+2+1
>0,8et
3
3+2
>0,1).
La validation des préfixes se fait de manière totalement similaire. Considérons les exemples
de la Table 4.10. Il s’agit de l’ensemble de mots contenant la basehous et se terminant par le
suffixe+e. Dans ce cas,|A
1|=2 (la chaîne vide est toujours considérée comme un préfixe valide),
|A
2|= 4 et|A
3|=0. Les bases potentielles glass,green,light etware sont validées dans le cas où
a= 0,8 etb= 0,1 car
2+42+4+0
>0,8et
22+4
>0,1
Mots Préfixes Bases Préfixes
de la potentielles inconnus
listeP
glasshouse glass+
greenhouse green+
lighthouse light+
rehouse re+
warehouse ware+
house ²+
Tab. 4.10: Validation des préfixes pour les mots contenant la base “hous” et se terminant par
le suffixe ‘e’.
Nous validons de cette manière les préfixes apparaissant avec tous les suffixes possibles. De la
même manière, nous faisons une itération sur la liste des préfixes possibles, y compris la chaîne
vide, pour valider les suffixes.
Les segmentations valides de chaque mot sont stockées. Nous conservons ainsi tous les
ments proposés car un mot peut contenir plusieurs bases différentes et donc être aligné et
seg-menté plus d’une fois. Quand toutes les bases ont été analysées, nous examinons les segments
stockés pour chaque mot et supprimons les bases potentielles. Cette étape a pour objectif de
vérifier que la base contenue dans un segment identifié comme base potentielle a bien été
vali-dée lors de l’alignement du mot en fonction de cette base. Les bases potentielles sont donc soit
remplacées par d’autres segments, découverts au cours du processus (en entier ou seulement en
partie) ou alors étiquetées en fonction de leur position dans le mot par une des catégories
d’af-fixes (préfixe, suffixe ou segment de liaison) si aucun remplacement n’est possible. On rencontre
4.2. Description de la méthode
dée. Enfin, nous calculons la fréquence d’occurrence de chaque segment étiqueté. La fréquence
d’occurrence correspond au nombre de mots différents dont l’analyse inclut le segment.
Dans le document
Apprentissage de connaissances morphologiques pour l'acquisition automatique de ressources lexicales
(Page 95-100)