Partie II Apprentissage de connaissances morphologiques 57
Chapitre 4 Analyse morphologique par segmentation 71
4.3 Évaluations
4.3.1 Évaluation dans le cadre de Morpho Challenge 2005
Le challenge de segmentation non supervisée de mots en morphèmes, ou Morpho Challenge,
a été organisé par Mikko Kurimo, Mathias Creutz et Krista Lagus de l’Université de Helsinki
(Neural Networks Research Centre) dans le cadre du réseau d’excellence européen PASCAL
(Pattern Analysis, Statistical Modelling and Computational Learning)
1. Le challenge avait pour
objectif l’élaboration d’un algorithme d’apprentissage capable de segmenter les mots en
mor-phèmes. Les résultats de ce challenge, ouvert à tous, ont été présentés lors d’un atelier à Venise
le 12 avril 2006, conjointement à d’autres challenges du réseau PASCAL.
Nous allons dans ce qui suit présenter les objectifs de ce challenge, ainsi que les
compéti-tions proposées et les résultats obtenus par notre système [Bernhard, 2006c]. Cette présentation
constitue un résumé de l’analyse plus détaillée de [Kurimo et al., 2006].
L’intérêt pour la segmentation morphologique exprimé par ce challenge est lié à l’utilisation
possible des segments morphémiques pour diverses tâches telles que la traduction automatique, la
recherche d’information, la reconnaissance de la parole ou la modélisation statistique des langues
[Kurimo et al., 2006]. Les organisateurs ont fixé les objectifs suivants pour le challenge
2:
– Apprendre quels phénomènes sont sous-jacents à la construction des mots dans les langues
naturelles.
informa-4.3. Évaluations
– Découvrir des approches utilisables pour un grand nombre de langues.
– Faire avancer les méthodes d’apprentissage automatique.
Deux compétitions différentes ont été proposées dans le cadre du challenge, afin de comparer
les différents systèmes :
– Compétition 1 : comparaison des segmentations proposées à des segmentations de
réfé-rence basées sur les résultats de FINTWOL pour le finnois, CELEX pour l’anglais et un
analyseur morphologique développé à l’Université Bogaziçi pour le turc.
– Compétition 2 : utilisation des segmentations pour découper les mots dans des corpus
en finnois et en turc afin d’entraîner un modèle de langage n-gramme utilisé pour des
expériences de reconnaissance de la parole.
Au total, le challenge a réuni 12 compétitrices et compétiteurs de 6 pays différents en Europe
et en Amérique du Nord, totalisant 14 méthodes différentes, dont 10 ont été appliquées aux
trois langues proposées. Près de la moitié des algorithmes ont été conçus par des étudiants de
l’université de Leeds au Royaume-Uni, dans le cadre d’un projet en traitement automatique des
langues.
Nous allons dans la suite décrire plus précisément les données fournies, les méthodes
d’éva-luation utilisées pour les deux compétitions ainsi que les résultats obtenus par notre système en
comparaison avec les autres systèmes ayant pris part à la compétition, y compris les différentes
versions du programme Morfessor développé par les organisateurs.
Données
Les données fournies par les organisateurs consistaient en des listes de mots associées à leur
fréquence, dans trois langues différentes : l’anglais (167 377 mots différents), le finnois (1 636 336
mots différents) et le turc (582 923 mots différents). Nous donnons ci-dessous un extrait de chaque
liste :
Anglais Finnois Turc
28 celebrities 1 ennustemallista 20 jazzcI
66 celebrity 2 ennustemallit 3 jazzcIdIr
5 celer 1 ennustemenetelmien 5 jazzcIlar
3 celeres 1 ennustemuutokset 1 jazzcIlardan
1 celeriac 1 ennustepalvelu 5 jazzcIlarI
3 celeries 12 ennustepäällikkö 3 jazzcInIn
2 celeris 1 ennustepäällikön 2 jazzcIsInIn
41 celerity 1 ennusteryhmä 2 jazzcIyI
99 celery 8 ennusteta 35 jazzda
76 celeste 525 ennustetaan 14 jazzdan
Ces listes de mots ont été extraites de diverses sources. La liste finnoise a été acquise à partir
de journaux, de dépêches et de livres en version électronique. La liste anglaise a été produite à
partir des publications et romans du Projet Gutenberg, une partie du corpus anglais Gigaword
ainsi que le corpus Brown. Enfin, la liste turque a été extraite de publications collectées sur
In-ternet, de journaux et de nouvelles sportives. Lors de l’extraction des mots, les organisateurs ont
choisi de conserver les marques du possessif en anglais (’s) mais ont supprimé les tirets. De plus,
compte tenu des sources utilisées, les listes de mots contiennent également des mots étrangers
qui peuvent nuire à la qualité des analyses. On trouve par exemple dans la liste de mots anglais
un certain nombre de mots allemands, comme Augenkrankheiten ou Geschlechtsempfindungen,
qui font partie des mots les plus longs de la liste.
Chapitre 4. Analyse morphologique par segmentation
Les listes de mots à traiter pour le challenge étaient considérablement plus grandes que celles
que nous avions eu à traiter jusqu’alors. Pour l’anglais, nous avons effectué l’apprentissage sur
la liste complète de mots. Cependant, pour le finnois et le turc, nous n’avons utilisé que les
300 000 mots les plus fréquents, essentiellement pour des problèmes de consommation excessive
de mémoire
1.
Des exemples des segmentations attendues pour quelques centaines de mots dans chaque
langue ont également été fournis, ainsi que les programmes PERL permettant de calculer la
précision, le rappel et la F-mesure par rapport à ces exemples. Nous allons détailler ces mesures
dans la section suivante.
Compétition 1
Dans le cadre de la compétition 1, les segmentations proposées ont été comparées avec des
segmentations de référence dans les trois langues. Cette évaluation a été effectuée sur un
en-semble de mots tenu secret, comprenant 10% des mots des listes fournies pour chaque langue.
Le programme d’évaluation, ainsi qu’un échantillon des segmentations attendues, étaient
égale-ment téléchargeables sur le site Web du challenge. La Figure 4.6 présente un extrait de la trace
d’exécution de ce programme d’évaluation, pour une de nos soumissions au challenge en anglais.
DES: about, SUG: about, #hits: 0, #ins: 0, #del: 0
DES: accelerate, SUG: accelerat e, #hits: 0, #ins: 1, #del: 0
DES: accurst, SUG: accurs t, #hits: 0, #ins: 1, #del: 0
DES: act ion ’s, SUG: action ’s, #hits: 1, #ins: 0, #del: 1
DES: adult ’s, SUG: adul t ’s, #hits: 1, #ins: 1, #del: 0
DES: aero plane s ’, SUG: aero plane s ’, #hits: 3, #ins: 0, #del: 0
DES: agree ab ly, SUG: agree ably, #hits: 1, #ins: 0, #del: 1
Fig. 4.6: Trace de l’exécution du programme d’évaluation de MorphoChallenge.
Les segmentations désirées, présentes dans la liste des segmentations standard, sont marquées
par DES. Ainsi, la segmentation désirée pour le mot adult’s est adult ’s (les frontières
morphé-miques sont marquées par un espace). La segmentation proposée par notre système, marquée
par SUG, est adul t ’s. Pour l’évaluation, le nombre de frontières morphémiques correctement
identifiées (#hits), insérées (#ins) et supprimées (#del) est comptabilisé. Dans le cas du mot
adult’s, le système a correctement identifié la frontière entreadult et’s, mais a inséré une
fron-tière erronée entre adul et t’s. Il y a donc une frontière morphémique correctement identifiée
(#hits: 1) et une autre insérée (#ins: 1) pour ce mot.
A partir de ces décomptes, trois mesures d’évaluation sont calculées :
– La précision correspond au nombre de frontières correctement identifiées H divisé par
le nombre total de frontières proposées (somme du nombre de frontières correctement
identifiéesH et insérées I) : P recision´ = H
H+I
– Le rappel est le nombre de frontières correctement identifiées H divisé par le nombre
total de frontières attendues (somme du nombre de frontières correctement identifiéesH
et supprimées D) :Rappel = H
H+D
4.3. Évaluations
– La F-mesureest la moyenne harmonique de la précision et du rappel :
F −mesure= 2·H
2·H+I+D
Le système remportant la compétition pour chaque langue est celui qui obtient la plus grande
F-mesure.
Pour participer au challenge, nous avons sélectionné les meilleures valeurs pour les paramètres
N, a et b en fonction des résultats obtenus pour les données d’évaluation fournies (évaluation
partielle). Ces valeurs sont toutefois très proches pour les 3 langues. Le Tableau 4.12 détaille les
valeurs de paramètres utilisées et les résultats obtenus. La segmentation finale a été obtenue par
réutilisation de la liste de segments obtenus après apprentissage (voir Section 4.2.5, page 85). La
méthode 1 correspond aux résultats obtenus en appliquant la première fonction de coût (coutˆ
1)
et la méthode 2 à ceux obtenus en appliquant la seconde (coutˆ
2). La seconde mesure (évaluation
finale) correspond aux résultats obtenus lors de la compétition.
F-mesure
Évaluation partielle Évaluation finale
Langue N a b méthode 1 méthode 2 méthode 1 méthode 2
Anglais 5 0.85 0.1 64.29 61.05 66.6 62.4
Finnois 5 0.8 0.1 63.18 64.44 63.3 64.7
Turc 5 0.7 0.1 55.93 66.06 55.3 65.3
Tab. 4.12: Valeurs des paramètres et résultats obtenus pour la compétition 1 de
MorphoChal-lenge.
La Figure 4.7 détaille la F-mesure des 10 systèmes ayant concouru pour l’ensemble des
langues, ainsi que les résultats obtenus par les différentes versions du système Morfessor
déve-loppé par les organisateurs [Creutz et Lagus, 2006]. Les résultats de notre système sont indiqués
par Bernhard_1 pour la méthode 1 et Bernhard_2 pour la méthode 2.
Finnois Turc Anglais
0
10
20
30
40
50
60
70
F-mesure %
Choudri, Dang
Bernhard_1
Bernhard_2
Bordag_1
Bordag_2
Rehman, Hussain
Bonnier
Manley, Williamson
Jordan, Healy, Keselj
Atwell, Roberts
Morfessor
MorfessorML
MorfessorMAP
Fig.4.7: F-mesures obtenues par les différents systèmes pour la compétition 1 de
MorphoChal-lenge.
Chapitre 4. Analyse morphologique par segmentation
Notre système a remporté les compétitions à la fois pour le finnois et le turc. Ces résultats
sont d’autant plus remarquables que le système n’avait jamais été testé sur d’autres langues
que l’anglais ou le français au cours de sa conception. Il a toutefois été dépassé en finnois et en
turc par les algorithmes Morfessor ML et MAP (hors compétition car ils ont été développés par
les organisateurs). En anglais, la compétition a été remportée par le système
1de S. Keshava et
E. Pitler, de l’université de Yale [Keshava et Pitler, 2006]. Le système, dénommé RePortS, a
obtenu une F-mesure de 76.8 %, dépassant ainsi également les systèmes Morfessor. Dans cette
compétition, notre système est arrivé en deuxième position.
Cette évaluation a permis de constater une dissymétrie dans les fonctions de coût utilisées.
La première obtient de meilleurs résultats pour l’anglais, dont la morphologie est relativement
simple. A l’inverse, la seconde fonction de coût obtient de meilleurs résultats pour le finnois et
le turc, avec une différence de 10 % de la F-mesure entre les deux fonctions en turc. La seconde
fonction permet en réalité de sélectionner un plus grand nombre de segments, ce qui explique
les meilleurs résultats obtenus en finnois et en turc, où le nombre des segments différents d’un
même mot est bien plus important.
Compétition 2
Pour la compétition 2, les segmentations ont été utilisées pour entraîner un modèle de
lan-gage n-gramme pour des expériences en reconnaissance de la parole. Le système remportant la
compétition pour chaque langue est celui qui obtient le taux d’erreur par lettre (LER) le plus
bas en reconnaissance de la parole. Le taux LER correspond à la somme du nombre de lettres
remplacées, insérées et supprimées divisé par le nombre de lettres dans la transcription correcte
des données.
Finnois*10 Turc*1
10
11
12
13
14
15
16
17
18
19
LER %
Choudri, Dang
Bernhard_1
Bernhard_2
Bordag_1
Bordag_2
Rehman, Hussain
Bonnier
Manley, Williamson
Jordan, Healy, Keselj
Atwell, Roberts
Morfessor
MorfessorML
MorfessorMAP
Fig. 4.8: LER des différents systèmes pour la compétition 2 de MorphoChallenge.
1
Les résultats de ce système n’apparaissent pas sur la Figure 4.7 car il n’a été utilisé que pour segmenter les
données en anglais.
4.3. Évaluations
La Figure 4.8 détaille les résultats obtenus par les 10 systèmes ayant concouru pour l’ensemble
des langues, ainsi que les résultats obtenus par les différentes versions du système Morfessor
développé par les organisateurs.
Notre système a également remporté la compétition 2 en turc, et en finnois, à égalité dans
cette dernière langue avec l’algorithme de S. Bordag [Bordag, 2006].
Les résultats obtenus par notre système au cours de ce challenge sont très bons, compte tenu
de la complexité des données à analyser. Le finnois et le turc sont des langues agglutinantes
qui comprennent énormément de suffixes et nous n’avions jamais traité ces langues avant de
participer au challenge. De plus, nous étions dans l’incapacité de juger les résultats obtenus et
donc dans l’obligation de nous fier aux données d’évaluation. La complexité était également liée
aux listes de mots fournies, qui étaient d’une taille importante (allant d’environ 170 000 mots
pour l’anglais à plus de 1 600 000 mots en finnois) et qui contenaient de nombreux mots non
attestés (mots étrangers, noms propres, mots mal orthographiés).
Dans le document
Apprentissage de connaissances morphologiques pour l'acquisition automatique de ressources lexicales
(Page 103-108)