• Aucun résultat trouvé

Évaluation dans le cadre de Morpho Challenge 2005

Partie II Apprentissage de connaissances morphologiques 57

Chapitre 4 Analyse morphologique par segmentation 71

4.3 Évaluations

4.3.1 Évaluation dans le cadre de Morpho Challenge 2005

Le challenge de segmentation non supervisée de mots en morphèmes, ou Morpho Challenge,

a été organisé par Mikko Kurimo, Mathias Creutz et Krista Lagus de l’Université de Helsinki

(Neural Networks Research Centre) dans le cadre du réseau d’excellence européen PASCAL

(Pattern Analysis, Statistical Modelling and Computational Learning)

1

. Le challenge avait pour

objectif l’élaboration d’un algorithme d’apprentissage capable de segmenter les mots en

mor-phèmes. Les résultats de ce challenge, ouvert à tous, ont été présentés lors d’un atelier à Venise

le 12 avril 2006, conjointement à d’autres challenges du réseau PASCAL.

Nous allons dans ce qui suit présenter les objectifs de ce challenge, ainsi que les

compéti-tions proposées et les résultats obtenus par notre système [Bernhard, 2006c]. Cette présentation

constitue un résumé de l’analyse plus détaillée de [Kurimo et al., 2006].

L’intérêt pour la segmentation morphologique exprimé par ce challenge est lié à l’utilisation

possible des segments morphémiques pour diverses tâches telles que la traduction automatique, la

recherche d’information, la reconnaissance de la parole ou la modélisation statistique des langues

[Kurimo et al., 2006]. Les organisateurs ont fixé les objectifs suivants pour le challenge

2

:

– Apprendre quels phénomènes sont sous-jacents à la construction des mots dans les langues

naturelles.

informa-4.3. Évaluations

– Découvrir des approches utilisables pour un grand nombre de langues.

– Faire avancer les méthodes d’apprentissage automatique.

Deux compétitions différentes ont été proposées dans le cadre du challenge, afin de comparer

les différents systèmes :

Compétition 1 : comparaison des segmentations proposées à des segmentations de

réfé-rence basées sur les résultats de FINTWOL pour le finnois, CELEX pour l’anglais et un

analyseur morphologique développé à l’Université Bogaziçi pour le turc.

Compétition 2 : utilisation des segmentations pour découper les mots dans des corpus

en finnois et en turc afin d’entraîner un modèle de langage n-gramme utilisé pour des

expériences de reconnaissance de la parole.

Au total, le challenge a réuni 12 compétitrices et compétiteurs de 6 pays différents en Europe

et en Amérique du Nord, totalisant 14 méthodes différentes, dont 10 ont été appliquées aux

trois langues proposées. Près de la moitié des algorithmes ont été conçus par des étudiants de

l’université de Leeds au Royaume-Uni, dans le cadre d’un projet en traitement automatique des

langues.

Nous allons dans la suite décrire plus précisément les données fournies, les méthodes

d’éva-luation utilisées pour les deux compétitions ainsi que les résultats obtenus par notre système en

comparaison avec les autres systèmes ayant pris part à la compétition, y compris les différentes

versions du programme Morfessor développé par les organisateurs.

Données

Les données fournies par les organisateurs consistaient en des listes de mots associées à leur

fréquence, dans trois langues différentes : l’anglais (167 377 mots différents), le finnois (1 636 336

mots différents) et le turc (582 923 mots différents). Nous donnons ci-dessous un extrait de chaque

liste :

Anglais Finnois Turc

28 celebrities 1 ennustemallista 20 jazzcI

66 celebrity 2 ennustemallit 3 jazzcIdIr

5 celer 1 ennustemenetelmien 5 jazzcIlar

3 celeres 1 ennustemuutokset 1 jazzcIlardan

1 celeriac 1 ennustepalvelu 5 jazzcIlarI

3 celeries 12 ennustepäällikkö 3 jazzcInIn

2 celeris 1 ennustepäällikön 2 jazzcIsInIn

41 celerity 1 ennusteryhmä 2 jazzcIyI

99 celery 8 ennusteta 35 jazzda

76 celeste 525 ennustetaan 14 jazzdan

Ces listes de mots ont été extraites de diverses sources. La liste finnoise a été acquise à partir

de journaux, de dépêches et de livres en version électronique. La liste anglaise a été produite à

partir des publications et romans du Projet Gutenberg, une partie du corpus anglais Gigaword

ainsi que le corpus Brown. Enfin, la liste turque a été extraite de publications collectées sur

In-ternet, de journaux et de nouvelles sportives. Lors de l’extraction des mots, les organisateurs ont

choisi de conserver les marques du possessif en anglais (’s) mais ont supprimé les tirets. De plus,

compte tenu des sources utilisées, les listes de mots contiennent également des mots étrangers

qui peuvent nuire à la qualité des analyses. On trouve par exemple dans la liste de mots anglais

un certain nombre de mots allemands, comme Augenkrankheiten ou Geschlechtsempfindungen,

qui font partie des mots les plus longs de la liste.

Chapitre 4. Analyse morphologique par segmentation

Les listes de mots à traiter pour le challenge étaient considérablement plus grandes que celles

que nous avions eu à traiter jusqu’alors. Pour l’anglais, nous avons effectué l’apprentissage sur

la liste complète de mots. Cependant, pour le finnois et le turc, nous n’avons utilisé que les

300 000 mots les plus fréquents, essentiellement pour des problèmes de consommation excessive

de mémoire

1

.

Des exemples des segmentations attendues pour quelques centaines de mots dans chaque

langue ont également été fournis, ainsi que les programmes PERL permettant de calculer la

précision, le rappel et la F-mesure par rapport à ces exemples. Nous allons détailler ces mesures

dans la section suivante.

Compétition 1

Dans le cadre de la compétition 1, les segmentations proposées ont été comparées avec des

segmentations de référence dans les trois langues. Cette évaluation a été effectuée sur un

en-semble de mots tenu secret, comprenant 10% des mots des listes fournies pour chaque langue.

Le programme d’évaluation, ainsi qu’un échantillon des segmentations attendues, étaient

égale-ment téléchargeables sur le site Web du challenge. La Figure 4.6 présente un extrait de la trace

d’exécution de ce programme d’évaluation, pour une de nos soumissions au challenge en anglais.

DES: about, SUG: about, #hits: 0, #ins: 0, #del: 0

DES: accelerate, SUG: accelerat e, #hits: 0, #ins: 1, #del: 0

DES: accurst, SUG: accurs t, #hits: 0, #ins: 1, #del: 0

DES: act ion ’s, SUG: action ’s, #hits: 1, #ins: 0, #del: 1

DES: adult ’s, SUG: adul t ’s, #hits: 1, #ins: 1, #del: 0

DES: aero plane s ’, SUG: aero plane s ’, #hits: 3, #ins: 0, #del: 0

DES: agree ab ly, SUG: agree ably, #hits: 1, #ins: 0, #del: 1

Fig. 4.6: Trace de l’exécution du programme d’évaluation de MorphoChallenge.

Les segmentations désirées, présentes dans la liste des segmentations standard, sont marquées

par DES. Ainsi, la segmentation désirée pour le mot adult’s est adult ’s (les frontières

morphé-miques sont marquées par un espace). La segmentation proposée par notre système, marquée

par SUG, est adul t ’s. Pour l’évaluation, le nombre de frontières morphémiques correctement

identifiées (#hits), insérées (#ins) et supprimées (#del) est comptabilisé. Dans le cas du mot

adult’s, le système a correctement identifié la frontière entreadult et’s, mais a inséré une

fron-tière erronée entre adul et t’s. Il y a donc une frontière morphémique correctement identifiée

(#hits: 1) et une autre insérée (#ins: 1) pour ce mot.

A partir de ces décomptes, trois mesures d’évaluation sont calculées :

– La précision correspond au nombre de frontières correctement identifiées H divisé par

le nombre total de frontières proposées (somme du nombre de frontières correctement

identifiéesH et insérées I) : P recision´ = H

H+I

– Le rappel est le nombre de frontières correctement identifiées H divisé par le nombre

total de frontières attendues (somme du nombre de frontières correctement identifiéesH

et supprimées D) :Rappel = H

H+D

4.3. Évaluations

– La F-mesureest la moyenne harmonique de la précision et du rappel :

F −mesure= 2·H

2·H+I+D

Le système remportant la compétition pour chaque langue est celui qui obtient la plus grande

F-mesure.

Pour participer au challenge, nous avons sélectionné les meilleures valeurs pour les paramètres

N, a et b en fonction des résultats obtenus pour les données d’évaluation fournies (évaluation

partielle). Ces valeurs sont toutefois très proches pour les 3 langues. Le Tableau 4.12 détaille les

valeurs de paramètres utilisées et les résultats obtenus. La segmentation finale a été obtenue par

réutilisation de la liste de segments obtenus après apprentissage (voir Section 4.2.5, page 85). La

méthode 1 correspond aux résultats obtenus en appliquant la première fonction de coût (coutˆ

1

)

et la méthode 2 à ceux obtenus en appliquant la seconde (coutˆ

2

). La seconde mesure (évaluation

finale) correspond aux résultats obtenus lors de la compétition.

F-mesure

Évaluation partielle Évaluation finale

Langue N a b méthode 1 méthode 2 méthode 1 méthode 2

Anglais 5 0.85 0.1 64.29 61.05 66.6 62.4

Finnois 5 0.8 0.1 63.18 64.44 63.3 64.7

Turc 5 0.7 0.1 55.93 66.06 55.3 65.3

Tab. 4.12: Valeurs des paramètres et résultats obtenus pour la compétition 1 de

MorphoChal-lenge.

La Figure 4.7 détaille la F-mesure des 10 systèmes ayant concouru pour l’ensemble des

langues, ainsi que les résultats obtenus par les différentes versions du système Morfessor

déve-loppé par les organisateurs [Creutz et Lagus, 2006]. Les résultats de notre système sont indiqués

par Bernhard_1 pour la méthode 1 et Bernhard_2 pour la méthode 2.

Finnois Turc Anglais

0

10

20

30

40

50

60

70

F-mesure %

Choudri, Dang

Bernhard_1

Bernhard_2

Bordag_1

Bordag_2

Rehman, Hussain

Bonnier

Manley, Williamson

Jordan, Healy, Keselj

Atwell, Roberts

Morfessor

MorfessorML

MorfessorMAP

Fig.4.7: F-mesures obtenues par les différents systèmes pour la compétition 1 de

MorphoChal-lenge.

Chapitre 4. Analyse morphologique par segmentation

Notre système a remporté les compétitions à la fois pour le finnois et le turc. Ces résultats

sont d’autant plus remarquables que le système n’avait jamais été testé sur d’autres langues

que l’anglais ou le français au cours de sa conception. Il a toutefois été dépassé en finnois et en

turc par les algorithmes Morfessor ML et MAP (hors compétition car ils ont été développés par

les organisateurs). En anglais, la compétition a été remportée par le système

1

de S. Keshava et

E. Pitler, de l’université de Yale [Keshava et Pitler, 2006]. Le système, dénommé RePortS, a

obtenu une F-mesure de 76.8 %, dépassant ainsi également les systèmes Morfessor. Dans cette

compétition, notre système est arrivé en deuxième position.

Cette évaluation a permis de constater une dissymétrie dans les fonctions de coût utilisées.

La première obtient de meilleurs résultats pour l’anglais, dont la morphologie est relativement

simple. A l’inverse, la seconde fonction de coût obtient de meilleurs résultats pour le finnois et

le turc, avec une différence de 10 % de la F-mesure entre les deux fonctions en turc. La seconde

fonction permet en réalité de sélectionner un plus grand nombre de segments, ce qui explique

les meilleurs résultats obtenus en finnois et en turc, où le nombre des segments différents d’un

même mot est bien plus important.

Compétition 2

Pour la compétition 2, les segmentations ont été utilisées pour entraîner un modèle de

lan-gage n-gramme pour des expériences en reconnaissance de la parole. Le système remportant la

compétition pour chaque langue est celui qui obtient le taux d’erreur par lettre (LER) le plus

bas en reconnaissance de la parole. Le taux LER correspond à la somme du nombre de lettres

remplacées, insérées et supprimées divisé par le nombre de lettres dans la transcription correcte

des données.

Finnois*10 Turc*1

10

11

12

13

14

15

16

17

18

19

LER %

Choudri, Dang

Bernhard_1

Bernhard_2

Bordag_1

Bordag_2

Rehman, Hussain

Bonnier

Manley, Williamson

Jordan, Healy, Keselj

Atwell, Roberts

Morfessor

MorfessorML

MorfessorMAP

Fig. 4.8: LER des différents systèmes pour la compétition 2 de MorphoChallenge.

1

Les résultats de ce système n’apparaissent pas sur la Figure 4.7 car il n’a été utilisé que pour segmenter les

données en anglais.

4.3. Évaluations

La Figure 4.8 détaille les résultats obtenus par les 10 systèmes ayant concouru pour l’ensemble

des langues, ainsi que les résultats obtenus par les différentes versions du système Morfessor

développé par les organisateurs.

Notre système a également remporté la compétition 2 en turc, et en finnois, à égalité dans

cette dernière langue avec l’algorithme de S. Bordag [Bordag, 2006].

Les résultats obtenus par notre système au cours de ce challenge sont très bons, compte tenu

de la complexité des données à analyser. Le finnois et le turc sont des langues agglutinantes

qui comprennent énormément de suffixes et nous n’avions jamais traité ces langues avant de

participer au challenge. De plus, nous étions dans l’incapacité de juger les résultats obtenus et

donc dans l’obligation de nous fier aux données d’évaluation. La complexité était également liée

aux listes de mots fournies, qui étaient d’une taille importante (allant d’environ 170 000 mots

pour l’anglais à plus de 1 600 000 mots en finnois) et qui contenaient de nombreux mots non

attestés (mots étrangers, noms propres, mots mal orthographiés).