Chapitre 2 État de l’art
2.3 Études méthodologiques antérieures
2.3.2 Études sur l’adaptation à une autre langue
Il s’agit ici d’adapter à une nouvelle langue une méthode existante d’extraction d’information. Il
s’agit ici de passer d’une langue à une autre sans utiliser un pivot, c’est donc une « projection
translingue » (terme peu exact, mais calqué de l’anglais, équivalent à « portage linguistique ») qui
correspond à nos objectifs.
L'extraction d’information est une application importante pour le traitement du langage naturel.
(Riloff, Schafer et al. 2002) montrent que les systèmes d’extraction d’information qui dépendent des
outils d'analyse et des dictionnaires spécialisés et spécifiques à une langue ne sont pas facilement
portables à de nouvelles langues.
2.3.2.1 Brève présentation
Nous commençons par un brève historique des systèmes d’extraction d’informations et leur
portage linguistique.
2.3.2.1.1 Historique
Ces dernières années, il y a eu une foison de projets autour de l’idée du « portage linguistique ».
(Walker, Fromer et al. 1998) ont développé des modèles de portage linguistique pour des étiquettes de
parties du discours, de groupes nominaux, d’entités nommées, et d'analyse morphologique
(lemmatisation) pour quatre langues. (Ngai and Florian 2001) ont développé les modèles pour porter
des analyseurs de dépendance de l'anglais vers le chinois. Il y a eu également un gros travail sur le
portage linguistique et le développement des ontologies et des WordNets pour différentes langues
(Atserias, Climent et al. 1997).
Les systèmes d’extraction d’information sont coûteux à construire parce qu'ils exigent des textes,
des outils d'analyse, et des dictionnaires spécialisés pour chaque domaine d'application et pour chaque
langue naturelle. Une solution possible consiste à porter les ressources linguistiques, les outils, et la
connaissance du domaine depuis des langues riches en de telles ressources vers des langues pauvres en
ces même ressources.
Étant donné un système d’extraction d’information pour une langue source (par exemple, anglais),
il est possible de porter ses annotations aux textes qui leur correspondent dans une autre langue (par
exemple, français), et d’apprendre automatiquement les règles d'extraction d’information pour la
nouvelle langue. Nous présentons dans ce qui suit, un cas de portage (anglais vers français) d’un tel
système pour le domaine d’accidents d'avions.
2.3.2.1.2 Portage linguistique
Il y a plusieurs stratégies pour porter les annotations anglaises d’extraction d’information vers la
langue française, comme l'utilisation de l’apprentissage pour créer des règles françaises d'extraction
des annotations françaises.
La plupart des systèmes d’extraction d’information emploient un certain modèle d'extraction pour
identifier et extraire l'information appropriée. Plusieurs techniques ont été développées pour produire
automatiquement des modèles d'extraction pour un nouveau domaine : PALKA (Kim and Moldovan
1993), AutoSlog (Riloff 1993), CRYSTAL (Soderland, Fisher et al. 1995), RAPIER (Califf 1998),
SRV (Freitag 1998), meta-bootstrapping (Riloff and Jones 1999), et ExDisco (Yangarber, Grishman
et al. 2000).
Pour ce travail, AutoSlog-TS (Riloff 1996) a été utilisé pour produire un modèle d’extraction
d’information pour le domaine des accidents d'avions. AutoSlog-TS est un dérivé d'AutoSlog qui
produit automatiquement des modèles d'extraction en recueillant des statistiques d'un corpus de textes
appropriés (dans le domaine) et de textes inappropriés (hors domaine).
Chaque modèle d'extraction est une expression régulière (sur des primitives linguistiques) qui peut
extraire des groupes nominaux à partir d'une des trois fonctions syntaxiques : objet, objet direct, ou
objet d'une préposition. Par exemple, les modèles suivants ont pu extraire des véhicules impliqués
dans un accident d'avion: “<subject> crashed”, “hijacked <direct-object>”, et “wreckage <np>”.
2.3.2.2 Type des énoncés traités
Dans ce travail, les participants se sont concentrés sur le domaine des accidents d'avion pour
extraire la description de l’aéronef impliqué dans l'accident, la description des victimes de l'accident,
et la description de l'endroit de l'accident.
AutoSlog-TS est initialisé en utilisant des textes relatant des accidents d'avion qui ont déjà eu lieu.
De nouveaux textes sont utilisés pour tester le système. Un humain doit choisir la liste de textes qui
peuvent servir comme modèles pour l’extraction d’information.
Figure 23 : exemple de texte annoté et aligné au niveau des mots
2.3.2.3 Méthode et ressources
2.3.2.3.1 Méthode
La méthode proposée par (Riloff, Schafer et al. 2002) est basée sur celle de (Yarowsky, Ngai et al.
2001). Elle utilise un système de traduction automatique commercial. La méthode consiste à appliquer
les étapes suivantes :
Traduction par système de TA
Un système de TA commercial est utilisé pour produire un corpus parallèle artificiel. Si les erreurs
de TA présentent un problème substantiel, on peut recourir à de gros corpus bilingues, comme le
corpus canadien « Hansard ».
Alignement au niveau des phrases
Cette tâche était triviale car chaque phrase possède un numéro préservé par le système de TA.
Alignement au niveau des mots
Cette tâche est effectuée en utilisant le système Giza++ (Och and Ney 2000).
Transfert des annotations
Il s’agit de porter des annotations anglaises d’extraction d’information à l’aide du mécanisme
décrit dans (Yarowsky, Ngai et al. 2001) rapprochant des paires de phrases annotées, comme le montre
la Figure 23.
Apprentissage d'un extracteur de contenu pour la nouvelle langue
Afin d’apprendre les règles d’extraction d’information pour le français, l’outil TBL (TBL :
Transformation-Based Learning) (Brill 1995) a été adopté. Cet outil est bien adapté à cette tâche,
parce qu'il emploie des modèles de règles comme base pour l’apprentissage, et que ces modèles
peuvent être facilement réutilisés pour de nouveaux textes français.
Rule Condition Rule Effecct
1. w
1= crashed w
2= in w
3is LOC
2. w
1= wreckage w
2= of w
3is VEH
3. w
1= injuring w
2is VIC
4. w
1= NOUN w
2= crashed w
1is VEH
5. w
1= VERB w
2= down w
3= in w
4is LOC
6. w
1= ε w
2= ART w
4-7= crashed w
3is VEH
7. w
2= COMMA w
3= which w
4= crashed w
1is VEH
8. w
1= in w
2= LOCATION w
3= NOUN w
3is LOC
9. w
1= VERB w
2= VICTIM w
3= NOUN w
3is VIC
10. w
1= ART w
2= VEHICLE w
2is VEH
Tableau 7 : exemples de règles TBL
(LOC=location, VEH=vehicle, VIC=victim)
La règle 5 relie un trigramme verbal comme « went down in », « shot down in », et « came down
in » à un circonstant de lieu.
Dans ce travail, l’absence d’un analyseur syntaxique a été compensée par des modèles de règles
tels que des modèles de règles de capture du sujet. Par exemple :
• la règle 6 recherche un article au début d'une phrase et le mot "crashed" un peu après, et en
déduit que l'article appartient à un groupe nominal dont la tête (w3) est un véhicule.
• la règle 7 cherche les trois marques "COMMA which crashed" et en déduit que le mot
précédant la virgule est un véhicule.
Des modèles de règles d’enrichissement des mots ont été conçus aussi pour regarder les mots qui
ont déjà été marqués et pour prolonger les frontières de l'annotation afin de couvrir un groupe nominal
complet. Par exemple :
• les règles 8 et 9 étendent les annotations « victim » et « location » vers la droite,
• la règle 10 étend l’annotation « vehicle » vers la gauche.
Le principe du TBL se base sur l’utilisation de plusieurs processus possibles et le choix de celui
qui donne le meilleur résultat. La Figure 24 montre les différents processus possibles pour appliquer le
TBL. Les données des deux corpus anglais et français sont divisées en deux sous-ensembles :
non-annotées (« plain ») et annotées (« antd » ou « Tst ») (marqués en blanc dans la figure) et leurs images
obtenues par traduction (marquées en noir dans la figure).
Figure 24 : portage d’un EC basé sur la TBL
Nous détaillons par exemple la voie T
E1→P1→T
F1 :
Entrée = corpus anglais d’entraînement (données anglaises annotées),
corpus anglais de développement (données anglaises non-annotées),
et corpus de test (données françaises non-annotées)
Processus = T
E1→P1→T
F1
Sortie = corpus français (image du corpus anglais de développement),
et corpus français de test annoté (données françaises annotées)
L’outil TBL est entraîné pour l’anglais sur un ensemble de 140 K mots de données annotées et les
règles de TBL apprises sont appliquées sur le sous-corpus anglais non-annoté. Les annotations seront
portées par la suite, via le système d’alignement au niveau des mots Giza++, sur l’image en français
« MT-French ». Ensuite, TBL est entraîné sur les annotations de « MT-French », éventuellement
post-éditées, et les règles apprises sont appliquées aux données de test du français.
Un autre chemin plus direct est T
E4→P4→French-Test, dans lequel l’outil TBL adapté à l’anglais,
est appliqué immédiatement sur le résultat de l’alignement au niveau des mots de la traduction «
MT-English » des données test du français. Les annotations de « MT-English » seront traduites directement
Entrée = corpus français de test (données françaises non-annotées)
Processus = T
E4→P4→French-Test
Sortie = corpus anglais de test annoté (image du corpus français de test),
et corpus français de test annoté par projection
2.3.2.3.2 Ressources
En ce qui concerne l’apprentissage de l’extracteur de contenu, une expérimentation a été faite à
partir de deux types de données : les annotations automatiques et les annotations humaines. 56
modèles de règles indépendants ont été définis.
Les corpus de développement utilisés dans ces expériences ont été extraits à partir de textes en
anglais et en français tirés de journaux concernant l’aéronautique. Ils ont été créés automatiquement en
recherchant les articles qui contiennent des mots-clés relatifs aux accidents d'avion. Deux corpus dans
les deux langues ont été extraits à partir de ces journaux. Le corpus anglais contient
approximativement 420.000 mots, et le corpus français contient environ 150.000 mots.
Pour chaque langue, des humains ont fait l'annotation à l’aide d’étiquettes de style SGML. Ces
étiquettes indiquent l'emplacement de l’accident, l’aéronef impliqué dans l’accident, et des
informations sur les victimes (morts, blessés, survivants). Un tiers du corpus anglais et la moitié du
corpus français ont été annotés.
2.3.2.4 Domaine d’application
L’application d’extraction d’information, conçue initialement pour l’anglais, a été portée vers le
français en suivant les étapes détaillées précédemment. Une évaluation a été faite par les auteurs. En
ce qui concerne l’annotation, le nombre de coïncidences exactes (exact-word-match
10), alignement au
niveau du mot, varie de 16 à 31 % pour le français et de 24 à 27 % pour l'anglais.
Ces chiffres relativement bas suggèrent que le critère est trop strict. Le nombre d'accords (
Exact-NP-match
11), alignement au niveau segment, était beaucoup plus élevé, de 43-54 % pour le français et
de 51-59 % pour l’anglais.
L’approche (exact-word-match) est très rigoureuse parce que les annotateurs ne sont parfois pas
d'accord sur certains termes (par exemple, "Boeing 727" contre "Nouveau Boeing 727"). Avec
l’utilisation de la mesure (Exact-NP-match), ces deux termes se correspondent.
Une évaluation des différents processus utilisés est résumée dans le Tableau 8.
La meilleure performance est celle du processus T
E4→P4→French-Test, dans lequel il y a deux
étapes seulement. La F-mesure du meilleur processus pour le français monolingue est de 45%, elle est
donc inférieure de 9% à celle de l’anglais monolingue (54%).
Sachant que les systèmes de TA ne sont pas disponibles pour tous les couples de langues ou sont
très mauvais, l’application de cette technique à d’autres couples de langues distantes reste une
question ouverte et les difficultés qui peuvent être rencontrées dépendent des couples de langues
choisis.
10
On vérifie si deux mots ont la même étiquette.
Projection et chemin d’entraînement Précision Rappel F-mesure
T
E1 : application du TBL
Eà English-plain
P1 : projection sur MT-French (English-Plain)
T
F1 : entraînement du TBL & application sur FrTest
0,69 0,24 0,36
Utilisation des annotations humaines à partir de Eng-Antd
P
ha2 : projection sur MT-French (English-Antd)
T
ha2 : entraînement TBL & application à FrTest
0,56 0,29 0,39
T
E3 : application du TBL
Eà MT-Eng (FrenchPlain)
P3 : projection sur French-Plain
T
F3 : entraînement du TBL & application sur FrTest
0,49 0,34 0,40
T
E4 : application du TBL
Eà MT-Eng (FrenchTest)
P4 : projection directe sur French-Test 0,49 0,41 0,45
Tableau 8 : performance du portage de l’EC basée sur le TBL
Dans le document
Multilinguïsation des systèmes de e-commerce traitant des énoncés spontanés en langue naturelle
(Page 56-62)