• Aucun résultat trouvé

Chapitre 2 État de l’art

2.3 Études méthodologiques antérieures

2.3.2 Études sur l’adaptation à une autre langue

Il s’agit ici d’adapter à une nouvelle langue une méthode existante d’extraction d’information. Il

s’agit ici de passer d’une langue à une autre sans utiliser un pivot, c’est donc une « projection

translingue » (terme peu exact, mais calqué de l’anglais, équivalent à « portage linguistique ») qui

correspond à nos objectifs.

L'extraction d’information est une application importante pour le traitement du langage naturel.

(Riloff, Schafer et al. 2002) montrent que les systèmes d’extraction d’information qui dépendent des

outils d'analyse et des dictionnaires spécialisés et spécifiques à une langue ne sont pas facilement

portables à de nouvelles langues.

2.3.2.1 Brève présentation

Nous commençons par un brève historique des systèmes d’extraction d’informations et leur

portage linguistique.

2.3.2.1.1 Historique

Ces dernières années, il y a eu une foison de projets autour de l’idée du « portage linguistique ».

(Walker, Fromer et al. 1998) ont développé des modèles de portage linguistique pour des étiquettes de

parties du discours, de groupes nominaux, d’entités nommées, et d'analyse morphologique

(lemmatisation) pour quatre langues. (Ngai and Florian 2001) ont développé les modèles pour porter

des analyseurs de dépendance de l'anglais vers le chinois. Il y a eu également un gros travail sur le

portage linguistique et le développement des ontologies et des WordNets pour différentes langues

(Atserias, Climent et al. 1997).

Les systèmes d’extraction d’information sont coûteux à construire parce qu'ils exigent des textes,

des outils d'analyse, et des dictionnaires spécialisés pour chaque domaine d'application et pour chaque

langue naturelle. Une solution possible consiste à porter les ressources linguistiques, les outils, et la

connaissance du domaine depuis des langues riches en de telles ressources vers des langues pauvres en

ces même ressources.

Étant donné un système d’extraction d’information pour une langue source (par exemple, anglais),

il est possible de porter ses annotations aux textes qui leur correspondent dans une autre langue (par

exemple, français), et d’apprendre automatiquement les règles d'extraction d’information pour la

nouvelle langue. Nous présentons dans ce qui suit, un cas de portage (anglais vers français) d’un tel

système pour le domaine d’accidents d'avions.

2.3.2.1.2 Portage linguistique

Il y a plusieurs stratégies pour porter les annotations anglaises d’extraction d’information vers la

langue française, comme l'utilisation de l’apprentissage pour créer des règles françaises d'extraction

des annotations françaises.

La plupart des systèmes d’extraction d’information emploient un certain modèle d'extraction pour

identifier et extraire l'information appropriée. Plusieurs techniques ont été développées pour produire

automatiquement des modèles d'extraction pour un nouveau domaine : PALKA (Kim and Moldovan

1993), AutoSlog (Riloff 1993), CRYSTAL (Soderland, Fisher et al. 1995), RAPIER (Califf 1998),

SRV (Freitag 1998), meta-bootstrapping (Riloff and Jones 1999), et ExDisco (Yangarber, Grishman

et al. 2000).

Pour ce travail, AutoSlog-TS (Riloff 1996) a été utilisé pour produire un modèle d’extraction

d’information pour le domaine des accidents d'avions. AutoSlog-TS est un dérivé d'AutoSlog qui

produit automatiquement des modèles d'extraction en recueillant des statistiques d'un corpus de textes

appropriés (dans le domaine) et de textes inappropriés (hors domaine).

Chaque modèle d'extraction est une expression régulière (sur des primitives linguistiques) qui peut

extraire des groupes nominaux à partir d'une des trois fonctions syntaxiques : objet, objet direct, ou

objet d'une préposition. Par exemple, les modèles suivants ont pu extraire des véhicules impliqués

dans un accident d'avion: “<subject> crashed”, “hijacked <direct-object>”, et “wreckage <np>”.

2.3.2.2 Type des énoncés traités

Dans ce travail, les participants se sont concentrés sur le domaine des accidents d'avion pour

extraire la description de l’aéronef impliqué dans l'accident, la description des victimes de l'accident,

et la description de l'endroit de l'accident.

AutoSlog-TS est initialisé en utilisant des textes relatant des accidents d'avion qui ont déjà eu lieu.

De nouveaux textes sont utilisés pour tester le système. Un humain doit choisir la liste de textes qui

peuvent servir comme modèles pour l’extraction d’information.

Figure 23 : exemple de texte annoté et aligné au niveau des mots

2.3.2.3 Méthode et ressources

2.3.2.3.1 Méthode

La méthode proposée par (Riloff, Schafer et al. 2002) est basée sur celle de (Yarowsky, Ngai et al.

2001). Elle utilise un système de traduction automatique commercial. La méthode consiste à appliquer

les étapes suivantes :

Traduction par système de TA

Un système de TA commercial est utilisé pour produire un corpus parallèle artificiel. Si les erreurs

de TA présentent un problème substantiel, on peut recourir à de gros corpus bilingues, comme le

corpus canadien « Hansard ».

Alignement au niveau des phrases

Cette tâche était triviale car chaque phrase possède un numéro préservé par le système de TA.

Alignement au niveau des mots

Cette tâche est effectuée en utilisant le système Giza++ (Och and Ney 2000).

Transfert des annotations

Il s’agit de porter des annotations anglaises d’extraction d’information à l’aide du mécanisme

décrit dans (Yarowsky, Ngai et al. 2001) rapprochant des paires de phrases annotées, comme le montre

la Figure 23.

Apprentissage d'un extracteur de contenu pour la nouvelle langue

Afin d’apprendre les règles d’extraction d’information pour le français, l’outil TBL (TBL :

Transformation-Based Learning) (Brill 1995) a été adopté. Cet outil est bien adapté à cette tâche,

parce qu'il emploie des modèles de règles comme base pour l’apprentissage, et que ces modèles

peuvent être facilement réutilisés pour de nouveaux textes français.

Rule Condition Rule Effecct

1. w

1

= crashed w

2

= in w

3

is LOC

2. w

1

= wreckage w

2

= of w

3

is VEH

3. w

1

= injuring w

2

is VIC

4. w

1

= NOUN w

2

= crashed w

1

is VEH

5. w

1

= VERB w

2

= down w

3

= in w

4

is LOC

6. w

1

= ε w

2

= ART w

4-7

= crashed w

3

is VEH

7. w

2

= COMMA w

3

= which w

4

= crashed w

1

is VEH

8. w

1

= in w

2

= LOCATION w

3

= NOUN w

3

is LOC

9. w

1

= VERB w

2

= VICTIM w

3

= NOUN w

3

is VIC

10. w

1

= ART w

2

= VEHICLE w

2

is VEH

Tableau 7 : exemples de règles TBL

(LOC=location, VEH=vehicle, VIC=victim)

La règle 5 relie un trigramme verbal comme « went down in », « shot down in », et « came down

in » à un circonstant de lieu.

Dans ce travail, l’absence d’un analyseur syntaxique a été compensée par des modèles de règles

tels que des modèles de règles de capture du sujet. Par exemple :

• la règle 6 recherche un article au début d'une phrase et le mot "crashed" un peu après, et en

déduit que l'article appartient à un groupe nominal dont la tête (w3) est un véhicule.

• la règle 7 cherche les trois marques "COMMA which crashed" et en déduit que le mot

précédant la virgule est un véhicule.

Des modèles de règles d’enrichissement des mots ont été conçus aussi pour regarder les mots qui

ont déjà été marqués et pour prolonger les frontières de l'annotation afin de couvrir un groupe nominal

complet. Par exemple :

• les règles 8 et 9 étendent les annotations « victim » et « location » vers la droite,

• la règle 10 étend l’annotation « vehicle » vers la gauche.

Le principe du TBL se base sur l’utilisation de plusieurs processus possibles et le choix de celui

qui donne le meilleur résultat. La Figure 24 montre les différents processus possibles pour appliquer le

TBL. Les données des deux corpus anglais et français sont divisées en deux sous-ensembles :

non-annotées (« plain ») et annotées (« antd » ou « Tst ») (marqués en blanc dans la figure) et leurs images

obtenues par traduction (marquées en noir dans la figure).

Figure 24 : portage d’un EC basé sur la TBL

Nous détaillons par exemple la voie T

E

1→P1→T

F

1 :

Entrée = corpus anglais d’entraînement (données anglaises annotées),

corpus anglais de développement (données anglaises non-annotées),

et corpus de test (données françaises non-annotées)

Processus = T

E

1→P1→T

F

1

Sortie = corpus français (image du corpus anglais de développement),

et corpus français de test annoté (données françaises annotées)

L’outil TBL est entraîné pour l’anglais sur un ensemble de 140 K mots de données annotées et les

règles de TBL apprises sont appliquées sur le sous-corpus anglais non-annoté. Les annotations seront

portées par la suite, via le système d’alignement au niveau des mots Giza++, sur l’image en français

« MT-French ». Ensuite, TBL est entraîné sur les annotations de « MT-French », éventuellement

post-éditées, et les règles apprises sont appliquées aux données de test du français.

Un autre chemin plus direct est T

E

4P4French-Test, dans lequel l’outil TBL adapté à l’anglais,

est appliqué immédiatement sur le résultat de l’alignement au niveau des mots de la traduction «

MT-English » des données test du français. Les annotations de « MT-English » seront traduites directement

Entrée = corpus français de test (données françaises non-annotées)

Processus = T

E

4→P4→French-Test

Sortie = corpus anglais de test annoté (image du corpus français de test),

et corpus français de test annoté par projection

2.3.2.3.2 Ressources

En ce qui concerne l’apprentissage de l’extracteur de contenu, une expérimentation a été faite à

partir de deux types de données : les annotations automatiques et les annotations humaines. 56

modèles de règles indépendants ont été définis.

Les corpus de développement utilisés dans ces expériences ont été extraits à partir de textes en

anglais et en français tirés de journaux concernant l’aéronautique. Ils ont été créés automatiquement en

recherchant les articles qui contiennent des mots-clés relatifs aux accidents d'avion. Deux corpus dans

les deux langues ont été extraits à partir de ces journaux. Le corpus anglais contient

approximativement 420.000 mots, et le corpus français contient environ 150.000 mots.

Pour chaque langue, des humains ont fait l'annotation à l’aide d’étiquettes de style SGML. Ces

étiquettes indiquent l'emplacement de l’accident, l’aéronef impliqué dans l’accident, et des

informations sur les victimes (morts, blessés, survivants). Un tiers du corpus anglais et la moitié du

corpus français ont été annotés.

2.3.2.4 Domaine d’application

L’application d’extraction d’information, conçue initialement pour l’anglais, a été portée vers le

français en suivant les étapes détaillées précédemment. Une évaluation a été faite par les auteurs. En

ce qui concerne l’annotation, le nombre de coïncidences exactes (exact-word-match

10

), alignement au

niveau du mot, varie de 16 à 31 % pour le français et de 24 à 27 % pour l'anglais.

Ces chiffres relativement bas suggèrent que le critère est trop strict. Le nombre d'accords (

Exact-NP-match

11

), alignement au niveau segment, était beaucoup plus élevé, de 43-54 % pour le français et

de 51-59 % pour l’anglais.

L’approche (exact-word-match) est très rigoureuse parce que les annotateurs ne sont parfois pas

d'accord sur certains termes (par exemple, "Boeing 727" contre "Nouveau Boeing 727"). Avec

l’utilisation de la mesure (Exact-NP-match), ces deux termes se correspondent.

Une évaluation des différents processus utilisés est résumée dans le Tableau 8.

La meilleure performance est celle du processus T

E

4P4French-Test, dans lequel il y a deux

étapes seulement. La F-mesure du meilleur processus pour le français monolingue est de 45%, elle est

donc inférieure de 9% à celle de l’anglais monolingue (54%).

Sachant que les systèmes de TA ne sont pas disponibles pour tous les couples de langues ou sont

très mauvais, l’application de cette technique à d’autres couples de langues distantes reste une

question ouverte et les difficultés qui peuvent être rencontrées dépendent des couples de langues

choisis.

10

On vérifie si deux mots ont la même étiquette.

Projection et chemin d’entraînement Précision Rappel F-mesure

T

E

1 : application du TBL

E

à English-plain

P1 : projection sur MT-French (English-Plain)

T

F

1 : entraînement du TBL & application sur FrTest

0,69 0,24 0,36

Utilisation des annotations humaines à partir de Eng-Antd

P

ha

2 : projection sur MT-French (English-Antd)

T

ha

2 : entraînement TBL & application à FrTest

0,56 0,29 0,39

T

E

3 : application du TBL

E

à MT-Eng (FrenchPlain)

P3 : projection sur French-Plain

T

F

3 : entraînement du TBL & application sur FrTest

0,49 0,34 0,40

T

E

4 : application du TBL

E

à MT-Eng (FrenchTest)

P4 : projection directe sur French-Test 0,49 0,41 0,45

Tableau 8 : performance du portage de l’EC basée sur le TBL