• Aucun résultat trouvé

3.7 Evaluation des m´ethodes de segmentation ´

4.1.2 Les relations complexes

Comme nous l’avons mentionn´e ci-dessus, la notion de relation complexe, introduite en extraction d’information par [McDonald et al., 2005], recouvre des relations faisant intervenir n entit´es (pas n´ecessairement du mˆeme type). Elle a ´et´e reprise par la suite par diff´erents travaux, dont [Afzal, 2009; Liu et al., 2007; Wick et al., 2006].

Construction du graphe d'entités Reconstruction de la relation complexe Relation ternaire de la forme (Ex,EY,EZ)

a) Classification des relations binaires : (E x1,EY1), (Ex1,EY2), (Ex1,EZ1), ... EZ1 E Y1 E Y2 EX1 EX2 E Z2 EZ1 E Y1 E Y2 EX1 EX2 E Z2

b) Recherche des cliques maximales

Relations complexes reconstituées: (E x1,EY1,EZ1) (Ex2,EY2,EZ2) graphe initial sim(E Y1,EZ2 ) = 0, sim(EX1,EY2 ) = 0 etc...

Fig. 4.1 – Approche en deux ´etapes pour l’extraction de relations complexes Pour traiter ce type de relations, la strat´egie propos´ee dans [McDonald et al., 2005] consiste `a d´ecomposer les relations d’ordre sup´erieur en plusieurs relations binaires. Par exemple, une relation ternaire peut ˆetre repr´esent´ee par 3 relations

binaires : (a, b, c) <=> (a, b), (a, c), (b, c). De l`a, [McDonald et al., 2005] proposent une m´ethode en deux ´etapes pour extraire les relations complexes : la premi`ere vise `a construire un graphe `a partir des relations binaires identifi´ees entre les paires d’entit´es. Plus sp´ecifiquement, les auteurs utilisent un classifieur (de type maximum d’entropie) pour d´eterminer s’il existe ou non une relation entre deux entit´es. Le score de confiance donn´e par le classifieur est en outre utilis´e pour pond´erer les arcs du graphe. La seconde ´etape vise `a retrouver toutes les cliques maximales (sous-graphes complets ayant le maximum de nœuds possible) pour reconstruire la relation complexe. Un score, ´egal `a la moyenne g´eom´etrique des poids sur les arcs de la clique, est ensuite attribu´e `a chaque clique maximale. Les cliques ayant un score inf´erieur `a une valeur limite sont ´elimin´ees. La figure 4.1

illustre ces deux ´etapes.

Une approche tr`es similaire `a celle de [McDonald et al., 2005] a ´et´e propos´ee par [Afzal, 2009]. Les principales diff´erences entre les deux approches concernent trois points. Le premier concerne les mod`eles utilis´es pour la classification des relations binaires. [Afzal, 2009] obtient ses meilleurs r´esultats avec un mod`ele de type arbre de d´ecision 1

alors que [McDonald et al., 2005] s’appuient sur un classifieur de type maximum d’entropie. En deuxi`eme lieu, [Afzal, 2009] ne r´ealise aucun filtrage des cliques maximales pour la reconstruction des relations complexes : la clique retenue est celle dont le produit des pond´erations des arcs est maximal. Enfin, [Afzal, 2009] utilise le corpus MUC-6 concernant les mouvements de dirigeants alors que [McDonald et al., 2005] se servent d’un corpus dans le domaine biom´edical.

Dans [Liu et al., 2007], les relations complexes sont appliqu´ees comme dans le cas de [McDonald et al., 2005] au domaine biom´edical. Plus pr´ecis´ement, il s’agit d’identifier des relations ternaires entre une prot´eine, un organisme et la locali- sation de la prot´eine dans l’organisme. Toujours dans la mˆeme perspective que [McDonald et al., 2005], la relation ternaire est d´ecompos´ee en relations binaires. En revanche, l’identification de ces relations binaires pr´esente la particularit´e de s’appuyer sur des features syntaxiques inspir´es de la tˆache d’attribution de rˆoles

1

Les features consid´er´es dans [Afzal, 2009] sont quasi identiques `a ceux de [McDonald et al., 2005], `a l’exception d’un seul, qui n’a pas ´et´e repris. Outre les arbres de d´ecision, [Afzal, 2009] a exp´eriment´e avec de moins bonnes performances un classifieur de type maximum d’entropie et un classifieur bay´esien na¨ıf.

s´emantiques (semantic role labelling). Par ailleurs, le classifieur utilis´e est ici de type SVM. Une autre diff´erence importante avec [McDonald et al., 2005] r´eside dans les contraintes pos´ees pour la reconstruction des relations complexes. L’ob- jectif est en effet de regrouper les relations binaires de type prot´eine-organisme (PO) et prot´eine-localisation (PL)1

non seulement `a condition que les relations soient dans la mˆeme phrase mais ´egalement que la prot´eine identifi´ee soit com- mune aux relations PO et PL. Enfin, [Liu et al., 2007] montrent que l’utilisation des informations syntaxiques am´eliore de fa¸con cons´equente les performances par comparaison avec de simples features lexicaux.

Il faut souligner que [Afzal, 2009; Liu et al., 2007; McDonald et al., 2005] exploitent globalement le mˆeme type d’approche mais que celle-ci s’applique `a l’identification de relations complexes faisant intervenir des entit´es se trouvant `a l’int´erieur d’une mˆeme phrase. La phase de reconstruction des relations com- plexes n’est donc pas directement applicable `a notre probl`eme de remplissage de templates puisque nous ne nous limitons pas au rep´erage des relations entre entit´es `a l’int´erieur des phrases mais visons surtout celles exprim´ees `a l’´echelle textuelle. N´eanmoins, nous proposons de nous inspirer de cette approche et de consid´erer la construction de template comme un probl`eme de construction de relation complexe. L’id´ee est d’assimiler les ´ev´enements `a des relations com- plexes pour lesquelles le degr´e de la relation (arit´e) est ´egal au nombre de rˆoles `a compl´eter dans le template (nombre de champs dans le template). L’extraction de «ces relations complexes» est ´egalement abord´ee en utilisant une m´ethode s’appuyant sur des graphes : un premier graphe d’entit´es est construit `a partir du r´esultat de la segmentation en ´ev´enements, puis plusieurs strat´egies de ratta- chement ind´ependantes du domaine sont appliqu´ees pour reconstruire la relation complexe. Avant de d´etailler la construction de ce graphe et ces strat´egies de rat- tachement, nous allons pr´esenter la notion de graphe d’entit´es et la forme pr´ecise qu’elle revˆet dans notre cas.

1