• Aucun résultat trouvé

La structure de graphe, bien que d´efinie depuis longtemps et largement ex- ploit´ee depuis lors dans des domaines comme celui des r´eseaux de communication, a connu depuis quelques dizaines d’ann´ees un grand succ`es en tant que mod`ele de repr´esentation. Le traitement automatique des langues (TAL) n’a pas ´echapp´e `a cette tendance comme le prouvent en particulier les ateliers TextGraph1

. Les graphes ont ´et´e ainsi ´et´e utilis´es pour plusieurs tˆaches allant, sans ˆetre exhaustif, de la r´esolution de cor´ef´erence [Chen and Ji, 2009; Nicolae and Nicolae, 2006] `a la d´esambiguation des sens de mots [Dorow and Widdows, 2003] en passant par le r´esum´e automatique [Mihalcea, 2004] et la tˆache de question-r´eponse [Aceves- P´erez et al., 2007; Moll´a, 2006].

Nous appliquons ici les graphes au cadre de l’extraction d’´ev´enements et plus particuli`erement `a la repr´esentation des templates. Ce choix est justifi´e par le fait que les ´ev´enements que nous cherchons `a caract´eriser au travers des templates sont constitu´es d’entit´es et de relations entre ces entit´es. Les templates peuvent ainsi ˆetre consid´er´es comme des graphes o`u les nœuds repr´esentent des entit´es (ce qui inclut ici des ´ev´enements) et les arcs repr´esentent les relations entre ces entit´es. Cette structure offre en outre une grande souplesse de repr´esentation puisqu’elle permet `a la fois de repr´esenter la structure finale d´esir´ee, un ´ev´enement li´e `a un ensemble d’entit´es, et ses versions pr´eliminaires au cours du processus d’extraction dans lesquelles plusieurs mentions d’´ev´enements ou plusieurs occurrences d’une mˆeme entit´e peuvent apparaˆıtre. De fa¸con simplificatrice, nous nommerons dans ce qui suit ces graphes «graphes d’entit´es nomm´ees» ou «graphes d’entit´es».

Ces graphes d’entit´es sont plus pr´ecis´ement des graphes pond´er´es, non orient´es, dont les arcs symbolisent l’existence ou l’absence d’une relation entre deux entit´es. Le poids associ´e `a chaque arc correspond quant `a lui `a un score de confiance (wi)

et a pour objet de refl´eter le niveau de confiance quant `a l’existence d’une relation entre deux entit´es. Il est `a noter qu’un graphe d’entit´es n’est pas n´ecessairement connexe.

La figure4.2 montre deux exemples de graphes d’entit´es, en l’occurrence ceux produits pour chacune des phrases de la mˆeme figure. Il s’agit de graphes d’entit´es

1

Extrait de document

Un violent séisme a frappé samedi le nord du Japon, avec un premier bilan de trois morts, 65 blessés, et au moins 12 disparus, {…} faisant tanguer les immeubles.

La secousse, d'abord annoncée de magnitude 7 sur l'échelle ouverte de Richter, a été révisée à la hausse à 7,2. Graphes d'entités séisme w11 w13 w12 nord du Japon samedi

w21

w23 w22

7 7,2

secousse

Fig. 4.2 – Exemple de graphes d’entit´es nomm´ees au niveau des phrases

associ´es `a des templates interm´ediaires qu’il faudra fusionner pour produire le template final. On peut noter que dans le premier cas toutes les entit´es sont effectivement li´ees alors que dans le second graphe, les scores de confiance w21

et w23 devraient ˆetre proche de z´ero puisque la meilleure valeur pour le rˆole

MAGNITUDE est 7,2.

L’int´erˆet d’adopter une structure de repr´esentation abstraite telle que la struc- ture de graphe est de pouvoir r´eutiliser les m´ethodes de manipulation associ´ees. Ainsi, une mani`ere g´en´erique d’envisager le remplissage de templates est de le consid´erer comme un probl`eme de partitionnement d’un graphe d’entit´es tel que nous l’avons d´ecrit ci-dessus. Le partitionnement de graphe (ou clustering de graphe) [Chen and Ji, 2010; Schaeffer, 2007] est en effet un probl`eme connu, d´efini comme une tˆache visant `a regrouper les nœuds d’un graphe sous forme de clusters en tenant compte de la structure du graphe de telle fa¸con que le nombre d’arcs `a l’int´erieur des clusters soit plus important que celui entre les clusters. Le partitionnement de graphe produit donc des clusters assimilables `a des sous- graphes fortement connect´es. Dans notre cas, ces sous-graphes correspondraient `a des instances de templates.

On peut noter que la probl´ematique du clustering de graphe d’entit´es est proche de celle du partitionnement pr´esent´ee `a la section2.4.2.3mais que compte tenu de l’absence de structure a priori dans ce dernier cas, le clustering s’effectue

plutˆot au niveau des relations que des entit´es. L’application du clustering de graphe au remplissage de templates est en revanche pr´esent´ee dans [Wick et al., 2006] comme nous avons pu le voir `a la section 4.1.1. Cette application s’effectue plus pr´ecis´ement pour l’extraction d’enregistrements de base de donn´ees `a partir de textes : un graphe est d’abord construit `a partir de toutes les entit´es trouv´ees dans un document, puis un clustering de ce graphe est r´ealis´e afin de reconstituer les enregistrements.

Les m´ethodes g´en´eriques de partitionnement de graphe ne sont toutefois pas tr`es adapt´ees `a notre probl´ematique de remplissage de templates. Lors d’un tel clustering, les entit´es sont en effet regroup´ees sans tenir compte de la struc- ture du template. En particulier, il est difficile pour ces m´ethodes d’int´egrer des contraintes visant `a exclure d’un cluster la pr´esence de plusieurs entit´es ayant le mˆeme rˆole vis-`a-vis de l’´ev´enement, alors que dans notre contexte, le processus de remplissage des templates doit ne retenir qu’une seule entit´e pour chaque rˆole. Dans [Wick et al., 2006], le clustering de graphe est en revanche plus adapt´e dans la mesure o`u les champs des templates peuvent ˆetre multi-valu´es (pluralit´e possible des adresses postales ou des num´eros de t´el´ephone pour une personne dans le cas pr´esent). Nous d´etaillons donc dans la section suivante la m´ethode sp´ecifique que nous avons d´efinie pour la s´election de la valeur d’un champ parmi plusieurs entit´es de mˆeme type pour le remplissage d’un template. Au pr´ealable, la m´ethode de construction du graphe d’entit´es servant de point de d´epart `a cette s´election est elle-mˆeme pr´ecis´ee.

4.3

Application du rattachement `a l’extraction