• Aucun résultat trouvé

Des systèmes de QA@CLEF2007

Dans le document Questions réponses et interactions (Page 65-69)

I.3 Conclusion sur les systèmes actuels

II.1.6 Des systèmes de QA@CLEF2007

Voici des systèmes parmi les plus signicatifs qui ont été présentés à la campagne d'évaluation ClefQA2007 . Comme nous avons déjà vu de quoi est constitué un SQR enchaîné, il serait fastidieux de chercher à identier précisé-ment toutes les sous-parties ayant des caractéristiques communes. Attachons-nous aux éléments saillants de ces systèmes qui leur donnent un comporte-ment ou un fonctionnecomporte-ment original, avec en particulier les traitecomporte-ments des anaphores.

II.1.6.1 Le système de Priberam Informatica

Le système de Carlos Amaral développé à Priberam [Amaral et al., 2007], présente des capacités de détection d'anaphores. Cette détection requiert de trouver quelles entités nommées, évènements, objets ou phénomènes naturels devraient être extraits du premier couple de question-réponse. La détection des anaphores dans chaque question suivante utilise les termes de la recherche précédente comme co-référent. Ces termes sont appelés contexte. La dé-tection du contexte est réalisée en une seule passe lors de l'analyse de la question hors étude des autres questions. L'hypothèse est faite qu'il peut y avoir un lien implicite avec les termes qui ne font pas partie de la co-référence anaphorique.

Dans une première étape, le système analyse la question, il en résulte no-tamment une liste de pivots (les éléments jugés les plus important). Puis dans une seconde étape, le contexte est transformé en une liste d'objets pivots. Les deux listes de pivots sont fusionnées. Dans les questions enchaînées suivantes, les questions sont d'abord analysées et les pivots ainsi obtenus sont alors fu-sionnés à leur tour dans la liste de ceux des deux premières étapes. Après cela les passages sont sélectionnés. Le SQR de Priberam utilise le moteur

M-CAST12 pour la recherche dans les documents13.

À ce stade, la question a été convertie en une liste de mots clefs (les pivots) et toute l'information concernant la provenance des termes a été perdue. Finalement, la dernière étape de ce système est la sélection de la réponse, réalisée traditionnellement à l'aide de patrons.

12M-Cast est le Multilingual Content Aggregation System based on TRUST search

En-gine, http ://www.m-cast.infovide.pl (projet e-Contenu numero EDC 22249 M-CAST)

13Il s'agit évidemment de documents découpés préalablement en passages. Nous revenons

II.1 Systèmes de questions réponses 65 II.1.6.2 Le système de l'université de Hagen

Le système de gestion de l'enchaînement des questions du système de l'université de Hagen [Hartrumpf et al., 2007] est basé sur la création d'un historique qui contient les représentations sémantiques des questions et ré-ponses. Cet historique est vidé à chaque fois qu'un nouveau thème est ren-contré. La détection des thèmes est à base de règles implantées en dur. L'his-torique est vidé à chaque début de groupe. L'hypothèse est qu'à un groupe correspond un thème.

Le système reconstruit une question qui peut être résolue par un SQR indépendamment des autres questions. La question est reconstruite si une co-référence anaphorique est résolue par le système CORUDIS [Sven, 2006] vers la première question du groupe. Le coréférent se substitue alors à l'anaphore. À chaque question est associé un réseau sémantique qui sert de repré-sentation abstraite de la question reconstruite. Les données de la question courante et celles de la première question du groupe y sont éventuellement mélangées. Les questions dites elliptiques sont une forme de question dont les liens avec les questions précédentes sont sous-entendus, ou bien où les sujets/verbes sont sous-entendus. Notamment, dans les questions elliptiques, le focus est manquant. En utilisant le réseau sémantique, les questions ellip-tiques reprennent le focus de la première question.

II.1.6.3 Le système de l'Universidad Politcnica de Valencia

Le système développé à l'UPV14s'appelle QUASAR15[Buscaldi et al., 2007]

[Gomez et al., 2005].

L'enchaînement entre les questions est vu uniquement comme une liaison d'anaphores. Le système de résolution d'anaphore procède par la ré-écriture éventuelle des questions. La recherche dans les documents ne tient aucun compte du fait qu'il y ait eu une résolution d'anaphore. Le système réalise une analyse des traits de la question reconstituée pour la sélection de la réponse. Puis QUASAR extrait des passages via le moteur de recherche JIRS d'une manière similaire à Musclef. La résolution des anaphores peut traiter aussi bien des questions que des réponses comme source de référents. La résolution des anaphores n'est faite que vers le premier couple question et réponse du groupe.

Le système de résolution d'anaphore est original. Dans une première étape, un système à base de patrons induit les entités nommées, temporelles et les expressions numériques. Puis les entités qui apparaissent seulement

14UPV :Universidad Politcnica de Valencia

n Question

1 Quelle récompense le lm "Pulp Fiction" a-t-il reçue lors du festival de Cannes ?

2 Qui a réalisé ce lm ?

3 Qui y joue le rôle principal ?

Tab. II.4  Exemple d'un groupe de questions enchaînées tiré corpus de questions en français attendant des réponses en français de la campagne d'évaluation Clef 2007.

partiellement dans une question dérivée sont remplacées par leurs formes complètes probables de la première question. Exemple :

- Cual era el aforo del Estadio Santiago Bernabéu en los

anos 80 ?

- Quién es el dueno del estadio ? → estadio → Estadio

Santiago Bernabeu

La troisième étape consiste à résoudre les anaphores pronominales. Cela est fait par comptage sur le web pour déterminer quel remplacement doit avoir lieu. Le comptage compare par exemple des formes comme Bill Gates

creo Microsoft et Melinda crea Microsoft 16. Ensuite les anaphores

pos-sessives sont également résolues par un comptage sur le web. Exemple :

- Cuanto dinero se gasto durente su ampliacion entre 2001

y 2006 ?

est comparé sur deux comptages :

- ampliacion del Estadio Santiago Bernabeu

- ampliacion del Real Madrid Club de Futbol

La question initiale devient :

- Cuanto dinero se gasto durente ampliacion del Estadio

Santiago Bernabéu entre 2001 y 2006 ?

Enn les entités qui n'ont pas pu être associées à quoi que ce soit sont ajoutées à la n de la question.

II.1.6.4 Le système Qristal

Le système Qristal [Laurent & Séguéla, 2005] a été modié pour obtenir un comportement diérent sur les anaphores. L'hypothèse est faite que la résolution des anaphores permet d'obtenir tous les termes indispensables à désambiguiser la question. Comme plusieurs autres systèmes vus

précédem-16Les auteurs notent qu'en espagnol les anaphores pronominales ont tendance à être

II.1 Systèmes de questions réponses 67 ment, une nouvelle question sans lien anaphorique est construite dans le cas où une coréférence anaphorique est identiée. Cette nouvelle question est envoyée vers le SQR Qristal.

Le système fait l'hypothèse que les co-références anaphoriques sont les seuls liens entre questions. An de contourner la limitation de cette hypo-thèse, les informations transmises au moteur de recherche sont enrichies avec par exemple les dates, les lieux géographiques (pays, villes) qui sont ren-contrés dans les questions qui les précèdent. La technique de résolution des anaphores  englobe  une résolution de ots vers l'ensemble constitué de la question et de la réponse précédente. Par exemple dans le groupe du tableau II.4 (page 66) :

Qui a réalisé ce lm ?

l'adjectif démonstratif est ce, la sous phrase nominale est lm. Les réfé-rents possibles sont :

- La palme d'or

- lm Pulp Fiction

Comme Pulp Fiction est l'entitée nommée la plus récente qui gure en position d'extension de la sous-phrase nominale et que La palme d'or n'est que la réponse précédente, les règles du Qristal amènent à choisir la résolution par extension.

Dans la question résolue, il n'y a aucun moyen de connaitre la conance qu'il faut accorder dans les termes puisqu'ils peuvent provenir indiéremment de la question ou de la réponse. Qristal disposait déjà d'une méthode pour les anaphores pronominales et possessives. Un système de résolution pour les adjectifs démonstratifs a été ajouté pour la tâche de résolution des questions enchaînées.

Dans les campagnes Trec et Clef, il y a une volonté forte de lier les ques-tions par des liens d'ordre linguistique. Dans Trec, un sujet cible est déni (le target). Dans Clef, les questions sont censées être posées plus ou moins comme le ferait un utilisateur via une interface en ligne de commande. La thématique cible n'est pas gée et doit être déduite des questions.

Nous constatons que souvent dans Clef la première question donne une thématique réutilisée par toutes les questions sans modication, mais il existe des cas où des thématiques dérivées sont introduites a posteriori. Les ques-tions Trec peuvent donc être vues comme les cas simples de Clef. Nous en déduisons qu'une représentation valide pour Clef sera aussi valide pour Trec.

Dans le document Questions réponses et interactions (Page 65-69)