• Aucun résultat trouvé

Des systèmes de Trec

Dans le document Questions réponses et interactions (Page 62-65)

I.3 Conclusion sur les systèmes actuels

II.1.5 Des systèmes de Trec

La description de la tâche Trec sur les questions enchaînées décrit bien le

cadre de l'approche : Le but de l'aspect interactif de ciQA5 était de fournir

un cadre de travail pour les participants pour examiner l'interaction dans le

4Cross Language evaluation ; http ://www.clef-campaign.org

contexte des SQR et de fournir une occasion pour les chercheurs extérieurs aux SQR de s'impliquer dans ce domaine. Nous dénissons un système in-teractif comme un système qui donne à l'utilisateur un contrôle sur tout ou portion du contenu présenté. En utilisant cette dénition, l'unité d'interac-tion la plus petite possible consiste en un utilisateur répondant au système et le système utilisant cette réponse pour produire un contenu nouveau. [Dang et al., 2006]

C'est en vertu de ce principe que la tâche principale est de chercher des réponses à des questions isolées dans un contexte. Dans le cadre de la

cam-pagne Trec le contexte fait référence à un thème cible6 de la recherche de

l'utilisateur. Il existe aussi une succession logique entre les questions an de construire le contexte implicitement. Voyons maintenant quelques SQR ayant été modiées en vue de traiter la tâche de questions-réponses enchaînées. II.1.5.1 Le système de l'université de Tokyo

Le système développé par l'équipe Speech de l'université de Tokyo [Whittaker et al., 2006] dispose d'une stratégie probabiliste de recherche dans les documents et d'extraction de la réponse. Le système se fonde une pro-babilité basée sur la loi de Bayes. Il utilise la propro-babilité d'existence d'un sous-modèle de langage de la question qui serait présent dans les documents, ainsi qu'une probabilité liée au type de la question (Where, When ...). Cette probabilité sert de base à une mesure de similarité avec la question. Les mots du thème cible sont utilisés pour renforcer la probabilité d'un document de contenir la réponse. Ces mots sont traités comme s'ils venaient de la question. L'extraction de la réponse utilise un modèle à base de n-uplet, les mots du thème cible sont alors oubliés. L'extraction de la réponse exacte est ancrée sur un modèle par apprentissage de patrons par indépendance conditionnelle. L'ensemble d'apprentissage est construit à partir des questions et réponses des sessions Trec des années précédentes. Seule la recherche des documents est aectée. Le système traite les questions attendant une liste d'éléments factuels en réponse comme une collection des 10 premières réponses du sys-tème probabiliste d'extraction de la réponse. Une version adaptée à la tâche multilingue de ce système a également participé à Clef@QA2006.

II.1.5.2 Le système de FuDan University

Le système FDUQA7 de Yaquian Zhou [Zhou et al., 2006] traite

unique-ment le cas des coréférences anaphoriques. Les anaphores traitées sont

répar-6Traduction de Target.

II.1 Systèmes de questions réponses 63 ties sur les 6 catégories : person, organization, location, event, time et other. Le repérage de l'anaphore se fait uniquement par unication de catégories repérées entre référent et antécédent. Dans le cas où plusieurs unications sont possibles, celle du thème cible est préférée, puis celle d'une question de la plus ancienne à la plus récente. S'il y a une coréférence anaphorique de la question vers le thème cible, alors le système réalise une substitution du référent par l'antécédent. Sinon la totalité des mots du thème cible est ajoutée à la liste des mots de la question. Ils notent que l'analyse syntaxique avec la présence d'un thème ne permet pas une unication syntaxiquement correcte avec le reste de la question. La relation syntaxique entre l'anaphore et son antécédent est souvent éloignée. Notons que pour répondre aux ques-tions portant sur des listes, le système a été adapté pour préférer le rappel à la précision. Le système de réordonnancement des documents combine les

scores du moteur de recherche Lucene8 (au niveau du document) et les scores

des meilleures phrases de chaque document. Le score des phrases est calculé pour les documents ayant le meilleur score retourné par Lucene. Il se fonde sur le nombre de mots de la question sans les mots du thème cible. Le système FDUQA traite les questions de dénition en extrayant hors ligne une base de connaissance depuis le corpus d'interrogation.

II.1.5.3 Le système QA-LaSIE

Le système QA-LaSIE [Greenwood et al., 2006]exploite le système

d'ex-traction d'information LaSIE9 qui est intégré dans GATE10. Le système traite

les questions de type Factuelle et de type Liste11. La métrique

d'évalua-tion de la campagne ne pénalise pas les mauvaises réponses, donc la stratégie des Liste essaie de capturer toutes les réponses bien typées retournées par une première recherche dans les documents. La taille de la liste est limitée aux dix premières réponses. Les auteurs utilisent les ressources sémantiques et grammaticales de LaSIE à travers GATE pour réécrire la question et le thème cible en une unique question dans laquelle les anaphores coréférentes sont résolues. La question résultante est traitée classiquement an d'être in-troduite dans Lucene [Cutting, 2000].

8Lucene est présenté en section II.2.3 page 72

9LaSIE :Large Scale Information Extraction [Humphreys et al., 1998]

10GATE [Cunningham et al., 2002] est une plateforme d'intégration de modules

dispo-sant d'interface déclarée formellement.

11Les questions de type Liste attendent une énumération d'entités en guise de réponse.

Dans le document Questions réponses et interactions (Page 62-65)