• Aucun résultat trouvé

Stratégie d'interrogation

Dans le document Questions réponses et interactions (Page 141-144)

V.2 Contraintes sur les documents

V.2.3 Stratégie d'interrogation

Le choix de notre stratégie de sélection de documents pour l'étude des questions enchaînées est celui de la requête unique. La stratégie ne relâche pas les termes tant qu'elle n'a pas obtenu susamment de documents. Avec notre méthode de recherche de documents en interrogation unique, nous ne

4L'existence des ux est une des raisons pour laquelle Lucene n'est pas le moteur de

recherche le plus rapide possible.

5La complexité dans le pire des cas ne change pas, mais les cas moyens et médians sont

V.2 Contraintes sur les documents 141 cherchons pas à obtenir des documents supplémentaires en essayant des re-quêtes alternatives. Il y a plusieurs raisons :

 Dans l'hypothèse où nous réaliserions plusieurs requêtes pour une même question, comment juger de l'ecacité d'un modèle si celui-ci est en-capsulé dans une stratégie ayant un objectif redondant ? L'enjeu est de valider un modèle de recherche de documents. Si nous englobons ce modèle dans un autre, c'est l'ensemble qui est évalué ; ce n'est pas notre modèle. Il faut en une seule application du modèle mathématique tenter de trouver l'ensemble de documents intéressants pour pouvoir conclure. Si à la suite de cela, nous décidons qu'il vaut mieux faire plusieurs requêtes, rien ne nous empêche d'intégrer plus nement les multiples requêtes dans une pondération adéquate.

 Le fonctionnement à base de plusieurs requêtes n'est justié que dans le cas d'interrogations booléennes. Dans le cas d'une interrogation à base de pondération si certains mots ne peuvent pas être trouvés dans la collection, ils n'empêchent pas les autres mots de rapporter des ré-sultats. La stratégie d'interrogation multiple avec un fonctionnement en recherche booléenne bornée à n documents ne se justie plus. Elle était déployée sur lorsque le système utilisait le moteur de recherche MG [de Kretser & Moat, 2000].

 Certaines questions n'ont pas de réponse dans la collection de docu-ments : nous notons  nil  ces réponses vides. Nous ne cherchons absolument pas à trouver des documents candidats pour les questions à réponses Nil. Dans une optique de campagne d'évaluation de SQR, étant donné la proportion de questions à réponses Nil, la stratégie qui consisterait à chercher des documents même pour ces questions, n'est pas la meilleure6.

Il faut trouver une organisation des documents pour les indexer et une méthode de sélection des termes.

6D'un autre côté, les Nil au niveau de la sélection des documents ne sont pas

consi-dérés comme des bonnes réponses. Les raisons qui nous poussent par hasard à ne pas sélectionner de documents pour les questions à réponses Nil ne sont pas les bonnes. La question Où est mort Jacques Chirac ? admet la réponse Nil, pourtant une re-quête avec ces mots doit rapporter des documents, car il existe des documents où il est par exemple question d'hommage aux morts et de Jacques Chirac . Ce n'est pas à la sélection des documents de déterminer si la réponse doit être Nil ou pas. Quand la sélection des documents ne donne aucun résultat, c'est plus probablement qu'un problème est survenu dans les étapes précédant l'interrogation du moteur (analyses des questions, sé-lection des dépendances, des termes, des traductions ... ), mais s'il n'y a pas de documents c'est peut-être aussi que la question admet la réponse Nil.

V.2.3.1 Organisation des documents

Les documents des collections d'évaluation V.3.3 (page 145) proviennent de la  Wikipédia  et d'un corpus d'articles du journal  LA-Times  et  GH-Times . La mécanique des ux de Lucene nous aurait permis de séparer les documents en deux ux en fonction de leur origine. Pour des raisons historiques de développement de Musclef et de temps nécessaire aux développements (et analyse des conséquences), ce n'est pas la stratégie que nous avons retenue. Les documents sont fusionnés dans une représentation semblable et indexés sans distinction d'origine. L'avantage de cette méthode est de ne pas avoir à fusionner des listes de documents possédant un score, sans être certain qu'il n'existe pas des diérences de sémantique dans les scores.

V.2.3.2 Sélection des termes ou choix de la requête

La construction de la requête est réalisée en deux étapes. Une première étape sélectionne les termes en fonction de leur catégorie (noms propres, nombres...) et ajoute un certain nombre de variantes de traductions et de synonymes. Cet ajout concerne les termes de la question elle-même et les termes des questions liées.

La seconde étape détermine quel  assemblage  de ces termes est utilisé pour construire la requête. Pour cela, le système sélectionne en priorité les élements les plus signicatifs en privilégieant la catégorie  noms propres  ou la catégorie  nombres , sinon il sélectionne d'autres termes signicatifs dans la question. Dans les deux cas, le système applique la même stratégie pour les termes des questions liées (mais les expressions gées entre guillemets sont conservées telles quelles) qui sont ajoutés avec les indications de provenance

dans la requête7. Si l'analyse de la question ne parvient pas à fournir les

informations nécessaires (et donc, altèrent la sélection des documents) alors elles sont remplacées quand cela est possible par celle de la question de rang supérieur.

7L'étude des corpus de questions ClefQA07-FR-ES et ClefQA07-FR-FR nous a montré

que les expressions gées entre guillemets sont toujours des arrangements de mots traduits, tirés directement d'un document du corpus (dans la campagne ClefQA2007 .)

Dans le document Questions réponses et interactions (Page 141-144)