• Aucun résultat trouvé

Expérimentation, la méthodologie

Dans le document Questions réponses et interactions (Page 146-150)

V.3 Déploiement d'un SQR enchaînées

V.3.3 Expérimentation, la méthodologie

Voyons maintenant la méthodologie retenue pour évaluer l'impact sur les performances de la recherche dans les documents.

Recherche des documents-réponces Question Réponse Recherche Patrons C o l l e c t i o n Documents Documents avec la réponse Vérification à la main Enrichissement du contexte si trop de documents

Fig. V.2  Procédé de recherche des documents contenant les réponses pour constituer la référence d'évaluation.

V.3.3.1 Détermination de la présence de la réponse dans un do-cument

Pour la préparation des corpus d'évaluation, nous avons développé une méthode adaptée à la tâche. La détermination de la présence de la réponse dans un document est réalisée partiellement à la main comme dans la

-gure V.2 (page 146). Dans un premier temps, une liste des réponses courtes11

attendues est constituée pour chaque question. Ces réponses courtes sont trouvées en utilisant des méthodes traditionnelles semi-automatiques de re-cherche d'information. De ces réponses courtes, nous déduisons des ensembles de patrons gés qui permettent de les identier dans des documents. Nous calculons alors l'ensemble des documents contenant ces patrons. Nous

bou-10Cette heuristique est dérivée du fonctionnement des tables de hachage faible (weak

Hash ou weak Pointers). Dans les weak Hash la portion supprimée est décidée non pas aléatoirement, mais par le gestionnaire de mémoire du programme (disponible uniquement dans les langages qui en possèdent un). Dans certaines implémentations nous pouvons demander d'enregistrer la fonction dont le programme optimise le calcul, ceci an de gérer de manière complètement transparente l'accès aux résultats.

11Les SQR ont pour objectif de trouver des réponses courtes. Donc il est inutile de trou-ver une stratégie pour troutrou-ver les réponses sophistiquées ou demandant des raisonnements.

V.3 Déploiement d'un SQR enchaînées 147 clons alors sur deux opérations jusqu'à ce que la première hypothèse soit vériée :

 soit il y a susamment peu de documents ; nous vérions à la main pour chaque document que le patron gé qui est trouvé correspond bien à la réponse.

 soit il y a trop de documents pour faire cette opération à la main pour chaque document, nous sélectionnons alors un petit cluster de documents que nous analysons à la main pour préciser les patrons. Ces documents permettent de déterminer un ensemble de patrons secondaires  le contexte  qui doivent être présents dans le document pour que le pa-tron réponse soit vraiment la réponse. Nous tenons évidemment compte des dépendances. Et nous recalculons l'ensemble des documents contenant les patrons avec  le contexte . Nous obtenons alors 2 ensembles, un ensemble de documents contenant les réponses aux questions, un ensemble de patrons de réponses suivant une logique de type et/ou pour obtenir les documents

contenant les réponses12

Cette méthode de recherche des  bons  documents n'est pas forcément optimale, mais issue de l'historique de la méthodologie Musclef d'évaluation des résultats. In ne, nous avons adapté le programme de sélection des docu-ments dans la collection pour qu'il puisse évaluer les résultats retournés par les diérentes versions des tests sur la recherche de documents.

V.3.3.2 Quelques caractéristiques du corpus d'évaluation

Notre évaluation a porté, comme au chapitre III sur les 200 questions du corpus ClefQA07-FR-EN en français avec réponse attendue à partir du corpus anglais de la Wikipédia de novembre 2006 et de l'année 1994 des journaux LA et GH. Nos patrons de bonnes réponses nous permettent de découvrir un maximum de 143 bonnes réponses et nous savons qu'il existe

Protocole d’évaluation

Configuration de Musclef c o m m u n e à t o u t l e s t e s t s

Pour chaque méthode de scoring

Pour chaque rang des groupes de questions

Configuration du m o t e u r d e r e c h e r c h e

Execution de Musclef jusqu’à la sélection des phrases.

Comparaisons avec les documents de références U n e r e q u ê t e e n c o n t e x t e

sur le corpus de documents

Fig. V.3  Protocole d'évaluation. V.3.3.3 Méthode d'évaluation

Comme le montre la gure V.3 (page 148), l'évaluation d'une stratégie se

déroule en plusieurs étapes14. Des paramètres globaux à toutes les évaluations

servent à congurer la plateforme Musclef. La conguration est réglée pour que les calculs s'arrêtent après la sélection des phrases (V.3.5.1 page 155). Pour chaque stratégie d'attribution des scores, un moteur de recherche est mis en place. La conguration Musclef est re-adaptée à son fonctionnement (notamment le format des requêtes). L'exécution a lieu et les résultats pour le corpus sont obtenus en un temps variant entre 20 minutes et 2 heures. Le pro-gramme de compte des bonnes réponses est alors lancé. D'autres propro-grammes 12Pour une réponse, il peut y avoir plusieurs patrons testés séparément : cela fonctionne comme un opérateur  ou  ; pour une réponse, il peut y avoir plusieurs patrons secondaire  de contexte  : cela fonctionne comme un opérateur  et .

13Soit 146 réponses identiées, mais comme expliqué précédement nous ne comptons pas

les Nil.

14Les questions sont traitées en fonction de leur rang dans le groupe dont elles font

partie. Les questions en rang 1 sont toutes traitées puis, celles de rang 2, etc... Ainsi, les questions dont les requêtes sont les plus courtes sont traitées les premières.

V.3 Déploiement d'un SQR enchaînées 149

Stratégie Nb réponses MRR(Ok) Moyenne(Ok) MRR(All) Moyenne(All)

A 88 0.19 15.86 0.083 62.98 B 100 0.17 18.99 0.088 59.49 C 102 0.19 15.86 0.083 62.98 D 99 0.19 18.44 0.094 59.63 E 123 0.12 84.13 0.079 90.24 F 123 0.09 205.3 0.060 164.8 G 104 0.18 22.43 0.094 59.66

Tab. V.1  Statistiques sur les bons documents-réponses pour diérentes stratégies d'attribution de scores avec Musclef.

d'analyses sont aussi appliqués à ce moment, notamment la sélection pour chaque question des scores ordonnés pour chaque document.

Dans le document Questions réponses et interactions (Page 146-150)