Améliorations possibles

II.3 Conclusion

III.2.4 Améliorations possibles

Il existe de nombreuses perspectives pour poursuivre ce travail. Les amé-liorations peuvent suivre deux directions : ou bien une direction qualitative comme traiter des cas supplémentaires, par exemple la double référence vers deux couples distincts, ou une direction quantitative pour améliorer notam-ment la F-mesure, ou évaluer la sélection des thèmes.

III.2.4.1 Le cas de la double référence vers 2 couples distincts Dans le cas des dépendances unitaires vers deux questions distinctes comme dans la gure III.1 (page 87), il existe un problème d'adaptation au modèle dialogue et au système de calcul. D'un point de vue purement probabiliste il est possible d'étudier l'ensemble des dépendances ayant une probabilité d'existence supérieure au seuil d'association. Cela permet non la probabilité d'existence d'une dépendance dans le cas où une question elliptique est reconnue.

III.2 Construction de la structure de dépendances 111 seulement de déterminer l'association d'une dépendance vers β, mais égale-ment de toutes les dépendances α(1)...α(n) vers les n questions précédentes β.

Cela signie que le système réalise un calcul d'argMax pour les n meilleures questions α.

Pour intégrer à un modèle de dialogue le type de schéma de dépendance

de la forme α(1)...α(n) − β ; nous dénissons la super-dépendance29 comme

étant une dépendance vers un n-uplet de question-réponse. Chaque couple question-réponse appartient alors à un n-uplet et il n'existe plus que des super-dépendances entre n-uplets. Nous pourrions intégrer dans le modèle de dialogue les n-uplets de la même manière que nous l'avons réalisé pour des couples questions-réponses.

Il faudrait aussi une évaluer cette méthode et adapter les notions de

pré-cision/rappel. Nous pouvons nous demander si un ensemble de liens [β − α1

, β − α2] est équivalent à [β − α2 , β − α1]. Nous n'avons pas procédé à

des tests, car ceux-ci demandent probablement de nouveaux corpus et des

modications lourdes dans l'architecture d'évaluation30.

III.2.4.2 Améliorations quantitatives

Tout d'abord, les outils réalisés pour le calcul des traits peuvent être amé-liorés. Par exemple, l'ajout d'une analyse grammaticale permettrait de mieux repérer les relations pour la recherche des anaphores. Il est aussi possible de gagner en précision sur la hiérarchie des catégories utilisée par Musclef pour gagner en précision sur la détection des dépendances. De même, le trait de partage de segment de texte ou d'entité nommée est grossier dans la mesure où il n'étudie que des égalités exactes. Des égalités basées sur des distances minimales de longueur d'édition pourraient être déployées facilement.

Deuxièment les coecients de conance interne des traits sont choisis par rapport à leur performance brute individuelle dans la tâche. Les interactions entre les traits ne sont pas prises en compte. Cela pourrait être optimisé sur un corpus d'apprentissage.

Troisièment, le système utilise 5 traits, mais la méthode déployée en tolère bien d'autres et des phénomènes linguistiques particuliers pourraient être pris en compte, car la méthode est générique.

Finalement, un système interactif pourrait prendre en compte les résul-tats d'une recherche de documents infructueuse, pour remettre en cause les dépendances calculées.

29super-dépendance : une dépendance utilisant un héritage de dépendance

III.3 Conclusion

Nous avons détaillé comment construire des relations représentant les liens entre les questions. Nous allons maintenant voir comment nous pour-rions utiliser ces liens. An de mieux réussir la construction des dépendances, l'étude du moteur de recherche de documents est également une nécessité, en eet une méthode decorrélée de son usage est toujours plus dicilement généralisable à d'autres systèmes similaires. De plus comme nous l'avons montrer, connaître l'usage des requêtes par le moteur de recherche est in-dispensable pour comprendre les résultats de l'expérimentation des calculs des dépendances. Voyons donc maintenant comment l'analyse des questions, des dépendances et la recherche des documents interagissent et comment la recherche des documents peut être améliorée.

Chapitre IV

Rec herc he des documents avec

un contexte

Pour traiter correctement les questions enchaînées des modications doivent être introduites sur l'analyse des questions et le moteur de recherche.

Dans un premier temps, nous examinons diérentes méthodes pour uti-liser les dépendances et les intégrer au moteur de recherche des documents. Puis nous nous intéressons à une fonction de similarité des documents adaptée aux dépendances. Nous montrons ensuite comment organiser les documents et comment réaliser la sélection des termes en vue de la construction des requêtes. Nous abordons enn la réorganisation des calculs pour la gestion des dépendances entre questions et le déploiement pratique de la stratégie de recherche de documents.

1 Où se trouve le musée de l'Ermitage ?

2 Qui était le directeur du musée en 1994 ?

3 Dans quel palais le musée est-il logé ?

4 Combien de chambres y a-t-il dans ce palais ?

Tab. IV.1 Exemple d'un groupe de questions enchaînées tirées du corpus utilisé pour la campagne d'évaluation ClefQA2007 . Les dépendances qui correspondent aux liens entre questions de ce groupe sont visibles dans la gure IV.1 ci-dessous.

IV.1 Utilisations possibles du contexte

Il existe plusieurs méthodes pour prendre en compte les termes des ques-tions liées. Prenons par exemple le groupe de quesques-tions du tableau IV.1 (page 114) tiré du corpus d'évaluation de SQR de la campagne ClefQA2007 .

Imaginons une stratégie simple à réaliser pour guider nos raisonnements. Elle sélectionne tous les termes des questions liées et les utilise comme un

sac de mots. Après les extensions classiques1 d'un SQR, ce sac de mots

forme la requête. Appelons cette stratégie sac de mots.

Nous ne nous intéresserons qu'aux modications dans le cadre des VSM avec une mesure de similarité basée sur le tf.idf comme présenté à la sec-tion II.2 (page 69). La pondérasec-tion d'un terme est une foncsec-tion qui permet de modier l'importance d'un terme par rapport aux autres lors du calcul du score d'un document. La fonction de pondération peut être arbitrairement complexe, dépendre du corpus, des autres termes et évidemment de notre structure de dépendances. Nous prendrons le tf.idf comme pondération de référence pour créer une sous-stratégie de sac de mots. Nous évaluons nos résultats par rapport à cette référence. Il se trouve que le moteur de recherche Lucene implémente le tf.idf.

Notre structure de dépendances suggère partiellement son propre usage ; il est possible d'en tirer partie pour tenter d'améliorer la sélection des

documents-réponses2 par rapport à cette mesure.

documents-réponses

Dans le document Questions réponses et interactions (Page 111-115)