• Aucun résultat trouvé

coucher /kuSe/ 1 I vtr

6. Interrogation de la base documentaire

6.3. Mise en correspondance des réponses avec la question

6.3.1. Des structures plates parfaitement compatibles

La méthode d’indexation et de stockage d’information que nous utilisons (Roux et Jacquemin,2002) permet deux présentations différentes de l’information à cha-cun des niveaux de segmentation du document (texte, paragraphe, phrase, dépen-dance) : soit il s’agit de la structure hiérarchique permettant d’identifier chaque élément d’information par rapport aux autres, soit il s’agit de la structure « à plat » qui énumère les éléments informatifs sans expliciter les liens qu’ils ont les uns avec les autres (cf. annexeA page 239). Le parcours et la comparaison des structures plates est extrêmement rapide même s’il est peu approfondi. La comparaison des structures plates de la base documentaire avec celle de la requête va nous permettre d’éliminer le texte qui ne contient pas l’information contenue dans cette requête.

L’exemple6.3 page suivanteillustre le principe de création et d’utilisation de la structure plate d’un énoncé. Cette structure plate correspond à la liste des éléments 178

6.3. Correspondance entre question et réponses

Qui persécutait les chrétiens ? (1)

Le monarque (…) persécutait les chrétiens (…) (2) Les chrétiens persécutent le monarque (3) Théodose défendit les chrétiens (…) (4)

Structure de (1) SUBJ(persécutait,?[humain:+]) VARG[DIR](persécutait,chrétiens) Structure de (2) SUBJ(persécutait, monarque[humain:+]) VARG[DIR](persécutait,chrétiens) Structure de (3) SUBJ(persécutent, chrétiens[humain:+]) VARG[DIR](persécutent,monarque) Structure de (4) SUBJ(défendit, Théodose[humain:+]) VARG[DIR](défendit,chrétiens)

Structures plates des énoncés

(1) (2) (3) (4)

SUBJ SUBJ SUBJ SUBJ

VARG VARG VARG VARG

DIR DIR DIR DIR

persécuter persécuter persécuter défendre

chrétien chrétien chrétien chrétien

monarque monarque Théodose

humain humain humain humain

Figure 6.3. Utilisation de la structure plate pour un filtrage des réponses candidates.

d’information de la structure informationnelle de cet énoncé. Dans l’exemple, on peut voir l’intérêt de cette structure plate, qui permet, par une comparaison simple et rapide, l’élimination d’une réponse inexacte (énoncé (4) qui ne contient pas

per-sécuter). On peut également en voir les limites avec l’énoncé (3), qui contient

informa-6. Interrogation des documents

tion différemment. L’exploitation de la structure plate permet dès lors d’effectuer un tri et d’éliminer les phrases qui ne contiennent pas l’information requise. Il faut toutefois en passer par la structure informationnelle complète pour décider si les candidates qui passent ce premier filtre correspondent bien à la question posée.

Lorsque les réponses candidates ont été isolées, il faut vérifier que les liens entre les éléments informationnels correspondent à la syntaxe de la requête. Cette com-paraison porte sur la nature des dépendances et sur les arguments des dépendan-ces, les traits étant laissés de côté à ce stade de l’opération⁷. La vérification la plus aisée et la moins coûteuse porte sur les dépendances simples, issues de l’analyse syntaxique, de l’enrichissement synonymique simple ou de l’enrichissement par dérivations morphologiques. En effet, ces dépendances sont directement dispo-nibles dans la structure informationnelle hiérarchique maintenant exploitée. En cas de succès de cette comparaison, la réponse candidate est considérée comme une réponse pertinente à la question et présentée à l’utilisateur. Le processus passe alors au traitement d’une éventuelle autre réponse candidate.

À défaut d’une correspondance parfaite des deux structures informationnelles⁸, la procédure d’interrogation préconise de compléter la structure de la réponse can-didate avec les dépendances disjonctives. Cette phase demande un traitement par-ticulier car les dépendances disjonctives ne peuvent être directement comparées à celles qu’extrait l’analyseur NTM-XIP qui a généré la structure informationnelle de la question.

À partir de chaque dépendance disjonctive, il s’agit de reconstituer toutes les dépendances de même nature que la dépendance disjonctive⁹en effectuant toutes les combinaisons possibles entre les arguments, chaque argument conservant tou-tefois son rang. La structure hiérarchique partielle est ainsi enrichie de plusieurs dépendances simples pour chaque dépendance disjonctive – qu’elles remplacent. La correspondance des structures de la question et de la réponse candidate peut alors être une nouvelle fois testée.

Le succès de la comparaison des structures déclenche la sélection de la réponse candidate et sa présentation à l’utilisateur comme réponse pertinente à la question posée. Le système passe ensuite à la réponse candidate suivante pour lui appliquer la même procédure si une autre candidate est proposée, ou bien s’arrête.

7. Excepté en ce qui concerne l’argument des dépendances impliquant l’objet de la question. En effet, un argument de ces dépendances ne présente aucune unité lexicale, mais bien une ou plusieurs exigences liées à des traits sémantiques.

8. Celle de la requête doit être entièrement incluse dans celle de la réponse candidate.

9. Par exemple, une dépendance disjonctive de type SUBJ donnera plusieurs dépendances de type SUBJ, une dépendance disjonctive de type VARG[DIR] donnera une série de dépendances de type VARG[DIR], etc.

6.3. Correspondance entre question et réponses

Mais s’il n’y a pas eu correspondance entre la structure locale de la question et celle de la réponse candidate, il est inutile d’avoir recours une nouvelle fois à la structure syntaxico-sémantique de la base textuelle pour y puiser une information supplémentaire à verser dans cette structure candidate. En effet, l’ensemble des données disponibles y sont maintenant présentes. Pourtant, il est possible que la réponse candidate apporte une réponse pertinente à la question, mais que les con-traintes imposées pour mettre en correspondance réponses et question soient trop strictes pour que cette réponse convienne.

Deux possibilités de relâchement des contraintes se présentent alors :

• il est possible de réduire la quantité d’information présente dans la struc-ture informationnelle de la question et, par voie de conséquence, d’élargir les possibilités de correspondance entre cette structure et celle des répon-ses candidates¹⁰. Cependant, nous sommes engagés ici dans une procédure qui réclame une complète correspondance entre les structures plates de la requête et des réponses candidates. Cette technique est donc à rejeter pour l’instant¹¹;

• il est également possible de se contenter de correspondances partielles entre lesdépendancescontenuesdanslastructurehiérarchiquedelaquestionetla structure locale hiérarchique de la réponse candidate¹². C’est cette méthode de relâchement des contraintes sur la correspondance que nous utilisons à ce stade de la méthode.

L’application du relâchement sur la correspondance des structures de la requête et de la réponse candidate provoque l’attribution d’un score à cette réponse candi-date qui correspond à la proportion des dépendances de la question présentes dans la réponse candidate. Les réponses candidates qui coïncident partiellement avec la structure de la requête sont conservées en mémoire et peuvent être classifiées en fin de traitement de la question en fonction du score qu’elles obtiennent. Du fait de leur plus faible correspondance avec la question, le niveau de confiance qui leur est attribué est susceptible de varier en fonction du score qui leur est attribué. Il est également possible d’éliminer certaines réponses candidates si leur score n’est pas suffisamment élevé. Le niveau du score d’élimination est paramétrable.

10. Nous appelons « dégradation sur la question » ce type de relâchement des contraintes. 11. La section suivante6.3.2 page suivanteétudie l’opportunité de limiter l’information requise pour mettre en correspondance le contenu de la question et le contenu de fragments de textes appe-lés à devenir des réponses candidates.

6. Interrogation des documents