• Aucun résultat trouvé

Choix de la corrélation des termes

Dans le document Questions réponses et interactions (Page 121-124)

L'idée générale de l'approche est de renforcer la pondération des termes liés avec ceux des rangs précédents. Nous choisissons alors une forme de calcul de la pondération basée sur les co-occurrences de termes dans les do-cuments.

Plutôt que de pondérer les scores des termes par une fonction dépendant uniquement du rang dans la structure des dépendances, nous généralisons son usage pour prendre en compte un autre aspect. Nous allons l'exploiter diérement : nous allons tester la corrélation des termes d'un rang à l'autre, comme s'il s'agissait de paire de mots dont la distance dans un document est sans importance. Il s'agit de prendre deux termes de rangs consécutifs de la structure des dépendances et de regarder s'ils sont présents simulta-nément dans un document. Nous pouvons alors généraliser pour un nombre quelconque de rangs. Pour chaque terme d'un rang, il faut regarder s'il existe au moins un terme de chaque rang inférieur avec lequel il est présent dans le document dont il faut calculer le score. Des tests incrémentaux du rang, de la présence simultanée des termes servent alors de pondération dynamique. La pondération est dynamique, car elle dépend des liens entre les termes cherchés par l'utilisateur et trouvés dans le corpus.

Soit m le nombre maximum de termes qui peuvent être sélectionnés pour chaque rang. m est dans la mesure du possible une valeur à atteindre (mais à ne pas dépasser) pour le nombre de termes à sélectionner dans la stratégie de sélection de termes. Les variations sur le nombre de termes sélectionnés peuvent être réalisées sur le nombre de synonymes et de traductions retenus comme présentées à la section III.1.3 (page 93). Ceci fait écho aux méthodes de sélection de termes traditionnelles des SQR.

Nous avons étudié diérentes correlations de termes, parmi lesquelles nous avons retenu celles qui permettent le mieux de tenir compte des rangs des termes. La généralisation dans une forme utilisable de cette pondération peut se faire de diérentes façons. La corrélation qui permet que seule contribue au score du document ou bien la plus grande corrélation de termes ou bien chaque sous-corrélation de termes, n'est pas intéressante car elle revient sim-plement à chercher des n-uplets de termes indépendamment de l'existence d'une structure en dépendance. Celles qui posent le plus l'accent sur la corré-lation d'un terme d'un rang avec un terme d'un autre rang sont les suivantes : A) Lien unique pour tous les rangs

Un document est ajouté à la posting-list si et seulement il est composé d'au moins un terme de chaque rang de la structure. Ceci garantit qu'un terme de rang n ne peut avoir un poids relatif plus grand que la totalité des poids

IV.2 Choix de la corrélation des termes 121 des termes de rang n − 1. Le nombre de termes pour chaque rang a ainsi une inuence moins importante que dans les stratégies de pondération par rang de la structure. Cette stratégie renforce aussi l'impact des termes des questions liées (uniquement des termes corrélés avec ceux des rangs inférieurs).

De quel pays, Paris est-il la capitale ? Quelles sont les spécialités locales ? Est-ce qu'elles sont longues à préparer ?

Imaginons que les termes Paris et capitale soient très présents dans la collection. Alors, avec l'heuristique ci-dessus, les documents contenant Pa-ris ou capitale ne pourront être sélectionnés que s'ils contiennent aussi les termes spécialités(ou un autre terme de rang 2) et préparer (ou un autre terme de rang 1) pour répondre à la dernière question.

Ainsi le nombre de documents contenant le terme Paris est toujours inférieur à la somme des nombres de documents contenant les termes des questions de rangs inférieurs.

B) Liens incrémentaux

Une variation de cette méthode de corrélation est de n'ajouter dans la posting-list que les documents qui respectent le critère de coorélation de termes au rang 1, puis d'ajouter ceux qui le respectent jusqu'au rang 2 et ainsi de suite jusqu'au rang le plus ancien. Ainsi, les contraintes d'existence des termes composant les questions les plus anciennes, sont moins fortes.

Il est possible de réaliser cette opération incrémentale sur des poids plutôt que sur des inclusions en posting-list. Avec une variante par poids les docu-ments disposant d'une corrélation jusqu'au rang 3 auront en supplément le poids accordé pour une corrélation jusqu'au rang 2 et celle du rang 1. Au nal, un terme aura un poids sur un document égal à la longueur de la plus longue chaine de corrélation qu'il permet de calculer.

C) Corrélation avec tout un rang

Une autre variation consiste à décider qu'un document n'est intégré dans la posting-list par sélection liée à un terme, que si tous les termes de tous les rangs précédents sont aussi présents dans le document. C'est une variation qui renforce encore plus le poids de la dernière question posée. Il est im-probable de trouver dans un document (un passage de quelques centaines de caractères) d'un même auteur la totalité des synonymes pour un terme donné. C'est une variation qui impose une contrainte trop forte pour les termes des rangs supérieurs à 1.

Synthèse

Dans le but de trouver un juste milieu à la corrélation des termes, nous choisissons de nous intéresser à la variante à base de poids incrémentaux. Ce choix est une solution au problème de la section IV.1.1.2 (page 117). Dans le cas où il y a seulement deux termes importants l'un dans la dernière question l'autre dans la première, il n'y a plus de problème de choix de pondération. En eet, c'est ensemble que les termes ont le plus grand poids. Ils sont alors en compétition avec les corrélations de termes secondaires, mais c'est un problème classique qui n'est pas spécique aux dépendances entre questions.

IV.3 Mise en ÷uvre de la corrélation des termes 123

Dans le document Questions réponses et interactions (Page 121-124)