• Aucun résultat trouvé

Variante du tf.idf

Dans le document Questions réponses et interactions (Page 126-130)

IV.3 Mise en ÷uvre de la corrélation des termes

IV.3.3 Variante du tf.idf

Le tf est construit sur la base de la fréquence des termes dans un docu-ment. L'idf est construit sur la base du nombre de documents contenant un terme par rapport au nombre total de documents. Comme nous ne cherchons pas seulement un terme, mais des corrélations de termes, nous allons étudier un score basé d'une part sur le nombre de documents contenant à la fois un terme de la question et des termes des questions dépendantes et d'autre part sur le nombre total de documents. Une solution est de réaliser une extension du tf.idf, qui tienne compte des rangs de la structure.

La  partie  tf est augmentée par les cooccurrences éventuelles des termes dans le document. La  partie  idf est réduite pour tenir compte de la quantité de documents qui présentent ces mêmes cooccurrences. Ces deux modications sont réalisées pour reéter les stratégies proposées ci-dessus. Pour cela les fréquences liées aux termes des rangs les plus élevés sont multipliées aux fréquences des termes de premier rang à la manière d'une pondération.

Dans la suite nous utilisons les dénitions suivantes. Soit tij le j-ème terme

de rang i de la structure. Si i = 1 alors il s'agit d'un terme de la question. Soit nombreDeRangs le nombre de rangs de la structure des dépendances. IV.3.3.1 Fréquence des termes corrélés

Construisons un indicateur de la fréquence des termes de la question et

de ceux de la structure dans un document, le T f0. Nous n'accordons de

l'im-portance à un terme de rang n que si un terme de rang n − 1 de la structure est présent dans le document. Voici donc un système de fréquence des termes d'un rang pondéré par les fréquences des termes précédents :

4Les similitudes de cette méthode avec la nôtre fait qu'elles pourraient être implantées

simultanément pour interroger sur des termes et non des mots. Mais elles introduisent des dicultés techniques supplémentaire.

T f0(D) =

Σi

1Πi

1Πj1(f req(ti,j, D) + 1)− nombreDeRangs |i ∈ rangs de la structure,j ∈ terme du rang(i) f req(t, D) = #T erm1 | (#T erm > 0)

f req(t, D) = 0 | (#T erm = 0)

(F1)

C'est la somme des produits des fréquences d'un rang par le produit des fré-quences des sous rangs. C'est une corrélation rang à rang.

Intuitivement, nous commençons par calculer l'impact pour les termes de rang 1, nous réalisons un produit des fréquences pour obtenir un im-pact global pour le rang. Par rapport au tf traditionnel, chaque rang est traité comme s'il s'agissait d'un terme unique(un super-terme), mais chaque rang(super-terme) est pondéré non pas par une valeur xe, mais par le pro-duit des fréquences de tous les sous-rangs(supers-termes) précédents. Il en résulte que moins les termes des premiers rangs sont présents, moins l'im-pact des termes des rangs les plus anciens est important. Notons que si un terme de rang n est absent, alors il représente un élément neutre pour l'opé-ration de multiplication Π. Si tous les termes de rang n sont absents leur impact est exactement compensé par la soustraction nale du nombre de rangs. Si tous les termes de rang n sont présents le +1 lié au rang est

conservé5. Notons que seul l'ordre des documents nous intéresse, et que la

conservation du +1 ne change pas l'ordre des documents. Les diérents rangs de la structure sont vus comme des super-termes. Sous cette forme nous retrouvons bien les formules classiques qui ne tiennent pas compte des dépendances. La fréquence corrélée de formule F1 est, pour une structure de profondeur 3 avec m = 2, déni comme suit :

Soit tp,q le q-ième terme du p-ième rang et freq(x, D) + 1 = f(x) alors :

T f0(D)2 = f (t1,1)∗ f(t1,2)

+f (t1,1)∗ f(t1,2)∗ f(t2,1)∗ f(t2,2)

+f (t1,1)∗ f(t1,2)∗ f(t2,1)∗ f(t2,2)∗ f(t3,1)∗ f(t3,2) −3

Nous voyons que les i − 1(i ∈ rangs de la structure) premiers termes du produit des rangs agissent comme une pondération dénie dynamiquement. Pour la dernière question de l'exemple du début du chapitre (tableau IV.1 page 114) nous avons m = 3. Il en résulte que la forme expansée de la formule est plus longue :

5f req(t, D)pouvant être nul, or l'élément neutre de la multiplication est 1. Nous pou-vons omettre le +1 si la stratégie présentée en section V.3.1.1(page 143) est utilisée, ou qu'il n'y a pas de questions elliptiques.

IV.3 Mise en ÷uvre de la corrélation des termes 127

Soit tp,q le q-ième terme du p-ième rang et freq(x, D) + 1 = f(x) alors :

T f0(D)2 = f (Chambre)∗ f(P alais)

+f (Chambre) ∗ f(P alais) ∗ f(P alais) ∗ f(Mus´ee) ∗ f(Loger) ∗

f (P alais d0hiver)

+f (Chambre) ∗ f(P alais) ∗ f(P alais) ∗ f(Mus´ee) ∗ f(Loger) ∗

f (P alais d0hiver)∗f(T rouver)∗f(Mus´ee)∗f(Ermitage)∗f(Saint-P etersbourg)

−3

Mais comme la stratégie de sélection des termes élimine les termes en double : T f0(D)2 = f (Chambre)∗ f(P alais)

+f (Chambre)∗f(P alais)∗f(Loger)∗f(Mus´ee)∗f(P alais d0hiver)

+f (Chambre) ∗ f(P alais) ∗ f(Loger) ∗ f(Mus´ee) ∗

f (P alais d0hiver) ∗ f(T rouver) ∗ f(Ermitage) ∗

f(Saint-P etersbourg) −3

Le résultat exact pour l'exemple de l'arbre page 115 dépend du document. Remarquons que en rang 1, la réponse n'est pas encore calculée alors qu'elle l'est pour les autres rangs.

Le document D1 contient la totalité des mots de la requête. En utilisant

la notation f(x) = x + 1 où x = freq(terme, D), le T f0(D

1) vaut : T f0(D1)2=f(1)2+ f (1)5+ f (1)8 − 3

=4 + 32 + 256 − 3 =289

Supposons maintenant que nous calculons le T f0 du document D2 qui

est identique au document D1 mais dont le mot Loger a été retiré. Nous

obtenons les T f0 suivants :

T f0(D2)2=f(1)2+ f (0)∗ f(1)4+ f (0)∗ f(1)7 − 3 =4 + 1 ∗ 16 + 1 ∗ 128 − 3

=145

Nous voyons que le T f0 attribué aux documents respecte l'intuition que nous

pouvions avoir sur les documents, car le T f0(D

1) est supérieur au T f0(D

2) . IV.3.3.2 Fréquence des documents avec termes corrélés

Construisons un indicateur de la fréquence des documents possédant des

le nombre de documents dans un corpus qui contiennent à la fois le y-ème terme du rang x de la structure et le j-ème terme du rang i de la structure. Un terme d'un rang donné de la structure n'est pris en compte que si au moins un terme de chaque rang inférieur (donc plus récent) est aussi pris en compte pour déterminer l'importance d'un nombre de documents. Dans le cas où tous les termes sont eectivement présents dans tous les documents

contenant la bonne réponse, la quantité docs(ti)peut donc être substituée par

docs(ti ¯ t1,x ¯ t2,y ¯ ... ¯ tn,z)où les valeurs x y ... z varient dans les limites

possibles du rang concerné de la structure. Notons que les ti de la requête sont

intégrés aux calculs séparément les uns des autres. Obtenir tous les termes dans un même document est un cas idéal pour une requête idéale. Dans notre cas nous devons réduire nos contraintes sur la corrélation des termes, car nous ne sommes pas dans ce cas idéal. Nous pouvons relâcher des contraintes en autorisant certains termes des questions liées dans la structure à ne pas être corrélés aux autres. De cette manière, les corrélations de présence des termes

sont moins fortes, et représentent des cas dégradés6. Plus la mesure est faible

plus il existe un grand nombre de documents possédant ces termes corrélés. Une solution est alors de prendre en compte toutes les corrélations impli-quant au moins un terme d'un rang inférieur, et d'en faire la somme. Ainsi, s'il n'existe pas de corrélation, alors l'indicateur de fréquence des termes dans les documents sera faible. Par contre, s'il y a beaucoup de corrélations alors la valeur de l'indicateur sera renforcée par la fréquence de la corrélation la plus forte. Notons qu'une corrélation entre n termes implique l'existence d'une corrélation entre chaque sous groupe de n − 1 termes... et récursivement.

Nous pouvons alors proposer la formule suivante comme indicateur de fréquence des documents :

Idf0(ti) = 1 + log(N )− log(1 + Docs(ti) + Σx1(Docs(ti ¯ t1,x) | x ∈ t1) + Σx 1Σy1(Docs(ti ¯ t1,x ¯ t2,y) | x ∈ t1 , y∈ t2) + ... + Σx1... Σz1(Docs(ti ¯ t1,x ... tn,z ) | x ∈ t1 , ... , z ∈ tn, n = nombreDeRangs − 1) ) (F2)

Cette méthode de calcul se comprend en faisant une récursion. Pour un terme unique sans aucune dépendance nous retrouvons bien la formule de base. Imaginons maintenant que nous disposons d'un rang supplémentaire de dépendance. Le rang est ajouté à la partie précédente du calcul en faisant

IV.3 Mise en ÷uvre de la corrélation des termes 129 attention à la présence simultanée avec les termes de rangs inférieurs. Pour la présence simultanée, le système utilise l'opérateur de corrélation de pré-sence. Chaque terme du rang est ajouté à son tour, en vériant la présence des termes de rangs inférieurs. La formule modélise bien cela sous la forme Σx

1(#docs(ti ¯ t1,x) |x ∈ t1. L'addition (Σ) et la corrélation de présence(¯)

étant commutatives, la généralisation pour des dépendances avec plus de rangs ne pose pas de problèmes particuliers.

Dans le document Questions réponses et interactions (Page 126-130)