• Aucun résultat trouvé

Autres mod`eles bas´es sur la th´eorie des ensembles

1.3 Les mod`eles-piliers de la Recherche

1.3.2 Autres mod`eles bas´es sur la th´eorie des ensembles

1.3.2.1 Le mod`ele flou

La repr´esentation des documents et des requˆetes par des ensembles refl`ete partiellement les contenus s´emantiques des documents et des requˆetes. Par cons´equent, la correspondance d’un document avec les termes d’une requˆete est approximative (ou vague). Ceci peut ˆetre mod´elis´e en consid´erant que chaque terme de la requˆete d´efinit un ensemble flou et que chaque document poss`ede un degr´e d’appartenance (g´en´eralement inf´erieur `a 1) `a cet ensemble. Le degr´e d’appartenance est utilis´e pour repr´esenter l’incertitude ou l’ambigu¨ıt´e. Les bases de la logique floue sont pr´esent´ees dans [232]. Les trois op´erations les plus couramment effectu´ees sur des ensembles flous (le compl´ement, l’union et l’intersection) sont ainsi d´efinies :

µ(a et b) = min(µ(a), µ(b)) µ(a ou b) = max(µ(a), µ(b)) µ(non b) = 1 − µ(b)

(1.5) o`u µ est la fonction d’appartenance floue. De nombreux op´erateurs flous ont ´et´e d´evelopp´es. Nous proposons ici celui de Paice [149], inspir´e du mod`ele bool´een, pour qui le score d’un document pour une requˆete (a1 et a2. . . an) ou la requˆete

(a1 ou a2 . . . an) est calcul´e comme suit :

RSV (d, q) = Pn k=1rk−1µ(ak) Pn k=1rk−1 (1.6)

o`u les µ(ak) sont consid´er´es dans un ordre d´ecroissant pour les requˆetes ou

et croissant pour les requˆetes et. Pour les requˆetes bool´eennes contenant plus d’un op´erateur, l’´evaluation est effectu´ee de mani`ere r´ecursive. La valeur de r est d´etermin´ee exp´erimentalement pour les deux op´erateurs, elle d´etermine la ”douceur” de l’op´erateur. Pour une valeur proche de 1, les deux op´erateurs poss`edent le mˆeme comportement. Pour de grandes valeurs, les op´erateurs se comportent de plus en plus comme dans le mod`ele bool´een.

Une autre application du mod`ele flou est la construction et l’utilisation d’un thesaurus [145] ou d’une ontologie [128] pour ´etendre la requˆete. Le mod`ele peut enfin ˆetre utilis´e pour former une nouvelle requˆete dans un cycle de refor- mulation de la requˆete [30].

1.3.2.2 Le mod`ele bool´een ´etendu

Le mod`ele bool´een ´etendu a ´et´e introduit en 1983 par Salton, Fox et Wu [176]. Ce mod`ele peut ˆetre vu comme une combinaison du mod`ele vectoriel et du mod`ele bool´een.

Prenons un exemple simple avec seulement deux termes dans la requˆete, kx et

ky. On peut repr´esenter les requˆetes et les documents dans un espace `a deux

dimensions : (1,0) (1,1) (0,1) (0,0) dj+1 dj kx ky kx et ky (1,0) (1,1) (0,1) (0,0) dj+1 dj kx ky kx ou ky

Fig. 1.5 – Logique bool´eenne ´etendue en consid´erant un espace compos´e de deux termes kx et ky

Pour plus de simplicit´e dans la suite des notations, le poids wx,j sera ap-

pel´e x et le poids wy,j sera appel´e y. Pour la requˆete kx ou ky, le point (0,0)

correspond `a la situation o`u aucun des termes kx et ky n’est pr´esent dans le

document, cette situation est donc la moins d´esir´ee. Pour la requˆete kx et ky,

le point (1,1) repr´esente la situation o`u les termes kx et ky sont pr´esents dans le

document, il s’agit du cas le plus d´esir´e. On peut donc conclure que les requˆetes avec l’op´erateur ou doivent ranger les documents dans l’ordre d´ecroissant de leur distance au point (0,0) et que les requˆetes avec l’op´erateur et doivent ran- ger les documents dans l’ordre croissant de leur distance au point (1,1). Sur cette base, les scores de similarit´e document-requˆete sont ainsi calcul´es :

RSV (→d, qou) = s x2 + y2 2 RSV (→d , qet) = 1 − s (1 − x)2 + (1 − y)2 2 (1.7)

Le mod`ele p-norm g´en´eralise cette notion de distance en incluant non seule- ment les distances euclidiennes mais aussi les p-distances, avec 1 ≤ p ≤ ∞. La

valeur de p est indiqu´ee au moment de la requˆete. Si m est le nombre de termes dans la requˆete, les fonctions de similarit´e deviennent alors :

RSV (→d, qou) = ( xp1+ xp2+ . . . + xp m m ) 1 p RSV (→d, qet) = 1 − ( (1 − x1)p+ (1 − x2)p+ . . . + (1 − xm)p m ) 1 p (1.8)

Si p = 1, on se ram`ene au mod`ele bool´een et si p = 2, on retrouve les formules de l’´equation 1.7. Enfin si p = ∞, on peut v´erifier que l’on se ram`ene aux op´erateurs flous :

RSV (→d, qou) = max(xi)

RSV (→d, qet) = min(xi)

(1.9) Le mod`ele bool´een ´etendu ´etend l’alg`ebre de Boole avec des distances alg´ebri- ques. Il s’agit ainsi d’un mod`ele hybride qui inclut les propri´et´es des mod`eles ensembliste et alg´ebrique. Le mod`ele bool´een ´etendu n’a pas ´et´e beaucoup uti- lis´e par la suite, mais il donne un cadre nouveau `a la recherche d’information, cadre qui pourrait s’av´erer utile dans le futur.

1.3.3

Autres mod`eles alg´ebriques

1.3.3.1 Le mod`ele vectoriel g´en´eralis´e

Les trois mod`eles classiques d´ecrits au paragraphe pr´ec´edent consid`erent que les termes de l’index sont ind´ependants. Pour le mod`ele vectoriel, ceci se traduit par le fait que les vecteurs repr´esentant les termes de l’index sont or- thogonaux deux `a deux.

En 1985, Wong, Ziarko et Wong proposent une interpr´etation dans laquelle les vecteurs des termes de l’index sont lin´eairement ind´ependants mais non or- thogonaux deux `a deux. Cette interpr´etation est appel´ee le mod`ele vectoriel g´en´eralis´e. On trouvera les d´etails de cette th´eorie dans [224]. D’une mani`ere g´en´erale, la contribution principale du mod`ele est l’´etablissement d’un cadre formel dans lequel les d´ependances entre les termes de l’index peuvent ˆetre fa- cilement repr´esent´ees.

Cependant, il est loin d’ˆetre prouv´e que l’introduction de d´ependances entre termes dans un mod`ele permette d’augmenter son efficacit´e. De plus, le mod`ele vectoriel g´en´eralis´e est plus compliqu´e et plus lent que le mod`ele vectoriel clas- sique.

Il n’en reste pas moins remarquable qu’un tel mod`ele introduit de nouvelles possibilit´es dans le monde de la recherche d’information.

1.3.3.2 Latent Semantic Indexing Model (LSI)

L’id´ee principale du mod`ele LSI (Latent Semantic Model ) [80] est que les id´ees dans un texte sont plus reli´ees aux concepts d´ecrits par elles que les termes de l’index utilis´es pour leur description. Ainsi, la correspondance entre un document et une requˆete donn´ee devrait ˆetre bas´ee sur la correspondance des concepts plutˆot que sur la correspondance des termes de l’index. L’objectif fon- damental est d’aboutir `a une repr´esentation conceptuelle des documents. Ainsi, les documents qui partagent des termes co-occurents ont des repr´esentations proches, ce qui permet de s´electionner un document mˆeme s’il ne contient au- cun mot de la requˆete. Pour ce faire, on se place dans un espace de moindre dimension associ´e aux concepts. Les vecteurs des termes de l’index sont conver- tis dans cet espace, et le mod`ele affirme que la recherche dans l’espace r´eduit donne de meilleurs r´esultats que la recherche dans l’espace des termes de l’in- dex.

Formellement, soit N la matrice termes-documents (par exemple en utilisant le crit`ere TF- IDF). LSI permet de trouver une approximation N de N tellef que :

f

N = UgXVt (1.10)

o`u U et V repr´esentent des matrices telles que UtU = VtV = I, et fP donn´ee

par :

g X

= (σ1, . . . σr, 0, . . . , 0) (1.11)

est une matrice diagonale, les σi sont les composantes principales avec ∀i ∈

{1, . . . r − 1}, σi ≥ σi+1, et fP = (σ1, . . . σs, 0, . . . , 0) est une approximation de

P

, avec s < r.

La similarit´e entre deux documents di et dj est calcul´ee comme suit :

RSV (di, dj) = Si,j

S =NfNft

= UfP2Ut

(1.12) Le calcul de similarit´e entre le document et la requˆete est calcul´e de la mˆeme fa¸con. D’apr`es [202], le principal inconv´enient de cette m´ethode est qu’elle n’est pas souple pour certains types d’applications dont le filtrage. En effet, la per- formance et la stabilit´e du syst`eme d´ependent largement de la quantit´e et de la qualit´e des donn´ees trait´ees. Si le nombre de documents est faible, le calcul deN ne donne pas une vraie approximation de N et le processus devient erron´e.f

1.3.3.3 Le mod`ele connexionniste

Sous le terme r´eseaux de neurones, on regroupe un certaine nombre de mod`eles dont l’objectif est d’imiter quelques fonctions du cerveau humain en reproduisant certaines de ses structures de base.

Le fonctionnement du r´eseau se fait par propagation de signaux de la couche d’entr´ee vers la couche de sortie. Chaque neurone de la couche d’entr´ee re¸coit une valeur d’activation, calcule une valeur de sortie et la transmet vers les neurones qui lui sont reli´es dans la couche suivante. Ce processus se reproduit jusqu’`a arriver `a la couche de sortie, les valeurs de sorties dans la couche de sortie servant de crit`ere de d´ecision.

La notion de r´eseau en g´en´eral est tr`es int´eressante pour repr´esenter les diff´eren- tes relations et associations qui existent entre les termes et les documents. Ceci est d’autant plus vrai quand ces relations sont valu´ees. Diff´erentes relations peuvent exister entre les termes et les documents :

– Relations entre les termes : synonymie, voisinage,. . . – Relations entre les documents : similitude, r´ef´erence,. . .

– Relations entre les termes et les documents : fr´equence, poids,. . .

La figure 1.6 repr´esente un mod`ele de r´eseaux de neurones pour la recherche d’information.

Une repr´esentation sous forme de r´eseau permet de mettre en ´evidence l’im-

ka kb kc k1 ka kb kc kt d1 dj dj+1 dN Couche Requête Couche Termes Couche Documents

Fig. 1.6 – Un mod`ele de r´eseau de neurones pour la recherche d’information portance des relations et des interactions qui peuvent exister entre les diff´erents ´el´ements d’un syst`eme documentaire. Il n’existe pas de repr´esentation unique d’un r´eseau de neurones pour la recherche d’information, c’est au constructeur du syst`eme de la d´efinir (nombre de couches, nombre de neurones par couche, fonction de sortie de chaque neurone, liens entre les neurones et poids des neu- rones, couche d’entr´ee et couche de sortie).

La propri´et´e la plus importante dans un r´eseau de neurones est l’apprentis- sage. Il s’agit en fait d’un entraˆınement du r´eseau : on pr´esente au r´eseau des entr´ees et on lui demande de modifier sa pond´eration de telle sorte que l’on re- trouve la sortie correspondante. Pour effectuer cet apprentissage, l’algorithme de retro-propagation du gradient [171] est de loin le plus utilis´e. On notera cependant que l’apprentissage dans les r´eseaux de neurones n’est pas exempt de contraintes comme un coˆut ´elev´e en temps d’ex´ecution, et une efficacit´e si- gnificative `a partir d’un certain nombre de couches cach´ees, nombre qu’il n’est pas ais´e de d´efinir.

Citons maintenant quelques unes des applications des r´eseaux de neurones en recherche d’information. Ogawa [146] et Robertson [165] s’en servent pour l’ex- pansion des requˆetes. Dans [114,115,143], les cartes auto-organisatrices de Ko- honen (en anglais Self Organization Map, SOM ) sont utilis´ees pour r´epondre `a des probl`emes de classification. Dans [202], le mod`ele connexionniste est uti- lis´e pour le filtrage d’information. Wilkinson [222] fait partie des pr´ecurseurs de l’utilisation des r´eseaux de neurones pour la recherche de documents per- tinents. PIRCS [119] et Mercure (Mod`elE de Reseau Connexionniste poUr la REcherche d’Information) [22] sont deux syst`emes de recherche d’information enti`erement bas´es sur l’approche connexionniste.

Les r´eseaux de neurones proposent une approche originale de la recherche d’in- formation, et ce grˆace aux possibilit´es de leur apprentissage. On peut cependant regretter leur aspect ”boˆıte noire” : il est tr`es difficile, voire impossible pour l’utilisateur, de comprendre pourquoi tel ou tel document a ´et´e s´electionn´e, contrairement aux mod`eles bool´eens et vectoriels.