Autres modèles basés sur la théorie des ensembles

1.3 Les mod`eles-piliers de la Recherche

1.3.2 Autres modèles basés sur la théorie des ensembles

1.3.2.1 Le mod`ele flou

La représentation des documents et des requêtes par des ensembles reflète partiellement les contenus sémantiques des documents et des requêtes. Par conséquent, la correspondance d’un document avec les termes d’une requête est approximative (ou vague). Ceci peut être modélisé en considérant que chaque terme de la requête définit un ensemble flou et que chaque document possède un degré d’appartenance (généralement inférieur à 1) à cet ensemble. Le degré d’appartenance est utilisé pour représenter l’incertitude ou l’ambigu¨ıté. Les bases de la logique floue sont présentées dans [232]. Les trois opérations les plus couramment effectuées sur des ensembles flous (le complément, l’union et l’intersection) sont ainsi définies :

µ(a et b) = min(µ(a), µ(b)) µ(a ou b) = max(µ(a), µ(b)) µ(non b) = 1 − µ(b)

(1.5) où µ est la fonction d’appartenance floue. De nombreux opérateurs flous ont été développés. Nous proposons ici celui de Paice [149], inspiré du modèle booléen, pour qui le score d’un document pour une requête (a1 et a2. . . an) ou la requête

(a1 ou a2 . . . an) est calcul´e comme suit :

RSV (d, q) = Pn k=1rk−1µ(ak) Pn k=1rk−1 (1.6)

où les µ(ak) sont considérés dans un ordre décroissant pour les requêtes ou

et croissant pour les requêtes et. Pour les requêtes booléennes contenant plus d’un opérateur, l’évaluation est effectuée de manière récursive. La valeur de r est déterminée expérimentalement pour les deux opérateurs, elle détermine la ”douceur” de l’opérateur. Pour une valeur proche de 1, les deux opérateurs possèdent le même comportement. Pour de grandes valeurs, les opérateurs se comportent de plus en plus comme dans le modèle booléen.

Une autre application du modèle flou est la construction et l’utilisation d’un thesaurus [145] ou d’une ontologie [128] pour étendre la requête. Le modèle peut enfin être utilisé pour former une nouvelle requête dans un cycle de refor- mulation de la requête [30].

1.3.2.2 Le modèle booléen étendu

Le modèle booléen étendu a été introduit en 1983 par Salton, Fox et Wu [176]. Ce modèle peut être vu comme une combinaison du modèle vectoriel et du modèle booléen.

Prenons un exemple simple avec seulement deux termes dans la requˆete, kx et

ky. On peut représenter les requêtes et les documents dans un espace à deux

dimensions : (1,0) (1,1) (0,1) (0,0) dj+1 dj kx ky kx et ky (1,0) (1,1) (0,1) (0,0) dj+1 dj kx ky kx ou ky

Fig. _{1.5 – Logique booléenne étendue en considérant un espace composé de} deux termes kx et ky

Pour plus de simplicit´e dans la suite des notations, le poids wx,j sera ap-

pelé x et le poids wy,j sera appelé y. Pour la requête kx ou ky, le point (0,0)

correspond à la situation où aucun des termes kx et ky n’est présent dans le

document, cette situation est donc la moins désirée. Pour la requête kx et ky,

le point (1,1) représente la situation où les termes kx et ky sont présents dans le

document, il s’agit du cas le plus désiré. On peut donc conclure que les requêtes avec l’opérateur ou doivent ranger les documents dans l’ordre décroissant de leur distance au point (0,0) et que les requêtes avec l’opérateur et doivent ranger les documents dans l’ordre croissant de leur distance au point (1,1). Sur cette base, les scores de similarité document-requête sont ainsi calculés :

RSV (→d, qou) = s x2 _{+ y}2 2 RSV (→d , qet) = 1 − s (1 − x)2 _{+ (1 − y)}2 2 (1.7)

Le modèle p-norm généralise cette notion de distance en incluant non seulement les distances euclidiennes mais aussi les p-distances, avec 1 ≤ p ≤ ∞. La

valeur de p est indiquée au moment de la requête. Si m est le nombre de termes dans la requête, les fonctions de similarité deviennent alors :

RSV (→d, qou) = ( xp₁+ xp₂+ . . . + xp m m ) 1 p RSV (→d, qet) = 1 − ( (1 − x1)p+ (1 − x2)p+ . . . + (1 − xm)p m ) 1 p (1.8)

Si p = 1, on se ramène au modèle booléen et si p = 2, on retrouve les formules de l’équation 1.7. Enfin si p = ∞, on peut vérifier que l’on se ramène aux opérateurs flous :

RSV (→d, qou) = max(xi)

RSV (→d, qet) = min(xi)

(1.9) Le modèle booléen étendu étend l’algèbre de Boole avec des distances algébri- ques. Il s’agit ainsi d’un modèle hybride qui inclut les propriétés des modèles ensembliste et algébrique. Le modèle booléen étendu n’a pas été beaucoup uti- lisé par la suite, mais il donne un cadre nouveau à la recherche d’information, cadre qui pourrait s’avérer utile dans le futur.

1.3.3 Autres mod`eles alg´ebriques

1.3.3.1 Le modèle vectoriel généralisé

Les trois modèles classiques décrits au paragraphe précédent considèrent que les termes de l’index sont indépendants. Pour le modèle vectoriel, ceci se traduit par le fait que les vecteurs représentant les termes de l’index sont or- thogonaux deux à deux.

En 1985, Wong, Ziarko et Wong proposent une interprétation dans laquelle les vecteurs des termes de l’index sont linéairement indépendants mais non or- thogonaux deux à deux. Cette interprétation est appelée le modèle vectoriel généralisé. On trouvera les détails de cette théorie dans [224]. D’une manière générale, la contribution principale du modèle est l’établissement d’un cadre formel dans lequel les dépendances entre les termes de l’index peuvent être fa- cilement représentées.

Cependant, il est loin d’être prouvé que l’introduction de dépendances entre termes dans un modèle permette d’augmenter son efficacité. De plus, le modèle vectoriel généralisé est plus compliqué et plus lent que le modèle vectoriel clas- sique.

Il n’en reste pas moins remarquable qu’un tel mod`ele introduit de nouvelles possibilit´es dans le monde de la recherche d’information.

1.3.3.2 Latent Semantic Indexing Model (LSI)

L’idée principale du modèle LSI (Latent Semantic Model ) [80] est que les idées dans un texte sont plus reliées aux concepts décrits par elles que les termes de l’index utilisés pour leur description. Ainsi, la correspondance entre un document et une requête donnée devrait être basée sur la correspondance des concepts plutôt que sur la correspondance des termes de l’index. L’objectif fon- damental est d’aboutir à une représentation conceptuelle des documents. Ainsi, les documents qui partagent des termes co-occurents ont des représentations proches, ce qui permet de sélectionner un document même s’il ne contient aucun mot de la requête. Pour ce faire, on se place dans un espace de moindre dimension associé aux concepts. Les vecteurs des termes de l’index sont conver- tis dans cet espace, et le modèle affirme que la recherche dans l’espace réduit donne de meilleurs résultats que la recherche dans l’espace des termes de l’index.

Formellement, soit N la matrice termes-documents (par exemple en utilisant le crit`ere TF- IDF). LSI permet de trouver une approximation N de N tellef que :

N = UgXVt _(1.10)

où U et V représentent des matrices telles que Ut_{U = V}t_{V = I, et} _fP _donnée

par :

g X

= (σ1, . . . σr, 0, . . . , 0) (1.11)

est une matrice diagonale, les σi sont les composantes principales avec ∀i ∈

{1, . . . r − 1}, σi ≥ σi+1, et fP = (σ1, . . . σs, 0, . . . , 0) est une approximation de

, avec s < r.

La similarit´e entre deux documents di et dj est calcul´ee comme suit :

RSV (di, dj) = Si,j

S =NfNft

= UfP2Ut

(1.12) Le calcul de similarité entre le document et la requête est calculé de la même fa¸con. D’après [202], le principal inconvénient de cette méthode est qu’elle n’est pas souple pour certains types d’applications dont le filtrage. En effet, la per- formance et la stabilité du système dépendent largement de la quantité et de la qualité des données traitées. Si le nombre de documents est faible, le calcul deN ne donne pas une vraie approximation de N et le processus devient erroné.f

1.3.3.3 Le mod`ele connexionniste

Sous le terme r´eseaux de neurones, on regroupe un certaine nombre de mod`eles dont l’objectif est d’imiter quelques fonctions du cerveau humain en reproduisant certaines de ses structures de base.

Le fonctionnement du réseau se fait par propagation de signaux de la couche d’entrée vers la couche de sortie. Chaque neurone de la couche d’entrée re¸coit une valeur d’activation, calcule une valeur de sortie et la transmet vers les neurones qui lui sont reliés dans la couche suivante. Ce processus se reproduit jusqu’à arriver à la couche de sortie, les valeurs de sorties dans la couche de sortie servant de critère de décision.

La notion de réseau en général est très intéressante pour représenter les différen- tes relations et associations qui existent entre les termes et les documents. Ceci est d’autant plus vrai quand ces relations sont valuées. Différentes relations peuvent exister entre les termes et les documents :

– Relations entre les termes : synonymie, voisinage,. . . – Relations entre les documents : similitude, r´ef´erence,. . .

– Relations entre les termes et les documents : fr´equence, poids,. . .

La figure 1.6 représente un modèle de réseaux de neurones pour la recherche d’information.

Une représentation sous forme de réseau permet de mettre en évidence l’im-

ka kb kc k1 ka kb kc kt d1 dj dj+1 dN Couche Requête Couche Termes Couche Documents

Fig. _{1.6 – Un modèle de réseau de neurones pour la recherche d’information} portance des relations et des interactions qui peuvent exister entre les différents éléments d’un système documentaire. Il n’existe pas de représentation unique d’un réseau de neurones pour la recherche d’information, c’est au constructeur du système de la définir (nombre de couches, nombre de neurones par couche, fonction de sortie de chaque neurone, liens entre les neurones et poids des neurones, couche d’entrée et couche de sortie).

La propriété la plus importante dans un réseau de neurones est l’apprentissage. Il s’agit en fait d’un entraˆınement du réseau : on présente au réseau des entrées et on lui demande de modifier sa pondération de telle sorte que l’on retrouve la sortie correspondante. Pour effectuer cet apprentissage, l’algorithme de retro-propagation du gradient [171] est de loin le plus utilisé. On notera cependant que l’apprentissage dans les réseaux de neurones n’est pas exempt de contraintes comme un coût élevé en temps d’exécution, et une efficacité si- gnificative à partir d’un certain nombre de couches cachées, nombre qu’il n’est pas aisé de définir.

Citons maintenant quelques unes des applications des réseaux de neurones en recherche d’information. Ogawa [146] et Robertson [165] s’en servent pour l’ex- pansion des requêtes. Dans [114,115,143], les cartes auto-organisatrices de Ko- honen (en anglais Self Organization Map, SOM ) sont utilisées pour répondre à des problèmes de classification. Dans [202], le modèle connexionniste est uti- lisé pour le filtrage d’information. Wilkinson [222] fait partie des précurseurs de l’utilisation des réseaux de neurones pour la recherche de documents per- tinents. PIRCS [119] et Mercure (ModèlE de Reseau Connexionniste poUr la REcherche d’Information) [22] sont deux systèmes de recherche d’information entièrement basés sur l’approche connexionniste.

Les réseaux de neurones proposent une approche originale de la recherche d’information, et ce grâce aux possibilités de leur apprentissage. On peut cependant regretter leur aspect ”boˆıte noire” : il est très difficile, voire impossible pour l’utilisateur, de comprendre pourquoi tel ou tel document a été sélectionné, contrairement aux modèles booléens et vectoriels.

Dans le document Modèle flexible pour la Recherche d'Information dans des corpus de documents semi-structurés (Page 47-52)