Modèles de recherche d’informations - Un modèle de raisonnement pour un système de recherche sé

Un modèle de recherche d’information spécifie pour le système qui l’utilisera les démarches à suivre pour l’accomplissement des étapes décrites précédemment. Ce sont la représentation des documents et des requêtes, l’indexation, la recherche proprement dite, l’évaluation des correspondances documents-requêtes et si besoin en est, la reformulation de la requête.

I.4.1 Le modèle booléen

Dans ce modèle une recherche d’information consiste à trouver les documents qui contiennent les mêmes termes (éventuellement avec poids) que la requête construite à base de mots clés. Dans ce sens, un document se rapportant à « professeurs » ne sera pas retrouvé pour répondre à une requête qui concerne les « chercheurs » lorsque le document ne contient pas le terme « professeurs », il est évident que « professeurs » est un type de « chercheurs ».Les requêtes peuvent être formulée par des termes reliés par les opérateurs logiques de base, à savoir « AND », « OR » et la négation « NOT ». Comme indiqué plus haut le document est représenté par son vecteur index, c'est-à-dire : d = t1,t2, … tn. La requête est représentée par une expression logique de termes avec des opérateurs logiques.

Parmi les avantages de ce modèle nous avons l’exactitude des représentations des concepts, en plus ce modèle permet de résoudre partiellement le problème de synonymie en utilisant l’opérateur « OR » [Fra,1992]. Il convient aussi pour exprimer un terme (ensemble de mots) par l’opérateur « AND », et il est facile à implémenter.

Les insuffisances, concernent la nécessité de savoir utiliser et interpréter les formulations booléennes, l’autre désavantage est que les documents ne sont pas présentés par ordre de pertinence, tous les documents retournés ont la même mesure de similarité envers la requête soumise.

____________________________________________________________________________ Chapitre I : Modèles classiques de représentation

Et de recherche d’informations

____________________________________________________________________________

I.4.2 Le modèle à espace vectoriel (SVM)

Le modèle vectoriel, est un modèle mathématique [Sch,2005] [Sal,1971]. Il permet de représenter les documents et les requêtes par des vecteurs d’un espace à «n » dimensions, les « n » repères étant constitués par les termes d’indexation.

Le principe de l’approche vectorielle consiste en une transformation des données textuelles en une représentation numérique, utilisant des vecteurs et des matrices et des techniques statistiques et d’analyses matricielle pour la découverte des caractéristiques de connections dans un ensemble de documents. Dans le modèle vectoriel chaque document et chaque requête est représenté par un vecteur de « t » dimensions (t : nombre de termes).

Figure I.6 : Vecteurs documents et requêtes dans l’espace des termes

Chaque terme du corpus représente une dimension de l’espace considéré, ensuite le codage de la représentation vectorielle est réalisé soit par une fonction booléenne, ou par une fonction de nombre d’occurrences de termes dans les documents.

La Figure I.6 est un exemple de représentation de deux document « D1 » et « D2 » et d’une requête « Q » dans un espace de trois dimensions (T1,T2,T3). En appliquant la similarité donnée par la formule du cosinus vue précédemment, nous remarquons que plus deux vecteurs sont similaires, plus l’angle formé est petit, et plus le cosinus de cet angle est grand [Mar,2004]. Dans la Figure I.6, le document « D1 » est plus similaire à la requête « Q » que le document « D2 ». A la différence du modèle booléen, la fonction de similarité évalue une correspondance partielle entre un document et une requête, ce qui permet de retrouver des documents qui satisfont approximativement la requête. Les résultats peuvent donc être ordonnés par ordre de pertinence décroissante.

Le modèle vectoriel ne considère pas les relations entre les termes, les mots clés sont indépendant, d’où l’orthogonalité des dimensions de l’espace, c’est une insuffisance apparente,

T1 T3 T2 D2 D1 Q α β

Chapitre I : Modèles classiques de représentation Et de recherche d’informations

____________________________________________________________________________

mais dans la pratique il semble que la prise en compte de ces dépendances n’a pas conduit à améliorer notablement la qualité du modèle [Rag,1986].

Dans le modèle à espace vectoriel, on utilise une matrice dite « Terme x Document » pour représenter les termes d’indexation et les documents du corpus. Chaque ligne représente un document, et chaque colonne représente un terme de l’index comme illustré en Figure I.7.

Figure I.7 : Matrice Terme x Document (nxm)

Les différentes évaluations réalisées ont montré que le modèle vectoriel donne des résultats satisfaisants [Bae,1999]. Les performances en temps de réponse et la qualité des résultats restent appréciables même quand le nombre de dimensions est grand, par conséquent nous avons choisi de l’utiliser dans nos travaux relatifs à cette thèse.

I.4.3 Le modèle Latent Semantic Indexing (LSI )

Le modèle LSI est une variante du modèle vectoriel standard, qui pour améliorer les représentations et les performances, cherche à réduire le nombre de dimensions des vecteurs. L’idée suppose l’existence d’une structure sémantique latente dans un corpus de documents, étant donnée une matrice Terme x Document A(m,n), une colonne de cette matrice est un document donné par le vecteur d’occurrence des termes qui le composent [Vac,2005].

Cette matrice est projetée dans un espace de dimensions plus faible, où les descripteurs considérés ne sont plus de simples termes (les termes apparaissant ensemble sont projetés sur une même dimension), c’est une représentation qui vise à résoudre partiellement les problèmes de synonymes et des termes polysèmes [Sch,2005].

Le contexte mathématique :

A(t,d) :matrice termes par documents

Il existe pour A une factorisation de la forme : T : est une matrice unitaire (txn) orthogonale

mn mj m2 m1 m in ij i2 i1 i 2n 2j 22 21 2 1n 1j 12 11 1 n j 2 1 W W W W D W W W W D W W W W D W W W W D T T T T nxd T nxn txnS D T = txd A ₍₁₈₎

____________________________________________________________________________ Chapitre I : Modèles classiques de représentation

Et de recherche d’informations

____________________________________________________________________________

S : est une matrice (nxn) dont les éléments diagonaux sont des réels positifs, et tous les autres sont nuls, c’est une matrice diagonales, les éléments diagonaux sont les valeurs singulières de la matrice A.

DT : est une matrice (nxd) orthogonale.

Le rang de la nouvelle matrice Â est égal au nombre des valeurs singulières non nulles.

I.4.4 Le modèle probabiliste

Ce modèle s’appuie sur des théories de probabilité, et considère que les termes d’indexation sont indépendants, et que leur probabilité d’apparition est la même avec ou sans la présence des autres termes. Sous cette hypothèse, le problème revient à estimer la probabilité qu’un document retourné soit pertinent par rapport à la requête. Dans cette perspective des théories de probabilités des approches [Rij,1979] [Boo,1983] [Fuh,1989] ont été développées.

Le modèle probabiliste tente d’estimer la probabilité de la pertinence (respectivement la non pertinence) d’un document notée P(PERT|D) (resp. P(NPERT/D)) . Seules la présence et l’absence de termes dans les documents et dans les requêtes sont considérées comme des caractéristiques observables, 0 (absent) ou 1 (présent).

La similarité entre une requête q et un document d est déterminée par :

Plus cette proportion est élevée pour un document, plus ce document est pertinent pour la requête, les formule de Bayes sont introduites pour le calcul de ces probabilités.

Dans le document Un modèle de raisonnement pour un système de recherche sémantique d’informations sur le web basé agents (Page 30-33)