• Aucun résultat trouvé

Modèle Bayésien versus Modèle Possibiliste

Chapitre 2 : Les modèles de la Recherche d’Information

7. Modèle Bayésien versus Modèle Possibiliste

Suite à cet état de l’art, nous distinguons deux principaux modèles basés sur les réseaux Bayésiens pour répondre aux besoins de la RI : le modèle de croyance instanciant la requête et le modèle inférentiel instanciant le document à la réception d’une requête. Une différence majeure dans la topologie de ces deux réseaux concerne le sens de la dépendance des termes d’indexation avec les documents. Dans le modèle de croyance la relation de dépendance est orientée des termes, qui constituent l’univers de discours, vers les documents et est quantifiable par P(dj|ti). Pour le modèle inférentiel cette dépendance, quantifiée par P(ti|dj), va

des documents vers ses termes d’indexation.

Dans le modèle Bayésien, la notion de pertinence permet la généralisation des modèles de base, mais est difficilement raffinable. Par ailleurs, l’évaluation des documents par rapport à une requête ne prend en compte que les termes d’indexation présents à la fois dans les documents et la requête. En effet, l’absence des termes de la requête n’est pas traitée explicitement dans ces deux modèles, bien que dans le modèle de croyance les termes d’indexation de la requête constituent le point d’entrée du système (le processus de recherche est instancié par la réception de la requête).

Dans le modèle inférentiel, il existe une définition ambiguë de la probabilité a priori d’un document. Les documents de la collection sont représentés par des nœuds dans le réseau. Chaque nœud est de domaine binaire et la probabilité a priori d’un document devrait alors être égale à 1/2 et non pas à 1/N comme défini dans [Turtle, 1991]. Cette dernière définition (P(dj) = 1/N) signifierait que tous les documents sont représentés dans un seul nœud

représentant tous les documents de la collection et donc que dom(Dj) = {d1, …, dN}.

Quant au modèle possibiliste de la RI, il traite l’incertitude d’une manière novatrice basée sur la théorie des possibilités et particulièrement les Réseaux possibilistes. Les nœuds dans ce réseau représentent les documents, les termes d’indexation ainsi que le besoin utilisateur. Les arcs reliant chaque couple de nœuds décrivent une relation de dépendance et sont quantifiés par deux mesures : la possibilité et la nécessité. Quel que soit le type de la relation décrite par un arc entre deux nœuds, sa quantification est engendrée par deux mesures. Alors que la première est utile pour écarter certaines informations, la seconde mesure renforce les informations restantes.

D’autre part, ce modèle considère que la restitution d’un document en réponse à une requête utilisateur peut être considérée dans un cadre d’inférence. En effet, la restitution d’un document est « causée » par la soumission d’une requête au système. Les données sur lesquelles se basent les modèles de la littérature pour restituer une liste de documents en réponse à un besoin utilisateur sont pauvres, incertains et imprécis. La logique possibiliste se prête naturellement à ce genre d’application. En fait, le modèle possibiliste a pu déterminer deux types de pertinence : la nécessaire et la plausible. Le première permet de renforcer « nos croyances » vis-à-vis des résultats de la recherche et la seconde permet d’éviter de restituer une liste de documents vides à une requête utilisateur et d’en écarter ceux qui ne sont pas intéressants. La combinaison de la représentation par réseaux et de l’utilisation de la théorie des possibilités, a permis de répondre à un tel type de pertinence. La requête introduit de l’information qui change nos croyances sur les nœuds termes d’indexation ainsi que leurs nœuds parents. La liste des documents restitués contient les documents nécessairement pertinents en haut de la liste, puis les documents plausiblement pertinents.

A notre sens, un cadre théorique intéressant, permettant à la fois d’exprimer l’ignorance et de tenir compte de l’imprécis et de l’incertain, est possible grâce à la théorie des possibilités. En fait, notre apport consiste à étendre l’approche possibiliste d’un cadre quantitatif à un cadre qualitatif. Cette extension consiste à rechercher les termes de la requête non pas dans la totalité d’un document, mais dans ses structures logiques. En effet, l’utilisateur devient capable de savoir les emplacements des informations recherchées dans les fragments des documents retrouvés par le SRI proposé. Autrement dit, il pourra demander au système des documents contenant des textes, des tableaux ou des figures à propos des mots-clés proposés. Il pourra aussi changer son profil d’une requête à une autre. En conséquence, la qualité des documents retournés change en terme de pertinence, en passant d’un profil à un autre. Cette nouvelle technique d’affinement de la recherche des documents permet entre autres d’engendrer de nouvelles définitions de la pertinence dans un SRI.

8. Conclusion

L’état de l’art que nous avons réalisé sur les SRI a montré que les modèles dits de première génération présentaient un intérêt par rapport à un contexte de recherche statique. D’une part, ces modèles étaient centrés sur la représentation de la requête de l’utilisateur et du document, et d’autre part, sur la mise en correspondance directe entre ces deux représentations pour déterminer les documents pertinents selon la vision du système. Nous citons dans ce cadre : le modèle booléen, le modèle vectoriel et le modèle probabiliste. Afin d’enrechir ces deux

représentations auxquelles sont associées deux types de connaissances : connaissances relatives aux documents et connaissances relatives à la requête, des extentions ont été proposées. Par ailleurs, ces extensions ont permis d’enrichir le niveau d’analyse des documents, notamment en introduisant l’indexation sémantique latente, les domaines sémantiques, les réseaux d’inférence bayésiens et les réseaux possibilistes. D’autre part, ces extensions ont concerné le niveau d’analyse de la requête, notamment le modèle booléen étendu, en introduisant des poids aux termes et des liens entre eux.

Ces derniers modèles, avec les extensions proposeés, avaient également tenté de prendre en considération d’autres types de connaissances. Ces connaissances sont liées aux domaines traités dans le corpus documentaire et au besoin d’information de l’utilisateur qui est en rapport avec l’utilisateur lui-même. Pour ce faire des techniques de reformulation de requêtes et de clustering ont été introduites dans le processus de recherche. Toutes ces techniques visaient à améliorer la recherche en ramenant des documents qui sont potentiellement pertinents mais qui ne sont pas retrouvés par une recherche directe. Cependant elles sont restées limitées à un cadre où les connaissances citées sont statiques.

Bien que ces modèles présentent des avantages liés aux points cités précédemment, ils présentent encore des limites. En fait, d’autres exigences non traités ou partielllement traités par tous ces modèles sont importants à prendre en considération dans un SRI :

- La proposition de différentes alternatives à l’utilisateur pour interroger et interagir avec le corpus et notamment par classification et par des vues thématiques.

- La gestion et la prise en compte, de manière plus efficace, de l’utilisateur dans le processus de recherche et notamment l’opération de mise en correspondance. En effet, le profil de l’utilisateur est une composante qui s’apprend par le système et qui évolue à travers les différentes sessions effectuées par ce dernier.

Notre objectif dans cette thèse est de proposer un modèle pour un SRI qui prend en compte ces nouvelles exigences et qui permet de les intégrer en se basant sur une forte composante classificatoire à base de Réseaux Petits Mondes Hiérarchiques (RPMH). D’une part, nous proposons également d’introduire dans le processus de reformulation sémantique de requêtes une phase de classification de termes de la requête qui permet d’explorer ces termes en fonction de leurs proximités sémantiques (proxémie de surface). En effet, l’utilisateur pourra identifier les classes des termes sémantiquement proches des termes de sa requête initiale pour construire sa requête reformulée. D’autre part, les documents retrouvés par le système seront aussi classifiés selon leurs proximités thématiques (proxémie en profondeur) afin de montrer leurs corrélations et faciliter leurs consultations. Nous présentons dans le chapitre suivant le modèle que nous proposons en mettant en avant les nouvelles fonctionnalités qu’il offre.

Deuxième Partie :

Conception et architecture d’un Système multi-Agent de

Recherche Intelligente POssibiliste de Documents Web,

SARIPOD