• Aucun résultat trouvé

Chapitre 6 : Réalisation et expérimentation du système SARIPOD

4. Expérimentations et résultats

4.4 Comparaison avec le SRI SARCI

Expérience

Nombre de documents à classer

La moyenne des plus courts chemins : L Le taux de clustering ou d’agrégation : C Expérience 1: RPMH1 24 1,0606 0,4510 Expérience 2: RPMH2 172 1,0349 0,3500 Expérience 3: RPMH3 349 1,0193 0,3155 Expérience 4: RPMH4 297 1,0270 0,3520 Expérience 5: RPMH5 207 1,0305 0,3389 Moyenne 1,03446 0,36148 Tableau 6.12 : Les paramètres L et C des RPMH des documents

Figure 6.21 : Les variations de L et C en fonction du nombre de pages Web retrouvées

4.4 Comparaison avec le SRI SARCI

Le Système Agents pour la Recherche et la Classification d’Information (SARCI) est proposé par [Kammoun-Bouzaïene, 2006]. Ce système est à base d’un modèle pour une recherche d’information adaptative, évolutive et coopérative. En effet, SARCI met à la disposition de l’utilisateur plusieurs alternatives de recherche à travers deux principales phases : une analyse de surface qui constitue une étape préliminaire de recherche et une analyse en profondeur qui n’est activée que si la première ne satisfait pas l’utilisateur. L’analyse de surface permet de construire des connaissances liées aux requêtes antérieures, ce qui constitue un moyen pour résoudre la complexité d’exprimer une requête initiale, en assistant l’utilisateur à partir des expériences passées. L’analyse en profondeur permet de construire des connaissances liées aux utilisateurs et aux documents de la collection. Ces connaissances sont organisées par

La variation de L en fonction de pages Web collectées

0,99 1 1,01 1,02 1,03 1,04 1,05 1,06 1,07 RPMH1 RPMH2 RPMH3 RPMH4 RPMH5 Expérience L L

La va ria t io n d e C e n fo n c tio n d e p a g e s We b c o lle c t é e s

0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 RPMH1 RP MH2 RP MH3 RPMH4 RPMH5 E xp é rie n c e C

point de vue exprimant différents points d’accès à une collection et permettant d’enrichir le niveau de recherche.

Les connaissances construites sont à caractère évolutif, l’auteur a introduit un apprentissage non supervisé à travers des classifieurs adaptatifs et incrémentaux. Pour l’analyse de surface, l’auteur a choisi une méthode symbolique (treillis de Galois) qui a l’avantage de s’adapter à la représentation de la requête et pour l’analyse en profondeur l’auteur a choisi une méthode numérique (cartes topographiques et auto-organisatrices de Kohonen) favorissant une représentation synthétique et thématique des connaissances, et constituant un support de navigation. D’autre part les résultats fournis par les classifieurs ont servi pour la reformulation de requêtes. L’auteur a introduit dans ce cadre en plus du document feedback le query feedback.

Un des apports de notre système SARIPOD par rapport au système SARCI consiste à modéliser d’une nouvelle manière la pertinence. En fait, nous avons défini la pertinence possible d’un document vis-à-vis d’une requête et sa pertinence nécessaire. La pertinence possible vise à éliminer les documents non pertinents, la pertinence nécessaire vise à renforcer la pertinence des documents non éliminés par la possibilité. Nous avons étendu cette définition d’un cadre quantitatif à un cadre qualitatif possibiliste. Cette double mesure de pertinence est censée aider le système dans sa décision concernant les documents à restituer ainsi que leur ordre de restitution. Pour ce faire nous comparons les performances de notre système à l’un de SRI multi-agent à savoir le système SARCI.

Une première constatation au vu des points de précision est que notre système obtient de meilleures performances. Nous présentons un comparatif de la précision moyenne obtenu suite aux expérientations. Nous remarquons que la précision varie entre 0,15 et 0,2 pour SARCI, alors que la moyenne des précisions de cinq expériences de SARIPOD est de l’ordre de 0,91 et la moyenne des rappels est de l’ordre de 0,695. Le système SARIPOD montre une amélioration dans la sélection des documents pertinents dans l’ensemble de document retrouvés par le système, ce qui prouve bien l’efficacité de l’extension proposée pour l’approche possibiliste quantitative. Ainsi, le système SARIPOD propose une nette amélioration des performances et sa courbe de Rappel-Précision est souvent au-dessus de celle de SARCI.

Quant à la composante classificatoire proposée par SARIPOD, elle est proposée d’une nouvelle manière à base d’une approche générique valable dans le cas des mots d’un dictionnaire que dans le cas des documents Web. En fait, les classes des thèmes des documents retrouvés sont conséquences des classes des sens des termes de la requête reformulée. Cette classification offre un cadre navigationnel pour l’utilisateur que se soit dans sa requête au cours de sa reformulation, soit dans les documents résultats de la recherche. Alors que pour le cas de SARCI, l’auteur a utilisé des méthodes existantes : les cartes de Kohonen pour la classification des documents et les Treillis de Galois pour la classification des requêtes.

5. Conclusion

Dans ce chapitre nous avons montré le caractère qualitatif possibiliste de notre SRI et précisément au cours des calculs des scores des pertinences possibilistes par l’agent mesure possibiliste. Ce dernier se base sur la structure logique du document, d’une part et les préférences proposées par l’utilisateur au système, d’autre part. Les expérimentations menées montrent que les résultats des sélections des documents pertinents parmi les documents retrouvés sont très encourageants et prouve l’apport de l’approche possibiliste proposée.

Nous avons pu démonter aussi que les résultats des classifications des documents pertinents, avec la méthode que nous avons proposée sont très proches de ceux proposés par l’expert, et ce, en se basant sur les deux mesures de Rappel et de Précision.

Par ailleurs, l’intérêt de faire combiner les deux RPMH via un Réseau Possibiliste (RP) dans un SRI permet d’enrechir le niveau d’exploration d’une collection. Ce dernier n’est pas limité aux documents mais l’étend en considérant les requêtes. En effet, la phase de reformulation sémantique de requête, assurée par l’agent lexicographique, permet à l’utilisateur de profiter des autres documents correspondants aux termes proches des termes de la requête initiale. Ces documents peuvent exister dans d’autres classes des thèmes. En conséquence, une reclassification proposée par le système s’avère pertinente afin d’adapter les résultats d’une requête aux nouveaux besoins des utilisateurs.

Conclusion générale et Perspectives

L’usage des réseaux probabilistes en RI est important grâce à leur capacité à représenter de manière naturelle les différents liens existants entre les objets manipulés en RI, à savoir les termes, les documents et la requête ainsi qu’à leur puissance pour inférer la pertinence des documents vis-à-vis d’une requête. Cependant, le cadre probabiliste dans lequel ces réseaux ont été définis traduit mal les deux notions de pertinence et de représentativité des termes dans les documents. En effet, cette théorie permet uniquement de mesurer la certitude d’un événement et de son contraire. Dans ces modèles la pertinence et la représentativité d’un terme dans un document sont des valeurs binaires. Un document donné est pertinent ou non vis-à-vis d’une requête à un certain degré. Un terme est représentatif d’un document ou non à un certain degré.

D’autre part, quel que soit le modèle de la RI, nous remarquons que la pertinence est vue comme un concept binaire. Cependant, certains travaux de la littérature ont montré que ce concept est graduel et dynamique [Rijsbergen, 1979] [Saracevic, 1996] [Kekäläinen et Järvelin, 2002] [Brini et Boughanem, 2003]. De plus, pour tous ces modèles, les termes de la requête absents des documents ne sont pas explicitement considérés dans le calcul des scores de pertinence.

Plusieurs travaux récents en Recherche d’Information traitent la problématique des documents semi-structurés. [Zayani, 2008] propose une contribution à la définition et à la mise en oeuvre de mécanismes d’adaptation de documents semi-structurés. [Ali Laouar, 2007] a proposé de sa part une contribution à l'interrogation flexible de données semi-structurées. [Sauvagna, 2005] a réalisé un modèle flexible pour la Recherche d’Information dans des corpus de documents semi-structurés.

Le système SARIPOD proposé dans le cadre de cette thèse s’inscrit dans la problématique des systèmes multi-agents de Recherche d’Information sur Internet. Il est à base d’un modèle de RI permettant une nouvelle modélisation des deux notions de base en Recherche d’Information : la pertinence et le profil. Le modèle proposé par [Brini et al., 2005ab] [Brini et al., 2007] se base sur les réseaux possibilistes. Plus précisément, les nœuds de ce réseau représentent les documents, leurs termes d’indexation et la requête. La topologie du réseau permet de prendre en compte naturellement les relations de dépendance entre ces nœuds. En fait, ce modèle ignore les dépendances entre les termes de la requête ainsi que les dépendances entre les documents de la collection. En outre, aucun processus de reformulation de la requête n’a été proposé. En conséquence, tous les termes de la même requête sont considérés de même poids ; il est supposé que l’utilisateur n’a pas de préférences entre les termes de sa requête. D’autre part, ce modèle est proposé uniquement dans un cadre quantitatif.

Nous avons proposé pour notre part une extension de ce modèle vers un cadre qualitatif possibiliste tout en tenant compte, non pas seulement de l’existence ou non du terme dans le document pour interpréter sa pertinence, mais aussi son poids dans ce document. En effet, le système SARIPOD répond aux limites du modèle possibiliste de [Brini et al., 2007] tout en

proposant une nouvelle modélisation faisant appel aux trois techniques: Réseaux Petits Mondes Hiérarchiques (RPMH), Réseaux Possibilistes (RP) et Systèmes Multi-Agents (SMA).