• Aucun résultat trouvé

Chapitre 6 : Réalisation et expérimentation du système SARIPOD

3. Implémentation du système SARIPOD

3.2 Interfaces du RPMH de pages Web

Nous avons réalisé une interface du RPMH de pages Web servant pour la détermination des pages contextuellement proches de la page racine. En fait, l’interface du RPMH de pages Web, présenté par de la figure 6.10, est formée d’un cadre principal (Frame) contenant un champ texte servant à saisir l’URL de la page Web racine, trois boutons « chercher » « Graphe » et « Groupes » et une liste (JcomboBox) « Lg Circuit » désignant la longueur de circuit entre la page racine et les pages contextuellement proches.

Le bouton « chercher » dans cette interface déclenche la recherche des URLs des pages Web recherchées et affiche trois colonnes : la première contient tous les URLs des pages proches triés par ordre de priorité, la deuxième indique la proximité de chaque page par rapport à la page racine et la troisième indique le nombre de circuits qui passent par chaque page.

Figure 6.10 : Interface de calcul du nombre de circuits sélectionnés entre les pages Web

L'appui sur le bouton «Graphe» de la figure 6.10 nous affiche une nouvelle fenêtre contenant les circuits passant par la page Web racine et présentant les branches du RPMH de pages Web (voir figure 6.11).

Figure 6.11 : Interface des branches de RPMH de pages Web

L'appui sur le bouton «Groupes» de la figure 6.10 nous affiche un nouveau cadre (Frame) contenant un bouton « Grouper les pages » et une liste (JcomboBox) «seuil ».

Le choix du seuil et l’appui sur le bouton « Grouper les pages » déclenche la recherche des groupes de pages (voir figure 6.12) avec leur fusion et l'affichage de ces groupes dans des panneaux (voir figure 6.13). En fait, ces groupes fusionnés représentent les petits mondes de “sens” dans le RPMH de pages Web.

Figure 6.13 : Interface de fusion des groupes de pages dans le RPMH de pages Web

La visualisation graphique 3D du RPMH des pages Web est présentée par la figure 6.14. En effet, l’utilisateur de SARIPOD pourra naviguer dans le graphe RPMH des pages Web résultat de la recherche tout en faisant des zoom + ou – ainsi que des rotations et des déplacements du graphe dans les quatre directions (droite, gauche, haut et bas).

En fait, ce graphique correspond à un échantillon des résultats présentés dans les tableaux donnés en annexe 4. Le premier petit monde de pages Web s’intéresse au thème « réseaux et protocoles ». Ces pages sont caractérisées par un ensemble de mots ou expressions faisant partie de ce thème tels que : Protocoles, Transmission de données, équipements réseaux, Internet, Technologies, réseaux sans fil, WiFi (802.11), BleuTooth (802.15), Courants porteurs (CPL), etc. Alors que le second petit monde de ces pages Web s’intéresse au thème « systèmes d’exploitation». Ces pages sont caractérisées par un ensemble de mots ou expressions faisant partie de ce thème tels que : Unix, Linux, Mac/MacOS, Windows 95/98/Me, Windows NT/2000/XP, MS-DOS, AS/400 – OS/400, etc. Ainsi, toutes ces pages Web répondent fortement à cette description alors que toutes les autres pages crawlées y répondent bien moins telle que la page Web visualisée unique dans ce graphe.

Dans ce graphe 3D, les pages Web de chacun de ces deux petits mondes sont thématiquement proches. En effet, ces pages sont obtenues suite à un processus de crawlage stratégique (on ne garde des pages que si elles contiennent un même mot-clé ou, plus généralement, des mots proches de ces mots clés de départ) où les arêtes entre les nœuds pages représentent les proximités thématiques entre ces pages obtenues grâce à la matrice d’adjacence élevée à une certaine puissance (voir chapitre 4). En outre, nous avons bien démontré dans la figure 6.21 et le tableau 6.11 que toutes les pages, obtenues suite à cette démarche, sont des RPMH (L petit, C grand, loi de puissance).

Premier classe de documents contenant les URL des deux pages Web (P1 et P22).

Deuxième classe de documents contenant les URL des deux pages Web (P1 et P35).

Troisième classe de documents contenant d’autres URL des pages Web retrouvés.

D’autre part, l’intérêt de la visualisation 3D du RPMH de pages Web, dans le système SARIPOD, est de montrer à l’utilisateur du système une justification claire de ce qu’il a obtenu dans sa matrice de proximités entres les pages Web. Car si cette matrice est de très grande taille, il est difficile de détecter quelles sont les pages qui font partie du même petit monde, alors qu’à l’aide de cette visualisation 3D l’affichage est plus clair et il pourra consulter les pages directement à partir du graphe par le simple clic sur le nœud pages Web.

Figure 6.14 : Interface 3D du RPMH de pages Web

Nous pouvons travailler autrement en utilisant une Analyse en Composantes Principales (ACP) pour la visualisation 3D de ce RPMH de pages Web (comme le cas du logiciel Prox31). En effet, grâce à une certaine puissance de la matrice d’adjacence on obtient une matrice de vecteurs lignes où chaque page est plus ou moins proche des autres. Chaque page est représentée par un vecteur sur l'ensemble de toutes les pages. On est donc dans un espace de dimension D (D = le nombre total de pages Web "crawlées") équivalent à IRD. Chaque page est un point de IRD et on peut calculer la distance euclidienne de chaque page avec chaque autre. On postule que si deux pages se comportent à peu près de la même façon (c'est-à-dire si ces deux vecteurs V1 et V2 pointent à peu de chose près dans la même direction et sont à peu près de même longueur : Cosinus(V1, V2) et ||V1||/||V2|| sont voisins de 1) alors ces deux pages parlent à peu près de la même chose et elles seront dans un même petit monde (mais en termes du seul lien hypertextuel, elles ne sont peut-être pas si proches l'une de l'autre que cela).

31 http://prox.irit.fr/

Page Web unique

Petit Monde 1 de pages Web

Petit Monde 2 de pages Web

L'intérêt de l'espace de dimension 3 est qu'il est visualisable et dans ce cas ramener l'espace IRD à IR3 est ce qui est habituellement fait par une Analyse en Composantes Principales (ACP). Dans ce cas on peut avoir des clairs graphiques où l'impression de proximité géométrique traduit la proximité thématique des pages Web. Notons que cette ACP n'est pas nécessaire si l'on ne veut pas visualiser. La distance euclidienne dans IRD suffit à comparer deux pages.