• Aucun résultat trouvé

Expérimentations au niveau bloc thématique

Dans cette section, nous présentons les différentes expérimentations réalisées au niveau bloc. Dans un pre-mier lieu, nous comparons deux fonctions de correspondance. La première repose sur les blocs thématiques que nous avons générés en utilisant un algorithme de segmentation décrit précédemment dans la partie modèle et la deuxième fonction de correspondance repose sur la page Web comme étant l’unité d’information la plus petite à retourner par un système de recherche d’information. Or, il n’existe pas de blocs pertinents aux diffé-rentes requêtes exécutées dans les jugements de pertinence des deux collections WT10g et GOV. Ce qui rend la comparaison entre les deux niveaux bloc et page difficile à effectuer. Afin de remédier à ce problème, nous avons calculé un score de pertinence d’une page P par rapport à la requête Q à partir des scores de pertinence des blocs qu’elle contient. Ce score est calculé comme suit :

Okapi(P, Q) =X

B∈P

Okapi(B, Q) (4.1) Où Okapi(P,Q) et Okapi(B,Q) sont les scores de pertinence de la page P et du bloc B respectivement. Dans un deuxième lieu, nous comparons notre fonction de voisinage appliqué aux blocs par rapport au contenu seul des blocs. Tout d’abord, on commence par la comparaison entre le niveau bloc et le niveau page.

La figure 4.4 montre les résultats expérimentaux obtenus sur la collection WT10g et GOV en utilisant deux fonctions de correspondance (bloc thématique et page). Notons SDoc l’algorithme qui calcule le score de pertinence des page en tenant compte du contenu seul de cette page et SBloc l’algorithme qui calcule un score de pertinence d’un page à partir des scores de pertinence reposant sur le contenu seul des blocs. D’après la

(a) (b)

FIGURE4.4: La précision moyenne aux 11 niveaux standards du rappel du niveau bloc et page pour les deux collections WT10g (a) et GOV (b)

figure 4.4, nous remarquons que le calcul de pertinence au niveau bloc montre de meilleurs performances par rapport au calcul de la pertinence au niveau page. De plus, l’augmentation de la precision à tous les niveaux standards du rappel est très importante pour les deux collections WT10g et GOV. En effet, pour le niveau 0% du rappel, les résultats obtenus au niveaux bloc montrent une amélioration de 23% et 65% pour les deux collection WT10g et GOV respectivement par rapport au niveau page (la précision au 0% du rappel pour les deux collections WT10g et GOV est de 0,55 et 0,76 respectivement). L’amélioration de la précision aux autres niveaux standards du rappel de l’algorithme SBloc par rapport à l’algorithme Sdoc varie entre 16% et 53% pour la collection WT10g et de 115% à 210% pour la collection GOV. L’augmentation la plus importante et la plus significative concerne la collection GOV. Ces bons résultats obtenus au niveau bloc est dû à l’efficacité de notre algorithme de segmentation de pages Web en blocs thématiques que nous avons proposé et la capacité de notre système à cibler les informations pertinentes à la recherche demandée. De plus, le découpage des pages en blocs thématiques réduit considérablement les divergences existantes entre les documents par rapport à leur tailles. Dans ce qui suit nous allons voir le gain de la precision pour chaque requête exécutée.

La figure 4.5 montre le gain de la precision en MAP, P5 et P10 de l’algorithme SBloc reposant sur les blocs thématiques dans le calcul de pertinence des pages par rapport à l’algorithme de base Sdoc reposant sur le contenu seul des pages. Les résultats obtenus en fonction de ces mesures d’évaluation sont significatifs et prometteurs pour l’amélioration des performances des moteurs de recherche. En effet, moins de 7% des requêtes exécutées sur les deux collections WT10g et GOV réalisent des dégradations de precision faibles comprises entre 10% et 20% pour les mesures d’evaluations MAP, P5 et P10. Tandis que 70% à 80% des requêtes exécutées au niveau bloc montrent des améliorations significatives en la precision MAP, P5 et P10 comprise entre 20% à 100% par rapport au niveau page.

Ces résultats prouvent que le calcul de la pertinence au niveau bloc reste le meilleur moyen pour retrou-ver l’information recherchée et que notre algorithme de segmentation est adapté à tous les types de requêtes. Effectivement, le fait de découper une page en bloc permet à un moteur de recherche de ne retourner que l’in-formation pertinente à la recherche qui se trouvait dans un bloc ou plusieurs blocs de la page. Le tableau 4.5 montre les résultats obtenus de la precision moyenne MAP, P5 et P10 sur les deux collections WT10g et GOV. Ces résultats confirment la performance de notre système basé sur le calcul de la pertinence au niveau bloc thématique par rapport à un système standard reposant sur le calcul de pertinence au niveau page.

De plus, au niveau bloc, il y a plus de documents pertinents au top du classement qu’au niveau page. Par exemple, sur la collection WT10g, les résultats montrent une amélioration de 43%, 60% et 55% sur la précision

(a) (b)

(c) (d)

(c) (d)

globale moyenne MAP, la précision moyenne P5 et P10 respectivement par rapport à l’algorithme de base SDoc. Nous avons le même constat sur la collection GOV dont les résultats montrent une amélioration importante de 171%, 153% et 146% sur la precision globale moyenne, la precision moyenne P5 et P10 respectivement par rapport à l’algorithme de base reposant sur le contenu seul des pages (SDoc). L’une des particularités de la collection GOV par rapport à la collection WT10g est la taille de ces documents en nombre de termes. Nous avons vu que la plupart des pages de la collection GOV sont volumineuses. Ceci explique pourquoi les résultats sont plus importants au niveau bloc. En effet, le poids du terme dans un bloc est calculé en fonction de la taille du bloc et de la fréquence de ce terme dans le bloc au lieu de la page entière. Il est fort possible avec la segmentation des pages que les blocs résultats ont des tailles raisonnables et que la densité des termes des requêtes dans ces blocs accroît la pertinence du bloc et la page qui contient ce bloc par rapport à la requête. Alors que, une dispersion des termes de la requête dans une page de grande taille augmente le poids de ces termes et de même le score de la page par rapport à la requête. Ce qui peut induire du bruit. La segmentation remédie au problème de l’influence de la taille du document dans le calcul du poids des termes que contient la page.

Trec 2001(WT10g) Trec 2002(GOV) Mesures SDoc SBloc Apport SDoc SBloc Apport

MAP 0.46 0.66 43% 0.21 0.57 171%

P5 0.5 0.8 60% 0.28 0.71 153%

P10 0.47 0.73 55% 0.26 0.64 146%

TABLE4.5: Comparaison entre les deux algorithmes SDoc et SBloc en fonction de la precision moyenne MAP, P5 et P10

Enfin, en ce qui concerne la rapidité de retrouver les documents pertinents, illustré dans le tableau 4.6, le calcul de pertinence au niveau bloc reste plus performant que le calcul de pertinence au niveau page. En effet, le nombre de requêtes du système SBloc dont la premiere page retrouvée est pertinente à la requête posée enregiste une amélioration de 48% et 100% par rapport au système SDoc sur les deux collections WT10g et GOV respectivement. Le même constat est dressé par la mesure de succès à 5 et à 10 documents retrouvés (S@5 et S@10) dont les performances du calcul de pertinence au niveau bloc restent largement au dessus des performances du calcul de pertinence au niveau page avec des améliorations de 11% et 7% par rapport au mesures S@5 et S@10 respectivement sur la collection WT10g et de 53% et 28% par rapport aux mesures

S@5 et S@10 respectivement sur la collection GOV. Par consequent, il est fort possible que les premieres pages

retournées à l’utilisateur en repense à sa requête soient pertinentes à la recherche effectuée lorsque la pertinence de ces pages est calculée au niveau bloc au lieu du niveau page.

Trec 2001(WT10g) Trec 2002(GOV) SDoc SBloc Apport SDoc SBloc Apport

S@1 27 40 48% 21 42 100%

S@5 44 49 11% 30 46 53%

S@10 46 49 7% 36 46 28%

TABLE4.6: Comparaison entre les deux algorithmes SDoc et SBloc par rapport au succès au 1er,5emeet 10eme documents retrouvés