• Aucun résultat trouvé

Chapitre 6 : Réalisation et expérimentation du système SARIPOD

4. Expérimentations et résultats

4.3 Classification des documents

Nous avons testé SARIPOD sur des pages Web constituants l’encyclopédie informatique libre « CommentCaMarche »32 dans sa version 2.0.5, où les circuits entre les pages sont fréquentes et le nombre de mots-clés sont bien réparties sur plusieurs thèmes organisés sur les divers classes de thèmes créés par les experts créateurs de l’encyclopédie. Il s’agit en fait d’une base documentaire de référence dans le domaine informatique et dont le contenu est récapitulé dans le tableau 6.4. Cette base contient 976 documents HTML, répartis sur 20 classes des thèmes et de taille globale 33 Méga Octets.

Classe du thème Mots-clés

les plus fréquents

Nombre de documents dans la classe Ordinateur Matériel informatique Assemblage Optimisation – Réparation Drivers (pilotes) Câbles et connecteurs 79 Bases de l'informatique Binaire, hexadécimal Logique combinatoire Analogique / Numérique Informatique Son numérique

Image et vidéo numériques

51

Sécurité informatique

Introduction à la sécurité informatique Virus et codes cachés

Attaques et arnaques Sécurité sur Internet Cryptographie Protection Prévention / Détection Processus Windows 80 Systèmes d'exploitation Notions fondamentales UNIX Linux Mac/MacOS Windows 95/98/Me Windows NT/2000/XP MS-Dos AS/400 - OS/400 90

Bureautique Introduction à la bureautique Tableur (Excel/StarOffice) 23 Développement Programmation Algorithmique

Programmation orientée objet Programmation réseau UML CVS J2EE .NET Framework 60

Histoire Histoire de l'informatique Petites histoires

20 Loi et droits La législation

Informatique morale 20 Pratique Utilisation de logiciels Fiches pratiques 25 32 http://www.commentcamarche.net/

Internet utile

Réseaux et protocoles

Initiation aux réseaux Transmission de données Equipements réseau Protocoles (Internet) Technologies

92

Réseaux sans fil Introduction au wireless WiFi (802.11) Bluetooth (802.15) Courants porteurs (CPL) 32 Développement Web Webmastering ASP CGI DHTML HTML Feuilles de styles (CSS) Javascript JSP PHP Servlets VBScript WAP XML 145 Bases de données

Initiation aus bases de données Conception - MERISE Modèle relationnel Langage SQL Langage PL/SQL JDBC ODBC Annuaires LDAP Active Directory 52 Langages Assembleur Langage C Langage C++ Java LaTeX Perl Pascal / Delphi Visual Basic 78

Organisation Gestion de projet Informatique d'entreprise Qualité

43 Internet World Wide Web

Outils réseaux

18 Client-Serveur Introduction au client-serveur

Sockets, RMI - IIOP

17 Tutorial réseau Linux en réseau

Création d’un intranet

27

Tutorial Linux Utiliser Linux 9

Tutorial Web MySQL, Oracle, PostgreSQL, Apache 19

Tableau 6.4 : Répartition des documents Web de la base du test

L’objectif des expériences que nous allons décrire ci-dessous est de montrer l’intérêt d’utiliser les RPMH et les Réseaux Possibilistes (RP) pour réduire la dimension de l’espace de recherche de documents et d’exploration ainsi que pour proposer une vue générale sur l’ensemble des thématiques traitées dans un fond documentaire. Ces aspects permettent donc, à un SRI de mener une recherche plus pertinente et de proposer à l’utilisateur des résultats synthétiques facilement interprétables.

Les classifications de documents pertinents que nous avons menées, sont construites en utilisant notre approche détaillée dans le chapitre 4. Toutefois nous comparons les classes crée par notre système par rapport aux classes proposer par l’expert créateur du base de test.

Par ailleurs, l’évaluation de nos résultats se base sur les critères standards d’évaluation des SRI présentés dans la cinquième section du premier chapitre de l’état de l’art. En effet, le calcul du Rappel et de la Précision se fait en considérant, d’une part les documents retrouvés pour une requête donnée et l’ensemble des documents pertinents associés à cette dernière. Les documents jugés non pertinents par le système sont ceux qui possèdent des scores des pertinences possibilistes négatifs ou nuls (voir annexe 5). En fait, un document est titulaire d’un score de pertinence possibiliste négatif ou nul si les termes de la requête existent dans des structures logiques non pertinentes pour le système telles que les liens publicitaires, les légendes des logos, etc.

Enfin, nous prenons le paramètre β , de pondération de la précision ou du rappel dans le calcul de la fonction F-mesure, égal à la valeur 1.

Expérience 1

Dans cette première expérience (voir tableau 6.5), les termes de la requête font partie d’une seule classe de documents (la classe du thème « ordinateur »). Il est possible de remarquer que les documents retrouvés par le système représentent 30,37% de la totalité des documents formant la classe proposée par l’expert (79 documents), alors que 100% de ces documents retrouvés sont qualifiés pertinents. Par ailleurs, le système propose une seule classe de documents pour cette requête, ce qui est conforme avec le choix de l’expert. Cette conformité est dûe aux termes de la requête qui sont au cœur du thème « ordinateur » et faiblement existants dans le reste de documents du corpus.

Les termes de la requête (4 termes) Réparation, drivers, câbles, connecteurs Nombre de documents retrouvés 24

Nombre de documents pertinents dans tout le corpus

24

Nombre de classes de documents proposés par l’expert

1

Nombre de classes de documents de SARIPOD 1 Rappel Précision F-mesure 0,303 1,00 0,465

Tableau 6.5 : Données et résultats de la première expérience Expérience 2

Dans cette deuxième expérience (voir tableau 6.6), les termes de la requête sont enrichis par d’autres termes faisant partie de la classe du thème « système d’exploitation ». Les documents retrouvés par le système représentent 101,77% de la totalité des documents formant les deux classes proposées par l’expert (169 documents). 84,88% de ces documents retrouvés sont jugés pertinents. Par ailleurs, le système a créé quatre classes de documents pour cette requête, alors que l’expert n’a proposé que deux classes. Cette augmentation dans la classification du système est causée par les termes Unix, Linux et Windows qui sont fréquents dans la majorité des documents de l’encyclopédie de test.

Les termes de la requête (7 termes) Réparation, drivers, câbles, connecteurs, Unix, Linux, Windows Nombre de documents retrouvés 172

Nombre de documents pertinents dans tout le corpus

146

Nombre de classes de documents proposés par l’expert

2

Nombre de classes de documents de SARIPOD 4 Rappel Précision F-mesure 0,863 0,848 0,855

Tableau 6.6 : Données et résultats de la deuxième expérience Expérience 3

Dans la troisième expérience (voir tableau 6.7), les termes de la requête sont enrichis encore plus, par rapport à l’expérience précédente, par d’autres termes faisant partie de la classe du thème « Sécurité informatique» ainsi que la classe du thème « Base de l’informatique ». Les documents retrouvés par le système représentent 116,33% de la totalité des documents formant les quatre classes proposées par l’expert (300 documents). D’autre part, 90,83% des documents retrouvés sont jugés pertinents.

Par ailleurs, le système a créé cinq classes de documents pour cette requête, ce qui est légèrement augmenté par rapport à la classification de la deuxième expérience, malgré l’ajout à la requête des autres termes faisant partie de deux autres classes différentes. En fait, le système a fusionné les documents réponses aux trois termes image, vidéo et son avec la première classe du thème « ordinateur », ce qui est conforme avec la réalité vue que ces trois termes existent aussi dans cette classe. Alors que pour les deux autres nouveaux termes (cryptographie et protection), une nouvelle classe a été créée par le système, vue l’indépendance thématique de cette classe par rapport aux quatre classes créées dans la deuxième expérience.

Les termes de la requête (12 termes) Réparation, drivers, câbles, connecteurs, Unix, Linux, Windows, cryptographie, protection, image, vidéo, son

Nombre de documents retrouvés 349

Nombre de documents pertinents dans tout le corpus

317

Nombre de classes de documents proposés par l’expert

4

Nombre de classes de documents de SARIPOD 5 Rappel Précision F-mesure 0,943 0,908 0,924

Expérience 4

Dans cette quatrième expérience (voir tableau 6.8), les documents retrouvés par le système, représentent 159,67% de la totalité des documents formant les cinq classes proposées par l’expert (186 documents). D’autre part, 88,21% de ces documents retrouvés sont jugés pertinents. Les autres documents sont qualifiés non pertinents à cause de l’existence de plusieurs pages Web « polythématique » ; c’est-à-dire des pages existants dans plusieurs classes des thèmes différents, ce qui affaibli en conséquence leurs scores des pertinences possibilistes.

D’autre part, les termes de la requête sont extraits des cinq classes thématiquement proches. En fait, les classes des thèmes « Réseaux et protocoles », « Réseaux sans fils » et « Tutorial réseau » sont thématiquement très proches, vue qu’elles possèdent plusieurs mots-clés en commun. En outre, les deux autres classes des thèmes « Internet » et « Client-Serveur » sont aussi thématiquement proches entre eux et proches aussi de trois premières classes. C’est pour cette raison que le système SARIPOD a proposé une classification à base de deux classes uniquement. Une première classe du thème fusionnant les trois premières classes ci-dessus proposées par l’expert, et une deuxième classe du thème fusionnant les deux autres classes des thèmes proposés par l’expert.

Les termes de la requête (16 termes) Réseaux, transmission, protocoles, Internet, intranet Wireless, WiFi, Bluetooth,

World, Wide, Web, Client, serveur, Sockets, RMI, IIOP

Nombre de documents retrouvés 297

Nombre de documents pertinents dans tout le corpus

262

Nombre de classes de documents proposés par l’expert

5

Nombre de classes de documents de SARIPOD 2 Rappel Précision F-mesure 0,803 0,882 0,840

Tableau 6.8 : Données et résultats de la quatrième expérience Expérience 5

Dans cette cinquième expérience (voir tableau 6.9), les documents retrouvés par le système, représentent 61,79% de la totalité des documents formant les quatre classes proposées par l’expert (335 documents). D’autre part, 91,3 % des documents retrouvés sont jugés pertinents. En outre, les termes de la requête sont extraits des quatre classes thématiquement indépendantes selon la décision de l’expert. En conséquence, la classification proposée par le système propose trois classes en considérant les deux classes des thèmes « Développement Web » et « Langage » comme une seule classe contenant les langages de programmation indifférement de son type Web ou autre.

Les termes de la requête (15 termes) prévention, protection, cryptographie, HTML, Javascript, VBscript, PHP, XML, assembleur, perl, delphi, pascal, Wireless, Wifi, Blootooth

Nombre de documents retrouvés 207

Nombre de documents pertinents dans tout le corpus

189

Nombre de classes de documents proposés par l’expert

4

Nombre de classes de documents de SARIPOD 3 Rappel Précision F-mesure 0,564 0,913 0,696

Tableau 6.9 : Données et résultats de la cinquième expérience Synthèse des résultats

Nous présentons dans le tableau 6.10 les moyennes des valeurs obtenues dans les cinq expériences ci-dessus. Les documents retrouvés par le système, représentent en moyenne 93,98% de la totalité des documents formant la moyenne des classes proposées par l’expert dans les cinq expériences (213,8 documents en moyenne). D’autre part, le taux moyen de documents pertinents par rapport aux documents retrouvés est 91,04%.

A partir de l’analyse de ces deux taux moyens nous pouvons conclure que le système SARIPOD, et grâce à son algorithme de crawlage, ne se limite pas uniquement aux documents existants dans les classes des thèmes proposés par l’expert, mais il prouve l’existence d’autres documents pertinents dans d’autres classes thématiquement proches des classes de l’expert. Ainsi, une reclassification des documents resultats de la recherche s’avère très intéressante pour l’utilisateur et contribue fortement à l’amélioration de la performance de notre SRI. D’autre part, le système est doté d’une haute efficacité dans la sélection des documents pertinents parmi les documents retrouvés. Ceci est un facteur pertinent dans l’évaluation de l’approche possibiliste proposée.

Nous remarquons aussi que le système SARIPOD a atteint 93,75% du taux moyen de réussite de classification des documents résultats des cinq requêtes des tests, par rapport à la classification des documents proposée par l’expert réalisateur de l’encyclopédie. En effet, le système augmente le nombre de classes des thèmes, par rapport à la classification proposée par l’expert, si les termes de la requête existent dans plusieurs classes thématiquement indépendantes. Par contre, il diminue le nombre de classes des thèmes si les termes de la requête existent dans des classes thématiquement proches. Ainsi, toute corrélation sémantique entre les termes de la requête provoque une corrélation thématique entre les documents résultat de la recherche. En conséquence, le système propose une réclassification des pages Web thématiquement proches. Cette classification est plus optimale que celle proposée par l’expert créateur de l’encyclopédie.

Par ailleurs, la F-mesure constitue une mesure intermédiaire entre le Rappel et la Précision mesurés à partir des documents pertinents parmi les documents à classer. Nous avons considéré également l’effet du choix de plusieurs documents pertinents pour chaque résultat

de recherche à classifier. Nous avons observé que, dans ce cas, le Rappel augmente et que la Précision et la F-mesure moyenne diminuent.

Le nombre moyen de termes de la requête 10,8

Nombre moyen de documents retrouvés 209,8

Nombre moyen de documents pertinents dans tout le corpus 187,6

Nombre moyen de classes de documents proposés par l’expert 3,2

Nombre moyen de classes de documents de SARIPOD 3

Taux moyen de documents retrouvés par rapport aux documents formants les classes de l’expert

93,98%

Taux moyen de documents pertinents par rapport aux documents retrouvés 91,04% Rappel moyen Précision moyenne F-mesure moyenne 0,695 0,910 0,756 Tableau 6.10 : Synthèse des résultats des expériences

D’un autre côté, le tableau 6.11 récapitule les résultats des ces cinq expériences mais en traitant cette fois les deux axes primordiaux dans le système SARIPOD : les deux RPMH et le Réseau Possibiliste (RP). Expérience Nombre de Mots-clés de la requête Nombre de pages Web retrouvées Nombre de pages Web pertinentes La pertinence la plus élevée DPM(d1) La pertinence la plus faible DPM(dN) Expérience 1 4 24 24 20,22 4,07 Expérience 2 7 172 146 53,65 0,13 Expérience 3 12 349 317 58,81 0,0734 Expérience 4 16 297 262 102,85 0,0739 Expérience 5 15 207 189 66,36 0,609

Tableau 6.11 : Résultats des expérimentations

Par ailleurs, au cours de la phase de reformulation sémantique de la requête, la détermination de mots sémantiquement proches du mot-clé de départ est très dépendante du degré de nettoyage du dictionnaire français utilisé « Le Grand Robert » comme source de données pour le RPMH de dictionnaire. Nous remarquons, d’après le tableau 6.8, que plus le nombre de documents retrouvé par le système est important, plus la chance d’avoir des documents pertinents est important.

Nous remarquons aussi que l’écart entre le degré de pertinence possibiliste de la page la plus pertinente (DPM(d1)) et celui de la page la moins pertinente (DPM(dN)) de la collection de documents pertinents augmente lorsque le nombre de pages Web pertinentes augmente, ce qui prouve que le but premier qui nous a motivé dans l’usage des RPMH est bien vérifié ici : faire en sorte que les réponses renvoyées suite à une requête ne soient plus le vrac "à la Google",

mais quelque chose de structuré en RPMH de sorte que si une page parmi les réponses renvoyées semble pertinente alors toutes celles qui lui sont "proches" dans ce RPMH le seront aussi. Ainsi, nous augmentons très considérablement le nombre de pages pertinentes récupérées pour les mots-clés de départ et nous éliminons les pages non pertinentes (que Google livrait malgré tout). En fait, nous changeons le PageRank (au sens de Google) des pages résultats de la requête [Elayeb et al., 2007c].

A partir de la figure 6.21 et du tableau 6.12, nous remarquons bien que les pages Web collectées pour chaque requête sont des RPMH, ce que justifie nos choix de départ dans le modèle conceptuel proposé. En effet, à densité D égale, la moyenne des plus couts chemins entre les pages Web (L) est petit et le taux de clustering ou d’agrégation (C) est grand. En outre, les variations de L et C sont faibles en fonction des nombres des pages Web retrouvées. Ceci montre bien que le Web est un RPMH.

Expérience

Nombre de documents à classer

La moyenne des plus courts chemins : L Le taux de clustering ou d’agrégation : C Expérience 1: RPMH1 24 1,0606 0,4510 Expérience 2: RPMH2 172 1,0349 0,3500 Expérience 3: RPMH3 349 1,0193 0,3155 Expérience 4: RPMH4 297 1,0270 0,3520 Expérience 5: RPMH5 207 1,0305 0,3389 Moyenne 1,03446 0,36148 Tableau 6.12 : Les paramètres L et C des RPMH des documents

Figure 6.21 : Les variations de L et C en fonction du nombre de pages Web retrouvées