• Aucun résultat trouvé

Comparaison globale des méthodes

7.4 Résultats

7.4.1 Comparaison globale des méthodes

La figure 7.2 montre les boxplots (boîtes à moustaches) du coefficient de concor-dance W de Kendall sur toutes les requêtes pour chaque méthode. Selon lesboxplots, le raffinement du classement de TW avec les métriques de Cortex (X1,· · · , Xk)-TW où

4Ce coefficient est issu d’une famille de tests non-paramétriques et robustes qui ne font aucune suppo-sition sur la distribution gaussienne des données. Le coefficient W de Kendall vaut 1 dans le cas d’accord complet entre deux classements et 0 pour un désaccord total. Comme dans tous les tests statistiques, pour interpréter les valeurs intermédiaires, il est nécessaire de vérifier si les scores obtenus par une méthode sont significativement différents de ceux d’un classement aléatoire sur les mêmes données.

7.4. Résultats

X1,· · · , Xket la combinaison de {A, D, F, O, L}) surpasse la performance de TW simple, qui à son tour surpasse la méthode HEAD, toutes les métriques de Cortex (A, D, F, O, L) prises séparément ou combinées et les classement de MySQL (tf.idf et QE). Nous avons vérifié si ces différences sont statistiquement significatives. Nous avons appliqué le test du classement non paramétrique de Wilcoxon et le test du classement total de Friedman, les deux disponibles dans le paquet du logiciel R. Ces deux tests sont utili-sés pour comparer les scores moyens de W de Kendall obtenus pour chaque méthode.

A A−head A−tw AD AD−head AD−tw ADF ADF−head ADF−tw ADLO ADLO−head ADLO−tw ADO ADO−head ADO−tw AF AF−head AF−tw ALO ALO−head ALO−tw Comp D D−head D−tw DF DF−head DF−tw F F−head F−tw FLADO FLADO−head FLADO−tw Full Head L L−head L−tw O O−head O−tw QE TW Var 0.4 0.5 0.6 0.7 0.8 0.9 f Kendall.s.W

FIG. 7.2: Lesboxplotsmontrent les scores moyens du W de Kendall et les valeurs extrêmes pour chaque méthode. Les symboles A, D, F, L, O et leurs combinaisons dans la caisse au dessus se réfèrent aux métriques de Cortex (par exemple FLADO) ; « Head », « TW » et « Var » se réfèrent aux classement basés sur les regroupements de TermWatch respectifs. Les symboles représentent les métriques de Cortex suivis par la caisse au dessous de « tw » ou « head » référé aux approches hybrides. « QE » représente tf.idf avec QE. Reproduit de (SanJuan et al.,2007), page 259.

Premièrement nous avons analysé les combinaisons des métriques de Cortex pour trouver quelle avait les meilleures performances. Le test de Friedman a montré, avec une confiance de 99%, qu’il existe des différences significatives. Cependant, réalisant le même test mais seulement avec la combinaison d’au moins deux mesures de Cortex parmi {A, D, O, L} nous n’avons pas trouvé des différences significatives parmi les membres de ce regroupement (p-value > 0.8). Ceci montre que la combinaison des métriques de Cortex basée sur son algorithme de décision 7.3.2 améliore de manière significative les résultats.

Maintenant, en observant le groupe de méthodes basées sur une simple métrique de Cortex, on voit des différences significatives trouvées par le test de Friedman avec une confiance de 99%. En effet, basé sur le test de Wilcoxon nous avons trouvé que O et D ne sont pas statistiquement différents (p-valeur=0.86), même chose pour F et L (p-valeur=0.82). Les deux premiers semblent être plus adaptés à cette expérience que F et L (voir leurs valeurs de W de Kendall à la figure 2). Les métriques O et D classent au premier les documents dans lesquels les mots fréquents correspondent aux mots de la requête ou sont fortement associés à eux, considérant que les métriques L et F se concentrent sur la couverture de vocabulaire des documents, indépendamment des mots de la requête. L est très sensible aux documents avec une couverture de vocabu-laire large et F fait l’inverse. Ainsi ces deux documents basés sur des critères intrin-sèques aux documents classés mais pas à la requête. La métrique A qui considère la position de chaque mot dans la requête reste à part. Finalement, nous avons vérifié les performances parmi les méthodes symboliques pour voir s’il y a une différence statis-tique de leurs classements. Le test de Wilcoxon a permis de vérifier que l’hypothèse des moyennes égales entre leTW de base et les classements de Head sont rejetées avec un risque plus bas que 5%. Le même test a également montré avec une confiance de 90% que la méthode Head surpasse celle de Var mais que les differences observées entre les classements Head et COMP n’étaient pas statistiquement significatives (p-valeur=0.23). Maintenant, nous comparons les classements obtenus par l’approche hy-bride. Nous avons déjà observé qu’il n’y a aucune différence statistique entre les scores moyens des combinaisons d’au moins deux métriques de Cortex. Nous observons le même phénomène entre n’importe quel classement de TermWatch raffiné avec n’im-porte quelle métrique de Cortex. En effet, la p-value résultant du test de Friedman sur cette famille des méthodes est supérieur à 0,54.

Puisque nous avons déjà vérifié l’efficacité de l’algorithme de décision de Cortex, nous aurons besoin seulement de considérerFLADO-tw qui est le raffinement du clas-sement de TW basé sur la combinaison de toutes les métriques de Cortex sélectionnées parmi toutes les combinaisons possibles. De la même manière, nous avons découvert qu’il n’y a aucune évidence statistique des différences entre les raffinements des clas-sements de HEADavec n’importe quelle métrique de Cortex. Ainsi nous considérerons seulement la combinaison deFLADO-Head. Nous obtenons alors, basés sur le test de Wilcoxon, queFLADO-tw surpasse TW avec une confiance de 95%, et que Head sur-passeFLADO-Head avec une confiance de 99%. Puisque nous avons précédemment montré queTW surpasse Head, nous déduisons que FLADO-tw clairement surpasse FLADO-Head et FLADO. Ceci s’est avéré être le cas avec un niveau de confiance plus haut que 99.98%. Après ces tests statistiques, il semblerait qu’utiliser uniquement la combinaison des métriques de Cortex FLADO choisie par son algorithme de décision pour raffiner les classements sémantiques de TW, génère la meilleure approche hybride pour le raffinement de la requête. Contrairement, les résultats considérablement dé-grades en raffinant le classement produit par la méthodeHead avec les métriques de Cortex.

7.4. Résultats