Les manques identiés sur ces deux évaluations

3.2 Étude critique des résultats d'évaluation de pSearch

3.3.1 Les manques identiés sur ces deux évaluations

D'après les remarques formulées dans les sections précédentes, la façon dont sont opérées les évaluations de PlanetP et pSearch pose quatre types de dicultés :

on ne peut pas comparer les systèmes ;

l'évaluation n'est pas complète : l'inluence de certains paramètres, certains aspects ou composantes des systèmes ne sont pas étudiés

on a peu d'éléments pour comprendre comment chaque composante d'un système participe aux performances globales ;

les conditions limites, conservant au système des performances acceptables, sont mal dénies ;

enn, ces études posent des problèmes de réutilisation de résultats : elles réu- tilisent peu de résultats d'évaluations précédentes, et les résultats qu'elles appor- tent seront diciles à réutiliser.

Dans la suite, nous synthétisons comment les remarques des sections précédentes étayent ces idées.

3.3.1.1 Comparer les systèmes

PlanetP est évalué dans l'absolu (oracle construit manuellement), tandis que pSearch est évalué par rapport aux résultats fournis par une implémentation centraliée. Sur ce premier aspect, les courbes obtenues ne sont donc déjà pas comparables.

De plus, les critères de qualité mesurés sont diérents. Pour PlanetP, pour chaque requête, pour chaque jeu de données, les auteurs mesurent la précision et le rappel, à partir desquels on suppose qu'il doit être possible de tirer une courbe précision/rappel. Pour pSearch, les auteurs ne mesurent que le rappel - l'accuracy correspond au rappel de pSearch par rapport aux résultats fournis par LSI. Les critères de qualité mesurés ne correspondent donc pas bien non plus. Notez aussi qu'a priori, dans la mesure où ce sont tous deux des systèmes de Recherche d'Information, on s'attendrait à trouver directement des courbes précision/rappel - traditionnelles en RI. Le choix de ne pas présenter ces courbes n'est pas justié par les auteurs.

Aucun des deux articles ne mesure les temps de réponse. On peut estimer que dans l'étude de pSearch le Quit bound et le nombre de sauts en sont des indicateurs, mais les auteurs ne posent pas clairement la relation entre ces indicateurs et les temps de

réponse. Globalement, il n'est pas possible de comparer les temps de réponse des deux systèmes.

Enn, dans l'évaluation des deux systèmes, on a dicilement une mise en relation claire de la qualité des résultats produits par le système par rapport aux coûts générés. On ne peut pas comparer les qualités obtenues à même coût ou les coûts générés à qualité constante.

3.3.1.2 Granularité de l'évaluation

Dans PlanetP, on compare les résultats retournés par PlanetP aux résultats re- tournés par un système centralisé. Cependant, on a plusieurs modications qui mènent du système centralisé à planetP : la compression par ltres de Bloom, puis leur partage par la technique de gossiping. On ne peut pas ici distinguer l'impact de ces deux modications sur les performances du système. C'est pourtant une information importante si on veut tenter d'améliorer le système.

Toujours dans PlanetP, les auteurs étudient l'impact d'une indexation suivant les 30% des termes les plus signicatifs. En fait, cette technique modie le rapport qualité/- coût du modèle RI de recherche inter-cluster. Finalement, la possibilité d'utiliser cette technique est un paramètre du modèle de Recherche d'Information tout autant que la possibilité de compresser les index par la technique des ltres de Bloom. La qualité du système devrait être paramétrable par l'impact de ce type de modication du modèle RI.

Dans pSearch, on sait que la littérature présente plusieurs approches à la gestion d'un réseau logique. Il serait intéressant d'avoir une idée de la façon dont une approche donnant un résultat plus ou moins optimal inuerait sur les performances du système. Par exemple, un système peut maintenir une structure dégradée, à moindre coût. Quelle serait la qualité d'un système RI construit sur ces bases ?

Nous avons évoqué l'ambiguité du problème de mesurer les performances du mécan- isme de gossiping lorsqu'un nouveau pair rejoint le réseau. D'un coté, le nouveau pair doit télécharger une copie de l'index global. De l'autre, le ltre de Bloom du nouveau pair doit être propagé aux anciens pairs . Dans ce cas, le mécanisme de gossiping est utilisé dans deux buts diérents. D'un coté, on observe la propagation d'une nouvelle prise individuellement ; de l'autre, on observe la construction des tables de routage. Ses performances pour remplir ces deux fonctionnalités doivent être mesurées ; elles impliquent des expérimentations diérentes, avec des mesures de qualité diérentes.

Les auteurs de pSearch n'évaluent que le mécanisme de recherche (propagation des requêtes). Or, le mécanisme de recherche de pSearch repose sur un réseau logique particulier, dont la construction et la maintenance engendrent des coûts. Il faut prendre en compte ces coûts pour comparer pSearch et PlanetP.

3.3.1.3 Cas limites : dans quelles conditions utiliser ou pas ces techniques Dans pSearch, les ressources sont re-distribuées sur les pairs. Or, on pourrait imag- iner ne pas mettre en place ce mécanisme, et indexer les pairs dans la structure CAN sur la base d'index de contenu. De même dans PlanetP, si les ressources sont trop uni- formément distribuées sur les pairs, les ltres de Bloom seront peu discriminants. On pourrait envisager dans ce cas de mettre en place dans PlanetP un mécanisme de redistribution des ressources sur les pairs. Nous pensons que la question de la nécessité d'un mécanisme de redistribution des ressources est indépendante de la solution P2P adop- tée (type pSearch ou type PlanetP). Il serait intéressant de caractériser à quel moment cette option devient nécessaire.

Dès le début du document, les auteurs de PlanetP positionnent leur système dans des échelles de quelques dizaines de milliers de pairs maximum. Du coup, ils négligent de mesurer les performances du système à grande échelle : on ne connaît pas les limites de PlanetP en termes d'échelle.

3.3.1.4 Réutilisation des résultats

Autant le gossiping que la technique des ltres de Bloom et le modèle vectoriel ont été intensivement étudiés. On a beaucoup de résultats sur leurs performances. Pourtant, dans une étude comme dans l'autre, aucun résultat extérieur n'a été réutilisé, réintroduit dans les mesures de performances.

Dans l'étude de pSearch, les auteurs étudient le mécanisme de recherche, indépen- damment des mécanismes de maintien de la structure d'indexation (structure de l'over- lay). Cependant, ils ne prennent pas en compte que cette structure peut être dégradée plus ou moins fortement, suivant les performances des mécanismes de maintien. Si de nouveaux mécanismes sont inventés et évalués, on ne pourra donc pas ré-injecter leurs résultats d'évaluation dans cette étude ; on ne pourra donc pas connaître les performances de pSearch fonctionnant sur la base de ces nouveaux mécanismes.

Dans le document Contributions à la modélisation, évaluation et conception de systèmes de recherche d'information en pair-à-pair (Page 98-100)

Les manques identiés sur ces deux évaluations

3.2 Étude critique des résultats d'évaluation de pSearch

3.3.1 Les manques identiés sur ces deux évaluations

Les manques identiés sur ces deux évaluations

3.3.1 Les manques identiés sur ces deux évaluations