• Aucun résultat trouvé

Évaluation de l’approche d’expansion de requêtes

6.2.1 Métriques d’évaluation et modèles de référence

Pour évaluer et comparer notre approche dans le cadre de la performance en RI, nous avons utilisé un ensemble de ressources sous la version 4.0 du moteur de recherche Terrier3, à savoir :

1. Mesures de performance : la mesure de la MAP (Mean Average Precision) mesure de la précision moyenne sur l’ensemble de requêtes, et est utilisée pour fournir une mesure de per- formance globale unique. Plusieurs études antérieures ont montré la stabilité de la métrique MAP (Buckley et Voorhees, 2000). Les mesures de performance sont calculées en utilisant l’outil standard TREC-eval4.

3. http ://www.terrier.org 4. http ://trec.nist.gov/trec-eval

2. Modèle de référence (Baseline) : nous avons comparé notre approche d’expansion de requêtes basée sur les graphes, appelée GQE, aux baselines suivantes :

— Deux modèles de RI de l’état de l’art : BM25 (Okapi Probabilistic model) (Robertson et Sparck Jones, 1988) et le modèle de langue (LM ) (Song et Croft, 1999). Nous avons paramétré le modèle Okapi comme recommandé dans la littérature k1 = 1.2, k3 = 7 et b = 0.75. Pour le modèle de langue, nous avons utilisé la méthode de lissage "Dirichlet" avec µ = 1000.

— Méthode de la ré-injection de la pertinence PRF (Pseudo Relevance Feedback) (Xu et Croft, 1996) que l’on considère proche de notre approche d’expansion proposée.

6.2.2 Ajustement des paramètres

Pour nos évaluations expérimentales, nous avons commencé par ajuster les paramètres des méthodes de comparaison P RF et BQE, et de notre algorithme d’expansion de requêtes basé sur les graphes, nommé GQE. Le modèle P RF dépend du nombre de documents et du nombre de termes utili- sés pour l’expansion de la requête, variant respectivement dans un intervalle de valeurs [10..100] et [5..35] pour le nombre de documents et le nombre de termes, respectivement. Le modèle BQE dépend uniquement du niveau maximal de l’expansion de requête M axLevel. Nous avons fait varier le paramètre "niveau" en choisissant différents level dans l’intervalle [0..4]. Nous avons fixé la limite de niveau à 4, compte tenue de la profondeur maximale de la propagation des scores qui peut être atteinte pour toutes les requêtes du test.

Nous visons à évaluer la précision des concepts en estimant leur impact sur l’efficacité de la recherche. Étant donnée l’absence ou le manque d’annotation conceptuelle humaine des requêtes PICO, nous avons évalué la précision des concepts résultats de l’Algorithme 1, en estimant leur impact sur la pertinence de la RI par l’approche d’expansion de requête.

En pratique, nous avons étendu la requête PICO initiale, avec les entrée principales des meilleurs concepts retournés par l’Algorithme 1. Ensuite, nous avons évalué la performance des requêtes éten- dues en utilisant le modèle probabiliste Okapi (BM25). Nous avons comparé la pertinence de cette méthode d’expansion conceptuelle, appelée GQE, aux deux modèles de référence suivants : 1) le modèle probabiliste Okapi (BM25), paramétré comme recommandé dans la littérature k1 = 1.2, k3 = 7 et b = 0.75, et 2) Pseudo-Relevance-Feedbak (P RF ) (Xu et Croft, 2006). Pour effectuer des comparaisons équitables, nous commençons par paramétrer les algorithmes P RF et GQE puis nous avons comparé leur performance respective.

Comme le montre la Figure 4.7, les valeurs optimales du paramètre obtenues pour le modèle PRF sont 80 et 15, respectivement pour le nombre de documents et le nombre de termes d’expansion, permettant d’atteindre une valeur de MAP optimale de 0, 1265. Nous pouvons remarquer aussi à partir de la Figure 4.8 que le paramètre optimal M axLevel = 4 pour le modèle BQE permet d’atteindre une valeur de la MAP de 0, 1103.

Notre algorithme GQE dépend de trois paramètres, à savoir : Nc le nombre de concepts utilisés pour l’expansion de requêtes, M axLevel utilisé pour limiter la profondeur lors du processus de propagation des scores et Nd qui est le nombre de premiers documents sélectionnés, utilisés pour l’extraction des concepts. Nous avons commencé par ajuster les paramètres Nc et M axLevel, en les faisant varier respectivement dans un intervalle de [1..5] et [0..4], utilisant Nd = 1000. Comme

le montre la Figure 4.10, la valeur optimale de la MAP est de 0, 1334, avec une configuration de 4 meilleurs concepts et une profondeur de propagation qui atteint le niveau 4. Nous avons retenu ce

Figure 4.7 – Variation du paramètre pour le modèle PRF

Figure 4.8 – Variation du paramètre pour le modèle BQE

Figure 4.9 – Variation du paramètre pour l’expansion de requête

paramétrage optimal pour faire varier le paramètre Nd. Comme présenté par la Figure 4.9, la valeur optimale de la MAP est de 0, 1346 et est obtenue avec les 40 meilleurs documents retournés par le système.

Figure 4.10 – Paramétrage du modèle GQE

6.2.3 Analyse de l’efficacité de la recherche : évaluation comparative

Nous avons comparé l’efficacité de la recherche en terme de MAP de notre algorithme d’expansion de requêtes basé sur les graphes (GQE), avec les modèles d’ordonnancement de l’état de l’art BM25, LM, PRF et BQE. Le Tableau 4.8 montre les résultats obtenus en terme de MAP, du nombre de documents pertinents sélectionnés ainsi que le taux d’accroissement et le taux de significativité t de la mesure statistique t-test. Notre modèle donne de meilleurs résultats par rapport à toutes les baselines. Plus précisément, en considérant la mesure de la MAP, nous avons observé que la perfor- mance de notre algorithme dépasse les approches d’ordonnancement de documents basées sur les termes (BM 25, LM et P RF ) de 6, 40% à 27, 94%, ainsi que l’approche d’évaluation basée sur les concepts de 22, 03%.

Ces résultats montrent que :

1. notre approche sémantique permet d’obtenir de meilleurs résultats par rapport aux modèles de RI basés sur les termes de l’état de l’art, qui ne prennent pas en compte la structure PICO (BM 25, LM et P RF ). Cela confirme notre intuition de la représentation des questions sur la base de la sémantique cachée derrière chacune des facettes PICO de la requête ;

2. notre algorithme de propagation de scores permet de sélectionner des concepts plus précis pour l’expansion de requêtes, par rapport à chaque facette PICO, puisque il permet de dé- passer d’une manière significative le modèle BQE. Cependant, nous observons que les taux d’amélioration sont moins importants comparé au modèle P RF . Selon l’hypothèse Hypothèse 3 annoncée au-dessus (Section 2) , cela suggère que les requêtes ne sont pas au même niveau de difficulté, et cela nécessite donc un algorithme approprié de propagation de scores.

6.2.4 Discussion

Nous avons présenté dans cette section une nouvelle approche pour répondre aux questions cli- niques PICO. L’idée sous-jacente est d’améliorer chaque facette de la requête avec les concepts terminologiques les plus représentatifs du contexte local de la recherche. De plus, nous appliquons un algorithme de propagation de scores, qui permet de sélectionner les concepts avec le degré le plus élevé de correspondance avec le contexte de recherche et à travers les différentes facettes. Les expérimentations utilisant une collection de données standard ont montré que l’approche propo- sée dépasse significativement les modèles de RI proposés de l’état de l’art. Cette approche n’est

Model MAP % Acc t Rel. Ret % Acc BM 25 0, 1073 +25, 44% †† 4783 +15, 28% LM 0, 1052 +27, 94% †† 4685 +17, 69% P RF 0, 1265 +6, 40% † 4983 +10, 65% BQE 0, 1103 +22, 03% † 4819 +14, 42% GQE 0.1346 - - 5514 -

Tableau 4.8 – Comparaison de l’impact sur la performance de recherche de l’expansion de requêtes basée sur le graphe sémantique. %Acc : Test de significativité de Student sur la métrique MAP † : 0, 01 < t ≤ 0, 05 ; †† : 0, 001 < t ≤ 0, 01 ; † † † : t ≤ 0, 001.

cependant pas sans limite. Nous supposons que les différentes facettes des questions PICO ont la même importance lors de l’évaluation de la pertinence des documents, ce qui n’est pas le cas dans la pratique EBM dans la vie réelle.

En conséquence, il est instructif de proposer une approche pour améliorer le modèle d’appariement sémantique requête-document avec le calcul de différents poids des facettes, afin d’entreprendre une comparaison équitable avec les travaux antérieurs qui ont pris en compte cet aspect (Boudin et al., 2010c; Demner-Fushman et Lin, 2007).

Dans ce contexte, et dans le cadre de notre deuxième contribution, la section suivante décrit l’évalua- tion expérimentale de notre modèle d’ordonnancement pour mieux répondre aux questions cliniques PICO.