5 Évaluation des requêtes cliniques - The DART-Europe E-theses Portal

Une des plus grandes difficultés à développer chaque aspect de la question PICO est de fournir une quantité suffisante d’information où chaque composante de la question PICO doit être indiquée dans une phrase concise (Miller et Forrest, 2001). Du point de vue de la manière d’intégrer ces éléments avec les meilleures preuves cliniques pour mieux répondre à une situation spécifique est d’autant plus difficile vu le grand volume de la littérature médicale. Nous avons proposé d’évaluer les requêtes cliniques PICO en proposant deux approches : (1) une méthode d’expansion sémantique basée sur une technique spécifique d’extraction de concepts médicaux ; et (2) un modèle d’ordonnancement basé un opérateur d’agrégation prioritaire des scores. Nos contributions, dont le but est de mieux répondre aux questions cliniques PICO, sont décrites dans les sections qui suivent.

5.1 Expansion sémantique des requêtes cliniques

Nous nous sommes basés sur les hypothèses (H1 et H2 de la Section 2), ainsi que les conclusions établies par les travaux précédents, qui ont motivé la proposition de notre méthode d’expansion des

requêtes PICO utilisant les termes les plus spécifiques issus des ressources sémantiques médicales.

Pour pallier le problème de la dérive/ambiguïté du sujet de la requête, notre approche d’expansion repose sur l’utilisation des meilleurs concepts, et elle est guidée par le contexte sémantique local de la question PICO issus d’une phase de recherche conduite au préalable. En outre, pour mieux couvrir les différentes facettes PICO, nous avons utilisé chacune des facettes P, IC et O comme une source pertinente pour la sélection des concepts utilisés pour étendre la requête.

La Figure 4.5 donne un aperçu global de l’approche d’expansion sémantique des requêtes PICO.

Figure 4.5 – Aperçu de notre modèle de traitement des questions PICO.

Pour chaque sous-grapheGP,GIC etGO, on construit l’ensemble de concepts Nc utilisés plus tard pour l’expansion de la requête, utilisant la fonction Expand(G_x), tout en tenant compte de Max-level qui est le niveau maximal considéré pour l’expansion de requête, commençant à partir du niveau 0. Afin de construire l’ensemble de concepts candidats T opConcepts, on considère chaque document d dansD^∗_N, ensuite : extraction de l’ensemble des concepts pondérés communs avec G_x ou x ∈ {P, IC, O} du niveau 0 jusqu’au niveau Maxlevel en additionnant les scores d’une manière itérative. Ces scores sont les hyponymes de concepts Hypo(c, Gx) identifiés pour chacun des sous-graphesG_x (Cf.Algorithme 1). L’idée est d’identifier l’importance et la spécificité des concepts en assignant des scores normalisés N omalisé(Score(c)) obtenu étape par étape du concept le moins spécifique jusqu’au concept le plus spécifique, considérant leur niveau level(c).

Le score final du concept reflète son importance dans l’ensemble des meilleurs documents sélection-nés (top-ranked) en terme de spécificité et de degré d’appariement avec les documents D^∗_N. Cela correspond à notre intuition qui favorise la sélection des concepts les plus spécifiques qui corres-pondent au mieux avec le contexte de recherche issu des documents les mieux classés retournés.

L’ensemble N_c de concepts les mieux pondérés C_expand de chaque sous graphe G_x est utilisé pour étendre respectivement les sous-requêtes QP QIC etQO (ayant abouti a Qê_P Qê_IC etQê_O) en ajou-tant aux requêtes initiales Q les termes correspondant à leurs entrées préférées (Entrées(Qê_P), Entrées(Qê_IC) et Entrées(Qê_O)) dans la terminologie T. La requête finale étendue Qê est générée et permet la sélection de la liste finale des documents D^∗_N qui sont retournés comme réponse à la requête initiale PICO Q.

5.2 Modèle d’ordonnancement basé sur un opérateur d’agrégation prioritaire des scores

5.2.1 Cadre général

De nombreux travaux en RI ont mis en exergue à la fois l’importance et la complexité du concept de pertinence (Da Costa Pereira et al., 2009). Ces derniers se sont focalisés sur la modélisation d’ap-proches théoriques pour la combinaison des critères de pertinence potentiels identifiés. D’autres tra-vaux fondamentaux récents se sont intéressés en revanche à la définition d’opérateurs d’agrégation, indépendamment du cadre applicatif, qui permettent de traiter en partie le biais de l’interactivité (Pereira et al., 2012).

Nous nous sommes basés sur un opérateur d’agrégation prioritaire, sur l’ensemble des facettes PICO, pour proposer un modèle d’ordonnancement de documents, qui donne un score de pertinence facette-document (Znaidiet al., 2016b; Znaidiet al., 2016a; Znaidiet al., 2015). Notre modèle se base sur une approche d’agrégation prioritaire des scores tenant compte de l’importance des différentes facettes de la requête.

Figure4.6 – Architecture de notre modèle de traitement des questions PICO.

Comme le montre la Figure 4.6, notre approche se base sur 4 étapes principales : (1) un appariement document-requête basé sur les termes, effectué en amont, qui retourne une liste initiale de documents pertinents candidats ; (2) une représentation sémantique des requêtes, qui retourne les graphes conceptuels associés à chaque facette PICO de la requête ; (3) un appariement requête-document qui permet de sélectionner les concepts les mieux pondérés de chaque facette du graphe ; et (4) un calcul de pertinence des documents basé sur un opérateur d’agrégation prioritaire (Da Costa Pereira et al., 2009). Les étapes (1), (2) et (3) sont détaillées dans la Section 4. Nous détaillons dans ce qui suit l’étape 4 de calcul de pertinence en se basant sur une approche d’agrégation prioritaire des scores PICO.

5.2.2 Calcul de scores de pertinence des documents

Au niveau de l’étape (4), nous considérons une fonction d’agrégation F qui calcule, pour chaque document d, un score global PICO de pertinence, exprimé comme suit :

RSVP ICO(Q, d) =F(RSVP(Q, d), RSVIC(Q, d), RSVO(Q, d)) (4.1) où F représente la fonction d’agrégation et P, IC et O sont les critères de pertinence PICO.

Nous calculons pour chacun des critères P, IC et O un score d’importance qui reflète son poids et qui prend en compte son importance dans le document et la nature de la tâche de RI. Nous nous sommes basés sur un opérateur prioritaire d’agrégation de scores (Da Costa Pereira et al., 2009), qui permet de calculer un score global en prenant en compte un ensemble de critères. Le poids de chaque critère est calculé en fonction des poids ainsi que le degré de satisfaction du critère le plus important. Le principe est le suivant : plus le degré de satisfaction du critère le plus important est haut, plus le degré de satisfaction du critère le moins important influence le score global. Selon notre hypothèse (H2), on calcule le score PICO comme suit :

RSVP ICO(Q, d) =λP ∗RSV(QP, d) +lambdaIC∗RSV(QIC, d) +lambdaO∗RSV(QO, d) (4.2) où x∈ {P, IC, O} et :

RSV_x(Q, d) = P

c∈Q^c_xSIM(c, d) P

c∈∪xQ^c_xSIM(c, d) (4.3)

sachant que :

— Q^c_xest l’ensembleN_cde concepts pondérés, associés à chaque facette de la requêteQ_x, résultat de l’Algorithme 2.

— SIM(c, d) est la mesure de similarité à base de cosinus entre les vecteursT F/IDF du docu-ment det les entrées préférées associées au conceptc (Boudinet al., 2010a; Ruch, 2006).

— les poids d’importance des éléments PICO, sont calculés selon le principe de l’opérateur d’agré-gation des scores (Da Costa Pereiraet al., 2009), en tenant compte de l’hypothèse H3, comme suit :

λ_P, λ_IC, λ_O ∈[0..1], tels que λ_IC > λ_P > λ_O et λ_IC = 1 λP =λIC∗RSV(Q^c_IC, d) λO=λP ∗RSV(Q^c_P, d)

(4.4)

Pour prendre en compte la pertinence du document en se basant sur les termes et sur les concepts comme recommandé dans (Stokes et al., 2009), le score de pertinence du document d par rap-port à la requête Q est la combinaison linéaire des scores de pertinence basés sur les concepts (Score_{P ICO}(Q, d)) et le score de pertinence basé sur les termes (Score_w(Q, d)). Le score global de pertinence est ainsi calculé comme suit :

RSV(Q, d) =α∗RSV_{P ICO}(Q, d) + (1−α)∗RSV_w(Q, d) (4.5)

oùα ∈[0..1] est un paramètre de combinaison linéaire identifié dans la phase des expérimentations.

Dans le document The DART-Europe E-theses Portal (Page 146-150)