4 Processus d’élicitation sémantiques des requêtes PICO

Afin d’identifier explicitement les parties sémantiques des questions PICO, et de mettre en évidence le contexte de recherche, nous avons proposé une approche d’élicitation sémantique. Notre méthode, comme décrite dans les sections qui suivent, est sous forme de deux algorithmes : le premier ayant pour objectif la génération de graphes sémantiques conceptuels selon chacune des facettes P, I, C et O. Le deuxième algorithme vient compléter le premier, et permet d’identifier à partie de ces graphes les meilleurs concepts pertinents permettant de représenter au mieux les preuves cliniques.

Comme indiqué auparavant, ces concepts ont ensuite été utilisés dans l’approche d’expansion de requêtes ainsi que le modèle d’ordonnancement. La Figure 4.1 donne un aperçu du processus de représentation sémantique.

Figure4.1 – Aperçu du processus d’élicitation sémantique de requêtes PICO.

Nous détaillons dans ce qui suit la méthode de génération de graphes ainsi que le processus d’iden-tification des meilleurs concepts pertinents.

4.1 Méthode de génération de graphes

Nous avons proposé une représentation sémantique des requêtes PICO basée sur l’extraction de concepts médicaux à partir de la terminologie MeSH. Nous nous basons sur un algorithme de génération de graphes sémantiques décrit par l’Algorithme 1.

Pour une requête textuelle donnée Q, avec l’annotation associéeQ_{P ICO}, les différentes facettes de la requêteQ_P,Q_IC etQ_O, ainsi que la listeN_dde documents les mieux classésD^∗_N (de la collection C) retournés comme réponse à la requête Q, l’algorithme commence par construire des graphes sémantiques G_P, G_IC et G_O après un ensemble d’opérations. Ces opérations sont les suivantes : (1) extraction des concepts actifs de chaque facette de la requête en utilisant la terminologie MeSH avec la méthode d’extraction des concepts (eg., (Dinh et Tamine, 2011a; Ruch, 2006)) ; chacun des concepts actifs c est considéré à un niveau relatif 0 et possède un score d’importanceScore(c) qui souligne la similarité de vraisemblance entre les entrées préférées de concepts et les termes

Algorithme 1 Génération de graphes et ordonnancement de documents Entrées: Q, Q_{P ICO}, T, N_d, N_c, M axLevel

Sortie: G_P, G_IC, G_O, D^∗_N

1: {Recherche initiale}

2: D^∗_N ←T op_D(Q, N_d, C) ;

3: {Construction du graphe de la requête}

4: QP ←Substr(Q, P);

5: Q_IC ←Substr(Q, IC);

6: Q_O←Substr(Q, O);

7: Concepts(QP)←Extract(QP, T);

8: G_P ←HypG(Concepts(Q_P), T);

9: Concepts(Q_IC)←Extract(Q_IC, T);

10: GIC ←HypG(Concepts(QIC), T);

11: Concepts(Q_O)←Extract(Q_O, T);

12: G_O←HypG(Concepts(Q_O), T);

13: Q^e_P ←Expand(GP);

14: Q^e_IC ←Expand(GIC);

15: Q^e_O←Expand(G_O);

16: W ords(Qê)←W ords(Q)∪Entries(Qê_P)∪Entries(Qê_IC)∪Entries(Qê_O);

17: {Recherche finale}

18: D^∗_N ←T op_D(Q^e, N_d, C) ;

de la requête ; (2) construction des graphes associés GP, GIC et GO (basées respectivement sur Concepts(Q_P), Concepts(Q_IC) et Concepts(Q_O)) en joignant les concepts actifs aux hyponymes correspondants via la terminologie, avec la fonctionHypG, jusqu’à atteindre le premier concept en commun.

La Figure 4.2 illustre les résultats de cette étape pour la requête Q donnée en introduction de l’algorithme, où les concepts actifs identifiés et les scores associés sont représentés en gras.

Figure4.2 – Exemple de graphe sémantique de requête PICO

La Figure 4.3 donne un exemple d’appariement sémantique requête-document pour la requête sui-vante : "In people with recurrent aggression having any antiepileptic drug in any dosage, what is length of time of placebo for observer reported aggression ?" avec les éléments PICO suivants : P )

"people with recurrent aggression" ; I )"any antiepileptic drug in any dosage" ; C ) "length of time of placebo" ; O ) "reported aggression".

Figure 4.3 – Exemple d’un appariement sémantique requête-document

Les concepts actifs, identifiés en commun entre le document et la requête sont mentionnés par un carré noir. Nous avons proposé ensuite un algorithme de propagation de scores, qui propage les scores des concepts actifs de chaque sous-graphe du niveau 0 jusqu’au niveau Maxlevel d’une manière itérative. Nous détaillons cet algorithme dans ce qui suit.

4.2 Identification de concepts les plus pertinents

Nous décrivons dans l’Algorithme 2 le processus qui détaille l’identification des meilleurs concepts de la requête, à savoir : (i) extraction de concepts communs entre les meilleurs documents retournés et les sous-graphes PICO, et (ii) propagation des scores de poids de concepts pour identifier les meilleurs concepts T opConcepts, utilisés ensuite pour l’expansion.

Nos intuitions derrière cette approche sont les suivantes : (1) plus les concepts de la requête sont spécifiques au contexte de la recherche, plus ils sont significatifs ; et (2) plus le niveau de l’apparie-ment est élevé entre les docul’apparie-ments et chacune des facettes de la requête, plus ils sont pertinents.

En se basant sur cette intuition générale, nous décrivons dans l’Algorithme 2, la fonction pour le classement des meilleures preuves (concepts médicaux) à retourner comme réponse pertinente pour les cliniciens.

Pour construire l’ensemble des concepts candidatsT opConceptsqui représentent au mieux la requête Q, nous considérons chaque document ddans D_N^∗ et ensuite, (1) nous procédons à l’extraction de concepts de chaque sous-graphe G_x (oux∈ {P, IC, O}) qui correspond à un document d; (2) nous appliquons un algorithme de propagation de scores normalisés qui propage les scores des concepts actifs jusqu’aux sous-concepts (Score(csub)), en considérant chacun des sous-graphes de requêtes G_x à partir du niveau 0 jusqu’au niveauM axlevelet en ajoutant d’une manière itérative la somme

Algorithme 2 Propagation de scores et identification des meilleurs concepts Entrées: G_x

Sortie: T opConcepts

1: {Traitement sur les meilleurs documents sélectionnés}

2: Pour toutd∈D_N^∗ Faire

3: {Extraction des concepts des documents}

4: T opConcepts←Extract(d, Gx);

5: level←0;

6: {Propagation de scores}

7: Pour tout c∈T opConceptsetlevel < M axlevel Faire

8: Pour toutcsub∈Hypo(c, Gx) Faire

9: Score(csub)←(Score(csub) +Lev(csub)∗Score(c));

10: Score(csub)←N ormalisé(Score(csub));

11: level←level+ 1;

12: Fin Pour

13: Fin Pour

14: Fin Pour

15: T opConcepts←T op_C(G_x, N_c); T opConcepts;

des scores de concepts hyponymesHypo(c, G_x) tout en respectant les sous-graphesG_x.

Selon l’hypothèse H1, l’idée de base est d’identifier les concepts les plus spécifiques qui représentent la facette x de la requête Q, ce qui les rend moins difficiles. La fonction CSelect retourne les Nc

concepts les mieux pondérés du sous-graphe G_x. La Figure 4.4 illustre cette étape sur la requête Q. Les concepts en gris sont ceux qui correspondent au document donné en exemple, en plus des concepts en gras entourés qui appartiennent à la requête. Les scores de concepts résultant de la propagation de scores sont représentés en gras.

La liste des concepts les mieux pondérésN_cretournés parT opConceptsqui sont extraits de chaque sous-graphe G_x sont utilisés pour générer les sous-requêtes basées sur les concepts Q^c_P,Q^c_IC etQ^c_O liés respectivement aux sous-graphes GP,GIC et GO.

Nous donnons dans ce qui suit un exemple de déroulement des différentes étapes du processus de génération de graphes ainsi que l’identification des meilleurs concepts.

Exemple illustratif

Nous allons présenter dans ce qui suit un déroulement des étapes de l’algorithme 1 et 2. Nous prenons comme exemple la requêtes textuelle présentée dans le Tableau 4.2 avec les annotations PICO correspondantes.

— Étape 1 : Les cinq documents les plus pertinents pour la requête A3.1 retournés par un modèle BM25 sont illustrés dans le Tableau 4.3.

— Étape 2 : À partir de la requête annotée, l’algorithme construit les sous-requêtesQP,QIC et Q_O comme le montre le Tableau 4.4 pour la requête A3.1.

Le Tableau 4.5 montre les concepts actifs de la requête extraits en utilisant la terminologie MeSH et la Figure 4.4 donne les graphes sémantiques correspondant à P, IC et O.

Le Tableau 4.6 donne le résultat de l’appariement sémantique entre les deux meilleurs

do-Id desc Q_{P ICO} A3.1 Adult patients Primary Hypertension

Beta-blockers and drug from another class of anti-hypertensive the other drug from another class of anti-hypertensive alone effect on blood pres-sure and heart rate

<P>Adult patients Primary Hypertension Beta-blockers and drug from another class of anti-hypertensive<P> <IC>the other drug from another class of anti-hypertensive</IC>

<O>alone effect on blood pressure and heart rate</O>.

Tableau 4.2 – Exemple de requête textuelle avec les annotations PICO correspondantes.

UID Desc MAP

25761100 Beta-blockers use for hypertension in the elderly. 0.6314 26306578 Blood pressure lowering efficacy of dual alpha

and beta blockers for primary hypertension.

0.6266 27048839 Preoperative treatment with -blockers is

asso-ciated with elevated postoperative mortality and cardiac morbidity in patients with uncomplicated hypertension undergoing non-cardiac surgery.

0.6289

24911300 Beta-blockers and depression in elderly hyper-tension patients in primary care.

0.5704 26298028 Thirty-day mortality leads to underestimation of

postoperative death after liver resection : A novel method to define the acute postoperative period.

0.5444

Tableau 4.3 – Top 5 documents retournés pour la requête A3.1 par le modèle BM25.

Q_P Adult patients Primary Hypertension Beta-blockers and drug from another class of anti-hypertensive.

Q_IC the other drug from another class of anti-hypertensive.

Q_O alone effect on blood pressure and heart rate.

Tableau 4.4 – Exemple de sous requêtes PICO de la requête A3.1.

Requête Concepts actifs (CUI)

Tableau 4.5 – Exemple de concepts médicaux actifs

cuments (top ranked) retournés par la première recherche et les sous-graphes de la requête avec les scores des meilleurs concepts sélectionnés pour la reformulation de la requête. Nous donnons aussi les concepts extraits de ces documents.

— Étape 3 : La propagation de scores d’appariement concept-document permet d’identifier les meilleurs concepts en sélectionnant les meilleurs poids.

Nous détaillons dans ce qui suit les deux contributions dans le cadre de l’évaluation des requêtes cliniques PICO.

Figure4.4 – Exemple de graphes sémantiques conceptuels

UID concepts (CUI)[Scores]

25761100 Adult(M01.060.116)[0,0914], Patients(M01.643)[0.0972], Hypertension(C14.907.489)[0,1058], Nebivolol (D03.438.150.755)[0,0286],Celiprolol (D02.948.681.241)[0,0356].

26306578 Adult(M01.060.116)[0,0714], Patients(M01.643)[0,0863], Hypertension(C14.907.489)[0,0767], Blood Pressure (G09.330.380.076)[0,0664], Adrenergic beta-1 Receptor Anta-gonists (D27.505.519.625.050.200.200.100)[0,0418], Placebos (D26.660)[0,557]

Tableau 4.6 – Exemple de concepts de documents avec les scores associés.

Dans le document The DART-Europe E-theses Portal (Page 141-146)