Longueur de la requête - Contribution à l'analyse et l'évaluation des requêtes expertes : cas d

3.3 Clarté de la requête . . . 101

4 Caractérisation du besoin en information des experts du domaine médical . . . 102

4.1 Description des données d’analyses . . . 103 4.1.1 Collections de la campagne d’évaluation TREC . . . 103 4.1.2 Collections de la campagne d’évaluation CLEF . . . 104 4.2 Analyses et résultats . . . 106 4.2.1 Identification des Caractéristiques de requêtes . . . 106 4.2.2 Analyses de corrélation des attributs de requêtes . . . 108 4.3 Synthèse et discussion . . . 109

4.3.1 Analyses multidimensionnelles des corrélations entre les attributs . . . 110 4.3.2 Impact des attributs des requêtes sur les performances de

recherche . . . 112

5 Caractérisation des requêtes PICO . . . 114

5.1 Analyses descriptives . . . 114 5.2 Analyses de corrélations entre attributs de requêtes PICO . . . 115

1 Introduction

Dans ce chapitre, nous nous intéressons au contexte de la RI biomédicale, où les utilisateurs sont caractérisés par un niveau d’expertise vis-à-vis du besoin en information. Nous abordons le problème de la caractérisation des requêtes des experts médicaux. En effet, les investigations de recherche portant sur l’analyse de comportements des utilisateurs de SRI médicaux, sur l’analyse de la formulation des requêtes médicales ainsi que sur les pratiques de recherche ont montré que plusieurs facteurs contribuent au succès ou à l’échec de la recherche et impactent la pertinence des résultats (Richesson et al., 2010; Cartright et al., 2011; Lykke et al., 2012). À la différence des précédents travaux dans le domaine, notre objectif n’est pas d’évaluer l’impact du degré d’expertise sur les résultats de recherche en considérant une population large d’utilisateurs, mais de caractériser les requêtes expertes du point de vue de la formulation, en considérant la tâche médicale associée qui constitue son contexte.

Nous proposons deux volets de travaux portant sur le besoin des experts médicaux : (1) l’analyse des requêtes expertes pour caractériser le besoin des experts médicaux, via l’analyse des attributs de requêtes et de leur impact sur la pertinence des résultats ; et (2) l’analyse des attributs de requêtes PICO. Nous avons mené des études exploratoires expérimentales pour la caractérisation du besoin en information des experts du domaine médical (Znaidi et al., 2013a; Znaidi et al., 2013b). Dans la littérature de la recherche d’information, nous avons constaté que comprendre les intentions des utilisateurs lors de la formulation de leurs requêtes est très important pour améliorer la phase de sélection des résultats pertinents. Plusieurs études ont analysé comment les utilisateurs effectuent des recherches exploratoires dans des environnements numériques, mais peu se sont intéressées à comprendre comment les requêtes sont formulées spécifiquement par les experts du domaine. Cette étude vise à combler cette lacune en analysant un ensemble de requêtes expertes issues de différentes tâches médicales. Nous nous sommes intéressés aussi à l’analyse des besoins en information exprimés par des experts médicaux dans l’objectif de les caractériser puis mesurer l’impact de leur structure sur la performance des résultats de recherche. À cet effet, nous menons une étude exploratoire basée sur des analyses statistiques multidimensionnelles sur des collections de requêtes issues de campagnes d’évaluation internationales standards en l’occurrence, TREC et CLEF. La suite du chapitre est organisée comme suit. La section 2 présente les motivations et introduit les questions de recherche de nos contributions. La section 3 détaille la formalisation des attributs de requêtes que nous avons défini. Nous présentons dans la section 4 les résultats des analyses statistiques, en détaillant les données, les méthodes et les résultats obtenus. La section 5 conclut le chapitre.

2 Motivations et questions de recherche

2.1 Motivations

Les professionnels de santé représentent une classe sensible de personnes en raison de leur besoin d’un accès à l’information médicale d’une bonne qualité afin d’améliorer leur qualité de service (Case, 2012). De ce point de vue, la qualité de l’information médicale disponible sur Internet est un facteur critique pour la réalisation de services de soins de santé de haute

qualité et la prise de décision (Hersh, 2009; Jamal et al., 2009; Clarke et al., 2013). Dans le contexte des soins de santé, cela nécessite une bonne connaissance et une demande accrue de savoir-faire spécialisé qui ont un effet sur la formulation des besoins en information pour le personnel médical et infirmier (Thain et Wales, 2005). En outre, cette complexité a généré une hétérogénéité des besoins en information, qui varient selon les différentes spécialités et les fonctions des professionnels de la santé. Par exemple, dans (Kostagiolas et al., 2014), les auteurs ont conclu que plusieurs facteurs influencent la décision des professionnels de santé comme la motivation personnelle, en soulignant le rôle important des ressources d’information médicale.

Dans les deux dernières décennies, de nombreuses études et revues ont été publiées dans le domaine de la RI médicale, afin de souligner l’importance d’étudier le besoin en information des experts pour améliorer la prise de décision médicale (White et al., 2008; Francke et al., 2008; Xiao et al., 2014).

En effet, exprimer des requêtes qui reflètent un besoin en information clair et précis est une tâche difficile dans tous les domaines et même pour les utilisateurs experts (Spink et Jansen, 2006; White et Moris, 2008). Ainsi, identifier l’intention des utilisateurs cachée derrière les requêtes qu’ils soumettent aux systèmes de RI est un problème complexe.

Malheureusement, la littérature a révélé qu’en dépit de la diversité des systèmes médicaux disponibles et la diversité des sources d’information utilisées, les utilisateurs se trouvaient toujours en difficulté pour sélectionner les informations pertinentes qui répondent à leurs besoins spécifiques (Zeng et al., 2004; Arora et al., 2007). Pour répondre à cette question, plusieurs études ont porté sur l’analyse du comportement des personnes qui recherchent l’information médicale, incluant les attitudes, les stratégies de recherche, les tâches et les requêtes (Hong et al., 2002; Wildemuth, 2004; Toms et Latter, 2007). Ces études concernent un grand nombre de sujets sur les paramètres de recherche Web générale, avec des condi- tions expérimentales non contrôlées, ce qui rend difficile de généraliser leurs conclusions à des recherches d’experts impliqués par les médecins. En outre, la plupart de ces études ont porté sur le comportement de recherche grâce à des stratégies et des tactiques de recherche.

2.2 Objectifs et questions de recherche

Les études antérieurs dans le contexte de la caractérisation du besoin médical concernaient généralement des populations larges et/ou ciblées dans des scénarios de recherche qui sont cependant non reproductibles. Contrairement aux travaux de l’état de l’art, nous abordons plus spécifiquement la recherche basée sur le besoin expert des cliniciens du domaine à travers l’analyse des différentes facettes d’attributs de requêtes définis et formalisés, à savoir : la longueur de la requête (en termes et en concepts), la spécificité de la requête (spécificité terme-document et spécificité hiérarchique) et la clarté de la requête (clarté basée sur le sujet de la requête et clarté basée sur la pertinence), en utilisant des mesures appropriées proposées et construites selon différentes sources de données.

Notre objectif est de caractériser les requêtes expertes du point de vue de la formulation, en considérant la tâche médicale associée qui constitue son contexte. Nous nous sommes inté- ressés à l’analyse des requêtes d’experts médicaux, établies dans des scénarios de recherche reproductibles puisqu’elles sont issues de campagnes d’évaluation standards dans le domaine

de la RI. De plus, notre analyse est exploratoire et adossée à des tâches biomédicales bien spécifiques dans le cadre de ces mêmes campagnes.

Pour atteindre cet objectif, nous avons procédé à une analyse statistique approfondie des requêtes issues des campagnes d’évaluation de la recherche d’information, à savoir TREC et CLEF, destinées à différentes tâches médicales avec des paramètres d’évaluation contrôlés. Notre étude expérimentale comprend une analyse statistique de corrélations entre paires d’attributs, une analyse multidimensionnelle à travers les différentes tâches caractérisant les collections, ainsi qu’une étude de l’impact des attributs de requêtes sur la performance de RI. Ainsi, l’objectif principal est d’identifier les particularités de la RI des experts médicaux dans le but de personnaliser la recherche qui impacte la RI médicale et les décisions cliniques. Nos objectifs de recherche sont les suivants :

— Caractériser le besoin en information des experts du domaine médical ; — Étudier l’impact du contexte de la tâche sur la performance de RI ; — Étudier les attributs de requêtes expertes.

Pour atteindre ces objectifs, nous formalisons tout d’abord un ensemble de facettes d’attributs de requête, à savoir :

— Attribut 1 : La longueur de la requête. Nous proposons d’étudier deux facettes de l’attribut longueur, qui sont la longueur en nombre de termes et la longueur en nombre de concepts. En effet, dans (Cartright et al., 2011), les auteurs ont montré l’impact du nombre de termes utilisés pour formuler la requête sur la performance de recherche. Par ailleurs, la longueur en nombre de concepts permet de traduire en quelle mesure les utilisateurs utilisent les terminologies médicales en s’appuyant sur leurs connaissances du domaine pour formuler les requêtes médicales.

— Attribut 2 : La spécificité de la requête. Nous proposons deux facettes de la spécificité : spécificité terme-document et spécificité hiérarchique. La spécificité est considérée comme un critère important pour identifier les descripteurs (Jones, 1972). Pour cette raison, nous avons considéré les deux facettes précédentes ; la première est basée sur les termes et représente la singularité des termes dans les documents et une deuxième spécificité conceptuelle est basée sur la profondeur du sens des termes selon la hiérarchie MeSH. — Attribut 3 : La clarté de la requête. Nous étudions deux facettes de la clarté, à savoir

la clarté basée sur le sujet de la requête et la clarté basée sur la pertinence. Nous avons proposé deux facettes de l’attribut clarté vu son importance dans la mesure de l’ambiguïté du sujet de la requête. Les deux facettes de clarté représentent deux mesures différentes : la première représente la divergence entre le modèle de langue de la requête et celui du document, et la deuxième se base sur le nombre de termes en commun partagés entre les requêtes et les documents.

Nous menons ensuite des analyses statistiques exploratoires sur un ensemble de requêtes expertes issues de diverses tâches médicales, à savoir : TRECMedical, ImageCLEF et TRECGenomics. Cette diversité nous conduira à caractériser le besoin en information des experts du domaine médical du point de vue de leur formalisation ainsi que de leur utilisation dans la tâche de recherche d’information.

Nous mettons en œuvre des analyses descriptives, des analyses de corrélations entre facettes deux à deux, des analyses de corrélations multidimensionnelles basée sur une Analyse aux

Composantes Principales (ACP), et des analyses comparatives par tâche et toutes tâches confondues.

Nous nous sommes appuyés sur les résultats de performance des requêtes en terme de précision, d’une part pour décrire chaque tâche médicale selon son niveau de performance ; et analyser les éventuelles corrélations entre les mesures de performance et pour expliquer les performances de recherche en fonction des attributs via une analyse de covariance multivariée (MANCOVA), d’autre part.

3 Définition et formalisation des attributs de requêtes

Dans notre étude, nous considérons un scénario de recherche d’information médicale, où un expert du domaine soumet une requête Q pour une collection de documents C. Nous proposons trois attributs qui caractérisent les requêtes : 1) la longueur, 2) la spécificité et 3) la clarté. Nous proposons une formalisation de ces trois attributs, et nous justifions leur utilisation.

Nous avons formalisé un ensemble de facettes d’attributs de requêtes (Cf. Tableau 3.1) , définies et formalisées dans les sous-sections suivantes.

Attributs Facette 1 Facette 2

Longueur de la requête Nombre de termes Nombre de concepts Spécificité de la requête Spécificité terme-document Spécificité hiérarchique Clarté de la requête Clarté basée sur le sujet de la requête Clarté basée sur la pertinence

Tableau 3.1 – Formalisation des facettes des attributs de requêtes

Nous considérons pour le reste du chapitre les notations définies par le Tableau 3.2.

3.1 Longueur de la requête

Comme mentionné dans l’état de l’art, le facteur de la longueur des requêtes médicales a été étudié dans le cadre de plusieurs travaux (Hong et al., 2002; Zeng et al., 2002b; Spink et al., 2004). Ces derniers ont rapporté que les requêtes sont courtes et que cela impacte les résultats de recherche. En effet, le nombre de termes utilisés dans la formulation de la requête joue un rôle important dans les résultats retournés par les SRI, dans la mesure où ils peuvent augmenter le bruit s’il y a des termes non pertinents ou qui ne représentent pas le besoin spécifique exprimé. De plus, les experts formulent leurs requêtes en se référant à une ou plusieurs terminologies médicales comme MeSH ou UMLS (Zeng et al., 2002a; Zeng et al., 2002b; Jonnalagadda et al., 2012), ce qui explique la présence des concepts médicaux. Ce procédé très utilisé par les experts n’est pas très efficace quand le concept concerne plusieurs traitements ou maladies, ce qui crée l’ambiguïté et donc induit des résultats de recherche non pertinents.

Dans le cadre de notre étude, nous définissons deux facettes de l’attribut longueur :

— Longueur en nombre de termes (LgT(Q)) : concerne la longueur de la requête en nombre de termes. Nous considérons ainsi le nombre de mots significatifs utilisés pour formuler les requêtes.

Notation Définition

Q requête

C collection

N nombre total de documents dans la collection C

V le vocabulaire de la collection

R l’ensemble des documents qui contiennent au moins un terme de la requête

d un document

ti un terme ci un concept

ni le nombre de documents contenant le terme ti LgT (Q) longueur de la requête en nombre de termes

LgC(Q) longueur de la requête en nombre de concepts

DSpe(Q) spécificité terme-document

Hspe(Q) spécificité hiérarchique

SCla(Q) clarté basée sur le sujet de la requête

P Cla(Q) clarté basée sur la pertinence

termes(Q) ensemble de termes de la requête Q

Concepts(Q) ensemble de concepts de la requête Q

level(ci) le niveau du concept cidans MeSH M axlevel(M eSH) le niveau maximal de la hiérarchie MeSH

PC(t) la fréquence relative du terme t P (t|Q) est estimé par P (t|Q) =P

d∈RP (t|d)P (d|Q)

R(Q) ensemble de documents pertinents pour la requête Q jugés par les experts |Concepts(d)| le nombre de concepts extraits des documents

|Concepts(Q)| le nombre de concepts extraits des requêtes

Tableau 3.2 – Tableau des notations

— Longueur en nombre de concepts (LgC(Q)) : c’est la longueur de la requête en nombre de concepts. Ces concepts représentent les entrées préférées (termes préférés désignant le concept) issues de la terminologie MeSH. Notre choix de cette terminologie se justifie par le fait que c’est l’ontologie la plus utilisée dans le domaine médical. Pour cela, chaque requête est liée à la terminologie MeSH, en utilisant la technique d’extraction de concepts contextuelle proposée dans (Dinh et Tamine, 2011a). Cette méthode s’appuie sur une technique d’indexation sémantique pour récupérer les documents médicaux à travers un processus d’identification de concepts du domaine extraits de MeSH.

Le Tableau 3.3 donne un exemple de requêtes avec le nombre de termes et de concepts extraits pour différentes tâches médicales.

Dans le document Contribution à l'analyse et l'évaluation des requêtes expertes : cas du domaine médical (Page 107-112)