• Aucun résultat trouvé

3.2 Caractéristiques des requêtes médicales

3.2.2 Caractéristiques linguistiques

Des observations issues de travaux sur le sujet "topic" de la requête médicale (Zeng et al., 2006; Dogan et al., 2009; Zhang, 2010) ont permis de définir la notion de sujet de requête en utilisant des propriétés linguistiques ou des articles médicaux. Cela veut dire que les utilisa- teurs n’utilisent pas en général les terminologies et taxonomies du domaine, par contre une utilisation accentuée de leurs propres termes a été observée entrainant beaucoup de fautes d’orthographe et utilisation excessive d’abréviations. Ces études concernent des recherches sur le web et incluent des participants de différents milieux, diverses tâches et une variété de compétences. Plus spécifique au domaine médical, des études ont été conduites pour, d’une part, analyser les différences de stratégies de recherche utilisées entre les experts du domaine médical et les novices (Bhavnani, 2001; Bhavnani, 2002), et se sont focalisés sur le comporte- ment de recherche d’information des experts (Ely et al., 2002; Wildemuth, 2004) d’autre part. Par ailleurs, plusieurs caractéristiques du besoin en information concernent les caractéristiques linguistiques. En effet, les requêtes ou les questions représentent un des principaux moyens par lequel les utilisateurs interagissent avec un système d’information. Par conséquent, les carac- téristiques des expressions des utilisateurs impactent la qualité des résultats dans l’interaction utilisateur-système. Dans (Zhang et Fu, 2011), les auteurs ont analysé les caractéristiques lin- guistiques des besoins en information de santé sous le moteur de recherche Yahoo selon deux niveaux :

— Niveau Terme : les erreurs les plus courantes sont les fautes d’orthographe, les utilisateurs ont des difficultés dans l’écriture des termes/concepts médicaux (niveau orthographique). Sur un autre niveau, les utilisateurs ne trouvent pas les termes appropriés pour décrire leurs conditions.

— Niveau Question : le nombre de questions posées dans un message sont au nombre d’une (75%), deux (18%) ou trois questions (7%).

Un ensemble de critères et de propriétés caractérisent le besoin en information de la requête médicale, résumés dans le Tableau 2.9, et donne un aperçu sur les critères de requêtes médicales

et les principales conclusions des travaux de l’état de l’art. Nous avons étudié et analysé les caractéristiques des besoins en information, en identifiant les critères examinés, formellement définis et mesurés dans la littérature. Ces critères sont décris ci dessous.

— Longueur de la requête : La longueur de la requête est un critère important, qui permet de comprendre le but de la recherche de l’utilisateur et de retourner des documents susceptibles de répondre au besoin spécifique de l’utilisateur. En effet, dans un contexte général de recherche (recherche sur le web) et d’une manière spécifique (médical, social, etc.), les travaux ont montré la fiabilité de la longueur dans la mesure où elle a un rôle important dans la phase de RI. Dans le domaine médical, les requêtes exprimées par les utilisateurs sont généralement courtes et la plupart ne dépassent pas les 4 termes, et cela concerne les requêtes soumises aux moteurs de recherche et aux SRI médicaux.

— Difficulté de la requête : La difficulté de la requête est liée au succès ou l’échec du processus de recherche lancé par la requête. Plusieurs stratégies de recherche accomplies au niveau de la requête influencent la difficulté de la requête comme par exemple la représentation entre le vocabulaire de la requête et les entrées des terminologies médicales, l’utilisation des facettes sémantiques, l’utilisation de termes additionnels, etc.

— Structure et vocabulaire : Ce critère fournit des indices connus sur lesquels se basent tout les modèles de RI connus (Baeza-Yates et al., 1999). En effet, le vocabulaire et la structure de la requête sont des propriétés caractérisant les modèles de RI qui se basent sur l’appariement requête-document ou les requêtes et les documents sont considérés comme des sacs de mots. De ce fait, et dans le contexte de RI médicale, ces caractéris- tiques ont été étudiées. Il s’est avéré que le vocabulaire de la requête médicale contient beaucoup de fautes d’orthographe et se caractérise par l’utilisation d’abréviations et d’acronymes ce qui augmente l’écart d’appariement document-requête basé sur les mots. Notons que, plusieurs études ont montré que les termes de la requête ne correspondaient pas forcément aux termes des terminologies médicales, ce qui crée le problème de l’écart sémantique.

— Objectif de recherche : L’objectif de la recherche d’information médicale représente le but derrière l’expression de besoin en information. Comprendre donc le besoin en information des utilisateurs a une grande importance pour identifier les stratégies de recherche d’information optimales et efficaces. L’analyse des sessions de recherche mé- dicales via les questionnaires et les analyses sémantiques des résultats a montré que les utilisateurs effectuent leur recherche sur un grand nombre d’informations médicales et qui couvrent différents aspects : la gestion des maladies, le diagnostic, des conseils, le dosage de médicaments et l’actualisation des savoirs et des connaissances, etc.

Concernant les formes des requêtes, trois principales conclusions émergent d’études anté- rieures, énumérées ci dessous.

1. Les requêtes médicales sont courtes : Plusieurs études (Hong et al., 2002; Zeng et al., 2002b; Natarajan et al., 2010) ont conclu que les requêtes sont généralement courtes, contenant moins de 3 termes avec un nombre moyen de termes égal à 2. Dans (Zeng et al., 2002b), les auteurs ont analysé les requêtes de MedlinePlus et les sessions de recherche d’information en santé dans les hôpitaux, et ont trouvé que le nombre de termes des requêtes est compris ente 1 et 3. Les mêmes résultats ont été trouvés dans (Hong et al., 2002) qui ont analysé les requêtes de Healthlink sur la base de 377000 requêtes issues des fichiers de transaction.

2. Les termes de la requête ne sont pas fortement liés aux vocabulaires médi- caux : Des études (McCray et Tse, 2003; Yang et al., 2011) ont identifié les sujets des

requêtes en utilisant des critères linguistiques. Ces études montrent que les utilisateurs n’utilisent pas forcément les terminologies médicales, en revanche, ils utilisent leur propre vocabulaire avec des fautes typographiques et des abréviations. À titre d’exemple, (Yang et al., 2011) ont étudié un moteur de recherche spécialisé dans les dossiers de patients appelé EMERSE. L’étude expérimentale a montré que 18.9% des requêtes contiennent au moins un acronyme. Une autre étude développée dans (McCray et Tse, 2003) montre, suite à l’analyse de 4700 requêtes issues de ClinicalTrials.gov et MedlinePlus, que l’échec des requêtes a été principalement lié aux fautes typographiques et à l’utilisation d’abré- viations.

3. Les sujets des requêtes sont peu précis : De nombreuses études (Song et al., 2010; Liu et Huang, 2011) ont montré que les sujets des requêtes sont vagues. Les auteurs ont alors proposé des systèmes de recommandation de requêtes en s’appuyant sur le résul- tat qui indique que les requêtes contenant des termes les mieux corrélés aux catégories médicales retournent plus de documents pertinents.

Critère Observations et constatations

Longueur de la requête Les requêtes sont généralement courtes de 1.5 à 4 termes (Magrabi et al., 2005; Zhang, 2014) ; de 1.5 à 2 termes selon (Lykke et al., 2012), de 1.79 à 5 termes avec une moyenne de 2.81 (Zhang, 2014), une moyenne de 3 termes selon (Hers- kovic et al., 2007b) et moins de 3 termes dans le moteur de recherche Caseof (Spink et al., 2004).

Structure et vocabulaire Utilisation fréquente des associations de catégories séman- tiques (Dogan et al., 2009) ; les termes ne correspondent pas forcément aux vocabulaires standards (Keselman et al., 2008; Zhang et Fu, 2011) ; l’utilisation fréquente des termes inappropriés et des erreurs d’orthographe et de syntaxe ainsi que l’utilisation fréquente des abréviations (Boden, 2009; Zhang et Fu, 2011), une requête peut contenir deux ou trois sous-requêtes qui couvrent différentes facettes du besoin en information (Zhang et Fu, 2011).

Tableau 2.9 – Tableau récapitulatif des études et observations sur les caractéristiques des requêtes médicales (Tamine et al., 2015)