1 Contexte et problématique - The DART-Europe E-theses Portal

La recherche d’information (RI) est l’ensemble des techniques permettant de sélectionner à partir d’une collection de documents ceux qui sont susceptibles de répondre au besoin de l’utilisateur exprimé via une requête (Salton, 1970). À travers cette définition, nous retenons trois concepts clés : le document, le besoin et la pertinence. La recherche d’information nécessite ainsi la mise en place d’une stratégie qui consiste à (1) cerner le besoin en information ; (2) formuler le besoin en information ; (3) repérer les sources pertinentes ; (4) identifier les outils à exploiter en fonction de ces sources ; (5) interroger ces outils ; et (6) évaluer la qualité des résultats. Durant la dernière décennie, le domaine de la RI n’a cessé d’évoluer du point de vue de la définition de modèles d’indexation, de modèles d’appariement requête-document ainsi que de la spécification de cadres d’évaluation. Il a été décliné en plusieurs domaines d’application tels que la RI multilingue, la RI contextuelle ou encore la RI médicale.

Nos travaux s’inscrivent spécifiquement dans le cadre de la RI biomédicale où des utilisateurs ex-perts ou néophytes utilisent divers moteurs de recherche pour effectuer leurs tâches de recherche d’information. Ils peuvent s’orienter vers des sites spécialisés dans le domaine de la santé, vers des moteurs de recherche généraux ou encore vers des systèmes de RI généraux ou médicaux. En effet, les SRI médicaux ont connu une grande évolution depuis ces deux dernières décennies tant du point de vue de leur architecture que de la qualité et de la diversité des services autour du stockage de l’information, de l’accès à l’information pertinente pour une médecine basée sur des niveaux de preuve ainsi que de l’aide à la décision pour l’amélioration de la qualité des soins (Hersh, 2006).

Dans ce cadre général, l’information biomédicale utilisée comme support pour les tâches de recherche, d’extraction d’information et de connaissances concerne principalement la littérature médicale et les dossiers médicaux des patients. Grâce aux immenses progrès réalisés dans le domaine biomédical, la littérature scientifique biomédicale publiée augmente de manière exponentielle, nous citons à titre d’exemple la ressource MEDLINE.

Toutefois, la diversification au niveau du volume de données, de l’hétérogénéité de la structure et du contexte ainsi que l’exigence de qualité et de la sécurité des informations sont à l’origine de défis dans le domaine de RI biomédicale. Ces défis se traduisent par les difficultés rencontrées par

des utilisateurs qui cherchent l’information médicale pertinente en vue de prendre une décision.

Ces utilisateurs se caractérisent souvent par différents niveaux d’expertise, des connaissances hétérogènes et des comportements de recherche multiples ainsi qu’une manière spécifique à chacun selon son contexte d’exploiter les ressources à disposition pour une prise de décision pertinente.

Autour de ce sujet, la revue de la littérature liée à la RI biomédicale révèle plusieurs limites, à savoir : la difficulté de formulation des requêtes, la difficulté de l’interprétation des besoins en information induits par les SRI et plus spécifiquement, la non-exploitation des éléments PICO (Population/problème, Intervention, Comparaison, Output) de la médecine basée sur les niveaux de preuves, qui représentent une source d’évidence pour améliorer la réponse aux questions cliniques, etc.

Plusieurs verrous restent donc à lever, notamment l’étude d’une manière précise et approfondie du besoin en information exprimé par les experts du domaine médical en vue d’améliorer la prise de décision ainsi que l’optimisation des modèles d’appariement requête-document en RI.

Dans ce cadre général, nous nous positionnons dans le cadre spécifique de l’analyse et de l’évaluation des requêtes d’experts du domaine médical en vue d’améliorer les systèmes d’aide à la décision en médecine, permettant de mieux répondre à des besoins en information spécifiques. Ce sujet aborde, plus spécifiquement, le problème de la formulation des requêtes expertes ainsi que la pertinence des résultats retournés pour mieux répondre aux questions des professionnels de santé étant donné que les requêtes médicales sont particulièrement complexes.

La problématique de recherche a été abordée dans un double objectif, à savoir :

1. Mener des analyses statistiques qui portent sur les spécificités des requêtes expertes afin d’étu-dier leurs caractéristiques et analyser les corrélations existantes. Le but est de révéler les facteurs caractéristiques des requêtes en analysant leurs points communs et différences ainsi que leur impact sur la performance de recherche en considérant différentes tâches du domaine médical.

2. Se focaliser sur les requêtes cliniques PICO¹ dans le cadre de la médecine basée sur les faits, en s’intéressant à leur identification et leur exploitation dans le cadre de la RI médicale.

Nous proposons une approche sémantique d’expansion de requêtes ainsi qu’un algorithme de propagation de scores basé sur les relations entre les concepts médicaux dans les requêtes et les documents. Un modèle d’ordonnancement basé sur un opérateur prioritaire d’agrégation de scores exploitant ces facettes PICO est également proposé, en vue de mieux répondre aux questions cliniques.

1. Patient/Problem, Intervention, Comparaison, Output

2 Contributions

Les travaux présentés dans ce mémoire se situent dans le contexte précis de l’analyse et de l’extraction de connaissances ainsi que l’accès à l’information médicale. Plus précisément, nous nous sommes intéressés à un volet du domaine médical qui traite le besoin en information des experts.

Nos contributions sont scindées en deux parties, à savoir :

1. Caractérisation et analyses des besoins en information des experts du domaine médical. Dans ce contexte, nous nous sommes intéressés à : (a) Étudier les requêtes expertes des cliniciens. Nous avons mené pour cela des analyses statistiques sur 173 requêtes issues de 3 tâches de recherche d’information médicales issues de deux campagnes d’évaluation différentes TREC² et CLEF³. Nous avons défini différents attributs de requêtes comme éléments et critères d’analyse, à savoir : la longueur des requêtes en nombre de termes et en nombre de concepts,la clarté de la requête avec la clarté basée sur le sujet de la requête et la clarté basée sur la pertinence, la spécificité de la requête avec la spécificité hiérarchique et la spécificité terme-document.

(b) Analyser les besoins en information exprimés par les experts médicaux dans l’objectif de les caractériser et mesurer l’impact de leur structure sur les résultats de recherche. Nous avons mené une étude exploratoire basée sur des analyses statistiques multidimensionnelles issues de campagnes d’évaluation internationales en l’occurrence TREC et CLEF. Nous nous sommes focalisés sur deux aspects ; un premier aspect consiste à identifier et analyser les corrélations entre attributs de requêtes (la longueur, la spécificité et la clarté), en utilisant des mesures appropriées construites selon différentes sources d’évidence. Un deuxième aspect porte sur l’étude de l’impact de ces attributs sur les performances de recherche des SRI liées à ces requêtes.

Ces travaux d’analyse statistique exploratoire ont montré le besoin de contextualiser les modèles de RI médicale à la tâche. De plus, les résultats obtenus suggèrent la prise en compte de plusieurs caractéristiques et spécificités à inclure dans les nouveaux SRI médicaux comme l’utilisation de niveaux de concepts terminologiques appropriés afin d’améliorer la clarté de la requête, la personnalisation des résultats de recherche selon le niveau d’expertise, la prise en compte de la catégorie de la requête et de la nature de la tâche de RI.

2. Évaluation des requêtes cliniques PICO en proposant une représentation séman-tique des requêtes sous forme de graphes ainsi que des approches de calcul de scores de pertinence pour mieux répondre aux questions PICO. Notre contribution est triple, à savoir :

(a) Proposition d’une approche de génération de graphes sémantiques, permettant de mieux représenter chacune des facettes PICO de la requête. La particularité de notre approche réside dans la représentation des requêtes en se basant sur les concepts extraits à partir de MeSH, permettant de représenter le contexte spécifique de la requête, où chacune des facettes PICO est représentée par un sous-graphe conceptuel.

2. Text Retrieval Conference 3. Cross-language Forum

(b) Proposition d’une approche d’expansion de requêtes pour mieux répondre aux questions cliniques PICO. Nous avons adressé le problème lié à la recherche des preuves cliniques pertinentes, adaptées aux questions PICO. Nous proposons un nouvel algorithme d’or-donnancement de documents basé sur une approche d’expansion de requêtes délimitée par le contexte local de la recherche qui permet d’éliminer les documents non pertinents.

Ensuite, nous avons proposé un algorithme de classement de documents qui permet de lier chacun des éléments de la requête à un document qui lui est pertinent afin de retourner des réponses qui correspondent au mieux au besoin exprimé par la requête ;

(c) Pour mieux répondre aux requêtes cliniques, nous avons proposé l’application d’une approche d’agrégation prioritaire de l’information sémantique identifiée au sein du besoin en information exprimé via les requêtes PICO. Nous avons proposé un nouveau modèle d’ordonnancement basé sur une approche sémantique de requête qui prend en compte le contexte de chacune des facettes PICO. La spécificité de cette méthode réside dans le nouvel algorithme de propagation de scores qui permet de sélectionner les meilleurs concepts qui correspondent à la fois aux requêtes et aux documents pertinents pour classer et identifier les meilleures preuves qui traduisent les documents pertinents.

Afin de prendre en compte l’importance de chacune des facettes P, I, C et O dans le cal-cul de score global de pertinence des documents, nous avons proposé : (i) une méthode de génération de graphes PICO, qui englobe une technique de calcul de score concep-tuel correspondant à chaque facette PICO, (ii) une approche d’appariement sémantique requête-document permettant de sélectionner les meilleurs concepts de chaque graphe et (iii) une approche de calcul de scores de pertinence basée sur un opérateur prioritaire d’agrégation de scores.

Dans le document The DART-Europe E-theses Portal (Page 22-25)