• Aucun résultat trouvé

5.2 ConQuR-Bio : consensus de reformulations

5.2.7 Discussion et ouverture

Avec ConQuR-Bio nous avons fait le lien entre le domaine de l’expansion de requêtes (query expansion) et celui de l’agrégation de classements (rank aggrega-tion).

Nous avons utilisé l’intégration de nombreuses terminologies au sein du me-tathesaurus de l’UMLS (une intégration et un système dont la pertinence a déjà été démontrée [DF+11]) pour proposer des reformulations. En utilisant deux des modes de reformulations proposés pour rechercher dans l’UMLS, nous fournissons des reformulations basées sur l’identification des termes MeSH dans la phrase-clé de l’utilisateur. Afin de proposer un consensus mettant en avant les points com-muns des réponses obtenues pour chaque reformulation, nous nous sommes appuyé sur la création d’une mesure étendant la généralisation de la distance de Kendall-τ. Avec cette nouvelle pseudo-métrique, nous avons adapté et combiné plusieurs algorithmes, dont les performances en qualité et en temps de calcul ont été préa-lablement et largement évaluées, afin de pouvoir rapidement calculer un consensus de qualité.

Nous avons comparé notre approche avec le principal portail utilisé pour in-terroger les données biologiques relatives aux gènes, à savoir la base de données du site EntrezGene du NCBI et sa fonction de classement basée sur la pertinence. Nous avons montré que lorsque l’on mesure la présence et l’ordre des résultats at-tendus (en nous basant sur des Gold-standards), ConQuR-Bio propose par rapport au NCBI des résultats dont l’AUC est augmentée de 44.24%. En se concentrant sur des indicateurs bibliométriques et toujours par rapport au tri par pertinence

5.2. CONQUR-BIO : CONSENSUS DE REFORMULATIONS 159 du NCBI, les gènes retournés par ConQuR-Bio sont associés à 56% plus de publi-cations, et qui ont une date de publications 25% plus récente. Enfin, nous avons implémenté l’approche ConQuR-Bio et l’avons rendu disponible au travers d’un site web à l’adresse http://conqur-bio.lri.fr

Nous proposons maintenant une discussion et des perspectives relatives aux différentes étapes de notre approche.

ConQuR-Bio commence par l’identification des termes MeSH dans les phrases-clés. Nous avons actuellement choisi de suivre un processus glouton (et naïf) per-mettant un taux de réponse très rapide, compatible avec la fonctionnalité "à-la-volée" de notre approche. Cette stratégie est tout à fait satisfaisante sur les phrases-clés évaluées. Dans les travaux à venir, nous explorerons la détection des concepts dans les phrases-clés des utilisateurs en utilisant un outil de reconnais-sance de concepts comme MetaMap [Aro01] ou BioAnnotator [Sub+03]. L’utili-sation de ces outils nous permettrait d’avoir des options de reformulation plus précises et adaptables aux besoins de chacun comme le niveau de granularité des reformulations ou encore les sous domaines où rechercher les reformulations. Pou-voir retourner des résultats en quelques secondes tout en augmentant leur qualité globale sera le point le plus difficile.

Le module de reformulation joue un rôle important dans la qualité des résultats. Ce module est basé sur deux éléments : l’ensemble des terminologies utilisées et la façon dont ces terminologies sont interrogées et exploitées.

Concernant les terminologies, nous utilisons actuellement des sources termi-nologiques intégrées dans l’UMLS, ce qui nous a permis d’avoir un volume de reformulations pertinent et réduit. Les travaux en cours comprennent la sélection d’un plus grand nombre de sources, mais aussi le fait de permettre une person-nalisation des sources utilisées dans les deux principaux systèmes d’intégration de terminologies biologiques (à savoir, l’UMLS et BioPortail [Whe+11]) et ce afin de couvrir un champ plus large de domaines biologiques. Pour faire face au potentiel-lement grand nombre de reformulations trouvées, nous envisageons de permettre aux utilisateurs (expérimentés) de sélectionner les reformulations qui seront ou ne seront pas utilisées par notre système.

160 CHAP. 5. APPLICATIONS AUX DONNÉES BIOLOGIQUES DU WEB

5.3 Consensus d’experts pour la similarité entre

worflows scientifiques

Les contributions présentées dans cette section ont été obtenues dans le contexte du projet (PHC Procope) "Sharing and Optimizing Scien-tific Workflows" co-porté Ulf Leser (Humboldt Berlin) et Sarah Cohen-Boulakia (LRI), en collaboration avec Johannes Starlinger (Hum-boldt Berlin), doctorant. Ces travaux [Sta+14] ont été publiés dans les Proceedings de VLDB 2014 : Very Large Data Bases.

Nous présentons ici une seconde utilisation concrète de l’agrégation de classe-ments, dans laquelle nous cherchons à agréger des avis d’experts. Contrairement aux cas rencontrés dans la littérature [AM12 ; Bra+14 ; Dwo+01 ; SZ09 ; BBN13] dans lesquels un élément manquant dans un classement est considéré comme moins pertinent que les éléments présents, dans notre contexte l’absence d’information est une abstention. Entre d’autres termes, un élément qui n’est pas dans le classement d’un expert n’est ni plus ni moins pertinent qu’un élément présent.

Plus précisément, les avis d’experts que nous considérons dans cette section sont relatifs à des notes données par un ensemble d’experts pour qualifier le niveau de similarité de paires de worflows scientifiques. Pour chaque workflow de référence, chaque expert classe un ensemble de worflows par similarité croissante relativement au workflow de référence. Le modus operandi suivi pour la collecte des évaluations de similarité permet de prendre en compte les égalités dans un classement (deux worflows sont aussi similaires l’un que l’autre au workflow de référence), mais il permet aussi que les classements ne soient pas nécessairement complets. En effet, un expert peut ne pas souhaiter s’exprimer sur l’un des workflow, par ce qu’il ne sait pas évaluer sa similarité par rapport au workflow de référence.

La section s’organise de la façon suivante : nous définissons dans un premier temps ce qu’est un workflow, ensuite nous présentons le besoin initial qui a mené à avoir besoin de calculer un consensus entre experts. Nous expliquons ensuite l’interprétation faite des données et le choix d’une mesure qui reflète les opinions des experts quant à la similarité de worflows. Dans un quatrième temps, nous dé-taillerons l’approche suivie par pouvoir calculer un consensus entre les classements établis par les experts. Finalement nous présentons une évaluation des consensus calculés par rapport aux classements des experts.