• Aucun résultat trouvé

Chapitre 3. Applications

3.2. Bio-informatique et sciences biomédicales

En bio-informatique, la médiane de permutations peut servir à classer les pro- téines/gènes liées à une maladie et à la construction de cartes génétiques.

Dans [121] (2001), les auteurs s’intéressent à l’expression des gènes (quantifier les ARN messagers dans un tissu donné à un moment donné). Plusieurs méthodes peuvent être utilisées pour mesurer cette expression (puce à ARN microarray, SAGE, BodyMap, MPSS). Les auteurs transforment les résultats de ces méthodes, qui quantifient les occur- rences d’ARNm, en classements, et utilisent la médiane de permutation pour agréger ces classements.

L’expression des gènes a aussi été étudiée dans [52] (2006). Les données provenant de puces à ARN peuvent être représentées par des classements qui ordonnent l’importance de l’implication d’un gène dans une maladie. À travers plusieurs études de transcriptomique sur la même maladie, les conditions peuvent changer impliquant une variation importante

1. https://www.electoralcommission.org.uk/__data/assets/pdf_file/0019/ 141328/Final-PVS-report.pdf

2. https://web.archive.org/web/20110410141102/http://www.aboutmyvote.co.uk:80/ PDF/England-accessible.pdf

des niveaux d’expression des gènes. Pour agréger les résultats de plusieurs études, l’utili- sation de la médiane de permutations est utilisée car elle ne tient compte que des ordres relatifs entre les gènes. Dans ce travail, des données ont été prises de cinq études sur le cancer de la prostate. Les auteurs ont été surpris par le peu de chevauchement entre les top-25 des classements provenant de chaque étude, i.e. les diverses méthodes n’identifient pas les mêmes cibles comme les plus importantes. L’agrégation a permis de mettre de l’avant plusieurs gènes déjà identifiés pour leur implication dans la maladie et d’autres gènes reliés à différents mécanismes cellulaires.

Une version modifiée du problème de la médiane de permutations est utilisée pour la construction de cartes génétiques dans [73] (2008). Dans ce contexte, des marqueurs génétiques de chaque population d’une espèce représentent des ordres partiels (certains marqueurs peuvent être absents dans une population) et les chercheurs s’intéressent à trouver un ordre total des marqueurs génétiques qui représente le mieux l’espèce en entier. Dans ce travail, les auteurs introduisent des poids liés au niveau de confiance des paires ordonnées, décrivent une heuristique basée sur le Minimum Feedback Arc Set problem (voir début du Chapitre 2) et testent leur approche sur des données provenant du maïs. Notez que le résultat de leur heuristique est un ordre partiel.

Dans [40] (2011), les auteurs utilisent l’heuristique BioConsert (voir Section2.10) sur des données biologiques. Ces donnés proviennent de deux centres médicaux et sont des ensembles de quatre classements de gènes ayant trait à chacune des maladies suivantes : le cancer du sein, le cancer de la prostate, le cancer de la vessie, le neuroblastome, le rétinoblastome, le TDAH et le syndrome du QT long. Les quatre classements proviennent de quatre méthodes de prédiction de gènes liés à une maladie. Ces données sont dispo- nibles sur http://bioguide-project.net/bioconsert/. Les classements consensus donnés par BioConsert sont bien pertinents : les gènes qui se retrouvent au début des consensus ont un nombre plus élevé de publications qui les associent avec la maladie. Finalement, le consensus permet de corriger certaines anomalies retrouvées dans les résultats de cer- taines méthodes de prédictions : des gènes qui sont classés dans les 20 premiers et qui ne semblent pas liées à la maladie. Cette agrégation de résultats de méthodes de prédictions semble être très pertinente dans un contexte de recherche en laboratoire.

Dans [10] (2011), les auteurs utilisent la médiane de permutations pour la prédic- tion de conformations d’amarrage de protéines. L’objectif est de prédire avec des outils informatiques des conformations acceptables, c’est-à-dire des conformations proches des

observations réelles (par cristallographie aux rayons X par exemple). Il est facile de gé- nérer rapidement beaucoup de conformations possibles, par contre, la seconde étape, qui consiste à filtrer les faux positifs avec des algorithmes plus précis, est plus difficile à réali- ser. Les auteurs utilisent Hex [111] qui peux générer une grande quantité de conformations et considèrent seulement les 50 meilleures conformations données par ce logiciel. L’objec- tif est alors de reclasser ces 50 conformations pour que celles qui sont plus pertinentes se retrouvent mieux classées. Les auteurs utilisent une approche par diagrammes de Voronoi pour modéliser les conformations et calculent les attributs et les propriétés chimiques des conformation. Après normalisation, ces propriétés sont données à plusieurs algorithmes d’apprentissage qui prédisent avec des probabilités si ces conformations d’amarrage sont acceptables. Des permutations sont obtenues en classant les conformations en fonction de leurs probabilités d’être acceptables pour chaque méthode. L’heuristique FindMedian [26] est ensuite utilisée pour approximer la méthode de Kemeny sur ces permutations de taille n = 50. Les résultats montrent que le consensus trouvé par leur approximation donne des meilleurs classements des conformations que les méthodes individuelles. Entre autres, les conformations acceptables sont classées plus haut en moyenne que les autres méthodes. De plus, les auteurs montrent que les conformations bien classées par leur méthode d’agrégation sont plus pertinentes biologiquement.

Les microARNs sont des petites séquences d’ARN non-codant qui peuvent jouer des rôles de régulation sur l’expression des gènes. Dans [120] (2013), les auteurs s’intéressent à la détection des gènes ciblés par des microARN. Pour agréger les résultats de plusieurs algorithmes de prédiction des cibles, les auteurs utilisent une méthode dérivée de la mé- thode de Kemeny-Young dans laquelle ils introduisent un facteur lié à la dispersion des distances entre le consensus et les permutations d’entrée (utilisant l’entropie de Shan- non [122]). Leur objectif est de favoriser un consensus qui ne minimise pas seulement les désaccords mais qui est équitable envers chaque entrée. Une heuristique de recuit simulé est décrite pour résoudre ce problème : l’échange de positions d’éléments adjacents est utilisé pour générer des nouvelles permutations voisines et la température descend par paliers. Les auteurs comparent leur méthode à la méthode de Kemeny-Young et d’autres méthodes d’agrégation en la testant sur des données de microARNs et affirment que leur méthode est plus performante.

Un outil web de bio-informatique nommé Conqur-bio (conqur-bio.lri.fr) a été déve- loppé dans [30] (2014) et est un bel exemple d’application du consensus de classements. Dans un contexte de croissance exponentielle des bases de données de bio-informatique,

cet outil utilise le consensus de classement pour aider les utilisateurs à retirer les infor- mations les plus pertinentes de ces bases de données. Plus précisément, un utilisateur serait intéressé à entrer des mots clés dans le moteur de recherche de la base Entrez Gene [88, 116] de NCBI (https://www.ncbi.nlm.nih.gov/gene/). Il peut alors faire cette re- quête avec les mêmes mots clés sur Conqur-bio, qui génère des synonymes des mots clés, fait plusieurs requêtes à Entrez avec différentes combinaisons des synonymes, agrège les résultats et retourne le consensus. Cela permet entre autres de recueillir les résultats qui ne seraient présents qu’avec un autre synonyme de langue (tumor vs tumour), une autre abréviation ou terme complet(ADHA vs Attention Deficit Hyperactivity Disorders), une reformulation équivalente (cervix cancer vs cervical cancer) ou une reformulation avec des termes ou sujets plus précis (colorectal cancer vs hereditary nonpolyposis colon cancer ou

lynch syndrome). Dans tous ces cas énumérés, il y a eu des gains de pertinence dans les

résultats retournés ; certains gènes sont apparus dans les résultats alors qu’ils n’étaient pas présents dans le résultat de la requête originale. Dans la méthode d’agrégation, l’outil utilise l’unification pour avoir des classements complets en ajoutant un panier à la fin de chaque classement. Ce dernier panier a un statut spécial dans la mesure utilisée qui ne tient pas compte de l’ordre entre ses éléments. Une égalité entre deux éléments dans un panier normal correspond à un moteur de recherche qui a classé ces deux éléments à égalité alors qu’un égalité dans le panier d’unification indique que le moteur de recherche n’a pas d’information différenciant ces deux éléments. La mesure utilisée ressemble for- tement à la distance de Kendall-τ généralisée avec p= 0.5 avec la seule différence que si deux éléments sont à égalité dans le panier d’unification dans un classement alors qu’ils ne sont pas à égalité dans l’autre classement alors il n’y a pas de coût p ajouté à la mesure pour cette paire. Conqur-bio utilise les algorithmes de BordaCount [27], MEDRank [61] et Ailon (Pick-a-Perm généralisé) [2] pour donner rapidement un résultat d’une qualité acceptable. L’outil a été testé sur plusieurs données de provenance biologique.

Une méthode d’agrégation de données génomiques nommée HyDRA est introduite dans [81] (2015). HyDRA est une méthode hybride qui utilise l’agrégation avec score et une version modifiée (avec poids) de la méthode de Kemeny pour agréger des listes de gènes en fonction de leur association avec une maladie dans la littérature. L’objectif de la méthode HyDRA est de découvrir des nouveaux gènes susceptibles d’être associés à une maladie ciblée mais qui n’ont pas encore été investigués dans le cadre de recherche

dans cette maladie. Les auteurs comparent HyDRA avec les outils Endeavour3 [131] et ToppGene4 [37].

Pour aider la recherche en science biomédicale, un programme de recommandation d’articles a été fait dans [107] (2017). La plateforme Meta (https://meta.com/) puise dans les articles et les bases de données Crossref5 et Pubmed6 pour proposer des articles à lire à des chercheurs dans différents domaines des sciences biomédicales. Meta utilise plusieurs algorithmes indépendants qui donnent des recommandations en fonctions de graphes de citations ou d’auteurs, de listes de mots-clés, de similarité de références, de sémantique et autres données. Les recommandations individuelles de ces algorithmes sont alors agrégées pour donner une liste de recommandations finale. Les auteurs montrent que chaque algorithme indépendant utilisé ne couvre pas tous les articles pertinents à suggérer.