• Aucun résultat trouvé

2.3 Le challenge des variants non-codants

3.1.2 Méthodes pour les variants non-codants

Contrairement aux méthodes dédiées aux variants codants, les méthodes de prédiction de fonctionnalité pour les variants non-codants n’ont commencé à être proposées que récemment. Ces méthodes souffrent en effet de trois difficultés :

— il existe très peu d’exemples de variants fonctionnels non-codants dont on a claire- ment identifié le rôle régulateur ;

— les localisations des éléments régulateurs ne sont pas aussi bien établies que les localisations des gènes ;

— les signaux de fonctionnalités associés aux éléments régulateurs et leurs combinai- sons ne sont pas exactement établis.

Néanmoins plusieurs approches ont été proposées pour définir des scores, résumant les signaux de fonctionnalités associés au génome non-codants (présentés au chapitre 1). L’article de Rojano et al., 2018 propose une revue des méthodes publiées ces dernières années. Je reprends ci-dessous quelques-unes de ces méthodes, qui ont été utilisées dans le cadre de mon travail de thèse ; j’y ai ajouté une brève description de la méthode NCBoost, ainsi que de la méthode FIRE.

CADD. Le score CADD (Combined Annotation Dependent Depletion, Kircher et al.,

2014, Rentzsch et al., 2019) propose une intégration de multiples informations de signaux fonctionnels (conservation en séquence, signaux de modifications d’histone, prédictions de changement d’acide aminé, ilôts CpG, etc.), au sein d’un modèle de régression logistique pénalisée entraîné à séparer des variants simulés dans le génome (considérés comme po- tentiellement fonctionnels) de variants contrôles (pris à partir de variants fixés dans la population humaine, différents de leur état ancestral primate).

FATHMM-MKL. Le score FATHMM-MKL (Shihab et al., 2015) est basé sur une

méthode d’apprentissage supervisé appelée Multi-Kernel Learning, qui permet une sépa- ration de variants fonctionnels et non-fonctionnels selon différents groupes d’annotations (annotations de conservation en séquence, de sites de fixation de facteurs de transcrip- tions, de marques d’histones, et d’accessibilité de la chromatine), utilisé au sein d’une méthode de SVM (Support Vector Machine). Cette approche permet d’établir des sépa- rations linéaires selon chacun des groupes d’annotations, qui sont ensuite pondérées pour la séparation finale du modèle. Le modèle est ici entraîné sur des variants non-codants de la base de données HGMD (Stenson et al., 2017) pour les exemples fonctionnels, tandis que les variants contrôles proviennent du projet 1 000 génomes.

ReMM. Le score de prédiction ReMM (Regulatory Mendelian Mutation) correspond

au score de fonctionnalité utilisé dans l’outil Genomiser (Smedley et al., 2016). Ce score est basé sur un entraînement supervisé d’un modèle de forêts aléatoires, entraîné sur 453 variants non-codants fonctionnels identifiés depuis la littérature (qui, après vérification, sont inclus dans la base de données HGMD-DM), et de variants contrôles pris de la même manière que pour CADD. On y retrouve les annotations de conservation en séquence, de marques d’histones, de sites de fixation de facteurs de transcriptions, ainsi que de prédictions FANTOM pour les régions régulatrices.

NCBoost. Le score NCBoost (Caron et al., 2018) est basé sur une méthode d’appren-

tissage supervisée appelée XGBoost (Chen et al., 2016), dont le principe se rapproche de celui des forêts aléatoires, mais incluant une étape de pondération des entités pendant l’apprentissage qui lui permet forcer une meilleure classification des variants ambiguës. Le score est entraîné à distinguer 737 variants non-codants fonctionnels identifiés depuis la littérature (provenant en partie des variants ReMM et HGMD), de variants contrôles ; à nouveau un ensemble d’annotations comme les propriétés de contrainte de la séquence, ou les marques d’histones, sont utilisés pour décrire les variants.

Eigen. Le score Eigen (Ionita-Laza et al., 2016) proviennent d’une méthode d’appren-

tissage non-supervisé, appelé apprentissage spectral. Cette méthode de prédiction apprend à séparer deux classes par l’identification de différences entre des combinaisons d’anno- tations. Les annotations considérées ici correspondent aux scores de conservations, aux

fréquences des variants dans la population (provenant du projet 1 000 génomes), et d’an- notations de signaux fonctionnels provenant du projet ENCODE.

FitCons. Le score FitCons (Gulko et al., 2015) correspond à une évaluation de la pres-

sion de sélection négative à laquelle sont soumises différents types de régions du génome. Les régions du génomes sont d’abord regroupées selon leur profil de fonctionnalité, établi à partir de données telles que les états chromatiniens, les localisations de séquences codantes, ou encore les régions de chromatines ouvertes. Pour 624 profils uniques, les auteurs ont évalué la fraction de positions sous pression de sélection par la méthode INSIGHT (Gro- nau et al., 2013), qui leur permet ensuite de propager ce score de contrainte à l’ensemble des régions du génome.

LINSIGHT. Le score LINSIGHT (Huang et al., 2017) est une généralisation de la

méthode de prédiction FitCons, permettant une résolution par base de la prédiction d’un score de contrainte de sélection négative. Dans cette méthode, un modèle linéaire est utilisé pour intégrer les données de fonctionnalité (précédemment utilisées pour définir les profils), afin de prédire le score de contrainte mesuré par INSIGHT.

FIRE. La méthode FIRE (Functional Inference of Regulators of Expression, Ioannidis,

Davis et al., 2017) se distingue des autres méthodes par les variants considérés : ici la méthode vise à distinguer des variants eQTLs de variants contrôles. Pour cette méthode, un modèle de forêt aléatoire est donc entraîné à identifier des variants potentiellement eQTLs, en se basant sur des annotations similaires à celles utilisées pour les méthodes décrites ci-dessus.

Comparaison et limites des méthodes de prédictions pour les variants non- codants

Un article récent (Liu et al., 2017) a proposé une étude comparative des performances de certaines de ces méthodes, par une évaluation de leur capacité à distinguer des va- riants fonctionnels issus de la base de données HGMD (Stenson et al., 2017), de variants contrôles identifiés comme variants privés depuis le projet UK10K ; la meilleure méthode rapportée est FATHMM-MKL.

— les méthodes d’apprentissage supervisé dédiées à la distinction de variants fonc- tionnels potentiellement délétères : CADD, FATHMM-MKL, NCBoost, ReMM ; — les méthodes sans apprentissage ou avec apprentissage non-supervisé : Eigen, ainsi

que LINSIGHT et FitCons (ces deux dernières ayant également pour but l’identi- fication de variants sous pression de sélection négative) ;

— la méthode FIRE, qui est une approche supervisée, mais dédiée à l’identification de variants eQTLs.

Parmi les méthodes d’apprentissage supervisé utilisées, le principe des forêts aléatoires est appliqué pour 3 de ces méthodes (ReMM et Fire, ainsi que NCBoost, qui est basé sur un principe similaire). Les méthodes de forêts aléatoires présentent en effet beaucoup d’avantages pour l’apprentissage depuis des annotations hétérogènes, en intégrant de ma- nière non-linéaire les valeurs des différentes distributions ; les avantages de cette méthode ont motivé mon choix pour mes travaux de thèse, et je présente donc l’algorithme en détails dans la section suivante.

Ces scores de prédictions permettent donc d’avoir, pour une position donnée dans le génome, une information intégrée sur les faisceaux d’indices fournis par les données ex- périmentales concernant les propriétés régulatrices du génome. Un problème important n’est cependant pas résolu par ces méthodes : l’association à un gène cible. En effet, les régions régulatrices du génome (potentiellement identifiables par ces scores) exercent leur action régulatrice sur des gènes, qui peuvent être situés à de longues distances de la ré- gion régulatrices. Comme noté dans la revue de Rojano et al., 2018, l’exploitation de données de capture de la chromatine peut permettre de résoudre ce manque. D’autres méthodes d’associations ont été présentées au chapitre 1 (co-expression de régions régula- trices, co-associations d’états chromatiniens, conservation de synténie) ; ce sont également des sources d’annotations qu’il est possible de prendre en compte pour évaluer l’impact d’un variant potentiellement régulateur sur un gène cible

Enfin, un problème de capacité d’interprétation des prédictions faites par ces modèles se pose. Contrairement aux variants codants, pour lesquels une prédiction de fonctionnalité peut toujours être évaluée au regard de la séquence codante, le manque de connaissances sur les variants non-codants limite l’évaluation et l’interprétation d’un score. Je discute ces points dans le prochain chapitre, dédié à la problématique de mon travail de thèse.