• Aucun résultat trouvé

Mesures d’importances des annotations pour les modèles HGMD-DM

8.4 Comparaison à la littérature

9.1.2 Mesures d’importances des annotations pour les modèles HGMD-DM

La figure 9.1 nous permet de comparer les valeurs d’importance des annotations cal- culées depuis les modèles HGDM-DM Cytoband-match et HGDM-DM Distance-match. On peut tout d’abord constater que pour le modèle Cytoband-match, l’annotation la plus importante est l’annotation tfbsClust.scoremax, correspondant à la concentration locale de prédiction de sites de fixation de facteurs de transcription (TFBS). Cette annotation était effectivement l’une de celles qui présentait une différence particulièrement marquée lors de l’évaluation des tailles d’effets entre contrôles positifs et négatifs (figure 7.3) ; il est donc intéressant de voir qu’elle a effectivement été exploitée par le modèle de prédiction. Au contraire, les autres annotations concernant des TFBS n’ont visiblement pas contribué au modèle, malgré des différences marquées lors des mesures de taille d’effet. Parmi les autres annotations identifiées comme importantes, on retrouve les annotations concernant la conservation en séquence (en particulier le score GERP) ; l’état chromatinien promoteur (roadmapState.promoter) est également une annotation ayant été exploitée par le modèle. Enfin, on peut constater que des annotations comme les états chromatiniens quiescent (roadmapState.quies) et réprimé (roadmapState.repressed) ont une valeur d’importance non-nulle ; ces annotations étaient associées à des valeurs plus importantes pour les variants contrôles négatifs, ce que le modèle semble avoir réussi à exploiter.

La comparaison avec le modèle Distance-match permet de constater une baisse mar- quée de l’importance des annotations tfbsClust.scoremax et roadmapState.promoter, tan- dis que les scores de conservation gagnent en importance. Cela peut s’expliquer par un point déjà évoqué au chapitre précédent : l’échantillonnage Distance-match est plus strict, et conduit à sélectionner des variants contrôles négatifs à proximité des variants contrôles positifs, et donc potentiellement dans les mêmes annotations d’intervalles génomiques que ces contrôles positifs. Le modèle a donc potentiellement plus de mal à exploiter ces annota- tions, où la différence entre positifs et négatifs est moins marquée ; cela semble le conduire en revanche à utiliser de manière plus importante les annotations de conservations, qui elles sont disponibles par position, et permettent donc une résolution plus fine. La diminution de l’utilisation des annotations d’intervalles pouvaient être attendue, puisque l’analyse des tailles d’effet permettaient déjà d’observer la diminution importante de la différence entre contrôles positifs et négatifs pour les annotations comme les TFBS.

prédictions sur une identification de variants soumis à une contrainte évolutive, affectant des sites de fixations de facteurs de transcription, et présentant des signaux de fonction- nalités associés à des régions actives.

9.1.3 Mesures d’importances des annotations pour les modèles eQTLs- OMIM

La figure 9.2 nous permet de comparer les valeurs d’importance des annotations calcu- lées depuis les modèles eQTLs-OMIM Cytoband-match et eQTLs-OMIM Distance-match. On peut voir que les profils d’importances des annotations sont très différents des pro- fils obtenus pour les modèles HGMD-DM. Tout d’abord pour le modèle eQTLs-OMIM Cytoband-match, on identifie distinctement quatre annotations dont l’importance est éle- vée : vartrans.ord (dont les valeurs ordonnés indiquent si un variant correspond à une transition, une transversion, ou un INDEL), roadmapState.transcribed (indiquant les états chromatiniens transcrits), roadmapState.heterochrom (états d’hétérochromatine) et road- mapState.quies (états quiescents). Ces quatre annotations correspondent effectivement à des annotations dont on pouvait mesurer des différences élevées lors des comparaisons de taille d’effet (7.3), avec des directions différentes : les contrôles négatifs semblent enrichis en variants INDEL ou transversion, dans des états hétérochromatiniens ou quiescents en comparaison avec les eQTLs-OMIM, tandis que ces derniers présentent des valeurs plus éle- vés que les contrôles négatifs pour les annotations d’états transcrits. D’autres annotations présentent des valeurs d’importances moindres, mais non-nulles, comme les annotations de conservation (dont les valeurs étaient moindres pour les eQTLs-OMIM par rapport aux contrôles négatifs), ainsi que des signaux de marques d’histones (associées à des régions à potentiel régulateur), et les prédictions de régions régulatrices Genehancer.

La comparaison avec le modèle Distance-match permet de voir que les annotations d’intervalles voient leur importance diminuer fortement (roadmapState.transcribed, road- mapState.quies, roadmapState.heterochrom). La même explication que pour les modèles HGMD-DM s’applique : les variants contrôles négatifs se trouvent plus probablement dans les mêmes états chromatiniens que les variants contrôles positifs, ce qui ne permet plus au modèle de les discriminer sur cette base. L’annotation qui présente la plus forte im- portance est l’annotation vartrans.ord ; cela indique probablement une sur-représentation de variants INDEL ou transversion dans l’un des jeux contrôles. On peut aussi constater que les annotations de conservation voient leur importance augmentée pour ce modèle : en

0.05

0.15 0.05 0.15 0.35

Feature importance Feature importance

Figure 9.2 – Mesure d’importance des annotations pour les modèles eQTLs-OMIM Cytoband-match et Distance-match. Les noms des annotations sont colorés selon leur classe d’annotation : vert pour les annotations de séquence, violet pour les données de conservations ; rouge pour les marques biochimiques ; bleu pour les prédictions d’associations régulatrices.

particulier pour les annotations phyl100w et phyl20w. En observant les tailles d’effets me- surées, il est probable que le modèle exploite les valeurs plus faibles associées aux eQTLs, et associe donc à l’inverse le caractère non-fonctionnel à des valeurs de conservation élevées.

Dans l’ensemble ces analyses permettent de mieux comprendre la façon dont les mo- dèles exploitent les annotations. Cela permet d’identifier des annotations qui pourraient probablement être retirées sans diminuer la qualité des modèles (par exemple l’ensemble des prédictions de régions régulatrices provenant de la base de données FOCS) ; ces annota- tions étaient déjà précédemment identifiées comme peu discriminantes (figure 7.4, et figure 7.5). D’autres annotations pourraient également être enlevées malgré des différences qui étaient tout de même détectables : par exemple les annotations de TFBS ”tfbsEnsembl” et ”tfbsCons” ont des valeurs d’importance suffisamment faibles dans mes modèles pour pouvoir être enlevées. Néanmoins, l’outil FINSURF vise non seulement à fournir une pré- diction de fonctionnalité pour un variant, mais également un profil d’annotations associées à cette fonctionnalité ; c’est pourquoi je garderai l’ensemble des annotations sélectionnées. Par ailleurs, ces valeurs d’importance sont une vision globale de l’utilisation des annota- tions par le modèle. Il serait intéressant de pouvoir accéder à une mesure de l’importance des annotations à l’échelle de chaque variant : cela conduirait à une meilleure compré- hension de ce que le modèle est capable d’utiliser pour un variant donné, et permettrait potentiellement d’identifier des groupes de variants différents, représentant les multiples chemins de décisions dans les arbres. C’est cette approche que j’ai souhaité suivre, et que je développe dans la section suivante.