• Aucun résultat trouvé

Analyse des variants par catégorie d’association aux gènes d’intérêts

10.2 Analyses des mutations de novo

10.2.2 Analyse des variants par catégorie d’association aux gènes d’intérêts

Je propose ici une seconde analyse, consistant à identifier des catégories de muta- tions de novo présentant des scores particulièrement élevés chez les patients malades, en comparaison avec les mutations identifiées chez les patients contrôles ; cette analyse mêle l’évaluation d’enrichissement en mutation de novo dans certaines catégories d’annotations génomiques (Werling et al., 2018), et une comparaison des scores de prédictions qui leur sont associés (Zhou et al., 2019). Dans cette approche, les mutations ne sont plus compa- rées par famille ; on souhaite identifier des propriétés générales distinguant les mutations de novo des patients malades de mutations de novo détectées chez des patients contrôles. J’ai donc défini plusieurs catégories de mutations, sur la base de leurs associations aux gènes des différents groupes définis précédemment ; ces catégories sont non-exclusives (un

FINSURF Z -scor e All DNMs N patient pairs =1,582 P-value WRS = 0.43 P-value MWU(os) = 0.18 DNMs associated to ASD genes N patient pairs =1,578 P-value WRS = 0.17 P-value MWU(os) = 0.11 DNMs associated to OMIM genes N patient pairs =1,579 P-value WRS = 0.38 P-value MWU(os) = 0.24 DNMs associated to RVIS constrained genes N patient pairs =1,581 P-value WRS = 0.61 P-value MWU(os) = 0.24

DNMs associated to pLI constrained genes N patient pairs =1,581 P-value WRS = 0.28 P-value MWU(os) = 0.054

DNMs associated to dosage sensitive genes N patient pairs =1,132 P-value WRS = 0.93 P-value MWU(os) = 0.51

Figure 10.1 – Comparaison du Z-score FINSURF moyen des mutations de novo chez chaque patient, entre patients malades et patients contrôles. Le Z-score par patient est calculé comme la moyenne des scores FINSURF des variants de ce patient, normalisé par la moyenne des scores des variants de tous les patients contrôles, pour une catégorie considérée. Par catégorie, le score moyen sur l’ensemble des patients malades, ou patients contrôles, est rapporté ; l’intervalle de confiance de cette valeur est identifié par la barre d’erreur. Les variants sont assignés aux catégories par rapport à leur association aux gènes de cette catégorie. L’association d’un variant à un gène est définie à partir de sa localisation dans le gène, ou par sa localisation dans une région régulatrice avec prédiction d’association au gène. Le nombre de paires de patients considérées peut varier, par l’exclusion des paires où l’un des patients ne présente pas de variants associés à la catégorie de gènes considérée. Les tests statistiques appliqués sont le test des rangs signés de Wilcoxon, pour évaluer les différences statistiques entre paires de patients (WRS). Un test de Wilcoxon- Mann-Whitney non-pairé (MWU(os)) est également appliqué. Les P-valeurs ne sont pas corrigées pour les tests multiples.

variant peut être associé à des gènes de différents jeux, et donc être retrouvé dans plusieurs catégories). Pour chacune de ces catégories, le score FINSURF est utilisé pour identifier le nombre de mutations fonctionnelles chez les patients malades et chez les contrôles. Ces mutations prédites comme fonctionnelles sont distinguées des non-fonctionnelles grâce au seuil de 0.55, précédemment identifié pour maximiser le nombre de vrais positifs et minimiser le nombre de faux positifs (voir chapitre 9). En résumé, je souhaite identifier des catégories d’associations entre mutations de novo et gènes d’intérêt qui concentrent des mutations hautement fonctionnelles, et ce de manière spécifique aux patients malade. La figure 10.2 correspond aux résultats de cette analyse. On peut tout d’abord consta- ter qu’aucune des catégories ne présente de différence statistiquement significative si l’on corrige pour les tests multiples. On peut cependant remarquer quelques catégories de va- riants qui semblent présenter des nombres de variants fonctionnels particulièrement plus élevés pour les patients malades que pour les patients contrôles : la catégorie la plus no- table correspond aux variants localisés dans des régions régulatrices associées aux gènes

sensibles au dosage. Dans cette catégorie, la proportion de variants fonctionnels est 1,65 fois supérieure pour les variants des patients malades, comparée aux variants des patients contrôles (sur 207 DNMs chez les patients malades, 15.8% sont identifiées comme fonc- tionnelles, contre 9.6% des 230 DNMs des patients contrôles). Les deux autres catégories qui ont des P-valeurs non-corrigées significatives correspondent aux variants à proximité de gènes de l’autisme (provenant de la base de données SFARI, avec et sans fusion de la base de données OpenTargets). Cependant les différences de proportions mesurées sont extrêmement faibles. Deux catégories présentent des proportions de variants fonctionnels légèrement plus élevées pour les patients malades : les catégories de variants associés par régions régulatrices géniques aux gènes de l’autisme (ASD genes - self-targeting genic regulatory region) ; les P-valeurs ne sont cependant pas significatives, même sans correc- tion. Dans cette figure, j’ai annoté deux catégories qui sont associées à une proportion de variants fonctionnels plus importante chez les patients contrôles que chez les variants malades, pour des DNMs localisés dans des régions régulatrices associés à des gènes de l’autisme ; cette différence est très faible, mais indique que notre modèle introduit poten- tiellement des variants faux positifs, ou bien que ces variants ont effectivement un caractère fonctionnel, mais qui n’est pas associé au phénotype malade.

Dans l’ensemble, il est difficile de conclure sur un enrichissement clairement notable et significatif dans aucune des catégories définies ici. Des tendances semblent se dégager en faveur d’une sur-représentation chez les patients malades de variants fonctionnels dans des régions régulatrices associées à des gènes d’intérêt. En particulier l’enrichissement de variants fonctionnels dans des régions régulatrices associées à des gènes sensibles au do- sage est très intéressant : cette catégorie correspond à des gènes dont le maintien d’un niveau expression stable est extrêmement important ; l’impact de variants régulateurs sur ces gènes est donc potentiellement associé à une conséquence phénotypique importante. Toutefois ces tendances sont à contre-balancer par une sur-représentation de variants fonc- tionnels chez les patients contrôles pour des catégories également intéressantes par rapport au phénotype. Dans la section suivante, je propose une approche de sélection de variants candidats pour chaque patient.

-log

10

(P

-value)

Proportioncases(functional) - Proportioncontrols(functional)

Uncorrected P-value threshold : 0.05

*

* *

Figure 10.2 – Comparaison du nombre de mutations prédites comme fonctionnels entre patients et ma- lades, pour différentes catégories d’associations régulatrices à des gènes d’intérêt. Les catégories de variants sont définies selon leur association aux gènes de différents jeux d’intérêt : gènes de maladie (OMIM), gènes associés à l’autisme (SFARI, OpenTargets, ou les deux combinées), gènes sensibles au dosage. Les asso- ciations sont définies selon la localisation des variants par rapport aux gènes considérés : associés par n’importe quelle localisation, associés par gène adjacent, associés par une région régulatrice, ou associés par une région régulatrice dans le même gène. Pour chaque catégorie, les scores FINSURF des variants des patients malades et contrôles sont utilisés pour calculer le nombre de variants fonctionnels, selon le seuil de 0.55. La différence de proportions de variants fonctionnels entre les patients malades et les contrôles est rapportée en abscisses. L’utilisation d’un test de Fisher permet d’évaluer statistiquement cette diffé- rence ; la P-valeur de ce test est rapportée en ordonnée. Le seuil de significativité à 0.05 sans correction est identifié sur le graphique ; avec un nombre de tests de 35, la valeur en ordonnée correspondante après correction de Bonferroni serait de 2.85, et n’est donc pas rapportée par soucis de lisibilité. Par soucis de lisibilité également, toutes les catégories ne sont pas identifiées : seules celles présentant une différence de proportions supérieure à 1%, ou avec une P-valeur inférieure à 0.1 sont identifiées ; les catégories marquées d’une astérisque sont cependant identifiées pour l’interprétation.

10.3 Identification de mutations candidates chez les patients

malades