• Aucun résultat trouvé

3 4 5 6 β Densite 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 β Densite

Figure 2.4 – Fonction de densité des β obtenue à partir des 588 échantillons analysés. Fonction globale à gauche et fonctions individuelles à droite.

2.2 Valeur M

Les valeurs β sont intuitives ce qui rend les interprétations biologiques plus faciles, en effet il s’agit du pourcentage de méthylation du site CpG. Mais comme elles sont majoritairement comprises dans l’intervalle de 0 et 0,2 pour l’état non méthylé ainsi que dans l’intervalle de 0,8 et 1 pour l’état méthylé, elles sont donc soumises à de l’hétéroscédasticité. Ce problème d’hétéroscédasticité empêche l’utilisation de nombreux modèles statistiques qui imposent une homoscédasticité dans les données. Une alternative à la valeur β, la valeur M a donc été proposée par P. Du et al. 2010. La transformation en valeurs M permet de stabiliser la variance et ainsi de supprimer le problème d’hétéroscédasticité présent avec les valeurs β. Les valeurs M ont ainsi des meilleures propriétés statistiques mais sont plus difficiles à interpréter biologiquement. Pour obtenir des valeurs M, on transforme les valeurs β via la fonction logit :

M = log2  β 1− β  = log2  Imeth Iunmeth+ α 

Une variante de la définition de la valeur M peut également être utilisée, le compensateur α est ajouté à la fois à l’intensité de l’état méthylé et à l’intensité de l’état non méthylé :

M = log2 

Une des conséquences de cette transformation est de ne plus avoir un intervalle compris entre 0 et 1 comme c’est le cas pour les valeurs β mais un intervalle compris entre −∞ et +∞. La figure 2.5 nous montre la fonction de densité des M obtenus pour les 588 échantillons.

−5 0 5 0.00 0.05 0.10 0.15 0.20 M Densite −5 0 5 0.00 0.05 0.10 0.15 0.20 M Densite

Figure 2.5 – Fonction de densité des M obtenue à partir des 588 échantillons analysés. Fonction globale à gauche et fonctions individuelles à droite.

Bien que les valeurs M soient plus efficaces que les valeurs β en terme de puissance et de précision pour identifier des sites CpG différemment méthylés lorsque l’on compare deux populations (P. Du et al.2010), dans certains cas l’utilisation des valeurs β reste plus efficace (Wahl et al. 2014 ; Zhuang et al.2012). En effet, bien que la distribution globale des valeurs β soit bimodale, lorsque l’on regarde la distribution des valeurs β d’un unique site CpG, celle-ci suit le plus souvent une loi normale et peut donc être utiliser dans les modèles statistiques couramment employés.

Chapitre 3

Contrôle Qualité et Normalisation

Les données issues de l’utilisation de biopuces sont soumises à de nombreux biais expérimentaux (Sabbah et al. 2011 ; Siegmund 2011), certains communs à toute les puces à ADN et d’autres spéci-fiques à la puce HM450k. Avant de pouvoir étudier par des méthodes bio-informatiques et biostatis-tiques si des phénotypes biologiques et/ou cliniques peuvent être associés à des profils de méthylation particuliers, il est important en premier lieu de vérifier la présence des biais potentiels, puis de les corriger afin de limiter leur impact lors de l’analyse plus fine des données de méthylation en relation avec des phénotypes d’intérêt.

Au début de ce travail de thèse, la puce HM450k était disponible depuis peu de temps, tous les biais n’étaient pas encore connus et correctement corrigés par des méthodes statistiques. La littéra-ture proposait quelques méthodes pour tenter de corriger les biais, mais aucune ne se dégageait des autres. J’ai dû identifier les biais présents dans mes données et proposer, adapter, comparer différentes méthodes pour les corriger avant de pouvoir appliquer différentes approches statistiques (Kuan et al. 2010 ; Siegmund 2011 ; Siegmund & Laird 2002) pour identifier des signatures de méthylation as-sociées aux variables biologiques d’intérêt. La partie suivante aborde le contrôle qualité ainsi que les biais et la normalisation des données obtenues par la puce HM450k. Les données de méthylation des études MARTHA et F5L-Pedigrees ont été générées au même moment au TCGA de Toronto, il était donc plus judicieux de réaliser le contrôle qualité et la normalisation en même temps pour les deux études.

1 Sondes de contrôles

La puce inclut en plus des 485 577 sondes mesurant soit des niveaux de méthylation soit l’allèle d’un polymorphisme, 850 sondes de contrôles permettant d’évaluer différents critères de performances du déroulement des différentes étapes de la mesure du méthylome via la puce. Parmi les 850 sondes de contrôles, certaines évaluent la performance d’une étape précise lors du processus tandis que d’autres évaluent la performance entre les échantillons. Ces 850 sondes de contrôles sont réparties ainsi :

— 6 sondes de contrôles de coloration : permettant d’examiner l’efficacité de l’étape de coloration dans les deux canaux (rouge et vert) indépendamment de l’étape d’hybridation et d’extension. — 4 sondes de contrôles d’extension : conçues pour tester l’efficacité d’extension de nucléotides T, A, C et G, sur une sonde en épingle à cheveux. L’extension est réalisée par une polymérase qui va synthétiser le brin complémentaire à la séquence d’ADN à la suite de la sonde. Dans ce contexte, l’extension ne se fera que d’un seul nucléotide.

— 3 sondes de contrôles d’hybridation : permettant de tester la performance globale de la puce HM450k en utilisant des cibles synthétiques à la place de l’ADN amplifié. Ces cibles synthé-tiques sont parfaitement complémentaires à la séquence de la sonde.

— 2 sondes de contrôles de suppression de cibles : conçues pour contrôler l’étape de nettoyage suivant la réaction d’extension. Les sondes sont conçues de telle sorte que l’extension ne se produise pas. Ces contrôles doivent aboutir à un signal plus faible que celui des contrôles d’hybridation, ce qui indique que les cibles ont été efficacement éliminées après l’extension. En effet, une fois l’hybridation puis l’extension réalisée, il est nécessaire de "nettoyer" les puces pour éliminer tous les éléments non fixés et ainsi mesurer la fluorescence des fluorochromes fixés.

— 12 sondes de contrôles de conversion au bisulfite I : permettant d’évaluer l’efficacité de la conversion au bisulfite de l’ADN génomique. Ces sondes interrogent un polymorphisme C/T créé par conversion au bisulfite de sodium. Si la conversion au bisulfite est réussie, les sondes "C" correspondant à la séquence convertie seront prolongées. Si la conversion a échoué, les sondes "U" correspondant à la séquence non convertie seront prolongées.

— 4 sondes de contrôles de conversion au bisulfite II : idem mais avec une conception de type Infinium II.

— 12 sondes de contrôles de spécificité I : conçues pour surveiller le potentiel d’extension non spécifique des sondes en ciblant des sites T non polymorphes.

— 3 sondes de contrôles de spécificité II : idem mais avec une conception de type Infinium II. — 614 sondes de contrôles négatifs : conçues pour ne pas avoir de séquence complémentaire parmi

les fragments d’ADN et par conséquent ne pouvant pas s’hybrider. En l’absence d’hybridation, aucun fluorochrome ne peut se fixer et l’intensité détectée pour ces sondes devrait donc être nulle. On détecte toutefois un signal pour ces sondes, ce qui permet d’estimer le bruit de fond (voir le chapitre détaillant le biais du bruit de fond, p. 46).

— 4 sondes de contrôles non polymorphiques : permettant de tester la performance globale de l’analyse, de l’amplification de la détection, en interrogeant une base particulière dans une zone non polymorphe du génome. Ces sondes permettent de comparer les performances de la puce entre différents échantillons.

— 32 sondes de contrôles de normalisation Adénine : conçues pour cibler la même région dans les gènes de ménage et ne comprennent pas de sites CpG. L’extension se fait par l’ajout d’une adénine.

— 61 sondes de contrôles de normalisation Cytosine : idem mais avec l’ajout d’une cytosine. — 32 sondes de contrôles de normalisation Guanine : idem mais avec l’ajout d’une guanine. — 61 sondes de contrôles de normalisation Thymine : idem mais avec l’ajout d’une thymine. Il est nécessaire de contrôler les intensités obtenues par toutes ces sondes pour vérifier les per-formances des différentes étapes et ainsi pouvoir exclure les échantillons pour lesquels il y a eu des défaillances lors du processus. Par exemple sur la figure 3.1 qui représente les diagrammes en boîte des intensités obtenues par les sondes de contrôles de conversion au bisulfite I pour les 588 échan-tillons mesurés, on peut observer que les intensités des sondes "U" correspondant à la séquence non convertie sont faibles, ce qui indique que les séquences ont bien été converties. Cela est confirmé par les intensités des sondes "C" correspondant à la séquence convertie qui ont des valeurs plus fortes et donc que l’étape de conversion a bien été réalisée.

Figure 3.1 – Diagrammes en boîte des intensités obtenues par les 12 sondes de contrôles de conversion au bisulfite I pour les 588 échantillons mesurés. Dans le vert à gauche et dans le rouge à droite.

Un autre exemple avec la figure 3.2 qui représente les diagrammes en boîte des intensités obtenues par les sondes de contrôles d’extension pour les 588 échantillons mesurés. On peut y voir que les in-tensités des extensions via une adénine ou une thymine sont fortes dans la fluorescence rouge et qu’il n’y a pas de fluorescence verte alors que nous avons l’inverse pour les extensions via des cytosines ou des guanines. Ce graphique montre que les extensions ont bien été réalisées et on peut observer égale-ment que les intensités obtenues par les deux fluorochromes ne sont pas équivalentes, le fluorochrome vert (Cy3) a une intensité moyenne comprise entre 10000 et 15000 alors qu’elle est comprise entre 30000 et 40000 pour le fluorochrome rouge (Cy5). Cela est dû à des propriétés physico-chimiques différentes entre les deux fluorochromes qui conduisent à des efficacités d’hybridation différentes et à l’introduction d’un biais décrit à la page 50.

Figure 3.2 – Diagrammes en boîte des intensités obtenues par les sondes de contrôles d’extension pour les 588 échantillons mesurés.

En ce qui concerne les sondes de contrôles négatifs qui permettent d’estimer le bruit de fond, leur fonctionnement et leur intérêt sont expliqués à la page 46. Les sondes de contrôles négatifs étant peu nombreuses par rapport aux sondes mesurant les niveaux de méthylation, on ne distingue pas correctement leurs fonctions de densité sur le graphique de la figure 2.3. Pour mieux représenter leurs fonctions de densité, un zoom a été réalisé sur ces sondes (figure 3.3). Cette figure nous montre que l’intensité de la fluorescence émise dans le rouge (Cy5) est plus importante que l’intensité de la fluorescence émise dans le vert (Cy3).

Figure 3.3 – Fonction de densité des intensités des sondes de contrôles négatifs obtenue à partir des 588 échantillons analysés. En vert, la fonction de densité des intensités des contrôles négatifs émises dans le vert (Cy3) et en jaune, la fonction de densité des intensités des contrôles négatifs émises dans le rouge (Cy5).

2 Valeur p de détection

À chaque valeur β est associée une valeur p de détection (detection p-value en anglais). Elle reflète la force de l’intensité du signal d’hybridation de l’ADN par rapport à l’intensité du bruit de fond, c’est-à-dire la puissance de l’intensité des sondes de mesures par rapport à la puissance de l’intensité des sondes de contrôles négatives. Elle peut être utilisée pour mesurer objectivement la performance globale de la sonde. Une valeur p non significative est généralement la conséquence d’une mauvaise conception de la sonde, d’une mauvaise hybridation ou d’une anomalie chromosomique dans l’ADN étudié (ex : mutations ou indels) sur l’emplacement correspondant à la sonde. Illumina conseille d’exclure les sondes ayant une valeur p de détection supérieure à 0,05 pour plus de 5% des échantillons mesurés.

À ce jour, deux méthodes sont communément utilisées pour calculer la valeur p de détection. La première méthode utilisée par Illumina dans le logiciel GenomeStudio ainsi que par le package "methylumi" utilise la fonction de répartition empirique. La seconde méthode est utilisée quant à elle dans le package "minfi". L’efficacité d’une sonde étant dépendante de l’échantillon, la valeur p de détection est à calculer pour chaque site CpG et pour chaque échantillon indépendamment.

Documents relatifs