• Aucun résultat trouvé

Chapitre 2 Haplogroupes mitochondriaux et risque de cancer du sein chez

II. Étude complémentaire 1 : comparaison des performances de deux algorithmes

II.2 Principe

Afin d’atteindre cet objectif, j’ai comparé la liste des variants détectés par séquençage Ion Torrent en utilisant l’un ou l’autre des deux algorithmes d’alignement évoqués (BWA ou TMAP) avec les résultats obtenus sur les mêmes échantillons avec la méthode de séquençage la plus fiable à l’heure actuelle, le séquençage Sanger (Figure 41).

Le génome mitochondrial de deux individus a été séquencé par séquençage Sanger au sein de l’équipe. Les analyses de ces données de séquençage Sanger ont été effectuées à l’aide du logiciel SeqScape, et une liste de variants par rapport au génome de référence a été établie pour le génome mitochondrial de ces deux individus. Les pics de fluorescence de chacun des variants détectés par SeqScape ont été vérifiés visuellement. On considère par la suite que ces variants sont réels et représentent la réalité.

Le génome de ces deux individus a d’autre part été séquencé par Ion Torrent, selon le protocole décrit précédemment. Les reads ont ensuite été alignés avec les deux algorithmes d’alignement de manière indépendante. La suite du pipeline d’analyse (réalignement local autour des insertions/délétions, appel des variants, filtrage) décrit en section I.2 .1 a été appliquée de manière strictement identique par la suite.

Figure 41 – Démarche mise en place : comparaison des résultats obtenus avec BWA et TMAP avec ceux issus du séquençage Sanger

      

  

   

II.3 Résultats

Les résultats de l’appel des variants sont présentés dans la Table 23.

Table 23 – Effectif des variants détectés selon l’algorithme d’alignement utilisé Total SNPs Insertions Délétions

Individu 1 Sanger 27 24 2 1 IonTorrent + BWA 25 24 1 0 IonTorrent + TMAP 25 24 1 0 Individu 2 Sanger 36 33 1 2 IonTorrent + BWA 34 33 1 0 IonTorrent + TMAP 32 32 0 0

Individu 1 Les variants détectés par le pipeline d’analyse utilisant BWA ou TMAP à partir des données de séquençage Ion Torrent sont strictement identiques : 24 SNPs, 1 insertion, 0 délétion. Ces 25 variants détectés par séquençage Ion Torrent figurent bien parmi les 27 variants détectés en Sanger. Ces résultats ne nous permettent pas de discriminer l’un ou l’autre des algorithmes.

Les performances du pipeline d’analyse utilisant BWA ou TMAP peuvent être qualifiées par leur sensibilité et spécificité, en prenant comme référence les résultats du séquençage Sanger. Le logiciel utilisé pour effectuer l’appel des variants, GATK-UnifiedGenotyper, construit à chaque position du génome analysé un modèle de vraisemblance. On considère donc comme vraie l’hypothèse selon laquelle l’appel d’un variant est effectué de manière indépendante de l’appel des autres variants.

En réalité, à cause de contraintes techniques, seules 14 943 positions sur les 16 569 positions constituant le génome mitochondrial ont effectivement été séquencées à la fois en Sanger et par Ion Torrent. Sur cette base, on peut alors travailler sur la table de contingence des vrais positifs (VP), faux positifs (FP), vrais négatifs (VN) et faux négatifs (FN) pour chacun des deux algorithme d’alignement utilisés.

Table 24 – Table de contingence des évènements détectés pour BWA et TMAP

Mapper VP FP VN FN

BWA 25 0 14 916 2

La sensibilité d’une méthode correspond à la probabilité de conclure à un vrai positif, c’est à dire à la probabilité de conclure qu’un variant existe sachant qu’il existe réellement. Elle se calcule de la manière suivante :

sen= V P

V P + F N

La spécificité d’une méthode correspond à la probabilité de conclure à un vrai négatif, c’est à dire la probabilité de conclure qu’un variant n’existe pas sachant qu’il n’existe effectivement pas en réalité. Elle se calcule de la manière suivante :

spe= V N

V N + F P

On obtient donc pour chacun des deux logiciels d’alignement une sensibilité de 0.962 et une spécificité de 1 (Table 25).

Table 25 – Sensibilité et spécificité de la méthode d’analyse pour l’individu 1 Algorithme Sensibilité Spécificité

BWA 0.962 1.00

TMAP 0.962 1.00

En conclusion, l’analyse des données de ce premier individu ne permet pas de conclure quant à l’algorithme d’alignement le plus approprié.

Les deux variants détectés uniquement en Sanger et manqués en Ion Torrent sont respective-ment une délétion d’une base A en position 11190 du génome mitochondrial, notée 11190delA, et une insertion d’une base G en position 15049 du génome mitochondrial, notée 15049insG. La visualisation détaillée des pics de fluorescence du séquençage Sanger et du résultat de l’aligne-ment avec BWA et TMAP sont présentées en Figures 42 et 43.

Pour le variant 15049insG, bien que sur la figure 43 un pic noir correspondant à une base G soit visible à cette position, la saturation de la fluorescence correspondant aux bases voisines C pourrait laisser penser que ce variant est un faux positif. Cependant, la visualisation des pics de fluorescence pour le variant 11190delA montre clairement un seul pic vert correspondant à la base A, alors que deux A successifs sont présents dans la séquence de référence. A contrario, la visualisation de l’alignement des reads par BWA ou TMAP ne montre aucune divergence des reads par rapport au génome de référence. Aucun élément n’explique cette différence dans les données au niveau de la position 11 190.

Figure 42 – Visualisation des pics de fluorescence obtenus par Sanger et de l’alignement des reads obtenus par séquençage Ion Torrent avec BWA et TMAP pour l’individu 1 à la

position 11190

(a) Visualisation des pics de fluorescence du séquençage Sanger

(b) Alignement des reads avec BWA et TMAP

(a) La séquence du génome de référence est représentée sur fond bleu. La position 11190 est encadrée en noir. La séquence obtenue par séquençage est celle représentée tout en haut de la figure (Summary). Les pics de fluorescence et les bases correspondantes sont représentés avec leur couleur respective. Alors que deux A sont présents dans la séquence de référence, on observe effectivement un seul pic vert correspondant à un seul A pour cet échantillon.

(b) Visualisation sous IGV (Integrative Genome Viewer) du résultat de l’alignement des reads de séquençage par BWA (panel du haut) et TMAP (panel du bas). Les bandes horizontales rouges et bleues représentent des reads alignés respectivement selon l’orientation sens et anti-sens sur le génome de référence. Seules les bases divergentes par rapport au génome de référence sont explicitement indiquées. À cette position, les reads s’alignent parfaitement sur le génome de référence, quelque soit l’algorithme d’alignement utilisé.

Figure 43 – Visualisation des pics de fluorescence obtenus par Sanger et de l’alignement des reads obtenus par séquençage Ion Torrent avec BWA et TMAP pour l’individu 1 à la

position 15 049

(a) Visualisation des pics de fluorescence du séquençage Sanger

(b) Alignement des reads avec BWA et TMAP

(a) La séquence du génome de référence est représentée sur fond bleu. La position 11 190 est encadrée en noir. La séquence obtenue par séquençage est celle représentée tout en haut de la figure (Summary). Les pics de fluorescence et les bases correspondantes sont représentés avec leur couleur respective. Bien que la fluorescence des C soit saturée à cette position, le pic G (en noir) se distingue clairement. Cependant, il est possible que ce variant soit le résultat d’un artefact de fluorescence.

(b) Visualisation sous IGV (Integrative Genome Viewer) du résultat de l’alignement des reads de séquençage par BWA (panel du haut) et TMAP (panel du bas). Les bandes horizontales rouges et bleues représentent des reads alignés respectivement selon l’orientation sens et anti-sens sur le génome de référence. Seules les bases divergentes par rapport au génome de référence sont explicitement indiquées. À cette position, les reads s’alignent parfaitement sur le génome de référence, quelque soit l’algorithme d’alignement utilisé.

Individu 2 Sur les 36 variants détectés en Sanger, 34 de ces variants ont été détectés dans les données Ion Torrent alignées avec BWA, alors que 32 l’ont été avec alignement par TMAP. Ces deux algorithmes ont respectivement détecté 33 et 32 SNPs sur les 33 détectés par Sanger. Contrairement au pipeline utilisant TMAP, celui utilisant BWA a réussi à identifier l’insertion détectée par Sanger. De la même manière que pour l’individu 1, la table de contingence des Vrais Positifs (VP), Faux Positifs (FP), Vrais Négatifs (VN) et Faux Négatifs (FN) (Table 26) nous permet de calculer la sensibilité et la spécificité de la méthode d’analyse appliquée avec chacun des deux algorithmes d’alignement (Table 27). Pour cet échantillon, seules 15 081 positions ont effectivement été séquencées à la fois par Sanger et Ion Torrent. On obtient pour les deux méthodes d’alignement une spécificité identique égale à 1 ; pour TMAP une sensibilité égale à 0.889 et pour BWA une valeur de 0.944.

Table 26 – Table de contingence des évènements détectés pour BWA et TMAP

Mapper VP FP VN FN

BWA 34 0 15045 2

TMAP 32 0 15045 4

Table 27 – Sensibilité et spécificité de la méthode d’analyse pour l’individu 2 Algorithme Sensibilité Spécificité

BWA 0.944 1.00

TMAP 0.889 1.00

Ainsi, d’après la comparaison de la performance des algorithmes d’alignement sur ce second échantillon, BWA a une meilleure sensibilité que TMAP. De plus, BWA a été capable de détecter correctement une insertion, contrairement à TMAP.

2 variants observés en Sanger n’ont pas été détectés par le pipeline utilisant BWA : une délétion d’une base a en position 1 165, notée 1165delA, et la même délétion que pour l’individu 1 notée, 11190delA. Les visualisations détaillées des profils de fluorescence et d’alignement avec BWA sont présentés dans les figures 44 et 45. Pour ces deux délétions, les profils de fluorescence sont très nets. Cependant, rien dans les données de séquençage Ion Torrent ne laisse supposer l’existence de ces deux délétions.

Figure 44 – Visualisation des pics de fluorescence obtenus par Sanger et de l’alignement des reads obtenus par séquençage Ion Torrent avec BWA pour l’individu 2 à la position 1 165

(a) Visualisation des pics de fluorescence du séquençage Sanger

(b) Alignement des reads avec BWA

(a) La séquence du génome de référence est représentée sur fond bleu. La position 1 165 est encadrée en noir. La séquence obtenue par séquençage est celle représentée tout en haut de la figure. Les pics de fluorescence et les bases correspondantes sont représentés avec leur couleur respective. Alors que trois A sont présents dans la séquence de référence, on observe effectivement deux pics verts correspondant à deux A pour cet échantillon. (b) Visualisation sous IGV (Integrative Genome Viewer) du résultat de l’alignement des reads de séquençage par BWA. Les bandes horizontales rouges et bleues représentent des reads alignés respectivement selon l’orientation sens et anti-sens sur le génome de référence. Seules les bases divergentes par rapport au génome de référence sont explicitement indiquées. À cette position, les reads s’alignent parfaitement sur le génome de référence, et aucune délétion n’est détectée.

Figure 45 – Visualisation des pics de fluorescence obtenus par Sanger et de l’alignement des reads obtenus par séquençage Ion Torrent avec BWA pour l’individu 2 à la position 11 190

(a) Visualisation des pics de fluorescence du séquençage Sanger

(b) Alignement des reads avec BWA

(a) La séquence du génome de référence est représentée sur fond bleu. La position 11 190 est encadrée en noir. La séquence obtenue par séquençage est celle représentée tout en haut de la figure (Summary). Les pics de fluorescence et les bases correspondantes sont représentés avec leur couleur respective. Alors que deux A sont présents dans la séquence de référence, on observe effectivement un seul pic vert correspondant à un seul A pour cet échantillon.

(b) Visualisation sous IGV (Integrative Genome Viewer) du résultat de l’alignement des reads de séquençage par BWA. Les bandes horizontales rouges et bleues représentent des reads alignés respectivement selon l’orientation sens et anti-sens sur le génome de référence. Seules les bases divergentes par rapport au génome de référence sont explicitement indiquées. À cette position, les reads s’alignent parfaitement sur le génome de référence, quelque soit l’algorithme d’alignement utilisé.

En conclusion, la méthode de séquençage Sanger reste la méthode de référence pour son exactitude en séquençage, bien que son rendement soit beaucoup plus faible, sans commune mesure avec celui d’Ion Torrent. Les données de séquençage Ion Torrent, quel que soit le pipeline d’analyse qui leur est appliqué, ne permettent pas encore d’atteindre le même niveau de précision pour l’appel des variants. L’analyse des données de séquençage du génome mitochondrial de l’individu 1 a fourni des résultats qui ne nous permettent pas de conclure. Cependant, d’après les résultats de l’analyse de ces même données pour l’individu 2, BWA semblerait plus sensible que TMAP (sensibilités respectivement égales à 0.94 et 0.89) pour détecter les variants du génome mitochondrial. De plus, la spécificité des deux méthodes testées a été estimée à 1 : aucun faux-positif n’a été détecté. Cette étude complémentaire justifie donc le choix de BWA comme algorithme d’alignement pour l’étude des données de séquençage mitochondrial effectuée au sein de la cohorte GENESIS. Afin de confirmer la tendance détectée ici, une étude plus importante serait nécessaire, afin de comparer les performances des deux algorithmes testés sur de larges banques de séquences.

III. Étude complémentaire 2 : Extraction des blocs