• Aucun résultat trouvé

Figure 4.B.4.1 : paysage complexe d’ETs simulé pour 3 populations homogènes.

Les points d’insertions des ETs sur le châssis sont représentés sur la frise du bas par des rectangles en pointillés (10 points d’insertion au total). Les valeurs données au-dessus de chaque locus correspondent à la position de ces loci d’insertion sur le châssis vide. Les 3 frises supérieurs représentent le paysage d’ETs dans le génome de chaque population (A, B, et C). Chaque ET est représenté par une flèche de couleur, le sens de la flèche indiquant le sens d’insertion. La nature des ETs, ainsi que leur taille sont décrites en légende. Les valeurs en dessous de chaque frise correspondent aux positions de début et de fin de chaque ET sur le génome de la population en question. Chaque population (A, B, et C) est homogène, i.e. 100% des individus à l’intérieur d’une population présentent strictement le même paysage d’ET.

Dans cette première série de simulation, j’ai souhaité tester la capacité des deux outils sélectionnés à identifier des insertions et délétions d’ETs dans le cadre d’un paysage complexe d’ETs présentant une diversité importante tant par le type d’ETs rencontrés que par leurs tailles (voir Figure 4.B.4.1). Nous nous concentrerons ici sur la capacité des deux outils à correctement détecter la présence/absence des différents ETs dans les populations et à la précision de l’estimation de leurs positions.

98 PopoolationTE calcule la fréquence de présence d’un ET dans une population, c’est-à-dire le pourcentage de la population pour lequel l’ET est présent à cette position. Pour chaque locus détecté, toutes les populations ont une valeur de fréquence associée. Les notions de néo-insertion ou de délétions nécessitent donc de choisir une population qui servira de référentiel. J’ai choisi d’utiliser la population A comme référentiel. Les populations simulées ici (A, B et C) étant homogènes, l’ensemble des individus d’une population donnée partagent donc strictement le même paysage d’ETs. Ainsi, la fréquence d’un ET donné devrait donc être de 100 % s’il est présent dans la population et de 0 % s’il est absent. Dans les faits, les fréquences estimées dans cette analyse sont toutes > 88% ou < 0.05%. J’ai donc utilisé ces valeurs comme seuil haut et bas afin de binariser les fréquences en « présence » et « absence ». Par ailleurs cette première analyse m’a montré que seul les loci dont des signatures d’insertion étaient détectés aux deux extrémités de l’ET (i.e. signatures « FR ») devaient être prises en compte, les détections présentant uniquement une signature gauche ou droite correspondent très majoritairement à du bruit de fond.

99

Tableau 4.B.4.1 : nature et position des ETs détectés dans des population homogènes par PopoolationTE2 (paysage d’ET « complexe »)

Chaque sous-tableau renferme les résultats de détection pour une population donnée (A, B et C). Les paysages d’ETs (nature et position des ETs) de chaque population sont détaillés en Figure 4.B.4.1.

PopoolationTE2 calcule la position d’un ET par rapport au génome de référence, qui ici est celui de la population A. Lorsqu’un locus d’ET est décrit dans le génome de référence, la position donnée (attendue et observée) correspond au point central de la copie sur le génome (e.g (position de fin + position de début) /2), qu’il s’agisse de la population de référence ou bien d’une autre population. Lorsqu’un ET n’est pas présent dans le génome de référence, la position de cette copie correspond à la position du point d’insertion (frise du bas) à laquelle on ajoute la somme des longueurs des copies d’ETs présentes en amont sur le génome de référence.

Les tirets dans les colonnes « attendu » indiquent qu’aucun ET n’est présent à cette position pour cette population. Les tirets dans les colonnes « observé » indiquent que la fréquence calculée à cette position pour cette population a conduit à le considérer l’ET comme absent (absent si fréquence < 0.05%).

Les distances calculées (colonne distance) correspondent a la valeur absolue de la différence entre la position attendue et la position observée.

Les ET nommés Gypsy7[Jockey2] indiquent qu’un élément Jockey2 est imbriqué dans un élément Gypsy7 (« nested TE »).

popA

ET position

locus attendu observé attendue observée distance (pb)

1 Helitron1 Helitron1 7488 7488 0 2 Invader6 Invader6 84049 84050 1 3 - - - - - 4 - - - - - 5 Gypsy7[Jockey2] Gypsy7 275776 275778 2 6 - - - - - 7 Mariner2 Mariner2 378902 378898 4 8 - - - - - 9 Tirant Tirant 478715 478693 22 10 - - - - -

100 popB

ET position

locus attendu observé attendue observée distance (pb)

1 Helitron1 Helitron1 7488 7488 0 2 Invader6 Invader6 84049 84050 1 3 Dme9736 Dme9736 162291 162297 6 4 - - - - - 5 Gypsy7[Jockey2] Gypsy7 275776 275778 2 6 Qbert Qbert 343821 343817 5 7 Mariner2 Mariner2 378902 378898 4 8 Helitron1 Helitron1 412896 412909 13 9 - - - - - 10 Gypsy7[Jockey2] Gypsy7 503194 503185 9 popC ET position

locus attendu observé attendue observée distance (pb)

1 Helitron1 Helitron1 7488 7488 0 2 - - - - - 3 Dme9736 Dme9736 162291 162297 6 4 Invader6 Invader6 204990 204971 19 5 Gypsy7 Gypsy7 275776 275778 2 6 - - - - - 7 Mariner2 Mariner2 378902 378898 4 8 - - - - - 9 - - - - - 10 Jockey2 Jockey2 503194 503196 2

101 Comme détaillé dans le Tableau 1, l’ensemble des insertions par rapport au génome de référence ont correctement été détectées, même pour les ETs n’étant pas présents dans le génome de référence (population A), c’est-à-dire Dme9736 (locus 3, populations B et C) et Qbert (locus 6, population B). De même, l’ensemble des délétions par rapport au génome de référence ont correctement été détectées (loci 2 et 9). Seuls les ETs « imbriqués » (Jockey2 imbriqué dans Gypsy7) n’ont pas correctement été prédits puisque seul Gypsy7 est détecté ; et ce que l’ET imbriqué soit présent dans le génome de référence (locus5) ou non (locus 10). Ce résultat est néanmoins attendu car ce comportement est décrit dans la documentation de l’outil. On notera que les ETs « simples » présents à ces loci ont quant à eux correctement été détectés (Gypsy7, locus 5, population C ; Jockey2, locus 10, population C). L’inversion du sens d’insertion de Mariner2 dans la population B au locus 7 par rapport aux autres populations n’a pas posé de problème quant à sa détection. Pour cette simulation, popoolationTE2 présente donc une efficacité de 90 % (27/30 ET correctement détectés) si l’on considère la détection de Gypsy7 au lieu de Gypsy7[jockey2] comme un faux négatif ou une efficacité de 100% le cas contraire.

En ce qui concerne la précision de détection des éléments j’ai pu calculer que pour cette simulation, popoolationTE2 présente une variabilité moyenne de 5.37 pb (+/- 1.44 pb) entre les positions détectées et les positions attendues. Ce résultat est en accord avec les valeurs données dans la documentation de l’outil (~10 pb).

A l’inverse de popoolationTE2, TEPID prend comme référentiel absolu le génome de référence, par rapport auquel sont détectés les insertions ou délétions d’ET dans une population donnée. Ainsi, seules les variations concernant des ETs présents dans le génome de référence pourront être détectées dans les autres populations (B et C). La délétion de Tirant est correctement détectée pour les populations B et C au locus 9. De même, la délétion d’Invader6 pour la population C au locus 6 ainsi que la délétion de Jockey2 au locus 5 pour la population C sont correctement détectées. En revanche TEPID prédit que Mariner2 est absent de la population B au locus 7, ce qui correspond à un faux négatif. En ce qui concerne les insertions, seule l’insertion d’Helitron1 au locus 8 dans la population B est détectée. Ceci est dû au fait que les éléments Dme9736 (locus 3) et Qbert (locus6) ne sont pas présents dans le génome de référence. Néanmoins, même dans le cas où l’ET est bien présent dans le génome de référence, il arrive que son insertion dans une autre population à un autre locus ne soit pas détectée. C’est par exemple le cas d’invader6 au locus 4 qui n’est pas détecté dans la population C alors que cet ET est présent au locus 2 dans le génome de référence.

102 En ce qui concerne l’estimation des positions, seule l’insertion d’Helitron1 au locus 8 dans la population B peut être jugée puisque les délétions détectées concernent des positions décrites dans l’annotation de référence. Au locus 8, Helitron1 est prédit pour être inséré entre les positions 412824 et 412969 par rapport au génome de référence. Ainsi, si la position d’insertion observée correspond bien à celle attendue (point central d’insertion attendu : 412896 ; point central d’insertion prédit : 412897), la taille de l’élément inséré est quant à elle très différente de l’attendu (observé : 145 pb ; attendu : 564 pb).

L’efficacité de détection de TEPID est inférieure à celle de popoolationTE2. J’ai décidé de concentrer les prochains tests sur l’analyse des limitations de popoolationTE2.

103

PopoolationTE2 détecte efficacement les polymorphismes même en cas de paysage très faible