• Aucun résultat trouvé

L’estimation des fréquences de présence d’ETs par popoolationTE2 est satisfaisante bien que légèrement sous-évaluée

Dans cette simulation, j’ai cherché à évaluer l’efficacité de détection (nature et position de l’ET) de popoolationTE2 à partir d’une population hétérogène mais aussi à évaluer la précision avec laquelle cet outil estime la fréquence de présence de chaque ET, i.e. la part de la population pour laquelle un ET est détecté à une position donnée. J’ai créé la population hétérogène en combinant les données des 3 populations homogènes A, B et C de la première simulation. La population hétérogène ainsi formée est composée de 3 « individus ». Les fréquences de présence d’ETs attendues sont donc de 33%, 66% ou 100% en fonction des cas de figures. Le paysage d’ETs de cette population hétérogène est détaillé en Figure 4.B.4.3.

Figure 4.B.4.3 : paysage d’ETs d’une population hétérogène et fréquence attendues.

La population hétérogène est composée de trois « individus » présentant des paysages d’ETs différents. La fréquence d’un ET correspond à la part de la population pour laquelle l’ET est présent à cette position. Les fréquences d’ET attendues dans la population pour chaque locus sont représentées dans la sous-figure du bas. Les fréquences sont données sous forme de pourcentage. Dans cette population hétérogène simpliste, les fréquences d’ETs attendues sont 33%, 66% ou 100% en fonction des cas de figures.

107 Les ETs sont correctement détectés pour l’ensemble des loci à l’exception des loci 5 et 10 (voir Tableau 4.B.4.3). Au locus 5, seul Gypsy7 est détecté au lieu de l’ET Gypsy7[jockey2] qui devrait être présent pour 2/3 de la population. Au locus 10, ici encore seul Gypsy 7 est détecté au lieu de la construction Gypsy7[jockey2]. Jockey2 seul est quant à lui correctement détecté. En ce qui concerne la précision de détection des éléments, on observe une variabilité moyenne de 7.45 pb (+/- 2.25 pb) entre les positions détectées et les positions attendues. On notera que cette variabilité, bien que restreinte et toujours dans les valeurs attendues, est plus importante que pour les deux analyses précédentes.

Tableau 4.B.4.3 : détection et estimation de fréquence d’ETs au sein d’une population hétérogène

Le paysage d’ET de la population hétérogène analysé est détaillé en Figure 4.B.4.3. La fréquence d’un ET correspond à la part de la population pour laquelle l’ET est présent à cette position. Les valeurs de fréquences sont données sous forme de pourcentage de la population. Les différences de fréquences (colonne « différence »), exprimées sous forme de pourcentage, correspondent à la valeur absolue de la différence entre la fréquence attendue et la fréquence observée pour un ET à un locus donné.

ET position fréquence (%)

locus attendu observé attendue observée distance

(pb) attendue observée différence

1 Helitron1 Helitron1 7488 7488 0 100,0 93,5 6,5 2 Invader6 Invader6 84049 84050 1 66,6 61,7 4,9 3 Dme9736 Dme9736 162291 162297 6 66,6 58,5 8,1 4 Invader6 Invader6 204990 204971 19 33,3 28,5 4,8 5 Gypsy7 [Jockey2] Gypsy7 275776 275778 2 100,0 93,7 27,1 Gypsy7 - 275776 - - 0,666 - - 6 Qbert Qbert 343821 343817 4 33,3 28,3 5,0 7 Mariner2 Mariner2 378902 378898 4 1 93,7 6,3 8 Helitron1 Helitron1 412896 412909 13 33,3 28,5 4,8 9 Tirant Tirant 478715 478693 22 33,3 31,7 1,6 10 Gypsy7 [Jockey2] Gypsy7 503194 503185 9 33,3 29,5 3,8 Jockey2 Jockey2 503194 503196 2 66,66 27,6 39,1

108 L’estimation des fréquences est cohérente avec celles attendues pour l’ensemble des loci à l’exception des loci 5 et 10. Au locus 5, la construction Gypsy7[jockey2] n’est pas détectée. En revanche Gypsy7 seul est détecté avec une fréquence de 93.7%. Au locus 10, seul Gypsy7 est détecté pour la construction Gypsy7[jockey2]. La fréquence prédite de Gypsy7 (29.5%) a cette position est cohérente avec celle attendue (33%). Jockey2 est uniquement détecté dans sa forme « simple » (27.6% ~1/3) alors que sa fréquence devrait être de 66% s’il avait été détecté dans la construction Gypsy7[jockey2]. Ainsi, dans le cas où un ET est inséré à l’intérieur d’un autre, seul l’ET « englobant » est correctement détecté et sa fréquence est correctement estimée. On notera néanmoins que de manière générale, les valeurs de fréquences prédites sont toujours sous-évaluées par rapport à celles attendues : 28-31% observé contre 33% attendu, 58-61% observé vs 66 % attendu et ~93% observé vs. 100% attendu. En moyenne, la valeur absolue de la variation de fréquence entre les valeurs attendues et observées est de 8,28% (+/- 3,11 %).

Les capacités de détection d’ET (nature, position) et d’estimation de leur fréquence par popoolationTE2 au sein d’une population hétérogène sont donc satisfaisantes bien que les fréquences estimées aient tendance à être légèrement sous évaluées.

109

5 - Discussion

Dans cette analyse, j’ai comparé deux outils de détection de polymorphismes à partir de données que j’avais préalablement simulées. Bien que ces données soient simplistes, elles m’ont permis de tester une variété importante de cas de figures possibles pouvant ensuite être rencontrés sur les données réelles. Par ailleurs, ces analyses m’ont permis de prendre en main ces outils et d’en saisir les spécificités d’utilisation. J’en ai par exemple retenu que seules les détections présentant des signatures d’insertion « FR » devaient être conservées dans les analyses réalisées avec popoolationTE2, les autres détections étant assimilables à du bruit de fond. L’ensemble des analyses réalisées m’ont finalement permis de déterminer que la solution la plus adaptée à mes analyses futures parmi les deux testées était popoolationTE2.

Dans les différentes simulations présentées ici, popoolationTE2 a démontré une très bonne efficacité de détection (la bonne copie d’ET détectée à la bonne position) et ce même dans des cas complexes comme lorsque i) deux ETs différents sont présents à la même position pour deux populations différentes, ii) plusieurs copies strictement identiques sont présentes dans une région génomique restreinte, ou encore iii) l’ET n’est pas décrit dans le génome de référence. Ce dernier point constitue un des avantages majeurs de popoolationTE2 par rapport à TEPID. En effet, l’analyse réalisée par TEPID est uniquement basée sur l’étude des ET décrits dans le génome de référence et son annotation en ET. La complétude de cette analyse est donc proportionnelle à cette de l’annotation de référence des ETs puisque seules les copies d’ETs décrites dans cette annotation seront analysées. A l’inverse, popoolationTE2 donne l’opportunité de fournir les séquences consensus des ETs (ou d’autres séquences) en plus des séquences des copies de ces ETs. Grâce à cela, il est possible de détecter des ETs non décrits dans le génome de référence (si leur séquence est fournie) ou encore de détecter des copies plus divergentes et donc même de compléter l’annotation de référence. Empiriquement, j’ai conclu que l’ajout de la librairie de séquences consensus en plus des séquences des copies d’ET décrites dans le fichier d’annotation améliore la qualité de la détection.

PopoolationTE2 présente aussi une précision d’estimation très satisfaisante de la position des sites polymorphes puisque dans chacune des simulations présentées j’ai pu observer une variabilité inférieure à 10 pb entre les positions détectées et les positions réelles des ETs. J’ai néanmoins pu noter que dans le cas d’une grande concentration d’ETs (proximité importante), on pouvait observer une diminution drastique de la précision d’estimation de la position des sites polymorphes mais aussi de la qualité de détection des ETs (données non présentées). Ce phénomène est très probablement dû à

110 l’algorithme de popoolationTE2 qui repose sur l’analyse de la couverture d’insert de reads discordants et nécessite donc une certaine distance entre les ETs. PopoolationTE2 ne semble donc pas être adapté à l’analyse de paysage d’ETs trop denses. Empiriquement, j’ai pu noter qu’une distance minimale de ~700 pb était nécessaire pour que 2 ETs puissent être correctement discriminés (positions et natures des ETs ainsi que fréquence dans la population) avec le paramétrage décrit en méthodes. Ce point mériterait de réaliser des analyses complémentaires.

Outre son efficacité de détection accrue par rapport à TEPID, popoolationTE2 présente l’avantage d’estimer la fréquence de présence des ETs dans chaque population et ce pour l’ensemble des sites polymorphes. Cette information supplémentaire est particulièrement intéressante puisqu’il est alors possible de comparer la fréquence d’un ET entre populations mais aussi d’avoir une idée de la variabilité du contenu en ET au sein d'une population. En contrepartie, si l’on souhaite effectuer une analyse binaire (e.g. détection d’insertion/délétions d’ETs), il est nécessaire i) de définir des seuils de fréquences à partir desquels on considère l’ET comme présent ou absent pour une population et une position donnée et ii) de choisir quelle population utiliser comme référentiel.

PopoolationTE2 est donc capable d’évaluer précisément la position d’un polymorphisme et la nature du / des ETs impliqué(s) ainsi que la fréquence de présence associée(s) dans les populations étudiées. Cet outil est adapté à l’étude des polymorphismes d’ETs au sein des espèces du genre

113

V – Charge et composition en ETs au sein du genre

Meloidogyne