• Aucun résultat trouvé

Corrélations entre partition topologique et partition épigénomique . 58

3.3 Corrélations entre compartimentation 3D et compartimentation 1D

3.3.1 Corrélations entre partition topologique et partition épigénomique . 58

Sur la figure 3.2.1, on a pu voir « à l’oeil » que la position des domaines topologiques semble être corrélée à la position des domaines épigénomiques. Ici, on présente pour la drosophile le taux de vrai positif, TPR, en fonction du taux de fausse découverte, FDR, entre partition épigénomique et partition topologique donnée par IC-Finder. On réalise cette étude avec

3.3. Corrélations entre compartimentation 3D et compartimentation 1D

les trois partitions épigénomiques présentées ci-dessus [Ho et al., 2014; Filion et al., 2010;

Kharchenko et al., 2011] et avec les données Hi-C de Sexton et al.

Les points (FDRb, TPRb) de la figure3.3.1(astérisques) nous apprennent qu’à plus ou moins 10kb d’une frontière de TAD, il y a presque systématiquement une frontière épigénomique (car TPRbproche de 1). Par contre, le fait que FDRbsoit d’environ 0.55, nous apprend qu’en l’absence de frontière de TAD, il arrive assez fréquemment que des frontières épigénomiques soient présentes. Pour vérifier que ces deux observations ne soient pas uniquement dues au fait que les domaines épigénomiques sont en moyenne bien plus petits que les domaines topologiques (respectivement 12kb contre 75kb), on calcule les mêmes couples (FDRb, TPRb) mais en mélangeant aléatoirement l’ordre de la séquence topologique (croix sur la figure3.3.1). On peut voir que les résultats (croix et astérisques) sont assez proches mais avec toujours une meilleure corrélation dans le cas où la séquence topologique n’est pas mélangée. Pour s’assurer que cette observation ne soit pas un cas particulier, on a calculé des couples (FDRb, TPRb) pour 1000 partitions topologiques identiques à celle obtenue avec IC-Finder mais dont l’ordre a été mélangé de manière aléatoire. Quand on compare ces couples, au « vrai » couple (FDRb, TPRb), on trouve pour les deux paramètres des p-valeurs inférieures à 10−8. Ceci nous apprend donc qu’il existe une corrélation entre partition épigénomique et partition topologique qui n’est pas imputable aux tailles de domaines formant les partitions. Sur la figure 3.3.1, l’étude des couples (FDRd, TPRd) mènent exactement à la même conclusion mais vue sous un angle différent : deux loci appartenant au même domaine épigénomique appartiennent aussi, la plupart du temps, au même domaine topologique (FDR autour de 0.2), par contre, souvent, deux loci appartenant au même domaine topologique n’appartiennent pas au même domaine épigénomique (TPR autour de 0.3) ce qui est dû à cette différence de taille moyenne entre domaines topologiques et domaines épigénomiques.

3.3.2 Contacts préférentiels entre loci de même état épigénomique

L’observation des cartes Hi-C révèlent la présence de TADs et de compartiments d’interac-tion à longue portée, suggérant que les monomères de même état épigénomique interagissent entre eux préférentiellement (cf. par exemple sur la figure3.2.1interactions entre deux TADs polycomb respectivement à 12.3Mb et 12.7Mb). Afin de quantifier ce phénomène, on s’inté-resse au nombre de contacts réalisés par les bins i composé d’une proportion Sµ

i de l’état épigénomique µ et qui interagissent avec des bins j composé d’une proportion Sν

j de l’état ν et situé à une distance épigénomique s. En sommant sur tout les bins i et j on obtient le nombre Nµν(s) :

0 0.2 0.4 0.6 0.8 1

FDR

0 0.2 0.4 0.6 0.8 1

TPR

1 2 3 1 2 3

Figure3.3.1 – Taux de vrai positif, TPR, en fonction du taux de fausse découverte, FDR, entre la partition épigénomique I et la partition topologique donnée par IC-Finder (I = 1, 2, et 3 [resp. Ho et al., 2014; Filion et al., 2010; Kharchenko

et al., 2011]). Les carrés et les diamants sur la figure indiquent les valeurs (FDRd, TPRd)

respectivement dans le cas exact et dans le cas où l’ordre des domaines dans la partition topologique est inversé. De la même manière, les astérisques et les croix correspondent aux couples (FDRb, TPRb) respectivement dans le cas exact et dans le cas où l’ordre des domaines dans la partition topologique est inversé. Les résultats obtenus respectivement avec [Ho et al.,

2014; Filion et al.,2010; Kharchenko et al., 2011] sont en bleu, rouge et jaune.

Nµν(s) = X

|i−j|=s

C (i, j) SµiSνj (3.3)

avec C les contacts Hi-C expérimentaux donnés par [Sexton et al., 2012], on considère tout les chromosomes sauf le 4 dont l’état épigénomique est majoritairement de type HP1. Pour les données épigénomiques, on considérera les 16 états définis par [Ho et al., 2014] qu’on regroupera ensuite en 4 familles. La proportion de chacun des 16 états pour le génome de la drosophile se trouve figure 3.3.2.

Sur la figure3.3.3A, on présente quatre lignes correspondant du haut vers le bas aux valeurs de

Nnul ν(s), Nactif ν(s), Nh´et´erochromatine ν(s), Npolycomb ν(s). Selon une idée de Ralf

3.3. Corrélations entre compartimentation 3D et compartimentation 1D

Figure 3.3.2 – Répartition des 16 états épigénomiques identifiés par [Ho et al.,

2014] pour l’ensemble du génome de la drosophile (à gauche) et de l’homme (à droite).

respectivement noire, rouge, verte et bleue représentent les valeurs de ν. En transparence, on voit la répartition moyenne des contacts (idem à celle de la figure 3.2.2 mais en excluant le chromosome 4 de notre étude). L’information sur la distance génomique s est représentée par les anneaux : le premier anneau (le plus proche du centre) correspond à la somme des contacts ayant lieu pour s 6 20kb, les 2ème, 3ème, 4ème et 5ème anneaux correspondent respective-ment à des valeurs de s telles que, 20 < s 6 100kb, 100 < s 6 500kb, 0.5 < s 6 5Mb et 5Mb < s. Le 6ème anneau représente les contacts inter chromosomiques. De plus, la surface de chaque anneau est proportionnelle au nombre de contact. On retrouve nos observations précédentes selon lesquelles environ 1/3 des contacts se font pour des distances génomiques inférieures à 1Mb et 1/3 des contacts sont inter-chromosomiques. Ce résultat est indépendant de l’état épigénomique local.

Ces diagrammes (à gauche) obtenus avec les données expérimentales [Sexton et al., 2012] sont à comparer aux diagrammes (à droite) réalisés en moyennant le nombre de contacts expérimental pour chaque distance génomique, c’est ce qu’on appelle le cas générique (cf. Fig. 3.1.4). Pour les modèles expérimental et générique, à très petite échelle on observe pour les bins dans l’état µ un net enrichissement en contacts avec d’autre bins d’état µ aussi, ceci est une conséquence de l’existence des domaines épigénomiques. Aux échelles plus grandes cet enrichissement est toujours présent dans le cas du modèle expérimental alors qu’il l’est moins dans le cas du modèle générique, ceci suggère qu’il existe des interactions préférentielles entre bins de même état epigénomique. On peut tout de même noter des particularités selon l’état

épigénomique, en particulier, les bins majoritairement polycomb présentent, à petite échelle (jusqu’à 0.5Mb), un enrichissement de contacts avec d’autres bins polycomb alors que pour les bins majoritairement actifs, l’enrichissement est principalement présent, à grande échelle (au delà de 0.5Mb).

Concernant, les contacts inter chromosomiques il ne semble pas y avoir de nette différence entre les modèles expérimental et générique.

En conclusion, ces diagrammes circulaires nous ont renseignés sur la composition locale au-tour d’un site génomique. On a vu qu’il y avait des interactions préférentielles entre loci de même état épigénomique ce qui fait qu’on ne peut pas considérer la chromatine comme objet homogène. Cependant, il faut noter que cet effet n’est pas très fort, il n’y a clairement pas de séparation en microphase totale. Ceci suggère que les cartes expérimentales présentent une perturbation faible par rapport à un modèle neutre (c’est-à-dire sans interactions spécifiques entre loci de même état).

On propose maintenant de calculer les facteurs d’amplification de contact entre modèle expé-rimental et modèle générique en sommant les contacts quel que soit la distance génomique s (toujours selon une idée de Ralf Everaers). Le coefficient d’amplification Aµν entre les états épigénomiques µ et ν est donné par la formule ci-dessous :

Aµν= 1 α PN−1 s=0 Nµνexp´erimental(s) PN−1 s=0 Nµνen´erique(s) (3.4) avec α = P µν PN−1 s=0 Nµνexp´erimental(s) P µν PN−1 s=0 Nµνen´erique(s)

La matrice des Aµν est présentée3.3.3B. On retrouve proche de la diagonale des coefficients positifs en échelle log10 ce qui confirme l’enrichissement des contacts. Aussi, on remarque que certains états épigénomiques présentent des motifs d’interaction similaires et qu’il semble y avoir 6 grandes familles épigénomiques : un groupe actif comprenant les promoteurs et les états de transcription, un groupe d’enhancers, un groupe actif riche en introns (états « transcription 5’ 2 » et « gene, H4K20me1 »), un groupe polycomb, un groupe nul et un groupe d’hétérochromatine. On verra dans la sous section suivante qu’à l’échelle des TADs aussi on retrouve ces mêmes familles (Fig. 3.3.5).

Au lieu de calculer la matrice Aµν pour l’ensemble du génome, nous pouvons le faire en ne considérant que les contacts entre loci à moins de 1Mb l’un de l’autre (Fig. 3.3.4). On observe que dans les deux cas, les résultats sont sensiblement identiques avec toutefois moins d’amplification des contacts entre marques actives si on ne considère pas tout le génome.

3.3. Corrélations entre compartimentation 3D et compartimentation 1D

Figure 3.3.3 – Enrichissement des contacts en fonction de l’état épigénomique dans le cas de la drosophile (chromosome 4 exclu de l’étude) [(Sexton et al., 2012;

Ho et al., 2014)]. (A) Nombre Nµν(s) (Éq. 3.3) représenté selon l’idée de Ralf Everaers

sous forme d’anneaux dans des diagrammes circulaires avec s la distance génomique entre bins en contact. Ces nombres permettent d’évaluer l’environnement 3D des bins en fonction de l’épigénome et en fonction de s. Les cinq premiers anneaux du centre vers la périphérie correspondent respectivement à des valeurs de s telles que s 6 20kb, 20 < s 6 100kb, 100 < s 6 500kb, 0.5 < s 6 5Mb et 5Mb < s. Le 6ème anneau renseigne sur les contacts inter chromosomiques. L’aire des portions est proportionnelle au nombre de contacts. La répartition moyenne des nombres de contact en fonction de l’état épigénomique, pour l’ensemble des chromosomes sauf le 4, est représentée en transparence sur chaque diagramme circulaire. (B) Matrices d’amplification (Éq. 3.4) en haut pour les 16 états épigénomiques dont les numéros sont définis sur la figure3.3.2 et en bas pour les quatre familles obtenues après regroupement de ces 16 états.

Figure 3.3.4 – Carte d’amplification des contacts dans le cas de la drosophile (chromosome 4 exclu de l’étude) [(Sexton et al., 2012; Ho et al., 2014)] et en ne considérant que les contacts entre loci espacés de moins de 1Mb en distance génomique.

3.3.3 Corrélation à l’échelle des compartiments d’interaction