• Aucun résultat trouvé

Thèse : Objectifs et stratégie

plexité du diagramme de phase avec notamment une zone de paramètres correspondant à de la multistabilité.

Appliqué à la drosophile, à savoir en considérant en entrée la séquence 1D des domaines épigénomiques obtenue par [Filion et al.,2010], ils ont montré que ce modèle de copolymère « minimal » pouvait déjà très bien rendre compte de l’organisation 3D telle qu’elle a été mesurée par les cartes Hi-C de [Sexton et al., 2012] (Fig. 1.4.1). Les résultats indiquent par ailleurs que les données expérimentales sont compatibles avec des configurations multistables à savoir des configurations caractérisées par les domaines épigénomiques repliés en « TADs » mais avec des interactions à longue portée entre TADs de même type epigénomique, et ce de façon dynamique (cf exemple pédagogique 1.6.4).

N.B. : Je reviendrai en détail sur ce modèle de copolymère par bloc et son application à la modélisation du repliement de l’épigénome chez la drosophile au chapitre 4.

1.7 Thèse : Objectifs et stratégie

Questions et objectifs

L’objectif est de modéliser les mécanismes d’organisation spatiale de la fibre de chromatine et notamment les mécanismes conduisant au repliement des domaines épigénomiques en do-maines topologiques. A l’échelle d’un domaine génomique (par ex. les dodo-maines regroupant les clusters de genes Hox [Noordermeer et al., 2011; Bantignies and Cavalli, 2011] impliqués au cours de l’embryogenèse dans la spécification de l’axe antérieur-postérieur du corps), à l’échelle d’un ensemble de domaines voire à l’échelle d’un chromosome, on s’intéressera au couplage dynamique entre l’état épigénetique et la structure 3D : en fonction des marques épigénétiques, de la présence de protéines architecturales ou insulateurs, on caractérisera les phases de condensation et leur dynamique.

Stratégie

Afin d’apporter des éléments de réponses à ces questions, la stratégie est de mettre en place des modèles d’architecture à grande échelle de la chromatine qui, puissent, via des simulations numériques et/ou analytico-numériques, rendre compte des données expérimentales obtenues entre autre par le groupe de biologistes de G. Cavalli à Montpellier, via des expériences de Hi-C et 3C [Bantignies and Cavalli, 2011; Sexton et al., 2012] et de microscopie optique haute-résolution [Cheutin and Cavalli,2012]. Ces modèles permettront de tester certaines hy-pothèses en engageant d’autres expériences : organisation et dynamique de la chromatine dans des souches mutantes vs. souches sauvages, à différents stades du cycle cellulaire, à différents stade du développement. Par cet aller-retour constant entre expériences et théorie l’objectif sera donc de révéler certains principes génériques concernant la régulation de la structure

et de la dynamique 3D de l’épigénome au cours de la différenciation et du développement (embryogenèse, sénescence, reprogrammation...), et sa dérégulation lors de pathologies du type cancers.

Plan

L’objectif de cette thèse est de valider l’hypothèse selon laquelle l’épigénome est un acteur majeur dans le repliement 3D à partir d’une analyse statistique et à partir de prédiction réalisées avec un modèle physique de copolymère par bloc.

Dans le chapitre 2 on présentera « IC-Finder » un algorithme que nous avons développé afin de segmenter les cartes de contact en domaines d’interaction. Ensuite, dans lechapitre 3nous verrons une analyse statistique quantifiant les corrélations entre contactome et épigénome. Dans le chapitre 4, on expliquera pourquoi et comment modéliser la chromatine par un copolymère par blocs. Nous introduirons dans le chapitre 5 différentes méthodes visant à inférer les paramètres du modèle développé dans le chapitre 4 à partir de cartes de contact expérimentales. Suite à cela, nous conclurons dans le chapitre 6.

CHAPITRE 2

SEGMENTATION DU GÉNOME EN TADS,

IC-FINDER

Comme nous l’avons vu en introduction la technique du Hi-C a permis de révéler que la chromatine peut s’organiser sous forme de TADs caractérisés par des interactions spatiales essentiellement intra domaine, les domaines adjacents apparaissent ainsi isolés les uns des autres. Dans ce chapitre, on propose un outil, nommé IC-Finder permettant d’identifier la po-sitions des TADs à partir de cartes de contact. La méthode de segmentation utilisée repose sur le principe de regroupement hiérarchique que nous avons adapté afin de prendre en compte la nature polymérique de la chromatine. À partir d’un ensemble de cartes de contact de référence (obtenues in silico et expérimentalement) on comparera les résultats obtenus avec IC-Finder et avec d’autres méthodes de segmentation. On verra que IC-Finder est l’une des meilleures techniques en terme de fiabilité et en terme de temps de calcul. De plus, on présentera deux options originales proposées par IC-Finder : une description probabiliste des TADs inférés et la possibilité d’explorer l’organisation de la chromatine de façon hiérarchique, c’est-à-dire selon plusieurs échelles.

2.1 Motivations

2.1.1 Importance des TADs

L’organisation de l’ADN des cellules eucaryotes sous forme de fibre chromatinienne hétéro-gène contribue à la régulation des hétéro-gènes en contrôlant l’accessibilité des promoteurs et des séquences régulatrices à la machinerie de transcription [Allis et al., 2007]. L’organisation de la chromatine a longtemps été essentiellement étudiée localement en considérant le génome comme un objet unidimensionnel dont la structure locale est modulée par des informations épigénomiques telles que la méthylation de l’ADN, les marques sur les histones ou autres protéines se liant à la chromatine [Allis et al., 2007]. Toutefois, comme nous l’avons vu en introduction, la technique de Hi-C suggère que les chromosomes sont linéairement repliés en domaines 3D sous nucléaires, appelés TADs [Dixon et al., 2012]. Les TADs sont caractérisés par des fréquences de contact élevées à l’intérieur même des domaines et par des insulations partielles entre domaines adjacents consécutifs. Leur taille est variable, de quelque kb à des Mb et même plus dans le cas du chromosome X inactivé chez les mammifères [Deng et al.,

2015]. Il a été montré que les TADs sont principalement conservés entre tissus et entre espèces voisines [Dixon et al., 2012; Rao et al., 2014 et Dixon et al., 2015]. Les légères différences que l’on observe sont généralement associées au développement et à la différenciation cellu-laire [Dixon et al., 2015]. Le fait que les frontières des TADs soient enrichies en protéines architecturales ou insulatrices commes les cohésines ou CTCF et le fait que le contenu épi-génomique des TADs soit relativement uniforme [Rao et al.,2014; Sexton et al., 2012et Ho

et al.,2014] suggèrent que les TADs ont un rôle important dans la régulation de l’expression

des gènes. La régulation via les TADs peut par exemple se faire en favorisant des interactions promoteur/enhancer (ou amplificateur en français) [Lupiáñez et al., 2015].

De plus, les TADs eux mêmes s’organisent selon une hiérarchie de compartiments d’interac-tion de plus en plus grands, allant jusqu’aux territoires chromosomiques [Junier et al., 2015;

Fraser et al.,2015etWeinreb and Raphael,2015]. Comprendre le rôle fonctionnel d’une telle

compartimentation hiérarchique est un sujet de recherche actuel.

2.1.2 Méthodes de segmentations existantes

Différentes approches ont été développées afin de segmenter les cartes de contact. Une im-portante famille de méthodes se base sur une conversion des cartes de contact (données 2D) en un signal 1D présentant des extrema ou des variations brutales qui peuvent être associés à la présence d’une frontière de TAD [Dixon et al., 2012; Rao et al., 2014; Sexton et al.,

2.1. Motivations

celle de Dixon et al. qui consiste à calculer un indice de directionnalité (ou « DI » de l’anglais Directionality Index). Cet indice donne pour chaque locus la différence de contacts entre amont et aval. Ainsi, l’indice de directionnalité subit une variation brutale à chaque frontière de TAD. Une autre méthode 1D (TopDom) est celle de Shin et al., qui consiste à trouver les minima locaux de la fréquence de contact moyenne dans le voisinage d’un locus [Shin et al.,

2016].

D’autres approches utilisent un programme dynamique permettant de segmenter les chromo-somes en TADs de manière optimale [Rao et al.,2014;Weinreb and Raphael,2015;Filippova

et al., 2014 et Lévy-Leduc et al., 2014]. Par exemple, HiCseg développé par Levy-Leduc et

al. applique aux cartes Hi-C des techniques de segmentation 2D initialement utilisées en trai-tement de l’image. La carte Hi-C est alors segmentée en blocs diagonaux représentant les TADs [Lévy-Leduc et al., 2014].

En plus de déterminer la position des TADs, certaines méthodes renseignent sur les différents niveaux d’organisation de la chromatine [Junier et al.,2015;Fraser et al.,2015;Weinreb and

Raphael, 2015 etFilippova et al., 2014]. Par exemple, TADtree, en approchant

l’enrichisse-ment des contacts par un modèle linéaire, infère la meilleure hiérarchie des TADs et permet la détection des sous TADs imbriqués dans les plus grands [Filippova et al.,2014].

Les différentes approches de segmentation mentionnées ci-dessus ont permis de mettre en évidence certaines caractéristiques de la chromatine, comme par exemple l’enrichissement des sites CTCF à la frontière des TADs chez les mammifères [Dixon et al., 2012] ou encore la caractérisation des régions inter-TAD chez la drosophile [Ulianov et al.,2016].

Toutefois, ces approches souffrent toutes d’un ou plusieurs inconvénients : (1) le programme de segmentation n’est pas téléchargeable ; (2) l’obtention d’une bonne segmentation nécessite d’ajuster finement des paramètres parfois nombreux et/ou parfois non intuitifs pour les non initiés ; (3) l’algorithme est coûteux en terme de temps de calcul ; (4) la robustesse des pré-dictions n’est pas estimée ; (5) la méthode infère la position des TADs mais pas la hiérarchie à différentes échelles.

Dans ce chapitre, on introduit IC-Finder qui est un algorithme de segmentation des cartes de contact en compartiments d’interaction (d’où l’acronyme IC, de l’anglais « Interaction Compartments »). Cet algorithme robuste et peu coûteux en terme de temps est basé sur une approche de type regroupement hiérarchique. Il dépend de deux paramètres intuitifs qui ne nécessitent pas un réglage de la part de l’utilisateur car les valeurs par défaut ont été apprises de sorte à ce que la segmentation soit optimale pour une large variété de cartes de contact expérimentales.