• Aucun résultat trouvé

Chapitre IV : Le séquençage Haut-débit

B. Schéma expérimental

La qualité de n’importe quelles données de ChIP dépend fondamentalement de la qualité de l’anticorps utilisé. Un anticorps spécifique et sensible permettra d’obtenir un bon enrichissement par rapport au bruit de fond. Une validation rigoureuse par Western Blotting est nécessaire, et dans le cas d’anticorps ciblant des modifications d’histones très proches, la réactivité croisée doit être vérifiée, en utilisant par exemple la spectrométrie de masse avec les peptides modifiés.

Qualité de l’échantillon

Un avantage certain du ChIP-seq est la très faible quantité d’échantillon requise pour le séquençage. Pour la plateforme Illumina, 10 à 50 ng d’ADN sont recommandés, pouvant même descendre à 2 ng, tandis que le ChIP-chip requiert plus de 2 µg de matériel de départ. La quantité d’ADN et le nombre de cellules requis sont néanmoins dépendants de l’abondance de la chromatine associée au facteur ciblé, et de la qualité de l’anticorps.

Contrôle de l’expérience

Les étapes du protocole de ChIP engendrent de nombreux artefacts, comme l’étape de fragmentation de la chromatine. La sonication ou la digestion Mnase ne résultent pas en une fragmentation uniforme du génome. Les régions « ouvertes » du génome sont plus facilement fragmentées, contrairement aux régions dites fermées, créant une distribution inégale des lectures. Les régions répétées semblent également être enrichies à cause du manque de précision du nombre de copies des répétitions dans les assemblages des génomes. Il est important également de souligner que le ChIP consiste en un enrichissement, et non pas en une purification des sites liés par le facteur. Ceci est spécialement vrai dans le cas d’une seule étape d’immunoprécipitation, avec un anticorps spécifique. La majorité des fragments d’ADN immunoprécipités et donc des lectures sera du bruit de fond, tandis qu’une minorité constituera les fragments spécifiques. La distribution des lectures du bruit de fond dépendra de la taille et de la composition du génome séquencé. C’est pourquoi un pic d’une expérience de ChIP-seq doit être comparé à une même région d’une expérience contrôle, afin de déterminer sa validité. Trois types de contrôles sont communément utilisés dans les expériences de ChIP : l’input ou ADN total, avant immunoprécipitation, la « mock » IP, ou une IP réalisée sans anticorps, et enfin, une IP réalisée avec un anticorps non-spécifique (comme l’immunoglobuline G). Il n’existe aucun consensus quant au choix du contrôle le plus approprié, chacun produisant son lot d’artefact. L’input d’ADN a été utilisé dans la plupart des analyses ChIP-seq. Il permet de déterminer les zones enrichies de façon aspécifique, du fait de la fragmentation inégale, ou des variations d’amplification lors de la préparation de la librairie. Cependant, il est nécessaire de séquencer en profondeur, car les lectures se répartissant sur le génome en entier, les biais seront plus difficiles à localiser si le séquençage n’est pas suffisant. Le contrôle de type « mock IP » ne permet d’immunoprécipiter que très peu d’ADN, conduisant à des variations entre les contrôles eux-mêmes. La distribution du bruit de fond est souvent déterminée empiriquement, cependant il peut être modélisé, par exemple suivant une loi de Poisson, à partir de l’échantillon lui-même (Mikkelsen et al., 2007). Enfin, quelque soit l’approche utilisée, il faut souligner que la distribution des lectures du bruit de fond n’est pas uniforme, ni identique selon le tissu ou le type cellulaire, et dépend même de l’expérience en elle-même, et du protocole.

Profondeur de séquençage

Le succès d’une expérience de ChIP-seq dépend tout d’abord de la qualité de l’immunoprécipitation, de façon à obtenir un enrichissement suffisant par rapport au bruit de fond non- spécifique, et de la complexité de la librairie générée à partir de l’ADN immunoprécipité. Pour une expérience de ChIP-seq, l’unité de base du séquençage est une ligne de « flow-cell » ; au tout début, 4 à 6

d’obtenir plus de 30 millions de lectures. De plus, le nombre de sites occupés, la taille des régions enrichies, et la gamme d’enrichissement du ChIP affectent le nombre de lectures nécessaires. Si une protéine se liant à l’ADN présente un grand nombre de sites, ou si une modification particulière d’histone couvre une large fraction du génome, le nombre de lectures correspondant devra être grand pour couvrir chaque site de liaison, avec la même densité de lectures. Afin de déterminer si la profondeur de séquençage a été atteinte, un critère raisonnable est que l’augmentation du nombre de lectures séquencées ne change pas les résultats. En termes de nombre de sites de liaison, ce critère traduit l’existence de « point de saturation », au-delà duquel aucun site de liaison supplémentaire ne sera identifié, malgré une profondeur de séquençage supérieure. Ce point de saturation existe si un seuil d’enrichissement entre les régions et le contrôle est fixé, et si seuls les pics présentant un nombre minimal de lectures sont considérés. Si tous les pics sont considérés, même ceux avec un nombre très faible de lectures, lorsque la profondeur de séquençage est augmentée, deviendront statistiquement significatifs.

Multiplexage

Pour les petits génomes, comme celui de la levure S. cerevisiae, le nombre de lectures obtenu pour une ligne d’une « flow-cell » Illumina peut être bien supérieur au nombre de lectures nécessaires pour atteindre la couverture du génome. Le nombre de lectures continuant à augmenter au fur et à mesure que la technique s’améliore, il est maintenant possible de séquencer sur une même ligne plusieurs échantillons. Cette technique permet d’augmenter le nombre d’échantillons séquencés, tout en diminuant le coût.

Pour préparer les échantillons pour le multiplexage, une étiquette avec un identifiant unique est ajoutée à chaque librairie. Lors du séquençage, cet identifiant unique permet de distinguer la provenance de chaque séquence, et de la ré-attribuer à l’échantillon d’origine.

Paired-end

Les fragments de ChIP-seq sont généralement séquencés seulement à une extrémité (séquençage « single read»). Ils peuvent cependant être séquencés aux deux extrémités (séquençage « paired end »). Ce type de séquençage n’est habituellement pas utilisé dans le cas du ChIP-seq, il est plutôt réalisé pour détecter les variations structurelles (insertions, délétions, larges réarrangements chromosomiques) du génome. Dans le cas du ChIP-seq, il peut être utile pour cartographier les lectures dans les séquences répétées, ou si l’on recherche des interactions à distance (Fullwood et al., 2010).

C. Analyse des données