• Aucun résultat trouvé

CytoSNP 50.17 1 Loss 16 p12.2 21208498 21647732 439 H N/A CGX-12 50.17 Loss 16 p12.2 21479157 21647056 168 U Benign

5 S YNTHÈSE ET CONCLUSION

5.3 Limites et améliorations

5.4.3 Séquençage à très haut débit

Les CNVs ont d’abord été identifiés grâce aux techniques de cytogénétique moléculaire (sections 1.4 et 3.2). Toutefois, le séquençage à très haut débit (dit « de nouvelle génération »), d’abord mis au point et utilisé en biologie moléculaire pour détecter les SNPs et les mutations ponctuelles, peut également être utilisé pour détecter les variations de structure. S’il était auparavant impensable d’utiliser le séquençage de manière pangénomique en contexte clinique, la réduction du coût d’analyse permet maintenant d’envisager cette approche chez les patients pour qui un diagnostic n’a pu être obtenu avec les méthodes standards d’analyse génétique. Cette technologie pourrait donc éventuellement remplacer le caryotype moléculaire — tant l’aCGH que les micropuces SNP — et le caryotype conventionnel. Elle permettrait, en théorie, de combiner la détection des remaniements chromosomiques déséquilibrés et équilibrés, à celle des pertes d’hétérozygotie, de la disomie uniparentale, et des mutations ponctuelles, tout en fournissant la plus haute résolution possible, soit une paire de bases. Cependant, bien que différentes approches soit actuellement utilisées pour identifier les remaniements chromosomiques par séquençage, aucune d’entre elles ne permet de détecter tous les types de remaniements avec exactitude 131.

La plupart des approches reposent sur un (ou une combinaison de plusieurs) des quatre principes suivants (Figure 5-1): la profondeur de lecture (de l’anglais read depth), les paires de lectures (de l’anglais read pair, mate-paired, ou paired end), les lectures fractionnées (de l’anglais split reads) et l’assemblage de séquences (de l’anglais sequence assembly). Suite au séquençage, deux étapes sont généralement nécessaires pour appliquer chacun de ces principes d’analyse : 1) l’alignement à un génome de référence; 2) l’identification de patrons/signatures discordants indiquant la présence d’un CNV.

Brièvement, la profondeur de lecture consiste à déterminer la couverture de séquençage obtenue pour chaque région génomique, pour ensuite identifier les régions ayant une couverture plus élevée (indiquant une duplication) ou plus basse (indiquant une délétion) que

175

le génome de référence (Figure 5-1 B). Cette méthode est toutefois sujette à deux importants biais : le pourcentage de GC, qui varie d’une région génomique à l’autre, et la présence de séquences répétées réparties à travers le génome 132. Le nombre de lectures effectuées étant dépendant de la proportion de GC, il y aura des variations indépendantes du nombre de copies dans la couverture de séquençage, ce qui peut fausser les résultats. Également, l’alignement des lectures à de multiples positions sur le génome de référence peut rendre difficile l’analyse des régions couvrant des séquences répétées. Certains algorithmes excluent donc ces régions de l’analyse pour la restreindre aux séquences uniques, ce qui réduit l’application de cette technique.

Pour la méthode utilisant les paires de lectures, l’ADN est fragmenté au hasard et les fragments sont ensuite sélectionnés en fonction de la taille (Figure 5-1 A) 131. Les deux bouts (paire de lectures) de chaque fragment — d’une taille connue — sont séquencés puis alignés sur un génome de référence. Une discordance avec la distance attendue entre les paires de lectures indique la présence d’un CNV à l’intérieur de la paire. Une distance plus courte qu’attendue indique une duplication ou une insertion, alors qu’une distance plus longue indique une délétion. Puisque le sens des lectures est également disponible, cette méthode permet l’identification de remaniements équilibrés, de même que la localisation et l’orientation des duplications, en plus de détecter les remaniements déséquilibrés. La précision du nombre de copies est excellente avec cette méthode. Par contre, la résolution obtenue n’est pas toujours très élevée, et la détection des remaniements impliquant les régions riches en séquences répétées est difficile 131.

Le principe des lectures fractionnées est similaire à celui des paires de lectures, excepté que tout le génome est séquencé puis aligné sur un génome de référence 131,132 (Figure 5-1 C). C’est l’alignement d’une lecture à plus d’un endroit dans le génome qui indique que cette séquence contient le point de cassure du remaniement, séparant la lecture en deux segments ou plus (d’où l’appellation split read). Cette méthode ne peut donc être utilisée que pour détecter les remaniements impliquant des séquences uniques. Une autre limitation associée à cette méthode est la capacité informatique nécessaire pour analyser l’énorme volume de données généré 132. Une alternative consiste donc à combiner cette méthode avec celle des lectures pairées pour diminuer la quantité de données à traiter 133.

176

La dernière méthode repose sur l’assemblage de novo de séquences chevauchantes pour reconstituer le génome en entier, qui est ensuite comparé avec un génome de référence pour identifier les CNVs (Figure 5-1 D) 131,132. Dans les faits, il n’est pas encore possible de réaliser l’assemblage strictement par chevauchement, à cause des nombreuses séquences répétées 132. L’augmentation de la longueur des lectures permettra éventuellement de pallier à ce problème, mais pour l’instant, l’assemblage requiert encore l’utilisation d’un génome de référence. C’est la méthode qui présente le plus de potentiel, puisqu’elle permettra de détecter tous les types de remaniements.

177

Figure 5-1 : Principes de détection de remaniements chromosomiques par séquençage à très haut débit.

Chaque rangée représente un type de remaniement chromosomique avec les approches analytiques utilisées (A- D) pour le détecter grâce aux lectures (flèches noires et lignes rouges) effectuées par séquençage à très haut débit. Dans chaque encadré, la ligne noire du haut correspond à la séquence du génome de référence et celle du bas à la séquence du génome du patient (un rectangle saumon indique que la séquence a été obtenue par assemblage des contigs); les rectangles rouges (opaques et translucides) représentent les segments délétés, dupliqués, ou insérés; les rectangles verts représentent les segments déplacés; et les rectangles verts contenant une flèche rouge représentent des segments inversés. Les pointillés alignent les extrémités des lectures à leur position sur la séquence du patient par rapport au génome de référence, et les flèches rouges indiquent les points de cassure. A | Paires de lectures. Les délétions, duplications et inversions causent une discordance entre la distance et l’orientation des paires de lectures obtenues chez le patient par rapport à celles du génome de référence. B | Profondeur de lecture. Le nombre de lectures effectuées pour chaque séquence génomique indique le nombre de copies présentes. C | Lectures fractionnées. Un rapprochement, un éloignement et/ou un changement d’orientation des lectures dont on connaît l’espacement permettent de détecter les délétions, les duplications et les inversions. D | Assemblage de séquences. Les différences entre le génome du patient et le génome de référence indiquent directement les délétions, duplications et inversions. Adaptée de Alkan 2011 131.

B

178