• Aucun résultat trouvé

2.6 Jonctions d’épissage

2.6.1 Les épissages classiques

Généralement, un épissage est le processus qui conduit le passage du pré-messager au messager chez les eucaryotes (élimination des séquences introniques). Le transcrit épissé est ainsi représenté par des exons et leurs jonctions. Le transcrit canonique est constitué de tous les exons du gène, les jonctions ainsi générées sont par conséquent canoniques. Ce- pendant, dans certains cas il peut y avoir des transcrits alternatifs du même gène ; le gène produit plusieurs transcrits isoformes, par combinaison des exons inclus dans l’ARNm (des transcrits qui n’ont pas toutes leurs jonctions canoniques). Des estimations montrent qu’entre 60% et 75% des gènes humains sont affectés par au moins un transcrit alternatif [Kim et al.,2004].

Cette découverte a changé, de façon irréversible, les perspectives sur les problèmes d’annotation des gènes [Black,2003]. Pour cause, les épissages alternatifs ont un rôle fon- damental dans la régulation de certains gènes chez les eucaryotes, ils sont d’ailleurs impli- qués dans de nombreuses maladies chez l’homme, notamment dans des cancers [Morrissy

et al.,2009;Nagalakshmi et al.,2008]. En effet, la protéine résultante d’un transcrit alter- natif peut être différente avec parfois même des fonctions antagonistes [Florea,2006]. Du coup, cette protéine peut cohabiter avec la protéine canonique sur la même cellule et le

2.6. JONCTIONS D’ÉPISSAGE 61

phénotype dépendra donc du taux d’expression de chacune des deux protéines [Florea,

2006].

À partir d’un gène, nous pouvons classer les transcrits alternatifs en quatre catégories. Celles-ci sont détaillées dans la figure2.4avec de (A) à (D) : exclusion/inclusion d’exon, exon alternatif en 3’, exon alternatif en 5’ et rétention d’intron. Ensuite dans les régions UTR (5’ et 3’), des variants d’épissage ((D) et (E) dans la figure2.4) sont souvent rencontrés mais ils sont complexes à identifier et à caractériser.

FIGURE2.4 : Les différents types d’épissage alternatif.

0000 0000 0000 1111 1111 1111 000 000 000 111 111 111 00 00 00 11 11 11 000 111 0 0 0 1 1 1 00000 111110011 00000000001111111111 000000 000000 000000 111111 111111 111111 00000 00000 00000 11111 11111 11111 00000 00000 00000 11111 11111 11111 00000 00000 00000 11111 11111 11111 0000 0000 1111 1111 000 000 111 111 5’ F) 3’ D) B) A) C) E)

(A) Exclusion/inclusion d’exon ; (B) Exon alternatif en 3’ ; (C) Exon alternatif en 5’ ; (D) Rétention d’intron ; (E) et (F) 5’ et 3’ variant d’UTR (Untranslated Regions). Cette illustration représente les exons par des rectangles et les introns par des traits. Les événements d’épissage alternatif (exons ou portions d’exons) sont hachurés et les jonctions simples sont par conséquent non hachurées.

Une étude récente constate que les transcrits alternatifs augmentent la diversité des gènes chez un individu ce qui explique un paradoxe sur le fait que les organismes (simples ou complexes) se ressemblent dans leur nombre de gènes [Sammeth et al.,2008]. Ils pro- posent une caractérisation automatique des différents variants d’épissage dans les tissus dans le but de comparer les différents transcrits d’un même gène. Ce travail pourrait ré- véler des molécules qui seraient responsables d’une différence de phénotype. Ainsi, en comparant des cellules saines et cancéreuses d’un même tissu, on pourrait découvrir des variants qui sont directement impliqués [Dutertre et al.,2010].

Détections des jonctions. Nous pouvons observer dans la section2.4.2.2qu’il existe deux grandes approches différentes pour localiser des reads sur un transcriptome : i/ les ap- proches bwt (Burrows-Wheeler transform) qui autorisent au mieux un gap court, ii/ les approches à base de graines qui autorisent des gaps plus longs mais nécessitent plus de ressources de calculs (par exemple, GSNAP prend ≃ 8X de temps que TopHat pour en- viron ≃ 1,5X plus de reads détectés dans des jonctions d’épissage [Garber et al., 2011]). L’approche i/ s’avère efficace lorsque le génome de référence est disponible alors que l’ap- proche ii/ est plus sensible si le transcriptome de référence est disponible [Garber et al.,

2011].

Quoi qu’il en soit, les deux approches se retrouvent limitées pour détecter les jonctions d’épissage où la plupart des gaps sont beaucoup trop grands pour être localisés. Il existe cependant quelques outils de détection de splicing. Ils se divisent en deux catégories :

Les outils qui procèdent en 2 étapes comme TopHat [Trapnell et al.,2009] et Mapsplice

[Wang et al.,2010]. Dans une première étape, les reads sont localisés en utilisant des outils

de la catégorie i/ (décrite au début du paragraphe) tels que Bowtie[Langmead et al.,2009] ou BWA[Li et Durbin,2009]. Dans une seconde étape, les reads qui ne sont pas localisés, au cours de la première étape, sont découpés en plusieurs segments. Ces segments sont eux mêmes localisés indépendamment sur le même génome. Ensuite, la région génomique qui les entoure est analysée pour les relier entre eux et ainsi créer des jonctions. Cette seconde étape est souvent très coûteuse en temps car il faut tester toutes les combinaisons pos- sibles entre les segments.

La deuxième catégorie d’outils de splicing concerne ceux qui utilisent des graines mul- tiples comme QPALMA et GSNAP [De Bona et al.,2008;Wu et Nacu,2010]. Le principe est le suivant : tout d’abord le génome est organisé dans une table de hachage avec comme identifiants les différents k-mers du génome ; ensuite, des graines de longueur k sont construites à partir des reads et du génome haché, puis elles sont étendues au maximum pour détecter précisément les parties non localisées des reads : c’est le principe du seed

and extend (cf. section2.4.2.2). Les candidats potentiels sont ensuite examinés avec une méthode plus sensible, telle que l’algorithme de Smith-Waterman pour distinguer précisé- ment la jonction lors de l’alignement des reads sur le génome.

La première catégorie d’outils de splicing est globalement moins coûteuse en ressources (mémoire et temps). En contre partie, elle est parfois moins sensible car des épissages peuvent être localisés malencontreusement lors de la première étape du processus [Garber

2.6. JONCTIONS D’ÉPISSAGE 63

Reconstruction des transcrits. Définir un catalogue précis et détaillé de tous les transcrits et de leurs isoformes est l’un des défis majeurs dans l’étude des transcriptomes. Le RNA- Seq est la première technique à grande échelle qui couvre quantitativement tous les trans- crits, même les plus rares. Pour parvenir à leur reconstruction, il faut néanmoins regrouper les différentes informations contenues dans les reads. Cette étape est un exercice difficile pour trois raisons majeures :

– les gènes possèdent en moyenne plusieurs transcrits isoformes, quel isoforme pro- duit quels reads ?

– les reads sont courts et certains gènes ne sont pas couverts sur toute leur longueur, comment restructurer le gène précisément ?

– les reads proviennent aussi bien de l’ARNm mature (avec seulement les exons) que des ARN précurseurs qui ne sont épissés que partiellement (avec des séquences in- troniques lors du phénomène de rétention d’introns [Sammeth et al.,2008]), com- ment reconstruire le transcrit mature ?

Plusieurs méthodes existent pour reconstruire les transcrits qui sont plus ou moins dépendantes du génome de référence. En d’autres termes, certaines méthodes comme GMorSE [Denoeud et al.,2008] ou Cufflinks [Trapnell et al.,2010] commencent par locali- ser les reads sur le génome et assemblent les reads qui se recouvrent ensuite. En contraste, des méthodes telles que Trans-ABySS [Robertson et al.,2010] assemblent directement les

reads sans génome de référence. Quoi qu’il en soit, tous les algorithmes ont déjà fait leurs

preuves en construisant des milliers de transcrits et transcrits alternatifs. La question est plutôt de savoir quel est celui qui répond le mieux à ce problème biologique. Si le génome de référence n’existe pas, alors la question ne se pose pas. Dans le cas inverse, les méthodes qui en dépendent (GMorSE, Cufflinks) semblent gagner en sensibilité car elles peuvent s’appuyer sur les nombreuses annotations qui sont disponibles sur les génomes. En outre, dans le cas où le génome ou transcriptome de référence est affecté par des réarrangements majeurs, comme dans les cancers [Stephens et al.,2011,2009], le choix est plus délicat et dépend surtout du but de l’analyse. D’ailleurs, dans ces cas complexes, une approche hy- bride combinant les deux types d’algorithmes est peut-être une bonne solution, que ce soit pour capturer les informations connues ou les nouvelles. Notons tout de même qu’en pra- tique les algorithmes indépendants des génomes ont besoins de ressources considérables [Garber et al.,2011].

Estimation du niveau d’expression. La quantification et la normalisation des taux d’expres- sion des transcrits sont des éléments importants pour comprendre comment les transcrits sont exprimés et évoluent sous différentes conditions cellulaires ou stades de dévelop-

pement. L’émergence des microarrays a été accompagnée par le développement de mé- thodes statistiques [Grant et al.,2005].

Bien qu’en théorie ces méthodes soient aussi applicables sur du RNA-Seq, l’utilisation de la couverture des reads pour mesurer la quantification permet de bénéficier d’infor- mations supplémentaires, par exemple la distribution de l’expression de chacun des iso- formes sur le gène [Trapnell et al.,2010].

Pour mesurer la distribution des reads sur un gène, des lois statistiques telles qu’une dis- tribution de Poisson sont utilisées [Jiang et Wong,2009]. Cependant, les distributions des

reads sont variables entre différents réplicas d’un échantillon, ainsi une distribution statis-

tique qui suit une loi normale ne prend pas en compte cette variabilité [Langmead et al.,

2010]. L’idéal serait donc d’estimer cette variabilité de façon empirique entre les réplicas, à condition d’en avoir suffisamment, ce qui est loin d’être envisageable dans la réalité. Pour pallier le problème, des approches paramétriques telles que EdgeR modélisent cette va- riabilité biologique [Robinson et al.,2010]. Une autre approche est la technique du RPKM (Reads Per KiloBase Per Million Mapped) qui consiste à dénombrer le nombre de reads qui sont sur un millier d’exons parmi un million de reads [Mortazavi et al.,2008].

Cependant, même si ces approches sont significatives pour des expressions différen- tielles de gènes, les conclusions biologiques sont à prendre avec précaution, d’autant plus que nous avons vu dans la sous-section2.2.2qu’il existait des biais protocolaires lors de la préparation du RNA-Seq.

Documents relatifs