• Aucun résultat trouvé

Définition 1.4. Un mot s est un suffixe d’un mot w s’il existe un mot u tel que w = us. L’ensemble des suffixes de w est noté Suff(w).

Définition 1.5. Un mot f est un facteur d’un mot w s’il existe deux mots u et v tels que w = u f v. Notons que tout préfixe d’un suffixe est par conséquent un facteur.

L’ensemble des facteurs de w est noté Fact(w).

Remarque 1. Le terme k-mer est employé pour désigner un facteur de longueur k. Exemple 1.1. Le préfixe, le suffixe et le facteur.

Soit w = ACAGT une séquence d’ADN, alors :

Pref (w) = {A, AC, ACA, ACAG, ACAGT}, Suff (w) = {T, GT, AGT, CAGT, ACAGT},

Fact(w) = {A, C, G, T, AC, CA, AG, GT, ACA, CAG, AGT, ACAG, CAGT, ACAGT}.

1.4 Mutations biologiques

Dans nos principaux résultats (chapitre3et chapitre5) nous identifions des mutations biologiques, c’est-à-dire des différences biologiques entre deux séquences d’ADN. Ces mutations sont des changements physico-chimiques de l’ADN dans les cellules. Elles sont souvent causées par des facteurs extérieurs tels que les radiations, les virus, les produits chimiques mutagènes, etc [Kryston et al.,2011], par des transposons (des morceaux d’ADN hébergés qui peuvent se déplacer dans le génome) [Goryshin et al., 2000], ou encore par des problèmes survenant lors du processus de réplication de l’ADN. Des mutations

somatiques qui se développent au sein des cellules et peuvent être à l’origine de l’appa-

rition de tumeurs [Kan et al., 2010]. Certaines mutations vont rester sans effet, d’autres vont conduire au fil des générations à une évolution des fonctions afin de répondre à de nouveaux besoins [Meyer,2008], et d’autres vont engendrer des défauts et mener à toutes sortes de maladies génétiques, neurologiques, etc [Kan et al., 2010; Kryston et al., 2011;

Lee et al.,2010;Stephens et al.,2009].

Il y a plusieurs types de mutations, elles peuvent n’affecter qu’un seul ou un petit nombre de nucléotides, comme elles peuvent provoquer des grands changements au ni- veau des gènes et des chromosomes : duplication, inversion, suppression, déplacement ou réarrangement d’un gène ou d’une portion de chromosome (FIGURE1.8).

FIGURE1.8 : Les différents type de muta- tions biologiques.

1.4.0.1 Les petites mutations

Cette catégorie rassemble les mutations qui affectent de un à quelques nucléotides, qui peuvent être des substitutions, délétions ou insertions.

Les mutations ponctuelles, SNV (Single Nucleotide Variant) . Elles sont souvent causées par des facteurs extérieurs chimiques ou l’exposition aux radiations par des problèmes lors de la réplication, la recombinaison ou la réparation de l’ADN. Leur caractéristique est tout simplement la modification d’un seul nucléotide dans la séquence [Freese,1959a]. La substitution peut être de deux natures différentes : une transition ou une transver- sion [Freese, 1959b]. La plus commune est la transition qui échange soit, deux purines

1.4. MUTATIONS BIOLOGIQUES 29

entre elles (A ↔ G), soit deux pyrimidines entre elles (C ↔ T). Les transversions sont plus rares et se manifestent par un échange entre une purine et une pyrimidine (C/T ↔ A/G). Notons que deux mutations successives d’un nucléotide peut faire revenir la séquence à l’état original.

Les SNV qui sont présents dans la partie codante des gènes peuvent avoir plusieurs effets : abolir la traduction, induire la formation d’une protéine avec une fonction atténuée, ou une protéine avec une fonction différente. Tout dépend du codon produit par le SNV. Ces derniers seront qualifiés de : i/ mutation silencieuse si le codon obtenu code pour le même acide aminé que l’ancien ; ii/ mutation faux-sens si le codon produit correspond à un autre acide aminé ; iii/ mutation non-sens si le codon produit est un codon stop. De la même manière l’expression des gènes peut être affectée par des mutations dans leurs régions régulatrices.

Remarque 2. En bioinformatique, les termes SNP (Single Nucleotid Polymorphism) et SNV (Single Nucleotid Variant) sont souvent confondus à tort. Bien qu’ils désignent tous deux la variation d’un seul nucléotide, on parle de SNP quand la mutation est conservée au sein d’une espèce dans une fraction significative de la population (polymorphisme génétique) alors que le SNV est une mutation intrinsèque à un individu, une mutation qui peut se ma- nifester à n’importe quel moment de la vie (cellulaire).

Les insertions. Elles peuvent être causées par des éléments génétiques mobiles (trans- posons, rétrovirus, etc) ou par des défauts lors de la réplication, la recombinaison ou la réparation de l’ADN. Leur caractéristique est l’insertion d’une séquence de nucléotides dans la séquence d’origine. Les insertions introduites dans des régions codantes d’un gène peuvent avoir toutes sortes de conséquences, par exemple abolir la fonction, altérer les jonctions d’épissage de l’ARNm (les sites d’épissage étant déplacés), ou encore décaler le cadre de lecture des codons. Les insertions peuvent dans certains cas être neutralisées par l’excision de l’élément transposable.

Les délétions. Leur caractéristique est la suppression d’une séquence de nucléotides dans la séquence d’origine. Comme les insertions, elles peuvent provoquer des altérations pro- fondes de la fonction des gènes. En revanche, elles sont généralement irréversibles.

Remarque 3. En bioinformatique, les insertions et les délétions sont souvent classées dans une même catégorie : les indels (de l’anglais insertions-deletions). En effet, lors d’un aligne- ment de deux séquences, une insertion dans une séquence peut aussi être vue comme une

délétion dans l’autre séquence , d’où le terme indels pour factoriser insertions-deletions. Dans certains outils de mapping, on emploiera aussi le terme gap pour désigner un indel.

1.4.0.2 Les grandes mutations

Cette catégorie rassemble les grandes mutations qui affectent de larges portions d’ADN et la structure chromosomique. Dans leurs versions extrêmes, des chrosomosomes entiers peuvent être gagnés ou perdus.

Les amplifications ou duplication de gènes. Elles mènent à l’augmentation du nombre de copies des gènes affectés.

Les grandes délétions. Leur caractéristique est une suppression d’une grande partie d’une séquence chromosomique, avec comme conséquence la perte possible d’un grand nombre de gènes.

Les réarrangements. Ce sont des mutations dont l’effet est de modifier l’ordre des sé- quences chromosomiques. Elles comprennent : i/ les translocations chromosomiques (voir section2.6.2du chapitre2) ; ii/ les inversions chromosomiques, c’est-à-dire l’inver- sion de l’orientation d’un segment chromosomique (FIGURE1.8).

En conclusion, les mutations présentes dans les séquences génomiques affectent les organismes vivants à divers degrés selon la nature et le type de mutation que ce soit dans l’altération, la perte ou l’évolution d’une fonction, avec des conséquences dans le déve- loppement des maladies, mais aussi dans la variabilité génétique entre les individus. Ces mutations sont des changements dans la séquence d’ADN de l’organisme. Tous ces chan- gements peuvent être interprétés par des méthodes bioinformatiques. C’est l’un des ob- jectifs principaux du chapitre5.

CHAPITRE

2

Émergence du haut débit dans l’étude

des transcriptomes

Dans ce chapitre nous commençons par retracer le parcours des séquenceurs haut dé- bit (SHD) et leur impact sur l’annotation des transcriptomes. Nous exposons comment leur production massive de séquences (les reads) ainsi que les erreurs qu’ils génèrent ont engendré des besoins en bioinformatique. Nous détaillons les techniques biolo- giques et les différents algorithmes informatiques existants pour le traitement des reads obtenus par SHD. Dans un deuxième temps, nous nous focalisons essentiellement sur le RNA-Seq en abordant tous les problèmes d’épissage et leurs rôles dans les organismes, avec notamment les transcrits chimères et leur influence dans les cancers.

Sommaire

2.1 Séquenceurs haut débit . . . 32

Documents relatifs