• Aucun résultat trouvé

Chapitre 2 : Base de référence et caractérisation des gènes paralogues

2. Matériel et méthodes

2.2. Alignement de séquences des gènes paralogues

Les gènes paralogues étant issus d’un ancêtre commun, il est intéressant de se poser la question de la proportion de gènes qui présentent des séquences encore très proches.

44

L’identité de séquence entre deux gènes peut être obtenue à partir de l’alignement de leur séquence. Deux types d’alignements peuvent être utilisés : l’alignement local ou global. Un alignement global correspond à un alignement sur la totalité de la longueur des séquences, en permettant des substitutions, insertions et délétions, alors qu’un alignement local identifie des portions qui s’alignent au mieux entre les deux séquences. Dans le projet, les alignements sont effectués à partir des séquences cDNA des transcrits nos gènes dupliqués groupés en familles de gènes.

Concernant les alignements globaux et locaux, des méthodes de « all-against-all » consistant à aligner par paire toutes les séquences entre elles ont été appliquées par famille de gènes. Une fois ces alignements effectués, nous avons supprimé ceux entre transcrits d’un même gène.

Pour les deux types d’alignements, seuls les cas où le pourcentage d’identité est supérieur à 75% sont sélectionnés car nous recherchons la proportion des paires de gènes ayant une forte identité de séquence. De plus pour l’alignement local, seules les régions supérieures à 80pb sont conservées en référence à la taille des lectures de séquençage RNA-seq. En effet, ces résultats vont nous permettre d’estimer les biais potentiels, liés aux gènes à forte similarité de séquence, pour l’alignement des données de séquençage RNA-seq. Nous allons également déterminer la proportion de gènes paralogues pouvant entraîner ces biais d’alignement.

Needle :

L’alignement global est réalisé par paire de séquences entières et son but est d’obtenir un score d’alignement global optimal. L’algorithme utilisé est Needlman & Wunch (Needleman & Wunsch 1970). Pour obtenir ce score et trouver la meilleure configuration pour l’alignement, il faut générer une matrice de scores entre les deux séquences calculée à partir d’une matrice de substitution associant des pénalités différentes pour les mésappariements (« mismatches »), suivant la nature de la substitution. Le calcul des scores prend aussi en compte les pénalités d’ouverture et d’extension de gap. A partir de la matrice des scores, le meilleur alignement gardé est celui qui donne le meilleur score.

L’outil Needle implémenté dans la suite Emboss version 6.6.0 (Rice et al. 2000) a été utilisé. Concernant les scores d’alignement, la matrice de substitution de nucléotide est EDNAFULL et les pénalités des gaps sont de 10 pour l’ouverture du gap et de 0.5 pour

45

son extension. Le résultat pour chaque alignement est contenu dans un fichier tabulé et seules les informations sur les scores, les longueurs d’alignement et les pourcentages d’identité sont conservées.

Blastall :

L’alignement local entre deux séquences de gènes recherche à optimiser l’alignement de certaines régions des deux séquences de gènes et non pas les séquences dans leur globalité afin de diminuer les pénalités engendrées par les portions de séquences non alignées. La méthode fréquemment utilisée pour l’alignement local est Smith & Waterman (Smith & Waterman 1981). Cet algorithme est basé sur celui de Needlman & Wunch mais au lieu de regarder chaque séquence dans son intégralité, l’algorithme d’alignement local compare des régions des séquences et choisit les longueurs de régions optimisant la mesure de similarité.

Pour l’alignement local au sein de nos familles de gènes, nous avons utilisé la méthode « all-against-all » avec l’outil Blastall, implémenté dans la suite BLAST (McGinnis & Madden 2004). BLAST compare chaque séquence à une base de données de séquences. Pour une famille de gènes donnée, la base de données correspond à tous les transcrits des gènes dupliqués appartenant à la famille. Comme il s’agit d’un alignement « all-against-all », chaque transcrit de la famille est comparé à la base de données pour retrouver des régions ayant une fort homologie avec les transcrits d’autres gènes de la famille. Précisément, pour le calcul des alignements, l’outil utilisé est Blastall version 2.2.26 et comme matrice de substitution correspond à une matrice de BLAST (1 pour les « matches » et -3 pour les « mismatches ») et les pénalités sont de 0 pour l’ouverture ou l’extension d’un gap

2.2.2.Calcul de la mappabilité

La mappabilité permet de prédire les régions uniques et répétées du génome (Derrien et al. 2012), pour une longueur de lecture donnée. Cette méthodologie va nous permettre de retrouver les gènes possédant ou non des régions qui s’alignent à différents endroit dans le génome. Nous estimerons ainsi les problèmes d’alignements non uniques des lectures de séquençage dans le génome ou dans le transcriptome humain.

46

Pour une lecture de séquençage de longueur k, la fréquence Fk(x) pour la position x de la séquence de référence correspond au nombre de fois que le k-mer commençant à cette position x apparait dans la séquence de référence ou son complément-inverse. La recherche du k-mer dans la séquence de référence peut être exacte ou autoriser des variations (1 ou 2 « mismatches » par exemple).

La mappabilité, Mk(x) à la position x correspond donc à l’inverse de la fréquence du k-mer commençant à cette position:

= 1

L’avantage de la mappabilité est qu’elle est comprise entre 0 et 1, 1 étant la seule valeur correspondant à un alignement avec placement unique du k-mer sur le génome.

Pour le projet, la mappabilité a été calculée pour le transcriptome des gènes codants pour les protéines et pour le transcriptome réduit aux gènes paralogues. Pour chaque gène, la séquence correspondant au transcrit le plus long a été récupérée à partir d’Ensembl BioMart. Ces séquences ont ensuite été regroupées dans un fichier multi-fasta pour chaque transcriptome.

Les outils employés pour les analyses de mappabilité sont implémentés dans la suite logicielle GEM (« GEnome Multitool ») (Derrien et al. 2012,

http://algorithms.cnag.cat/wiki/The_GEM_library). Le programme gem-indexer a

permis d’indexer la séquence fasta de chaque transcriptome. Afin de cartographier la mappabilité du transcriptome, le programme gem-mappability a été appliqué en considérant un k-mer de 100pb et une recherche exacte du k-mer, c’est-à-dire en n’autorisant aucun « mismatch ». Le fichier de mappabilité au format gem généré fournit pour chaque position nucléotidique du transcriptome un code qui correspond à la fréquence du k-mer (Fk(x)). Enfin, le programme gem-2-wig permet de convertir ce fichier gem au format wig.

Ces résultats de calcul de mappabilité des lectures ont été exploités pour distinguer les gènes ne souffrant d’aucune problématique d’alignement de ceux couverts avec des lectures à placements multiples sur le génome.