• Aucun résultat trouvé

2.4 Analyses phylog´ en´ etiques et conclusions biologiques

3.1.2 M´ ethodologies existantes

a lui, un exon qui est apparemment sp´ecifique du g`ene de l’esp`ece a et n’a donc pas de r´esidus homologues dans les autres s´equences. Manuellement, un phylog´en´ e-ticien choisira donc la s´equence T-a3. Dans cet exemple, la s´election du plus grand transcrit (T-a2) produit l’insertion de nombreux gaps dans les autres s´equences. N´eanmoins, il est difficile de d´efinir un crit`ere de qualit´e permettant de d´eterminer automatiquement quel transcrit alternatif produira le moins d’erreur d’alignement une fois la s´election effectu´ee.

3.1.2 M´ethodologies existantes

Peu de m´ethodes ont ´et´e d´evelopp´ees pour la s´election automatique de transcrits alternatifs. La plupart des ´etudes phylog´en´etiques portant sur des g`enes eucaryotes n’´evoquent d’ailleurs pas cette s´election ni, par cons´equent, la m´ethodologie em-ploy´ee. Le plus simple consiste `a choisir un transcrit al´eatoirement [264, 265] ou bien de s´electionner le plus long afin de maximiser l’information [266, 267]. Il est ´egalement possible de r´ealiser une s´election manuelle, comme j’ai pu le faire dans l’´etude de la famille des PI3K.

La seule m´ethode actuelle d´edi´ee `a la s´election de transcrits alternatifs, bapti-s´ee PALO (Protein ALignment Optimizer ), a ´et´e publi´ee en 2013 [268]. Un second programme, GUIDANCE, permet de filtrer les s´equences et les positions probl´ ema-tiques d’un alignement (voir chapitre 2.2.3). Attribuant des scores aux s´equences, il peut donc ˆetre utilis´e pour la s´election du meilleur transcrit alternatif mˆeme s’il n’a pas ´et´e d´evelopp´e dans cet objectif.

PALO

l’iso-forme ayant la taille la plus homog`ene aux autres s´equences du jeu de donn´ees (Figure 3.2). N´eanmoins, cet indicateur est inadapt´e lorsque les exons alternative-ment ´episs´es sont de tailles similaires mais de s´equences tr`es diff´erentes.

Figure 3.2 – Repr´esentation sch´ematique des s´elections d’isoformes possibles pour un jeu de donn´ees compos´es de six s´equences dont quatre transcrits alternatifs (tir´e de [268]).

Soit `Xi la longueur d’un des transcrits alternatifs du g`ene i, PALO choisit le transcrit minimisant la somme des carr´es des ´ecarts Q telle que :

Q = m=k−1 X m=1 n=k X n=m+1 (`Xm− `Xn)2 (3.1)

avec k le nombre de g`enes consid´er´es.

Pour tester l’efficacit´e de cette m´ethode, les auteurs l’ont compar´ee `a : i) la s´ elec-tion du plus long transcrit (m´ethode longest ), ii) la s´election al´eatoire d’un transcrit (m´ethode random) et iii) la s´election du transcrit maximisant la conservation des r´esidus de l’alignement (m´ethode cons). Cette derni`ere, n´ecessitant l’alignement de toutes les combinaisons possibles de transcrits alternatifs, est consid´er´ee par les au-teurs comme produisant les meilleurs r´esultats. Cependant, cette approche pr´esente l’important inconv´enient d’une explosion du temps de calcul avec le nombre d’iso-formes pr´esentes dans le jeu de donn´ees. Concernant les donn´ees tests, les auteurs ont utilis´e environ 21000 familles de g`enes issues de la version 64 d’Ensembl.

Sur ces jeux de donn´ees, PALO s´electionne plus d’une fois sur deux une s´ e-quence diff´erente du transcrit alternatif le plus long. Le transcrit retenu par PALO

est le mˆeme que celui d´esign´e par la m´ethode cons dans 60-70% des cas, contre 16-21% pour les deux autres m´ethodes. Par ailleurs, les auteurs ont montr´e que PALO permet d’obtenir en moyenne des alignements multiples pr´esentant moins d’insertions que les alignements obtenus avec les m´ethodes longest et random.

Du point de vue fonctionnel, PALO n´ecessite deux fichiers en entr´ee. Le premier contient les identifiants Ensembl des g`enes homologues, chaque ligne correspondant `

a un jeu de donn´ees. Le second fichier est quant `a lui compos´e de trois colonnes : la premi`ere contient les identifiants du g`ene, la seconde les identifiants des transcrits alternatifs et la derni`ere colonne la taille des s´equences. PALO produit en sortie un fichier texte contenant les identifiants des s´equences prot´eiques s´electionn´ees. PALO acc´edant directement aux annotations d’Ensembl au travers des identifiants, il n’est pas n´ecessaire de disposer de fichier contenant les s´equences. Par contre, cette particularit´e rend ce programme inutilisable sur des donn´ees ne provenant pas de cette banque.

GUIDANCE

GUIDANCE est un algorithme d´evelopp´e pour ´evaluer la robustesse d’un aligne-ment multiple. Le principe g´en´eral de cet algorithme est d’engendrer des versions perturb´ees de l’alignement d’entr´ee et d’attribuer un score `a chaque site selon s’il est affect´e par la perturbation ou non.

A partir d’un ensemble de s´equences non align´ees, GUIDANCE g´en`ere l’aligne-ment dit de base `a l’aide de l’un des quatre programmes d’alignements multiples suivants : MAFFT, PRANK, CLUSTALW ou MUSCLE. Soit ` la taille de cet alignement, la seconde ´etape de l’algorithme consiste `a inf´erer n arbres phylog´en´ e-tiques par ´echantillonnage al´eatoire avec remise de ` sites `a partir de l’alignement de base. Cette ´etape de bootstrap permet d’inf´erer des arbres perturb´es qui seront utilis´es comme arbre guide pour le r´ealignement de l’alignement de base. Au total,

n alignements dits perturb´es sont ainsi inf´er´es (Figure 3.3).

Une fois les alignements perturb´es g´en´er´es, GUIDANCE attribue un score de robustesse `a chaque site de l’alignement de base. Trois distances sont commun´ement utilis´ees dans le cadre de l’alignement de s´equences :

• Le score par colonne CS (Column Score) : si, `a une position k de l’alignement perturb´e, les r´esidus sont exactement les mˆemes que dans l’alignement de base, un score de 1 est attribu´e `a k (pas d’erreur). Un score de 0 est attribu´e `

Figure 3.3 – Repr´esentation sch´ematique des ´etapes de l’algorithme de GUIDANCE [269].

• Le score par paire de r´esidus SP (Sum-of-Pairs score) : un score de 1 est attribu´e `a chaque paire de r´esidu de l’alignement de base qui est retrouv´ee dans l’alignement perturb´e (pas d’erreur). Si les r´esidus ne sont pas face `a face, un score de 0 leur est assign´e (erreur).

• Le score paire par colonne SPC (Sum-of-Pairs Column score) : il s’agit de la moyenne des scores SP.

Le score CS ne distinguant pas les colonnes n’ayant qu’une erreur de celles contenant beaucoup d’erreurs, les auteurs de GUIDANCE ont d´ecid´e d’utiliser le score SPC moyenn´e sur l’ensemble des n alignements perturb´es g´en´er´es.

Le fichier d’entr´ee de GUIDANCE est un fichier au format Fasta contenant l’ensemble des s´equences homologues ´etudi´ees. ´Etant d´evelopp´e pour ´evaluer la robustesse d’un alignement, GUIDANCE fournit de nombreuses informations en sortie telles que l’alignement de base, les scores par colonne, une s´election de sites conserv´es mais ´egalement les scores par s´equences. Ces derniers refl`etent la qualit´e de l’alignement de la s´equence vis-`a-vis du jeu de donn´ees et peuvent donc ˆetre utilis´es afin d’identifier les s´equences de mauvaise qualit´e. Dans la probl´ematique

de s´election de transcrit alternatifs, il est donc possible de s´electionner le transcrit au score le plus ´elev´e, i.e. le transcrit perturbant le moins l’alignement.

Contrairement `a PALO, GUIDANCE utilise l’information port´ee par les s´ equen-ces du jeu de donn´ees et est donc plus pertinent dans le cadre d’alignement de s´equences et de reconstructions phylog´en´etiques. N´eanmoins, si PALO pr´esente l’avantage d’ˆetre rapide du fait d’un algorithme de faible complexit´e GUIDANCE est au contraire tr`es lent [270], ceci mˆeme dans sa configuration la plus rapide (i.e. arbres inf´er´es en NJ avec la matrice JTT et r´ealignements effectu´es avec MAFFT).