Les arbres phylog´ en´ etiques - D´ eveloppements d’outils pour l’aide ` a l’identification dan

3 L’analyse de s´equences

description (figure 1.12). Le format PHYLIP est celui utilisé pour les données en entrée des programmes du package PHYLIP qui propose un ensemble d’outils pour faire de la reconstruction phylogénétique (section 3.3).

Certains de ces formats correspondent aux formats de stockage des s´equences dans les banques comme le format FASTA ou le format PIR.

Fig.1.12: Exemple de deux s´equences au format FASTA

Fig.1.13: Un arbre phylogénétique. L’outgroup ou groupe externe permet de raciner l’arbre et d’orienter les événements dans l’arbre (section 3.3.2). Extrait de (Daubin, 2002)

Enfin il faut savoir que l’histoire évolutive des gènes reproduit celle des espèces qui les portent sauf si il y a eu des transferts horizontaux, c’est-à-dire des transferts de gènes entre espèces ou si il y a eu des duplications géniques. Dans ce cas, l’arbre des espèces peut ˆ

etre diff´erent de l’arbre des g`enes.

3.3.1 Les diff´erentes m´ethodes

Il existe trois grands types de méthodes permettant la reconstruction d’arbres phylo-génétiques :

– les méthodes basées sur les distances évolutives, – les méthodes par parcimonie,

– les m´ethodes de maximum de vraisemblance

Les méthodes de distances sont des méthodes de reconstruction d’arbres phylogén´ e-tiques sans racine basées sur les mesures de distances entre séquences prises deux à deux, c’est-à-dire le nombre de substitutions de nucléotides ou d’acides aminés entre ces deux séquences. Elles permettent de reconstruire des arbres en partant des ressemblances ob-servées entre chaque paire d’unités évolutives. On parle de la ressemblance globale établie

a partir du maximum d’observations disponibles.

Deux étapes sont nécessaires pour la reconstruction d’arbre en utilisant les méthodes de distances :

– Calcul d’une matrice de distances `a partir de l’alignement de d´epart.

– Construction de l’arbre phylog´en´etique en utilisant la matrice de distances

Le calcul de distances peut se faire simplement en comparant les s´equences et en

evaluant leur similitude et leur différence (distance observée). Il est également possible de calculer une distance évolutive en utilisant des modèles évolutifs qui permettent de prendre en compte les processus évolutifs qui agissent sur les séquences. En effet, un

3 L’analyse de s´equences

simple comptage des différences entre deux séquences ne donne pas forcément le nombre réel d’événements de mutation, il peut y avoir des substitutions cachées ou multiples. Ainsi il existe plusieurs modèles évolutifs dont les plus connus sont celui de Jukes-Cantor (Jukes

& Cantor, 1969) ou celui de Kimura `a deux param`etres (Kimura, 1980).

Plusieurs méthodes de distances ont été développées et permettent de construire un arbre phylogénétique à partir d’une matrice de distance. Parmi ces méthodes, il existe les algorithmes UPGMA (Unweighted Pair Group Method with Arithmetic mean) et Neighbor-Joining (Saitou & Nei, 1987). Le principe de UPGMA est de regrouper ensemble les séquences les plus proches en faisant l’hypothèse d’horloge moléculaire.

Cette hypothèse suppose que toutes les lignées évoluent à la même vitesse depuis leur divergence, c’est-à-dire depuis que leur dernier ancêtre commun a subi une spéciation et qu’il y a eu séparation en deux espèces distinctes. La méthode Neighbor-Joining, quant à elle, permet de construire l’arbre dont la somme des longueurs des branches est minimale en recherchant les séquences les plus proches à chaque étape de regroupement sans impliquer l’hypothèse d’horloge moléculaire. Les méthodes de distances sont rapides et donnent de bons résultats pour des séquences ayant une forte similarité.

Différents programmes de construction phylogénétique ont été développés et utilisent ces méthodes de distances. Parmi ces logiciels, FASTME (Desper & Gascuel, 2002) est basé sur le principe du minimum d’évolution qui consiste à retenir l’arbre dont la longueur estimée de sa topologie (somme des longueurs des branches) est la plus petite.

BIONJ (Gascuel, 1997) et QUICKTREE (Howe et al., 2002) sont des implémentations de la méthode Neighbor-Joining qui est une approximation du principe du maximum d’évolution. Ces programmes garantissent une grande rapidité d’exécution même si la qualité de l’arbre n’est pas optimale.

Les méthodes par parcimonie et celles de maximum de vraisemblance sont basées sur les caractères et s’intéressent au nombre de mutations (substitutions / insertions /dél´ e-tions) qui affectent chacun des sites de la séquence.

La parcimonie consiste à minimiser le nombre de substitutions nécessaires pour passer d’une séquence à une autre dans une topologie de l’arbre. Les méthodes de maximum de parcimonie recherchent toutes les topologies possibles afin de trouver l’arbre optimal

c’est-`

a-dire l’arbre dont la topologie requiert le nombre minimal de substitutions nécessaires totalisé sur l’ensemble des sites pour passer d’une séquence à une autre de la topologie.

Ces méthodes sont relativement lentes car le temps nécessaire pour cette exploration croit rapidement avec le nombre de séquences. Un des algorithmes développant la méthode du maximum de parcimonie est l’algorithme de Fitch (Fitch, 1977).

Les méthodes de maximum de vraisemblance recherchent l’arbre dont la topologie est la plus vraisemblable étant donnés les séquences et le modèle d’évolution des séquences choisi. Ces méthodes évaluent, en terme de probabilités, l’ordre des branchements et la longueur des branches d’un arbre sous un modèle évolutif donné. Elles ne comparent pas

les données deux à deux, mais estiment la vraisemblance de chaque site pour la topologie au regard du modèle évolutif choisi. La topologie choisie par la méthode sera celle qui maximise la vraisemblance de l’alignement. Ces méthodes nécessitent des temps de calcul très importants.

Plusieurs packages de programmes proposent des impl´ementations des m´ethodes de parcimonie et de maximum de vraisemblance comme par exemple PHYLIP (Felsenstein, 1989), PAUP (Swofford, 2003) ou le programme PHYML (Guindon & Gascuel, 2003).

3.3.2 Enraciner un arbre

Lorsqu’un arbre n’est pas raciné, cela signifie que l’ancêtre commun à toutes les feuilles n’a pas été trouvé. Etant donné qu’un arbre phylogénétique est un arbre d’évolution, il ne peut être considéré en tant que tel que lorsqu’il est raciné. Afin de pouvoir obtenir des informations au niveau évolutif, il faut donc raciner l’arbre et définir l’emplacement du gène ancestral commun. Pour cela, il existe différentes méthodes : la méthode de l’outgroup, du point médian ou le racinement par un paralogue.

La méthode de l’outgroupconsiste à ajouter aux séquences traitées, avant la construc-tion de l’arbre, un groupe externe (outgroup) correspondant à une séquence éloignée. La divergence entre le groupe externe et les autres séquences doit être antérieure à la diver-gence entre les séquences traitées. Ainsi le nœud-racine sera placé entre la séquence ajoutée et le noeud connectant cette séquence aux autres. Le groupe externe ne doit pas être trop

eloigné des séquences traitées sinon cela peut impliquer des erreurs de topologie car il est difficile dans ce cas d’estimer les distances entre le groupe externe et les autres séquences.

De plus, il existe un risque d’attraction des longues branches avec l’outgroup (Philippe &

Germot, 2000). L’attraction des longues branches est un artéfact de reconstruction qui se traduit par le mauvais positionnement des séquences évoluant plus vite ou moins vite que la moyenne. En particulier, les séquences qui évoluent plus vite apparaissent d’émergence beaucoup trop précoce dans les phylogénies. Le groupe externe ne doit pas non plus être trop proche car dans ce cas ce n’est pas un vrai groupe externe et la séquence ajoutée en tant que groupe externe risque de se retrouver parmi les séquences traitées dans l’arbre phylogénétique. Enfin, plusieurs groupes externes peuvent être utilisés afin d’améliorer la topologie de l’arbre.

Dans le cas où il n’y a pas de groupe externe qui puisse permettre un racinement de l’arbre, il est possible de positionner la racine par une méthode mathématique en faisant l’hypothèse que la vitesse d’évolution tend à être uniforme sur l’ensemble des branches de l’arbre (hypothèse de l’horloge moléculaire). C’est la méthode du point médian (mid-point rooting) qui consiste à positionner la racine approximativement à égale distance de toutes les feuilles.

Enfin, s’il existe une duplication ancestrale clairement identifiée, il est possible d’uti-liser un gène paralogue pour raciner l’arbre phylogénétique.

3 L’analyse de s´equences

3.3.3 Evaluer la qualit´e d’un arbre

Lorsqu’un arbre phylogénétique est construit, il faut évaluer la fiabilité de cet arbre c’est-à-dire évaluer celle de chaque branche interne de l’arbre puisque l’information phy-logénétique réside dans l’ensemble de ses branches internes. Pour cela, plusieurs méthodes statistiques sont disponibles. La méthode la plus couramment utilisée est le bootstrap.

Cette méthode part du principe que les caractères évoluent de manière indépendante. Elle a été inventée par Bradley Efron en 1979 et introduite en phylogénie par Felsenstein en 1985 dans le package PHYLIP. Cette méthode consiste à réaliser, à partir d’un alignement d’origine, un grand nombre (au moins 100) d’alignements ”artificiels” de même taille par tirage aléatoire avec remise. Puis, pour chaque alignement ”artificiel” obtenu, l’arbre est reconstruit et comparé à l’arbre d’origine. Pour chaque branche interne de l’arbre d’origine, on compte le nombre de fois où celle-ci est présente dans les arbres obtenus artificielle-ment. Cette fréquence avec laquelle on retrouve un sous-arbre est la valeur de bootstrap (figure 1.14). Elle indique la robustesse statistique de la branche interne. Ainsi plus cette valeur est élevée plus la fiabilité de la branche est importante.

Fig.1.14: Principe du bootstrap. Extrait de (Calteau, 2005).

3.3.4 Les formats d’arbres

Il existe différents formats pour représenter les arbres phylogénétiques tels que les formats Newick ou Nexus. La plupart des programmes de phylogénie utilisent le format Newick créé par Cayley (1857), maintenant devenu un format standard. Ce format repr´ e-sente les arbres sous forme linéaire par une série de parenthèses imbriquées, regroupant les noms des séquences et séparés par des virgules (figure 1.15). Dans ce format, la configura-tion décrite par les parenthèses représente la topologie de l’arbre.

Fig.1.15: Exemple de format Newick

Chapitre 2

L’identification

L’identification est une des principales applications de la systématique qui est consti-tuée de deux disciplines, la taxonomie et la nomenclature. La taxonomie est la science qui permet de classer rationnellement les organismes vivants en groupes d’affinité. Cette dis-cipline est étroitement liée à l’identification puisque le but de cette dernière est de placer un nouvel individu dans la classification existante. La nomenclature, quant à elle, a pour objectif de donner un nom à chaque groupe défini dans la taxonomie selon des règles pu-bliées. Cela permet d’unifier le langage scientifique et d’améliorer la communication entre les utilisateurs.

1 La taxonomie

Dans le document D´ eveloppements d’outils pour l’aide ` a l’identification dans les grandes banques de familles de g` enes. (Page 41-47)