• Aucun résultat trouvé

Terminologie

Pour éviter toute ambiguïté sur l'utilisation des termes relatifs aux différents types d'arbres phylogénétiques présentés, nous allons préciser la signification des termes employés (Clewley, 1998 ; Kitching et al., 1998) :

26 cladogramme : indication des relations hiérarchiques entre les taxa, mais absence d'un axe temporel ;

phylogramme : indication des relations hiérarchiques et présence d'un axe temporel.

Alignement des séquences

Les séquences consensus ont été alignées avec l'algorithme Clustal W (Thompson et al., 1994) inclus dans l'éditeur de séquences BioEdit 4.8.10 (Hall, 1999) et corrigées manuellement. Des analyses phylogénétiques préliminaires ont été réalisées avec les logiciels PHYLIP 95 (Felsenstein, 1993) ; successivement les séquences nucléotidiques ont été converties au format NEXUS et analysées avec le logiciel PAUP 4.0b10 (Swofford, 2001) car il permet de contrôler un plus grand nombre de paramètres.

La reconstruction phylogénétique est basée sur la distinction entre caractères apomorphiques (dérivés) et plésiomorphiques (primitifs). Plusieurs méthodes on été proposées pour déterminer l'apomorphie et la plésiomorphie des caractères : elles peuvent être classées en méthodes directes, basées sur les informations disponibles à partir des espèces étudiées (ontogenèse des caractères), et méthodes indirectes, qui demandent une source d'information externe au groupe étudié. La comparaison avec une ou plusieurs espèces outgroup constitue la méthode indirecte normalement employée dans les études phylogénétiques (Kitching et al., 1998). L'outgroup étant défini comme l'espèce externe la plus proche aux taxa étudiés, nous avons utilisé une espèce de termite souterrain de la sous-famille des Coptotermitinae (Rhinotermitidae), Coptotermes formosanus, à partir de laquelle le genre Reticulitermes aurait évolué (Krishna, 1970).

Un fragment de 11 bases, correspondant à une élongation chez l'espèce outgroup, n'a pas été inclus dans les analyses car ne possédant pas d'information phylogénétique. Les gaps ont été considérés comme valeurs manquantes.

Méthodes de reconstruction phylogénétique

La reconstruction d'un arbre peut être définie comme l'inférence statistique de la phylogénie réelle qui, elle, est inconnue. Ce concept d'inférence inclut à la fois l'estimation de la topologie de l'arbre et de la longueur des branches. Le problème majeur consiste dans l'estimation de la topologie, la longueur des branches étant relativement simple à estimer une fois la topologie déterminée (Nei, 1996).

27 Nous avons analysé les séquences avec trois différentes méthodes dans le but de pouvoir comparer les résultats obtenus : méthode du Neighbor-Joining (NJ), Maximum de Parcimonie (MP) et Maximum de Vraisemblance (Maximum Likelihood, ML).

Ces méthodes ont été décrites en détail par Nei (1987, 1996), Felsenstein (1988), Avise (1994) et Swofford et Olsen (1990), et seront expliquées brièvement dans les paragraphes suivants.

Neighbor-Joining (NJ)

Il s'agit d'une méthode basée sur la création d'une matrice de distances entre les espèces (Saitou et Nei, 1987). C'est une version simplifiée de la méthode de Minimum Evolution (ME) où la longueur des branches est estimée pour chacune des topologies réalisables. Cette méthode a donc l'avantage de réduire considérablement le temps de calcul, tout en gardant une probabilité importante d'obtenir la topologie réalisée avec la méthode ME pour des séquences supérieures à 500 bases (Nei, 1996). La méthode de NJ est préférable aux autres car elle ne suppose pas l'existence d'une horloge moléculaire (Saitou, 1996) : les branches peuvent avoir différentes longueurs ce que n'est pas permis avec d'autres algorithmes (cas de l'UPGMA Unweighted Pair-Group method with Arithmetic Mean).

Les inconvénients des méthodes de distance consistent dans la perte d'information associée à la transformation d'un alignement de séquences en matrice de distance et l'impossibilité de traiter des modèles dont les paramètres ne sont pas connus a priori (Whelan et al., 2001).

Maximum de Parcimonie (MP)

Le principe de cette méthode est de réduire le nombre de substitutions nécessaires pour obtenir la topologie finale, en d'autres termes on préfère l'explication la plus parcimonieuse. L'absence d'hypothèses sur le modèle d'évolution et la possibilité d'incorporer plusieurs types d'informations (position, taux de transition et transversion...) ont rendu cette méthode très populaire dans les années 1970. Actuellement on préfère les méthodes de maximum de vraisemblance (voir paragraphe suivant) car plus consistantes1 (Steel et Penny, 2000). La probabilité

1 La consistance statistique est définie comme la probabilité d'obtenir la topologie correcte avec un nombre infini de données.

28 d'obtenir le cladogramme réel est inversement proportionnelle à la divergence entre les séquences (augmentation de l'homoplasie). La présence de branches de longueurs très différentes peut également amener à une topologie finale incorrecte (Stewart, 1993).

Maximum de Vraisemblance (Maximum Likelihood, ML)

Cette méthode est basée sur un modèle d'évolution et sur la capacité du phylogramme obtenu de décrire les données de départ. Pratiquement la méthode de ML sélectionne le phylogramme qui maximalise la probabilité d'obtenir les données observées sur la base du modèle choisi.

Il s'agit d'une méthode lourde d'un point de vue des calculs. Son intérêt réside dans son support statistique qui permet la réalisation de tests d'hypothèse et dans sa consistance statistique.

Le choix du modèle a été réalisé avec le logiciel MODELTEST (Posada et Crandall, 1998) qui réalise une routine de likelihood ratio tests (Huelsenbeck et Crandall, 1997 ; Huelsenbeck et Rannala, 1997) entre le modèle plus simple et celui plus complexe. Si l'ajout de paramètres augmente la probabilité (=likelihood), le modèle plus complexe est sélectionné.

Ce logiciel permet également de tester pour chaque modèle l'effet de la correction gamma (Yang, 1993, 1996) et de l'estimation de la proportion de sites invariables.

Évaluation du support interne

Une approche intuitive pour évaluer le support d'un groupe monophylétique consiste dans le comptage des synapomorphies (caractères dérivés communs) pour le groupe donné. En d'autres termes, la longueur d'une branche pourrait être considérée comme proportionnelle au support de la branche (groupe monophylétique). Mais cette approche ne considère pas, par exemple, la présence de substitutions inverses qui rendent plus difficile la détection des synapomorphies. Dans ce contexte, on utilise le concept d'homoplasie pour définir une similarité qui ne provient pas de l'héritage d'un ancêtre commun, mais qui résulte d'un phénomène de convergence, parallélisme, analogie ou réversion. En présence d'homoplasie, la longueur des branches ne peut pas être employée comme une estimation du support.

29 Parmi les méthodes proposées pour estimer le support d'un groupe (recensées par Felsenstein, 1988) nous avons utilisé le bootstrap non paramétrique. Il s'agit d'un test statistique basé sur un échantillonnage avec remise des caractères pour réaliser un "data set" avec les mêmes dimensions de l'original (Felsenstein, 1985).

Le bootstrap a été initialement introduit comme une mesure de la répétabilité d'une analyse phylogénétique (la probabilité d'obtenir un groupe spécifique sur la base d'un échantillon indépendant de caractères). Cependant il est normalement employé comme une mesure de la précision (accuracy), c'est-à-dire la probabilité d'obtenir la branche réelle. Hillis et Bull (1993) ont étudié la relation entre ces deux facteurs sur la base de simulations. Ils observent que toutes les branches internes avec des valeurs de bootstrap supérieures à 80% définissent un vrai clade, et plus de 95% des clades avec une valeur de bootstrap supérieures à 70% sont corrects.

Cette valeur de 70% est ainsi devenue la valeur d'usage courant pour identifier une monophylie bien supportée. Elle sera donc employée comme seuil discriminant dans notre étude.

Pour les analyses de distances et de maximum de parcimonie, nous avons réalisé 2000 réplications, permettant d'estimer la valeur de bootstrap obtenue après un nombre infini de réplications avec une probabilité de 95% (Hedges, 1992). Pour les analyses avec le maximum de vraisemblance, seules 100 réplications ont été générées pour réduire les temps de calcul.

Le bootstrap a été réalisé avec un réarrangement des branches (option TBR et MULTREES dans le logiciel PAUP) car il permet d'obtenir des estimations plus précises des valeurs de bootstrap par rapport au bootstrap simple (sans réarrangement des branches) et par rapport à d'autres méthodes d'échantillonnage comme le jackknife (Debry et Olmstead, 2000 ; Mort et al., 2000).

Utilisation de contraintes

Pour tester la position systématique de R. sp. nov. nous avons défini des contraintes, notamment pour valider une éventuelle relation R. speratus - R. sp. nov. (Marini et Mantovani, 2002). Ces contraintes ont été appliquées aux analyses de Maximum de Parcimonie avec le test de Templeton (1983) et de Maximum de Vraisemblance avec le bootstrap paramétrique (Hillis et al., 1996). La procédure a été décrite en détail dans l'article I.

30

Visualisation des arbres phylogénétiques

Les arbres phylogénétiques obtenus avec PAUP ont été visualisés avec le logiciel TreeView (v.1.6.1.) (Page, 1996). Les arbres ont été enracinés avec l'espèce outgroup Coptotermes formosanus. Les indices de consistance (CI ; Kluge and Farris, 1969) et de rétention (RI ; Farris, 1969) ont été calculés pour les cladogrammes obtenus par Maximum de Parcimonie. Le CI est une mesure directe de l'homoplasie tandis que le RI mesure la similarité dans les caractères en terme de synapomorphie. Les deux indices varient entre 0 (homoplasie totale) et 1 (absence d'homoplasie).