• Aucun résultat trouvé

Des problèmes situés entre échantillonnages, statistiques et méthodologie

LA PLACE DU CHIEN PARMI LES CANIDES VUE SOUS L’ANGLE DE LA BIOLOGIE MOLECULAIRE

B) Des problèmes situés entre échantillonnages, statistiques et méthodologie

En fait, le problème peut se situer à différents niveaux : la qualité des données, le choix de l’échantillon mais aussi la méthode de reconstruction utilisée.

Dans un premier temps, l’effectif doit être suffisant pour être représentatif des différents groupes et mettre en évidence des allèles rares. L’étude de Tsuda par exemple, n’utilise que 34 chiens. L’étude de Vilà, qui est plus exhaustive, ne permet cependant pas d’assurer que l’échantillonnage utilisé est représentatif de l’ensemble de la population canine (par exemple un seul Basenji, pas de chien Telomian de Malaisie ancienne race découverte par Scott en 1965 (257)). L’absence dans l’échantillonnage, d’un haplotype de loup, susceptible d’appartenir au clade 1, n’est pas garante indubitablement de son inexistence. Hors un tel haplotype pourrait remettre en question l’origine de la domestication du chien proposée par Vilà. Hors justement, dans l’étude de Savolainen le plus grand clade inclut des haplotypes de loups, qui peut remettre en question la monophylie du groupe..

Même lorsque l’échantillonnage et le nombre de marqueurs paraissent suffisants, il persiste une marge d’erreur statistique importante. Par exemple dans l’étude de Cavalli-Sforza sur l’homme qui portait sur 42 populations humaines et 120 marqueurs, il persista une marge d’erreur de 20 % (13).

Si les effectifs trop faibles peuvent ne pas être significatifs, en prenant en compte davantage de données, les arbres qui sont construits résistent mal à l’analyse. Il existe des méthodes statistiques comme la méthode bootstrap qui permettent d’évaluer la robustesse des arbres généalogiques obtenus. L’arbre de Vilà qui prend en compte le plus de chiens et de loups présente une robustesse limitée. Aussi l’auteur élabore un arbre statistiquement plus robuste, avec beaucoup moins de sujets, mais qui présente une association de cladogrammes différente du premier. Les critiques formulées à l’encontre des résultats sur l’homme concernaient le nombre d’arbres obtenus. Il est assez fréquent que les auteurs ne donnent pas le nombre d’arbres également parcimonieux mais se contentent d’en sélectionner quelques- uns uns pour la publication (13). Ainsi, avec les données de Cann, certains auteurs ont montré qu’il y a de très nombreux arbres (des milliers), également voire davantage parcimonieux et où l’ancêtre est parfois asiatique (13).

Aux aléas de départ et aux erreurs statistiques s’ajoutent des problèmes concernant la méthodologie des reconstructions qui impliquent une interprétation des données. Dans la méthode phénétique où l’arbre dit de similitude, est reconstruit, à partir de la ressemblance globale qui existe entre deux populations et d’une matrice de distance, la racine de l’arbre est placée au point de rencontre des deux populations, qui présentent la plus grande différence génétique et donc supposées les plus anciennes. L’arbre cladistique ou de parcimonie qui minimise le taux d’homoplasie (convergence, réversion), quant à lui, n’a pas forcément de racine. L’enracinement d’un arbre parcimonieux se fait souvent par comparaison extra- groupe. Si lors de l’étude d’un groupe, un caractère présent dans le groupe l’est également à l’extérieur du groupe, il est considéré comme primitif. Si il n’existe que dans le groupe étudié, il est dérivé. Cependant, les séquences analysées pour identifier les caractères primitifs et dérivés, et donc le sens des transformations, ont parfois été jugées comme étant trop différentes de celles des populations étudiées, pour que l’on puisse s’assurer d’une bonne estimation du sens des transformations (exemple du chimpanzé pour l’homme). Ainsi, des options d’enracinements différentes, peuvent conduire, pourtant à partir des mêmes données, à des arbres contradictoires, ne décrivant plus la même histoire évolutive (figure 12). Si les 5 méthodes utilisées par Vilà (maximum parcimony, neighbor joining…) ont toutes regroupé les haplotypes de chiens en 4 clades, la topologie au sein, et entre les clades, différait en fonction des différents arbres obtenus. Finalement les résultats semblent variables en fonction du marqueur utilisé (les variations sont les plus grandes pour les populations Africaines lors

108

de l’utilisation de l’ADN mitochondrial mais lorsque l’on utilise les protéines ou les groupes sanguins, c’est les populations européennes qui présentent les plus grandes variations).

Figure 12 - Différents arbres possibles en fonction de l’option d’enracinement (13) Le point de départ qui va permettre de reconstruire l’histoire

évolutive des individus, des populations ou des espèces étudiées peut se faire de différentes façons.

Dans le cadre de la méthode dites de parcimonie, différentes options d’enracinement peuvent être utilisées et conduire à des résultats contradictoires.

Si on considère, par exemple, une séquence d’ADN longue de 14 nucléotides pour cinq populations notées de A à E, on observe des mutations (pour chaque site noté de 1 à 14 sur la figure a) survenues au cours de l’histoire évolutive de ces groupes. L’analyse de parcimonie de ces données conduit à un seul arbre qui va minimiser le nombre de mutations (et donc maximiser les événements partagés) et qui a une longueur minimale de 14 pas (ou 14 changements évolutifs).

Dans le cas où le critère de comparaison extra-groupe est utilisé pour orienter le sens des transformations évolutives (A étant le groupe extérieur au groupe étudié, par exemple la séquence d’un grand singe africain comme le chimpanzé quand on travaille sur des populations humaines), l’arbre obtenu(arbre b), présente une première dichotomie identifiée par deux mutations (T

G pour les sites 1 et 2 de la matrice) qui isole le goupe A de l’ensemble B-E. Pour cet arbre, une seconde dichotomie isole B de C-D-E, puis le groupe C de l’ensemble DE. Les transformations pour chaque site sont indiquées sur les différentes branches.

Dans le cas où l’option d’enracinement choisie est celle dite du point-moyen, l’artifice mathématique utilisé va placer la racine de l’arbre au point médian de rencontre des deux branches les plus longues. La racine est placé au point de rencontre des 2 populations qui présentent la plus grande différence génétique et donc supposées les plus anciennes. La branche qui mène au groupe E étant caractérisée par 4 mutations (sur les sites 11 à 14) on a donc une distance entre les groupes A et E égale à 10 transformations, ce qui conduit à une position de la racine entre les ensembles A-B-C d’une part et D-E d’autres part. L’histoire phylogénétique est dans ce cas totalement différente de la précédente.

109

Outline

Documents relatifs