• Aucun résultat trouvé

I. Mesurer la fiabilité des clades 16

3. Perfectionnements de l’indice 46

3.3. Définir des domaines de validité

Un des principaux problèmes de l’indice de répétition proposé dans LIet LECOINTRE(in press)

est de nécessiter que toutes les comparaisons de clades soient effectuées sur le même ensemble de taxons. Si le nombre de taxons qu’il faudrait ainsi mettre de côté est grand, surtout s’il s’agit essentiellement de taxons ne manquant que pour une faible proportion des jeux de données élémentaires, on peut choisir de les inclure dans les analyses et de les retirer des arbres obtenus au moment du calcul de l’indice de répétition2. L’indice ainsi calculé n’est valable que sur l’ensemble de taxons qui correspond à l’intersection des ensembles de taxons utilisés dans les analyses. On définit un « domaine de validité » pour la comparaison des analyses, qui est l’intersection de ce qu’on pourrait appeler les domaines de validité des analyses à comparer. Cette procédure peut être étendue afin de calculer des fiabilités valables sur d’autres ensembles de taxons plus larges, mais prenant en compte moins d’analyses. Prenons un exemple simpliste. On note A, B et C les

jeux de données élémentaires. On note VA, VB et VC les ensembles de taxons présents dans les

jeux de données correspondant. Les taxons sont notés a, b, c, d, e, f, g, h et i. Supposons qu’on ait les compositions suivantes : VA= {a, d, e, g, h, i}, VB = {b, d, f, g, h, i}, VC = {c, e, f, g, h, i}.

Le plus petit domaine de validité est VA∩ VB∩ VC = {g, h, i}. On peut y calculer l’indice de

répétition tel qu’il est décrit dans LIet LECOINTRE(in press), en prenant en compte tous les

schémas de partitionnement. Si l’on admet des données manquantes dans les analyses combinées,

Partie I Chapitre 3 Jeux de données élémentaires A B C Combinations A ∪ B A ∪ C B ∪ C A ∪ B ∪ C Enregistrement des clades Arbres / domaines de validité de niveau 1 TA/VA TB/VB TC/VC TA∪B/VA∪B TA∪C/VA∪C TB∪C/VB∪C TA∪B∪C/VA∪B∪C

Comptage des occur-rences indépendantes Schémas de partitionnement / domaines de validité de niveau 2

P Sc1/VP Sc1

P Sc2/VP Sc2

P Sc3/VP Sc3

P Sc4/VP Sc4

P Sc5/VP Sc5

Calcul des indices de répétition Domaines de validité de niveau 3 W1 W2 W3 W4 ...

Figure 3.2. Les trois niveaux de domaines de validité. Ceux du premier niveau (notés VX) sont

les ensembles de taxons des arbres (TX) obtenus par les analyses des jeux de données (X). Dans

cet exemple, il y a trois jeux de données élémentaires, soit sept jeux de données en tout, et donc sept arbres et sept domaines de validité de niveau 1. Les domaines de validité de deuxième

niveau (VP Sci) sont les intersections des domaines de validité de premier niveau des jeux de

données indépendants composant les schémas de partitionnement (P Sci). Seuls les schémas de

partitionnement complets sont représentés ici. On compte les nombres d’occurrences des clades dans le cadre d’un schéma de partitionnement, en examinant les arbres constituant le schéma de partitionnement, après en avoir ôté les taxons hors du domaine de validité associé au schéma de

partitionnement. Les domaines de validité de niveau 3 (Wi) sont les intersections de toutes les

combinaisons possibles de domaines de validité de schéma de partitionnement. Les indices de répétition sont associés à ces domaines de validité de niveau 3. Ils sont basés sur les plus grands nombres d’occurrences des clades (une fois les taxons hors du domaine de validité de niveau 3 élagués) trouvés parmis les schémas de partitionnement dont le domaine de validité contient au moins le domaine de validité de niveau 3. Seuls certains domaines de validité de niveau 3 sont représentés ici.

les autres jeux de données analysés ont les compositions suivantes : VA∪B = {a, b, d, e, f, g, h, i}, VA∪C = {a, c, d, e, f, g, h, i}, VB∪C = {b, c, d, e, f, g, h, i}, VA∪B∪C = {a, b, c, d, e, f, g, h, i}.

VA∪B∪Cest le plus grand domaine de validité, mais la seule analyse qui peut être prise en compte

pour calculer un indice valable dans ce domaine est l’analyse combinée totale3. Si l’on veut

pouvoir calculer un indice de répétition prenant en compte le schéma de partitionnement(A ∪

B, C), par exemple, le plus grand domaine de validité utilisable est VA∪B∩ VC = {e, f, g, h, i} ;

tout taxon supplémentaire manquerait dans les résultats de l’analyse de A∪B ou de C. (A∪B, C) peut être utilisé pour le calcul d’un indice de répétition associé à tout domaine de validité inclus dans VA∪B∩ VC.

On peut en fait définir trois niveaux de domaines de validité (voir figure 3.2) :

3L’indice de répétition d’un clade se ramènerait alors simplement à 1 si le clade est présent et 0 s’il est absent. Si l’on veut raffiner, on peut prendre une valeur de support, comme une probabilité postérieure ou une proportion dans une analyse de bootstrap ; on se ramène à la situation décrite dans l’introduction, page 11.

1. Le domaine de validité d’une analyse primaire (domaine de validité de premier niveau) est l’ensemble des taxons présents dans un jeu de données (combiné ou non) analysé pour obtenir un arbre. Ces domaines de validité sont ici notés VA, VB, VC, VA∪B, VB∪C, VA∪C,

VA∪B∪C.

2. Le domaine de validité d’une comparaison ou d’un schéma de partitionnement (domaine de validité de niveau 2) est l’intersection des domaines de validité d’un ensemble d’arbres à comparer. Comme une comparaison ne peut se faire qu’entre arbres obtenus à partir de données indépendantes, ces jeux de données sont choisis de manière à former un schéma de partitionnement (voir page 23). Afin d’exploiter le plus d’information possible, on pourra également considérer des schémas de partitionnement partiels, c’est-à-dire dans lesquels certains jeux de données élémentaires ne sont pas représentés, ce qui permettra de prendre en compte les taxons rares. Par exemple, (A, B) est un schéma de partitionnement partiel qui permettra de prendre en compte les taxons présents à la fois dans les jeux de données

A et B, mais absents du jeu de données C. Si P Sc1 est le schéma de partitionnement

(A, B ∪C), on pourra noter son domaine de validité VP Sc1, et on aura : VP Sc1 = VA∩VB∪C. 3. Le domaine de validité d’un indice de fiabilité (domaine de validité de niveau 3) est l’intersection des domaines de validité des schémas de partitionnements parmis lesquels on a choisi les meilleurs nombres d’occurrences des clades. Quand tous les jeux de données ont les mêmes taxons, tous les schémas de partitionnement ont le même domaine de validité, et on peut se contenter d’un seul indice de fiabilité, qui prend en compte tous les schémas de partitionnement à la fois. Si le recouvrement taxinomique n’est pas parfait, on peut potentiellement tirer de l’information utile de toute combinaison de schémas de partitionnement. Plus il y aura de schémas de partitionnement pris en compte en même

temps, plus l’indice de fiabilité pourra potentiellement être élevé4, mais plus le domaine

de validité risque d’être restreint.

Définir de multiples domaines de validité permet de prendre en compte plus de taxons mais pose un problème de lisibilité des résultats. Entre différents domaines de validité on pourra rencontrer des clades assez semblables, ne différant que par l’absence de certains taxons appartenant à l’un des domaines de validité et pas à l’autre, chacun avec son propre indice de fiabilité. En l’état, une telle situation impose un effort de synthèse important au lecteur ; on est confronté à un problème

semblable à celui des tableaux de répétabilité construits jusqu’à présent (CHEN et al., 2003;

DETTAÏet LECOINTRE, 2004, 2005).

4En multipliant les schémas de partitionnement, on multiplie les chances de trouver une façon optimale de combiner les données pour un clade donné (voir page 24).

4. Synthétiser la fiabilité des clades

sous forme d’un arbre

Si l’ambition d’un indice de fiabilité est de montrer dans quelle mesure on peut penser que tel ou tel clade représente les relations de parenté réelles entre les taxons, il semble naturel de vouloir synthétiser les résultats en combinant les clades les plus fiables en un arbre, qu’on espère le plus proche possible de l’arbre de parenté réel.

Documents relatifs