• Aucun résultat trouvé

Entropie phylogénétique

Dans le document Mesures de la Biodiversité (Page 130-136)

L’entropie phylogénétique est la moyenne de l’entropie HCDT le long d’un arbre phylogénétique. Son estimation est simple-ment celle de l’entropie HCDT à chaque période de l’arbre. Elle va de pair avec la diversité phylogénétique qui est son nombre effectif d’espèces, c’est-à-dire le nombre d’espèces équiprobables, dans un arbre où toutes les espèces descen-draient d’un ancêtre unique, dont l’entropie serait la même que celle de la communauté réelle. Dans un tel arbre, la diversité phylogénétique se réduit à la diversité neutre. L’essentiel

L

’entropie HCDT peut être étendue pour définir une mesure de diversité prenant en compte l’histoire évolutive des espèces.

8.1 Généralisation de l’entropie HCDT

Pavoine et Bonsall1 découpent l’arbre phylogénétique en périodes. À partir de la racine de l’arbre, une nouvelle période est définie à chaque ramification d’une branche quelconque. Les débuts et fins de périodes sont notés tk, la racine de l’arbre est fixée à t0 = 0. L’arbre est ultramétrique.

Nous suivrons plutôt les notations de Chao et al.2 en numéro-tant les périodes à partir du présent et en nonuméro-tant Tk leur durée. Figure 7.7, la première période se termine quand les branches des espèces 3 à 5 se rejoignent. L’arbre comprend K = 3 périodes.

L’entropie HCDT (qH de l’équation (4.6)) est calculée à chaque

période. Figure 8.1, à la deuxième période (T2), l’arbre a trois feuilles, avec des probabilités égales à celle des espèces 1 et 2 et la somme de celles des espèces 3 à 5.qH peut être calculée avec

ces valeurs de probabilités. On notera cette valeur d’entropie qkH

où k est le quantième de la période. 121

3K. Shimatani (2001a). « Multi-variate point processes and spatial va-riation of species diversity ». In :

Fo-rest Ecology and Management

142.13, p. 215229. doi : 10 . 1016 / s0378 -1127(00)00352-2.

4C. Ricotta (2005b). « Additive partitioning of Rao’s quadratic diver-sity : a hierarchical approach ». In :

Ecological Modelling 183.4, p.

365-371. doi : http://dx.doi.org/10.1016/ j.ecolmodel.2004.08.020.

L’indice Iqde Pavoine et al. est la somme desqkH pondérée par

la durée de chaque période. Nous le normalisons par la hauteur totale de l’arbre (T ) pour définir qH (T ) :¯

qH (T ) =¯ K X k=1 Tk T q kH . (8.1)

Dans un arbre parfaitement régulier, toutes les branches sont de longueur 1, il n’y a qu’une seule période, et Iq= qH .

Shimatani3 puis Ricotta4 avaient montré que l’indice de Rao est la somme pondérée sur chaque période de l’indice de Simpson, c’est-à-dire l’égalité (8.1) pour le cas particulier q = 2.

Les indicesqH (T ) généralisent les mesures d’entropie classique¯ à la diversité phylogénétique : T [0H (T ) + 1] est égal à PD ou FD,¯ 1H (T ) est H¯ pet2H(T ) est l’indice de Rao. On peut les interpréter¯

intuitivement comme une somme pondérée par la longueur des périodes des valeurs de l’entropie à chaque période. À la dernière période (près des feuilles), toutes les classes sont présentes, la diversité est donc maximale. En remontant dans l’arbre, les classes se confondent et la diversité diminue progressivement. Deux classes peu distantes, comme les espèces 3 à 5 de la Figure 8.1, apportent peu de diversité supplémentaire par rapport à une situation où les deux espèces seraient confondues (et leurs effectifs ajoutés), contrairement aux espèces 1 et 2.

8.2 Estimation

La correction du biais d’estimation applicable à l’entropie géné-ralisée l’est aussi à chaque période de l’arbre. Les biais sont de moins en moins importants quand on se rapproche de la racine de l’arbre : il est de moins en moins probable de ne pas observer une classe quand les classes sont de plus en plus vastes.

Le package entropart fournit la fonction PhyloEntropy pour calculer qH (T ) à partir d’un vecteur de probabilité ou d’abon-¯

dances. Dans le dernier cas, la correction de Tsallis est appliquée à chaque période.

Exemple : le package contient les données d’inventaire de deux hectares du dispositif de Paracou et la taxonomie des es-pèces concernées. Le calcul de l’indice de Rao, corrigé du biais d’estimation utilise le code suivant :

data(Paracou618)

PhyloEntropy(Paracou618.MC$Ns, 2, Paracou618.Taxonomy)

## $Distribution ## [1] "Paracou618.MC$Ns" ## ## $Function ## [1] "PhyloEntropy" ## ## $Tree

8.3. Entropie et diversité 123

5C. Ricotta et A. T. Acosta (2014). « On the functional diversity of partially distinct species : some theory and a practical example ». In :

Community Ecology 15.2, p. 205-211.

doi : 10.1556/ComEc.15.2014.2.9.

6Marcon et al. (2014). « Generali-zation of the Partitioning of Shannon Diversity », cf. note 41, p. 61.

7C. Ricotta et L. Szeidl (2009). « Diversity partitioning of Rao’s qua-dratic entropy ». In : Theoretical

Po-pulation Biology 76.4, p. 299-302.

doi : 10.1016/j.tpb.2009.10.001.

8Chao et al. (2010). « Phylogene-tic diversity measures based on Hill numbers », cf. note 48, p. 61. ## [1] "Paracou618.Taxonomy" ## ## $Normalized ## [1] TRUE ## ## $Cuts ## 1 2 3 ## 0.9863260 0.9709805 0.9232519 ## ## $Corrections ## 1 2 3

## "UnveilJ" "UnveilJ" "UnveilJ" ## ## $Total ## [1] 0.9601861 ## ## $Type ## [1] "alpha or gamma" ## ## $Order ## [1] 2 ## ## $Correction ## [1] "Best" ## ## attr(,"class") ## [1] "PhyloEntropy" "PhyloValue"

La fonction retourne la valeur de qkH dans chaque intervalle

(l’arbre est ici une taxonomie espèce-genre-famille, correspondant aux limites des périodes (Cuts) 1, 2 et 3 dont l’entropie va en décroissant) et la valeur deqH (T ).¯

8.3 Entropie et diversité

La diversité phylogénétique est le nombre d’espèces équifréquentes et dont la distance à toutes les autres dans la phylogénie est maximale, dont l’entropie serait égale à l’entropie observée.

La possibilité de choisir comme distance de référence entre espèces une valeur inférieure à la distance maximale est discu-tée par Ricotta et Acosta5 pour la diversité fonctionnelle : sa signification biologique est liée à l’espace fonctionnel disponible pour la communauté, qui peut être trop réduit pour permettre la coexistence d’espèces dont la dissimilarité serait maximale.

L’entropie qH (T ) peut être transformée en diversité¯ 6 de la même façon que qD = eqH :

qD (T ) = e¯ qqH (T )¯ . (8.2)

Le nombre effectif d’espèces de l’entropie de Rao, 2D(T ) =¯ 1/[1−2H (T )]¯ a été établi par Ricotta et Szeidl.7

Chao et al.8 obtiennent ce résultat sans recourir explicitement à l’entropie, mais en faisant le même calcul :

9Allen et al. (2009). « A New Phylogenetic Diversity Measure Gene-ralizing the Shannon Index and Its Application to Phyllostomid Bats », cf. note 75, p. 119. qD (T ) =¯ X b l(b) T p(b) q ! 1 1−q . (8.3)

La somme est sur l’ensemble des branches de l’arbre, défini de façon identique à celle de Allen et al.,9 page 119.

Les entropies ont un comportement linéaire : elles s’addi-tionnent tout au long de l’arbre pour donnerqH (T ). Les diversités¯

q

kD calculées à chaque période ne peuvent pas être sommées sur le

modèle de l’équation (8.1) : qD(T ) n’est pas la moyenne pondérée¯

des diversités aux différentes périodes, sauf dans le cas particulier

q = 1 où, comme pour la décomposition de l’indice de Shannon,

il en est la moyenne géométrique pondérée.

La fonction PhyloDiversity de entropart permet de calculer qD(T ) avec ou sans correction de biais, selon qu’elle traite un¯ vecteur d’abondances ou de probabilités. À la suite de l’exemple précédent, les résultats sont présentés sous forme de diversité au lieu d’entropie :

PhyloDiversity(Paracou618.MC$Ns, 2, Paracou618.Taxonomy)

## $Distribution ## [1] "Paracou618.MC$Ns" ## ## $Function ## [1] "bcPhyloDiversity" ## ## $Tree ## [1] "Paracou618.Taxonomy" ## ## $Normalized ## [1] TRUE ## ## $Cuts ## 1 2 3 ## 73.13138 34.45957 13.02963 ## ## $Corrections ## 1 2 3

## "UnveilJ" "UnveilJ" "UnveilJ" ## ## $Total ## [1] 25.11686 ## ## $Type ## [1] "alpha or gamma" ## ## $Order ## [1] 2 ## ## $Correction ## [1] "Best" ## ## attr(,"class") ## [1] "PhyloDiversity" "PhyloValue"

8.4. Diversité individuelle 125

It is always less than or equal to the present diversity of order q.

There are many ways to take this average. If we want the replication principle to be valid in its strongest possible form, then we must average the diversities

q

D(t) according toJost’s (2007)derivation of the

for-mula for the mean (a) diversity of a set of equally weighted assemblages. This mean diversity over the

time interval [2T, 0] will be calledqDðT Þ (mean

diver-sity of order q over T years). With this choice of mean, when N maximally distinct trees with equal mean diversities (for fixed T ) are combined, the mean diver-sity of the combined tree is N times the mean diverdiver-sity of any individual tree. The branching patterns, abun-dances and richnesses of the N trees can all be different, as long as each of the trees is completely dis-tinct (all branching off from the earliest point in the tree, at or before time T ). Some choices of averaging formulae obey weaker versions of the principle, and these may be useful for some purposes. We discuss an alternative choice of mean in §8.

We may want to consider not just the mean diversity but the branch or lineage diversity of the tree as a whole, over the interval from – T to present. At any point within a branch, the abundance or importance of each branch lineage is the sum of the abundances of the present-day species descending from that point, as described above. Then the total diversity of

all the ‘species’ that evolved in the tree during the time interval [2T, 0] is found by taking the Hill number of this entire virtual assemblage of ancestral species. The Hill numbers depend only on the relative abundances of each species, so we need to divide the abundances by the total abundance of all the species in the tree. If each branch is weighted by its corre-sponding branch length, then we show below that this diversity depends only on the branching pattern and on the relative abundances of the species in the present-day assembly. We call this measure ‘phyloge-netic diversity of order q through T years ago’ or ‘branch

diversity’ and denote it by qPD(T ). This turns out

to be just the product of the interval duration T

and the mean diversity over that interval,qDðT Þ. For

q ¼ 0 (only species richness is considered), and T ¼ the age of the first node, this branch diversity is just Faith’s PD.

Instead of using time as the metric for a phylo-genetic tree, we often want to use a more direct measure of evolutionary work, such as the number of base changes at a selected locus, or the amount of functional or morphological differentiation from a common ancestor. The branches of the resulting tree will then be uneven, so the tree will not be ultrametric. However, we can easily apply the idea of branch diver-sity to such non-ultrametric trees. The branch lengths are calculated in the appropriate units, such as base

t = 0 (present time) p1 + p2 + p3 p2 + p3 p1 p2 p3 p4 T3 t = –T p4 p4 p1 T (a) (b) slice 3 slice 2 slice 1 T2 T1 1 2 4 3.5 p1 = 0.5 p2 = 0.2 p3 = 0.3 p2 + p3 = 0.5

Figure 1. (a) A hypothetical ultrametric rooted phylogenetic tree with four species. Three different slices corresponding to three different times are shown. For a fixed T (not restricted to the age of the root), the nodes divide the phylogenetic tree into segments 1, 2 and 3 with duration (length) T1, T2 and T3, respectively. In any moment of segment 1, there are four species (i.e. four branches cut); in segment 2, there are three species; and in segment 3, there are two species. The mean species richness over the time interval [2T, 0] is (T1/T ) 4 þ (T2/T ) 3 þ (T3/T ) 2. In any moment of segment 1, the species relative abundances (i.e. node abundances correspond to the four branches) aref p1; p2; p3; p4g; in segment 2, the species relative abundances are fg1; g2; g3g ¼ fp1; p2þ p3; p4g; in segment 3, the species relative abundances are fh1; h2g ¼ f p1þ p2þ p3; p4g. (b) A hypothetical non-ultrametric tree. Let T be the weighted (by species abundance) mean of the distances from root node to each of the terminal branch tips.



T¼ 4  0:5 þ ð3:5 þ 2Þ  0:2 þ ð1 þ 2Þ  0:3 ¼ 4. Note T is also the weighted (by branch length) total node abundance because T¼ 0:5  4 þ 0:2  3:5 þ 0:3  1 þ 0:5  2 ¼ 4. Conceptually, the ‘branch diversity’ is defined for an assemblage of four branches: each has, respectively, relative abundance 0:5= T¼ 0:125, 0:2= T¼ 0:05, 0:3= T¼ 0:075 and 0:5= T¼ 0:125; and each has, respectively, weight (i.e. branch length) 4, 3.5, 1 and 2. This is equivalent to an assemblage with 10.5 equally weighted ‘branches’: there are 4 branches with relative abundance 0:5= T¼ 0:125; 3.5 branches with rela-tive abundance 0:2= T¼ 0:05; 1 branch with relative abundance 0:3= T¼ 0:075 and 2 branches with relative abundance 0:5= T¼ 0:125.

3602 A. Chao et al. Phylogenetic diversity measures

Phil. Trans. R. Soc. B (2010)

on October 31, 2010 rstb.royalsocietypublishing.org

Downloaded from

Figure 8.2 – Arbre phylogénétique hypothétique non ultramétrique.a

aChao et al. (2010). « Phylogene-tic diversity measures based on Hill numbers », cf. note 48, p. 61, figure 1b.

10Ibid.

11Pavoine et Bonsall (2009). « Biological diversity : Distinct distributions can lead to the maximi-zation of Rao’s quadratic entropy », cf. note 63, p. 117.

12Leinster et Cobbold (2012). « Measuring diversity : the impor-tance of species similarity », cf. note 112, p. 51.

8.4 Diversité individuelle

La construction de la diversité fonctionnelle ou phylogénétique n’implique pas de regrouper les individus par espèces : chaque catégorie peut se réduire à un individu si des données individuelles moléculaires ou de traits sont disponibles.

Le regroupement des individus en une espèce revient simple-ment à considérer leur distance comme nulle. Diviser une espèce en deux espèces infiniment proches revient seulement à créer une période supplémentaire dans l’arbre, de longueur infinitésimale ; en d’autres termes, la mesure de diversité est continue face au re-groupement. Cette propriété permet de limiter les conséquences du problème de l’espèce : séparer les individus d’une espèce en deux espèces proches dans l’arbre n’a que peu d’effet sur la diversité.

8.5 Arbres non ultramétriques

Chao et al.10 définissent la diversité phylogénétique selon l’équa-tion (8.3) quelle que soit la forme de l’arbre, y compris s’il n’est pas ultramétrique. Dans ce cas, T est remplacé par ¯T , la longueur

moyenne des branches pondérée par la fréquence des espèces. Cette généralisation est très discutable : son sens n’est pas clair sur le plan de la mesure de la diversité au-delà du parallélisme de la forme mathématique.

L’arbre de la Figure 8.2 peut être découpé en périodes mais les deux premières (T1 : seule l’espèce 2 est présente ; T2 : les espèces 1 et 2 sont présentes) sont incomplètes au sens où la somme des probabilités n’y est pas égale à 1 donc (P

pqi)1−q1 ne définit pas une diversité à ces périodes.

Pavoine et Bonsall11 traitent en détail les résultats aberrants que cause un arbre non ultramétrique dans le cas particulier de l’entropie de Rao. Leinster et Cobbold12 montrent qu’un arbre non ultramétrique implique que la dissimilarité entre les espèces dépende de leur fréquence, ce qui est contradictoire avec le cadre dans lequel la diversité phylogénétique a été définie.

Dans l’état actuel des connaissances, aucune méthode n’est applicable de façon satisfaisante aux arbres non ultramétriques.

1T. Leinster (2013). « The Ma-gnitude of Metric Spaces ». In :

Docu-menta Mathematica 18, p. 857-905.

2Leinster et Cobbold (2012). « Measuring diversity : the impor-tance of species similarity », cf. note 112, p. 51.

3Ibid.

4G. H. Hardy et al. (1952).

Inequalities. Cambridge University Press.

Chapitre 9

Dans le document Mesures de la Biodiversité (Page 130-136)