• Aucun résultat trouvé

Considérons maintenant les probabilités 𝑞𝑖 formant l’ensemble 𝒬 obtenues par la

réalisation de l’expérience. Elles sont différentes des probabilités 𝑝𝑖, par exemple

parce que l’expérience ne s’est pas déroulée exactement comme prévu. On définit le gain d’information 𝐼(𝒬, 𝒫) comme la quantité d’information supplémentaire fournie par l’expérience, connaissant les probabilités a priori. Ce gain d’information peut être vu comme une distance entre la distribution a priori et la distribution a posteriori. Il est possible que les distributions 𝒫 et 𝒬 soit iden- tiques, que le gain d’information soit donc nul, mais les estimateurs empiriques n’étant pas exactement égaux entre eux, des tests de significativité de la valeur de 𝐼̂(𝒬, 𝒫) seront nécessaires.

Quelques formes possibles de 𝐼(𝒬, 𝒫) sont :

• La divergence de Kullback-Leibler (1951) connue par les économistes comme l’indice de dissimilarité de Theil (1967) :

𝑇 = � 𝑞𝑠ln𝑞𝑝s s 𝑆

s=1 (67)

• Sa proche parente, appelée parfois deuxième mesure de Theil (Conceição et Ferreira, 2000, p. 34), qui inverse simplement les rôles de 𝑝 et 𝑞 :

𝐿 = � 𝑝𝑠ln𝑝𝑞𝑠 𝑠 𝑆

𝑠=1 (68)

L’entropie généralisée (Maasoumi, 1993), d’ordre 𝛾 :

𝐼𝛾(𝒬, 𝒫) =𝛾(𝛾 + 1) ��1 𝑞𝑠�𝑞𝑝𝑠 𝑠�

𝛾 𝑆

𝑠=1 − 1� (69)

Un calcul similaire à celui de la page 88 permet de montrer que 𝑇 = 𝐼0 et 𝐿 = 𝐼−1.

L’entropie généralisée de Brülhart et Traeger est un cas particulier de 𝐼𝛾 dans

lequel les probabilités a priori sont égales (il suffit d’écrire 𝑝𝑠 =1𝑆 , 𝑞𝑠 = 𝑥𝑦�𝑦𝑠 et

𝛼 = 𝛾 + 1 pour retrouver l’équation (66)).

L’indice d’inégalité des revenus de Theil est un cas particulier de l’indice de dis- similarité. On considère l’ensemble des revenus 𝑦. La probabilité a priori qu’un

quence observée a posteriori est 𝑞𝑖 = 𝑦𝑖⁄(𝐼𝑦�), la part de la région en termes de revenu. Démonstration : 𝑇� = �𝐼𝑦� ln𝑦𝑖 𝑦𝑖 𝐼𝑦� � 1 𝐼 � 𝐼 𝑖=1 =1𝐼 �𝑦𝑦� ln𝑖 𝑦𝑦�𝑖 𝐼 𝑖=1

Unification

On s’intéresse à des données discrètes, qui présentent des effectifs (par exemple des nombres d’arbres) par catégorie (espèces) localisés dans des zones (placettes forestières). Les catégories peuvent être regroupées (les espèces par genre puis par famille, les placettes par parcelle puis par forêt).

Forêt 𝑘 Total

Parcelle 𝑗 Parcelle 𝑗 + 1 Placette 𝑖 Placette

𝑖 + 1 Placette 𝑖 + 2 … Famille 𝑢 Genre 𝑡 Espèce 𝑠 𝑦𝑠𝑖 𝑦𝑠+

Espèce 𝑠 + 1 Genre 𝑡 + 1 Espèce 𝑠 + 2 … Total 𝑦+𝑖 𝑦

Tableau 4 : probabilités attendues et distributions observées.

Le tableau sera appelé par la suite : « tableau espèces-placettes ». On note :

𝑦𝑠𝑖 le nombre d’arbres de l’espèce 𝑠 dans la placette 𝑖, 𝑦+𝑖 est le nombre d’arbres de la placette 𝑖, toutes espèces confondues. 𝑦𝑠+ est le nombre

d’arbres total de l’espèce 𝑠.

𝒥1 = {1,2, … , 𝐼1}, … , 𝒥𝑗 = �𝐼𝑗−1+ 1, … , 𝐼𝑗�, … , 𝒥𝐽 = �𝐼𝐽−1+ 1, … , 𝐼𝐽� l’ensemble des placettes appartenant à la parcelle 𝑗 et 𝒯𝑡 l’ensemble des espèces du genre

𝑡. 𝐽 est le nombre de parcelles, 𝐼𝑗 est l’indice de la dernière placette de la

parcelle 𝑗 et donc 𝐼𝐽 = 𝐼.

𝒦1 = {1,2, … , 𝐽1}, … , 𝒦𝑘 = {𝐽𝑘−1+ 1, … , 𝐽𝑘}, … , 𝒦𝐾 = {𝐽𝑘−1+ 1, … , 𝐽𝐾} l’ensemble des parcelles appartenant à la forêt 𝑘 et 𝒰𝑢 l’ensemble des genres de la fa-

mille 𝑢.

Les effectifs 𝑦𝑠𝑖 sont observés. Ils vont permettre d’estimer les probabilités 𝒫 et 𝒬.

Par exemple, si on s’attend à une distribution dans laquelle la probabilité qu’un individu se trouve dans une placette est proportionnelle à l’importance de la pla- cette et de l’espèce, 𝑝𝑠𝑖 sera estimé par 𝑝̂𝑠𝑖 = 𝑦+𝑖𝑦𝑠+� . Cette valeur n’est qu’un 𝑦2

estimateur de la probabilité parce que 𝑦+𝑖, 𝑦𝑠+ et 𝑦 sont des estimateurs des

tailles inconnues de la placette, de l’espèce et la communauté, obtenus en som- mant les 𝑦𝑠𝑖, tirages de variables aléatoires 𝑌𝑠𝑖 dépendant de ces tailles.

Dans un premier temps, nous ne nous intéressons qu’à une espèce 𝑠 sur l’ensemble des placettes, ou à l’ensemble des espèces sur une placette 𝑖. En d’autres termes, on ne dispose que des données de la première ligne et de la pre- mière colonne du tableau.

L’approche classique en écologie consiste à utiliser l’indice de Shannon pour me- surer la biodiversité sur la placette 𝑖. La probabilité qu’un individu soit de l’espèce 𝑠 est estimée par 𝑦𝑠𝑖

𝑦+𝑖, d’où : 𝐻� = − ∑ 𝑦𝑠𝑖 𝑦+𝑖ln 𝑦𝑠𝑖 𝑦+𝑖 𝑆 𝑠=1 .

Il s’agit d’une mesure absolue au sens de Brülhart et Traeger (2005) : elle ne dé- pend d’aucune référence extérieure comme les effectifs relatifs des espèces con- nus a priori. Ses valeurs extrêmes sont 0 si tous les arbres sont de la même es- pèce et 𝑙𝑛𝑆 si les effectifs des espèces sont égaux.

La même méthode peut être utilisée pour mesurer la concentration spatiale abso- lue des arbres d’une espèce : 𝐻�′ = − ∑ 𝑦𝑠𝑖

𝑦𝑠+ln

𝑦𝑠𝑖

𝑦𝑠+

𝐼

𝑖=1 . Cette mesure n’est jamais utili-

sée en écologie.

L’indice de Shannon et 𝐻′ sont des cas particuliers de l’indice de Theil. En terme de diversité, si les probabilités a priori des espèces sont égales (𝑝𝑠 = 1 𝑆⁄ ) :

𝑇� = �𝑦𝑦𝑠𝑖 +𝑖ln 𝑦𝑠𝑖 𝑦 +𝑖 � 1 𝑆 � 𝑆 𝑠=1 = �𝑦𝑦𝑠𝑖 +𝑖ln 𝑦𝑠𝑖 𝑦+𝑖 𝑆 𝑠=1 + ln𝑆 = ln𝑆 − 𝐻� (70)

𝑇� = �𝑦𝑦𝑠𝑖 𝑠+ln 𝑦𝑠𝑖 𝑦 𝑠+ � 1 𝐼 � 𝐼 𝑖=1 = �𝑦𝑦𝑠𝑖 𝑠+ln 𝑦𝑠𝑖 𝑦𝑠+ 𝑥 𝑖=1 + ln𝐼 = ln𝐼 − 𝐻�′ (71) En conclusion, l’approche la plus générale est l’indice de dissimilarité de Theil (67)), qui compare une probabilité observée à une probabilité attendue. Sa forme a été établie pour la première fois par Kullback et Leibler (1951). Il ne s’agit pas vraiment d’une distance entre les distributions de probabilités parce qu’il n’est pas symétrique (les rôles de p et 𝑞 ne sont pas interchangeables).

En termes de diversité par exemple, il est égal à la différence entre le logarithme du nombre d’espèces et l’indice de Shannon si les probabilités attendues sont les mêmes pour toutes les espèces. L’indice de Shannon est compris entre 0 (concen- tration maximale) et 𝑙𝑛𝑆 (équirépartition) ; l’indice de Theil varie entre les mêmes bornes en sens inverse, donc en sens inverse de la diversité (il mesure l’écart à la diversité maximale) : il mesure la spécialisation des zones géographiques, notion familière aux économistes (Houdebine, 1999 par exemple).

En statistiques spatiales, les données seront des effectifs d’arbres d’une espèce dans différentes placettes. L’indice 𝐻′ évalue la concentration absolue, sans réfé- rence à l’importance des parcelles. En introduisant une mesure d’importance des placettes 𝑛𝑠𝑖, l’indice de dissimilarité de Theil caractérise la concentration :

Topographique si 𝑛𝑠𝑖 représente la surface des placettes

Relative si 𝑛𝑠𝑖 représente le nombre total d’arbres, toutes espèces confon- dues, dans les placettes.

Cette approche géographique est directement transposable en termes de diversi- té, en utilisant les colonnes au lieu des lignes du tableau. L’indice de Shannon est la mesure classique de la diversité, absolue au sens où elle considère toutes les espèces comme équiprobables a priori. L’indice de dissimilarité de Theil mesure l’écart entre une distribution observée et une distribution attendue, par exemple la fréquence des espèces d’une communauté plus grande : on peut parler de di- versité relative. Il n’y a pas d’équivalent pour la diversité de la concentration géographique.

Décomposition

Bourguignon (1979) définit une mesure d’inégalité décomposable comme respec- tant les propriétés suivantes :

• La population totale étant partitionnée, chaque partition recevant un poids, la composante intra-groupe de la mesure est égale à la somme pon- dérée des mesures dans chaque-groupe.

• La composante intergroupe est la mesure d’inégalité entre les groupes. • La mesure totale est la somme des mesures intra et intergroupes.

Bourguignon montre que l’indice de Theil est la seule mesure décomposable, ho- mogène de degré 0 et dont la somme des poids vaut 1.

Cutrini (2009) applique l’indice de Theil à un tableau de données dont les lignes sont des localisations emboîtées (régions dans pays) et les colonnes de secteurs d’activité économique. Il s’agit donc d’une version simplifiée (et transposée) du tableau espèces-placettes. Elle définit un indice de localisation globale égal à la fois à la somme des indices de concentration spatiale de tous les secteurs et à la somme des indices de spécialisation de toutes les régions. Cette approche peut être généralisée et les calculs simplifiés.