• Aucun résultat trouvé

Unification des outils de caractérisation des processus ponctuels

L’objectif de cette conclusion du chapitre sur les statistiques spatiales continues est d’établir une classification des différentes fonctions dans un cadre commun applicable à g, K, ginhom, Kinhom, Kd, O et M.

La première étape de la construction de la statistique consiste à compter les voi- sins d’un point, à la distance 𝑟 ou jusqu’à la distance 𝑟, définissant selon le cas des fonctions de densité (g, ginhom, Kd et O) ou des cumulatives (K, Kinhom, et M).

Ces nombres de voisins sont ensuite comparés à une mesure de référence. Cette mesure est la surface du cercle (ou de la couronne) ou encore le nombre de voisins de tous types confondus. Selon la typologie fixée par Brülhart et Traeger (2005) :

Les statistiques topographiques utilisent l’espace comme mesure de réfé- rence : le nombre de voisins est divisé par divisé par la surface du cercle ou cercle (ou de la couronne). g, K, ginhom, Kinhom, , et O sont concernés.

Les statistiques relatives comparent le nombre de voisins à un autre nombre de voisins : le nombre de cas est divisé par le nombre de voisins de tous types, cas et contrôles. C’est le cas de M.

Les statistiques absolues n’ont pas de valeur de référence. Kd est une fonc-

tion absolue à ce stade.

Fonction Comptage autour de 𝒙𝒊 Observations

𝑲�(𝒓) (𝝅𝒓 𝟐) 𝑲�𝒊𝒏𝒉𝒐𝒎(𝒓) (𝝅𝒓⁄ 𝟐) 𝑣(𝑥𝑖, 𝑟) = � 𝟏��𝑥𝑖− 𝑥𝑗� ≤ 𝑟�𝑐(𝑖, 𝑗, 𝑟) 𝜋𝑟2𝜆̂�𝑥𝑗 𝑛(𝐴) 𝑗=1,𝑖≠𝑗

Le nombre de voisins est corri- gé des effets de bord et com- paré au nombre de voisins attendus 𝒈�(𝒓) 𝒈�𝒊𝒏𝒉𝒐𝒎(𝒓) 𝑶�(𝒓) 𝑣(𝑥𝑖, 𝑟) = � 𝑘��𝑥𝑖 − 𝑥𝐽�, 𝑟�𝑐(𝑖, 𝑗, 𝑟) 2𝜋𝑟𝜆̂�𝑥𝑗� 𝑛(𝐴) 𝑗=1,𝑖≠𝑗

Idem, mais le nombre de voi- sins est estimé par un noyau.

𝑲𝒅(𝒓) 𝑣(𝑥𝑖, 𝑟) = � 𝑘��𝑥𝑖 − 𝑥𝐽�, 𝑟� 𝑛(𝐴)

𝑗=1,𝑖≠𝑗

Le nombre de voisins est esti- mé par un noyau, mais n’est comparé à rien. 𝑴� (𝒓) 𝑣(𝑥𝑖, 𝑟) =∑ 𝟏��𝑥𝑖 𝑐 − 𝑥 𝑗𝑐� ≤ 𝑟�𝑤�𝑥𝑗𝑐� 𝑛𝑐(𝐴) 𝑗=1,𝑖≠𝑗 ∑ 𝟏��𝑥𝑖𝑐− 𝑥 𝑗� ≤ 𝑟�𝑤�𝑥𝑗� 𝑛(𝐴) 𝑗=1,𝑖≠𝑗

Le nombre de cas voisins est comparé au nombre de tous les voisins.

Tableau 2 : Estimation du nombre de voisins par les fonctions de mesure de la concentration spatiale.

La valeur obtenue autour de chaque point (Tableau 2) est ensuite moyennée sur l’ensemble des points (Tableau 3). Pour les fonctions géographiques, chaque point reçoit un poids inverse à l’intensité du processus autour de lui pour assurer un échantillonnage uniforme de l’espace. Chaque point reçoit le même poids dans Kd,

Fonction Moyenne pour tous les 𝒙𝒊 Observations 𝑲�(𝒓) (𝝅𝒓 𝟐) 𝑲�𝒊𝒏𝒉𝒐𝒎(𝒓) (𝝅𝒓⁄ 𝟐) 𝒈�(𝒓) 𝒈�𝒊𝒏𝒉𝒐𝒎(𝒓) 𝑶�(𝒓) 𝑣̅(𝑟) = �𝑣(𝑥𝑖, 𝑟) 𝜆̂(𝑥𝑖) 𝑛(𝐴) 𝑖=1

La moyenne est inversement pondérée par l’intensité locale du processus pour assurer un échantillonnage homogène de l’espace.

𝑲𝒅(𝒓)

𝑣̅(𝑟)

= 𝑛(𝐴) � 𝑣1 (𝑥𝑖, 𝑟) 𝑛(𝐴)

𝑖=1

La moyenne n’est pas pondérée.

𝑴� (𝒓) 𝑣̅(𝑟) = 𝑛 1 𝑐(𝐴) � 𝑣(𝑥𝑖, 𝑟) 𝑛𝑐(𝐴) 𝑖=1

La moyenne n’est pas pondérée.

Tableau 3 : Moyenne du nombre de voisins.

La dernière étape est la normalisation. La valeur attendue est 1 en cas d’indépendance des points pour 𝐾�(𝑟) (𝜋𝑟 2), 𝐾�

𝑖𝑛ℎ𝑜𝑚(𝑟) (𝜋𝑟⁄ 2), 𝑔�(𝑟), 𝑔�𝑖𝑛ℎ𝑜𝑚(𝑟) et

𝑀�(𝑟). Seul 𝑀�(𝑟) nécessite une normalisation par le rapport du nombre de cas sur le nombre total de points. 𝑂�(𝑟) est multiplié par 𝑛(𝐴) 𝐴⁄ pour atteindre sa valeur attendue égale à 𝜆. Enfin, 𝐾𝑑(𝑟) est divisé par 𝑛(𝐴)(𝑛(𝐴) − 1) pour que son inté-

grale soit égale à 1.

Les simulations de l’hypothèse nulle permettent de pallier les manques de la formulation analytique :

Kd ne prend en compte aucune référence à la distribution totale de l’emploi

(à laquelle la distribution d’un secteur économique est comparée), ni la concentration industrielle qu’elle cherche à contrôler. C’est la redistribu- tion des points dans le cadre de l’hypothèse nulle qui permet de donner un sens aux résultats, pas la valeur de la statistique. La comparaison de Kd à

son hypothèse nulle fournit un test de concentration relative pour des se- mis de points hétérogènes.

M permet d’attribuer un poids aux points, mais ne fournit pas de correc- tion pour ramener sa valeur de référence (en cas d’indépendance des points) à 1 en cas de forte structuration de la taille des points. C’est le rôle des simulations de l’hypothèse nulle, qui redistribue les points avec leurs poids d’origine.

La statistique O ne prend pas en compte l’hétérogénéité du processus. Sa valeur peut être comparée à celles d’un processus hétérogène simulé, pour détecter la dépendance entre les points.

• Dans tous les cas, le modèle nul est un processus de Poisson. La valeur de

g, celle de 𝐾 (𝜋𝑟 2), celles de leurs versions inhomogènes, ou celle de M sont

attendues à 1 dans ce cas. Pour rejeter l’hypothèse nulle d’un processus dépendant, comme un Strauss, les simulations sont le bon outil.

• Si l’on cherche à caractériser les propriétés du processus, et notamment la fonction g, la fonction M surpondère les points des zones denses. Si l’on cherche en revanche à caractériser le comportement des individus (choix de localisation,…), l’absence de pondération est plus appropriée.

La littérature statistique traite principalement des processus ponctuels homo- gènes, qui traitent le cas topographique. Les méthodes permettant de traiter des processus inhomogènes sont encore en cours de développement : l’estimation de l’intensité du processus en tout point ne pose pas de difficulté technique mais des problèmes méthodologiques.

La mesure de la concentration relative est nécessaire dans la plupart des applica- tions économiques. C’est ce qui a motivé le développement de nouveaux outils, dont Kd et M. L’application de M en écologie est moins immédiate qu’en économie.

En économie géographique, la question à traiter typiquement est celle de la structuration spatiale de la distribution des emplois, supposée agrégative en rai- son d’externalités positives (Marshall, 1890 ; Weber, 1909 ; Krugman, 1991). La distribution totale de l’emploi est très hétérogène, les indices de concentration géographique sont peu pertinents (Marcon et Puech, 2003), mais les indices rela- tifs à cette distribution totale permettent de détecter l’agrégation ou la répulsion de certains secteurs économiques (Combes et Overman, 2004 ; Duranton et Overman, 2005 ; Marcon et Puech, 2010). Si on s’intéresse à la structure spatiale d’un peuplement forestier, utiliser une fonction relative revient à caractériser la structure spatiale d’une espèce en contrôlant l’hétérogénéité par la distribution de l’ensemble des espèces. Cette méthode a un sens si l’espèce en question a une distribution possible équivalente à celle de l’ensemble des autres. Si ce n’est pas le cas, le semis de points de contrôle doit être adapté : par exemple, l’ensemble des espèces pionnières pour caractériser la structure d’une espèce pionnière. Cette démarche est en pratique assez difficile et les résultats peuvent être aussi discutables que ceux obtenus en assumant l’homogénéité du processus.

Les connaissances mathématiques sur les processus homogènes sont très avan- cées. De nombreux résultats théoriques existent, les propriétés de g et de K sont bien connues, y compris leur variance et même les valeurs critiques de K établies

truits sur une base empirique. Les valeurs de Kd calculées à partir des données

sont d’ailleurs les indices eux-mêmes, et non les estimateurs de fonctions venant de la théorie sur les processus ponctuels. Le cas de M est intermédiaire.

Enfin, il existe un débat sur l’intérêt comparé des fonctions de densité et des cu- mulatives (Wiegand et Moloney, 2004 ; Law et al., 2009 ; Marcon et Puech, 2010) qui selon les circonstances, peuvent donner des résultats plus clairs.

Au final, le praticien dispose d’une boîte à outils assez complète, mise à jour régu- lièrement dans la littérature écologique (Fortin et Dale, 2005 ; Illian et al., 2008 ; Law et al., 2009) qui ignore cependant encore largement les indices relatifs. Une approche pratique de la caractérisation des structures spatiales est présentée en conclusion générale de ce travail (page 109).