• Aucun résultat trouvé

Autres fonctions plus génériques dans la littérature

3.2 État de l’art pour les données ponctuelles

3.2.3 Autres fonctions plus génériques dans la littérature

ture

Toutes les fonctions présentées ci-dessus imposent une hypothèse d’ho- mogénéité des processus ponctuels. Identifier les interactions sous une hy- pothèse de non-homogénéité est une question toujours d’actualité malgré les différentes tentatives proposées jusqu’à présent. La première de ces mé- thodes, la fonction D proposée par Diggle et Chetwynd [1991], est défi- nie comme étant la différence entre la fonction K estimée sur les événe- ments (nommés cases) et la fonction K décrivant d’autres points (nommés controls). Cette mesure n’est pas entièrement satisfaisante du fait que les deux fonctions K sont calculées séparément et donc que les informations contenues dans les positions relatives des cases et des controls ne sont pas prises en compte.

Une autre tentative plus récente est proposée parBaddeley et al.[2000]. Ils généralisent la fonction K pour les processus ponctuels non homogènes mais cette méthode n’est pas très utilisée puisqu’elle impose d’estimer lo- calement l’intensité du processus avec des fonctions noyaux. De ce fait, des hypothèses sont nécessaires quant aux échelles de l’hétérogénéité et des interactions. Or des choix erronés peuvent entraîner des résultats contra- dictoires avec la réalité, comme le souligne Diggle et al. [2007].

Marcon et Puech [2010] ont proposé une fonction cumulative permet- tant d’étudier plusieurs processus ponctuels relativement les uns par rap- port aux autres sans imposer d’hypothèse d’homogénéité. La fonction M observe le rapport de voisins du type d’intérêt sur le nombre total de voi- sins. Elle donne la fréquence relative de voisins d’un certain type jusqu’à chaque distance considérée et compare cette fréquence à celle de tous les points, indépendamment de leurs types, à cette même distance :

∀r ∈ R+, ˆM (r) = N − 1 Nc(Nc − 1) Nc X i=1 PNc j=1,j6=i1kxcj − xcik ≤ r PN l=1,xl6=xci 1{kxl− xc ik ≤ r} , (3.13)

ment le nombre d’événements appartenant à ce processus et le nombre total d’événements dans la fenêtre d’observation, x est un événement d’un type quelconque et xc un événement du type d’intérêt. Dans le contexte

des images histologiques, cette fonction présente l’avantage de pouvoir étu- dier les relations entre plusieurs populations de cellules sans imposer une hypothèse d’homogénéité, qui n’est pas toujours évidente pour toutes les populations présentes. De plus, puisque c’est une mesure relative, elle n’est pas affectée par l’effet de bord.

3.2.4

Effet de bord et correction

Un problème récurrent des statistiques spatiales est celui de l’effet de bord qui est dû au fait que les processus ponctuels sont analysés unique- ment à l’intérieur d’une fenêtre d’observation. Une telle fenêtre correspond à une surface limitée qui peut être de forme et de taille variables. Les voi- sins d’un événement ayant lieu à proximité des bordures de la fenêtre vont être situés en dehors de la région observée impliquant que les distances entre un tel événement et son voisinage ne peuvent pas être évaluées avec certitude. En conséquence, les fonctions de distributions ne peuvent pas être estimées sans un certain biais introduisant ainsi un effet de bord.

Plusieurs méthodes ont été proposées afin de corriger cet effet, et peuvent être regroupées en deux catégories. Celles qui suppriment les bordures et celles qui opèrent une pondération permettant de prendre en compte la présence d’événements en dehors de la fenêtre d’observation. Cependant, les méthodes définissant une pondération ne sont pas génériques et chaque fonction statistique doit, selon sa définition, adapter le facteur de pondé- ration. Il a été montré parBarot et al. [1999] que la correction de l’effet de bord améliore plus les performances statistiques de la fonction K que celle des autre types de distances. Pour cela, les méthodes avec pondération sont discutées par la suite uniquement pour la fonction de Ripley.

Une comparaison empirique des méthodes de correction de l’effet de bord appliquées à l’estimation de la fonction K peut être trouvée dans les travaux de Yamada et Rogerson [2003].

Zone tampon

Cette première méthode de correction de l’effet de bord présente le double avantage d’être générique et utilisable sur toutes les formes pos- sibles de fenêtres d’observation. Elle consiste en la définition d’une zone tampon à l’intérieur ou à l’extérieur de la région observée. Les événements

contenus dans cette zone ne sont utilisés qu’en tant que voisinage. Typi- quement, les zones tampons ont une largeur égale à la plus grande valeur de distance employée dans l’analyse. Une zone tampon intérieure permet d’éviter toutes formes de biais mais entraîne la perte d’informations d’au- tant plus grande que la distance étudiée est importante. À l’opposé, la version extérieure de cette méthode n’est réalisable que si des données en dehors de la fenêtre d’observation sont accessibles. Malgré ces défauts, cette technique est la seule à permettre de n’utiliser que des événements existant lors de l’estimation des statistiques spatiales tout en étant simple à mettre en œuvre.

Correction toroïdale

Cette deuxième approche générique de correction suggère de faire l’hy- pothèse que les bordures de la fenêtre d’observation sont connectées à celles qui leurs sont opposées, considérant donc que la région étudiée a la forme d’un tore. Puisque cette méthode se base sur la présomption que le proces- sus ponctuel à l’extérieur de la fenêtre d’observation est le même que celui à l’intérieur, elle intègre un risque potentiel de biais, notamment lorsqu’un agrégat est présent proche de la bordure de la région étudiée. Ainsi, avant d’utiliser cette méthode, il convient de s’assurer que le phénomène étudié satisfait cette hypothèse. De plus, cette technique ne peut être appliquée que pour des fenêtres d’observation de forme rectangulaire. En pratique, elle est réalisée simplement en entourant la fenêtre de base par huit copies identiques et de n’utiliser les points à l’intérieur des duplicatas uniquement en tant que voisinage.

Pondération de Ripley

En parallèle à la méthode permettant d’estimer la fonction K sur une fenêtre d’observation, Ripley [1977] propose une correction de l’effet de bord appropriée et spécifique pondérant les paires d’événements selon leurs positions relatives. Le poids ωxixj pour une paire d’événements xi et xj est

défini comme l’inverse de la proportion de la circonférence C d’un cercle centré sur xi et passant par xj, ci-après noté δb(xi, kxi−xjk), qui est incluse

dans la fenêtre d’observation Ω :

ωxixj =

Cδb(xi,kxi−xjk)

Cδb(xi,kxi−xjk)∩Ω

La fonction K estimée ainsi corrigée, avec les mêmes notations que l’équa- tion 3.10, est donc définie comme :

∀r ∈ R+, ˆK(r) = 1 |Ω|ˆλ2 N X i=1 N X j=1,j6=i ωxixj × 1 {kxi− xjk ≤ r} . (3.15)

Cette correction permet d’éviter le biais causé par l’effet de bord lorsque la plus grande distance prise en compte est plus petite que le rayon du cercle inscrit dans la fenêtre d’observation. Cependant, elle ne prend en compte que la distance entre la paire d’événements et les bords de la fenêtre d’observation et non sa forme à proximité des événements.

Pondération de Besag

Sur le même principe que la correction de Ripley, celle de Besag[1977] pondère les paires d’événements par le rapport entre l’aire du disque cor- respondant au voisinage et celle de sa portion incluse dans la fenêtre d’ob- servation. Elle suppose donc que la portion du disque à l’extérieur de la région étudiée contient la même intensité de voisins que la portion à l’in- térieur. En reprenant les notations de l’équation 3.10, la fonction K avec la correction de Besag se note donc :

∀r ∈ R+, ˆK(r) = 1 |Ω|ˆλ2 N X i=1 N X j=1,j6=i πr2 |δb(xi, r) ∩ Ω| × 1 {kxi − xjk ≤ r} , (3.16) où δb(xi, r) est le disque de centre xi et de rayon r. La correction de Besag

intègre les avantages de celle de Ripley mais prend également en compte la forme de la fenêtre d’observation.