• Aucun résultat trouvé

D´etection d’agr´egats en ´epid´emiologie animale : ob-

7.3 Approche bay´esienne pour la d´etection des structures

7.3.1 D´etection d’agr´egats en ´epid´emiologie animale : ob-

Nous avons utilis´e cette m´ethodologie pour d´etecter des agr´egats dans des donn´ees d’´epid´emiologie animale [T16]. Ces donn´ees sont pr´esent´ees dans la partie 3.2. Dans une fenˆetre W, nous observons une population de points qui sont les positions des fermes sur le territoire fran¸cais et leur score de sus-ceptibilit´e de maladie. Un agr´egat est vu comme une r´egion dans laquelle un ensemble de fermes g´eographiquement proches, ont tendance `a avoir un score

important. L’ensemble des agr´egats est approxim´e par une configuration de disques de rayon al´eatoire que l’on mod´elise par la densit´e de probabilit´e d’un processus ponctuel marqu´ep(x|θ). Ce processus sp´ecifie le positionne-ment des disques dans le champ de donn´ees ainsi que leur position relative au moyen d’un terme d’´energie d’attache aux donn´ees (3.10) et d’un terme d’´energie d’interaction (3.11).

La fenˆetre d’observation est le rectangle minimum qui contient la position de toutes les fermes, c’est `a direW = [0,317]×[0,318]. Le rayon des disques est choisi dans l’intervalle [1,10]. Dans les deux cas, l’unit´e de longueur repr´esente 3km dans le monde r´eel.

L’´energie d’attache aux donn´ees (3.10) est construite en effectuant un test de Student sur le score des maladies des fermes couvertes par un disque donn´e. Ce test v´erifie si la moyenne des scores de ces fermes est plus grande qu’une valeur seuil pr´efix´eed0 = 3.75. Un disque doit ´egalement couvrir un nombre minimum de fermesn0 = 4. En g´en´eral, les disques de grand rayon ont moins de chance d’ˆetre accept´es que ceux de petit rayon. Ceci s’explique par la nature de la maladie (la mammite bovine) qui fait que les disques recouvrant un grand nombre de fermes ont beaucoup plus de chance d’ˆetre rejet´es par le test de Student. Les grands disques sont plus souvent accept´es s’ils se situent dans une r´egion d´ej`a couverte de petits disques. En mˆeme temps, la trop grande pr´esence de petits disques augmente le coˆut calcu-latoire de la m´ethode. L’utilisation simultan´ee de grands et petits disques diminue les effets de lissage. Il y a donc un compromis `a trouver. A d´efaut d’avoir une connaissance a priori de ce param`etre, nous lui avons attribu´e une loi uniforme.

Le vecteurθne contient que des param`etres de l’´energie d’interaction (3.11).

Nous avons θ = (logγa,logγo) d´efini sur l’espace des param`etres Θ = [0,0.5]×[−0.1,0]. Le param`etre du mod`ele d’interaction par aire est fix´e afin que les grands disques isol´es soient fortement p´enalis´es. Le param`etre du mod`ele de Strauss n’est pas trop fort, permettant ainsi aux disques de se superposer. Cependant, si le nombre de superpositions de disques est impor-tant, tout nouveau disque sera fortement p´enalis´e. L`a encore, nous n’avons pas de connaissance a priori sur le poids de chacune de ces composantes. Par cons´equent, nous leur attribuons `a chacun une loi a priori uniforme p(θ).

Le recuit simul´e a ´et´e lanc´e pour maximiser p(x, θ) et ainsi d´etecter les agr´egats d’un jeu de donn´ees repr´esentant un ensemble de fermes en 1996.

La Figure 7.6a montre le r´esultat obtenu. La configuration des disques fait apparaitre un agr´egat central au milieu de la France et quelques agr´egats plus petits autour.

La position des fermes est donn´ee par le centre de la commune `a laquelle les fermes appartiennent. Un point sur la carte peut donc repr´esenter la posi-tion de plusieurs fermes. Par cons´equent, l’interpr´etaposi-tion visuelle du r´esultat n’est pas possible. Cet argument ainsi que la nature de la solution propos´ee justifient le calcul de probabilit´es de contact pour v´erifier la ”fiabilit´e” des agr´egats. Pour cela, la fenˆetre d’observation a ´et´e divis´ee en cellules de mˆeme surface 9km2. Pour chaque cellule la probabilit´e (7.14) a ´et´e calcul´ee. Nous obtenons ainsi une carte des visites du mod`ele qui est repr´esent´ee en Fi-gure 7.6b.

a) 0 50 100 150 200 250 300 350

50 100 150 200 250 300

b) 0 50 100 150 200 250 300

50

100

150

200

250

300

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Figure 7.6 – a) Configuration de disques (zones rouges) indiquant la pr´esence d’agr´egats dans les donn´ees de l’ann´ee 1996 : les fermes sont r´eparties sur presque tout le territoire de la France (r´egion bleue) ; b) Les r´egions les plus visit´ees par le mod`ele indiquant la ”force” de chaque agr´egat.

Le r´esultat de la d´etection et la carte des visites du mod`ele sont conjoin-tement interpr´et´es. Les petits agr´egats sont peu importants car leur proba-bilit´e de contact varie entre 0.3 et 0.6. Une exception notable est l’agr´egat au point (150,150) qui a une probabilit´e de contact sup´erieure `a 0.9. Dans cette optique, il r´esulte que l’agr´egat le plus important est celui du point (175,175).

Les cartes des visites du mod`ele r´eduisent donc le ”bruit” de notre m´ethode et permettent de se prononcer plus facilement sur la qualit´e de la d´etection.

Cependant cette technique n’est pas une m´ethode de validation `a propre-ment parler car nous sommes toujours sous l’hypoth`ese du mod`ele et tous les calculs sont locaux. A ce stade, cette technique n’est juste qu’un outil efficace de visualisation.

7.3.2 D´etection de filaments galactiques : obtention d’une