• Aucun résultat trouvé

Pr´esentation des donn´ees et formulation du probl`eme 47

3.2 Mod´elisation d’agr´egats en ´epid´emiologie animale

3.2.1 Pr´esentation des donn´ees et formulation du probl`eme 47

a une maladie [112, 111].

En Figure 3.7 un ensemble de pointsdest observ´e dans une fenˆetre rectan-gulaireW. Cet ensemble est compos´e de points bleus et blancs, formant une structure en trois agr´egats. Chaque agr´egat induit une r´egion deW. Dans les r´egions d´elimit´ees par une ligne continue, il y a plus de points bleus que des points blancs. Cette situation est invers´ee dans la r´egion d´elimit´ee par une ligne pointill´ee. Cet exemple illustre nos hypoth`eses relatives aux agr´egats :

· agr´egat : c’est un ensemble de points proches et de “mˆemes” propri´et´es statistiques”,

·structure d’agr´egats : c’est un ensemble d’agr´egats.

Par cons´equent, d´etecter des agr´egats signifie soit trouver l’ensemble de points dans d qui forment la structure d’agr´egats, soit trouver les caract´e-ristiques g´eom´etriques des r´egions induites par les agr´egats (positions, con-tours, p´erim`etres, surfaces, etc.).

3.2.1 Pr´esentation des donn´ees et formulation du probl`eme Le jeu de donn´ees analys´ees ici est un population de points. Chaque point repr´esente la position d’une ferme en France, dans laquelle l’on ´el`eve des

4. En anglais, on utilise le mot ”cluster”.

W

Figure 3.7 – Un champ de points dans la fenˆetre d’observation W. Le champ observ´e comporte trois agr´egats.

vaches laiti`eres Holstein. La position d’une ferme est donn´ee par le centre de la commune `a laquelle la ferme appartient. A chaque ferme est attach´ee une valeur num´erique positive. Cette valeur est un indicateur annuel de la mastite bovine, pour les vaches de son ´elevage. Plus la valeur est grande, plus la ferme est “malade”. Nous avons analys´e cinq jeux de donn´ees cor-respondant aux ann´ees 1996 jusqu’au 2000 [T16]. Typiquement, les donn´ees d’une ann´ee contiennent `a peu pr`es 30000 fermes enregistr´ees.

La mastite bovine est une maladie qui se transmet d’un animal `a l’autre

`

a l’int´erieur d’un ´elevage, mais qui ne se transmet pas d’une ferme `a une autre. La r´epartition “uniforme” de cette maladie sur tout le territoire ob-serv´e est consid´er´ee comme un ph´enom`ene normal par les sp´ecialistes [62].

L’apparition d’agr´egats serait un indice de mauvaises pratiques et d’hygi`ene d´efectueuse dans les fermes.

La question que l’on se pose est dans quelle mesure le champ des observa-tions poss`ede une structure d’agr´egats ?

Notre choix a port´e sur la mod´elisation de r´egions l`a o`u les points forment des agr´egats. Dans ce contexte, la r´egion cr´e´ee par un agr´egat est suppos´ee avoir les propri´et´es suivantes :

· localement, les points situ´es dans une telle r´egion ont les “mˆemes” pro-pri´et´es statistiques,

·g´eom´etriquement, une telle r´egion peut ˆetre approxim´ee par une union de disques de centre et rayon al´eatoires.

Ce point de vue est illustr´e Figure 3.8. Les agr´egats d’une r´egion sont ap-proxim´es par une configuration de disques al´eatoires susceptibles de se su-perposer. Les disques ne sont situ´es que dans les r´egions deW o`u le nombre de points bleus pr´edomine.

W

Figure3.8 – Une configuration des disques al´eatoires qui couvre une struc-ture d’agr´egats.

Nous faisons l’hypoth`ese que la configuration des disques qui approxime la structure d’agr´egats est la r´ealisation d’un processus ponctuel marqu´e. La r´ealisation d’un tel processus est not´e par x = {(wi, mi), i = 1, . . . , n} o`u wi ∈W repr´esente les positions des centres des disques etmi ∈[rmin, rmax] les rayons associ´ees qui servent de marques. Le cadre de mod´elisation pr´esent´e pr´ec´edemmant peut s’appliquer. Le mod`ele propos´e est un processus ponc-tuel de Gibbs dont la densit´e incorpore un terme d’attache aux donn´ees et un terme d’interaction. Dans ce qui suit, nous pr´esentons les deux compo-santes du mod`ele.

3.2.2 Mod´elisation de l’attache aux donn´ees

Le terme d’attache aux donn´ees,Ud(x|θ) sp´ecifie la position des disques qui forment la structure des agr´egats. Dans le contexte des mammites bovines, nous souhaitons que les disques soient plac´es dans les r´egions o`u l’on trouve beaucoup de fermes de score de maladie ´elev´e.

Nous consid´erons qu’un disque x= (w, m) couvre un nombre suffisamment

´elev´e de fermes si ce nombre, not´end(x), est plus grand qu’une valeur donn´ee n0. Nous d´ecidons que les fermes couvertes par un disque ont un score de

maladie ´elev´e `a l’aide d’un test statistique. Par rapport `a une proc´edure de seuillage, un test statistique prend mieux en compte le comportement de la maladie et donc l’h´et´erog´en´eit´e des donn´ees. Ce test compare la moyenne des scores des fermes couvertes par un disque `a une valeur seuil d0. Soit Wd(x, d0, α) la zone de rejet obtenue en utilisant le test de Student au ni-veauα. Pour un jeu de donn´ees particulier, la valeurd0 retenue est la somme de sa moyenne et de son ´ecart-type empiriques.

Sous ces hypoth`eses, le potentiel d’un disque s’´ecrit

v(x) =1{nd(c)> n0}1{d(c)¯ 6∈Wd(x, d0, α)}[¯d(x)−d0+vmax]−vmax (3.9) o`u ¯d(x) est la moyenne des scores des fermes recouvertes par le disquex et vmaxune valeur pr´efix´ee. La d´efinition de la fonction potentiel (3.9) fait que la densit´e du mod`ele va prendre des valeurs importantes quand les disques sont situ´ees dans des r´egions o`u un grand nombre de fermes pr´esente un score de maladie ´elev´e. Comme pour les cylindres formant un r´eseau de fila-ments, le rˆole du terme vmax est de p´enaliser les disques qui ne remplissent pas tous les crit`eres, sans toutefois les interdire compl`etement. Ce choix de mod´elisation s’inscrit dans une logique de pr´evention forte, car toute r´egion couverte par un disque a une probabilit´e non-nulle d’ˆetre consid´er´ee comme touch´ee par la maladie.

La sommes des potentiels de tous les disques d’une configuration d´efinit le terme d’´energie d’attache aux donn´ees de notre mod`ele, comme

Ud(x|θ) =−

n(x)X

i=1

v(x). (3.10)

En prenant l’exponentielle de cette ´energie (3.10) nous obtenons la premi`ere composante de notre mod`ele de structures d’agr´egats. Cette composante d´efinit un processus de Poisson inhomog`ene (3.2). Ce processus est locale-ment stable.