4.1.1 Conditions d’applications
Dans ce mod`ele, chaque ´ev`enement est mod´elis´e par une variable de Bernoulli de param`etrep.
Ces variables peuvent repr´esenter des individus pr´esentant une pathologie ou non (ex : malade / non malade), ou encore des individus pr´esentant diff´erents type de pathologie, comme par exemple le premier ou dernier stade d’un cancer (ex : stade 1 / stade 4). Il est important de pr´eciser que les donn´ees utilis´ees peuvent refl´eter les cas et contrˆoles d’une population sous-jacente (´echantillon), ou alors la population dans son ensemble (´etude exhaustive). De surcroˆıt, les donn´ees peuvent ˆetre repr´esent´ees sous forme de processus ponctuel marqu´e, la localisation de chaque observation ´etant n´ecessaire, ou alors, sous forme de donn´ees latticielles, les observations, suppos´ees ind´ependantes entre elles, ´etant ainsi agr´eg´ees `a une unit´e spatiale (ex : canton). Dans ce dernier cas, l’unit´e spatiale fait office d’unit´e statistique et par cons´equent le nombre de cas observ´es dans une unit´e spatiale est distribu´e selon une loi binomiale dont les param`etres sont explicit´esinfra.
4.1.2 Mod`ele
Donn´ees ponctuelles. Consid´erons X un processus spatial ponctuel sur D ⊂ R2 de marque m∈K={0,1}`a valeurs dans l’espace d’´etatsE=N. PosonsXA,A∈ Bb(D), la variable al´eatoire qui associe `aAle nombre de cas (m= 1) observ´es etµ(A) le nombre de points (m= 0 oum= 1) observ´es dansA. La variable al´eatoireXA est distribu´ee selon une loi binomialeB(µ(A), p).
Donn´ees latticielles. Consid´eronsDun ensemble discret fix´e,D⊂R2, structur´e par un graphe de voisinage G ={D, A} et muni d’une matrice d’adjacence U = (uij) et d’une matrice de poids W = (wij). Soit X = {Xd, d ∈ D} un processus al´eatoire index´e par D = {d1, d2, ...., dn} et
`a valeurs dans l’espace d’´etats E = N. Dans ce mod`ele, wij est d´efini ici comme la distance euclidienne entre le site di et le sitedj, 1≤i, j,≤n.
∀d∈D, Xd ∼ B(µ(d), p) ou µ(d) correspond au nombre d’´ev`enements observ´es au sein de la localisationd. Par construction,
∀A⊂D ,µ(A) =∑
d∈A
µ(d), et par stabilit´e par la somme de la loi binomiale
XA=∑
d∈A
Xd etXA∼ B(µ(A), p).
Hypoth`eses de test. L’objectif est de tester l’hypoth`ese nulle,H0, d’absence de cluster stipulant que dans l’ensemble de l’aire ´etudi´ee, chaque observation a la mˆeme probabilit´e p d’ˆetre un cas contre une hypoth`ese alternative, H1, supportant l’existence d’au moins une zone Z ∈ Z dans
Statistiques de scan : th´eorie et application `a l’´epid´emiologie
CHAPITRE 3. STATISTIQUES DE SCAN SPATIALES 75/117
laquelle chaque observation a une probabilit´epd’ˆetre un cas et que les observations se trouvant `a l’ext´erieur deZont une probabilit´eq,q < p, d’ˆetre un cas. De mani`ere plus formelle, les hypoth`eses de test associ´ees au mod`ele de Bernoulli sont les suivantes :
{H0 : p=q, XA∼ B(µ(A), p)∀A⊂D
H1 : p > q,∃Z∈ Z/XA∼ B(µ(A), p)∀A⊂Z etXA∼ B(µ(A), q)∀A⊂Zc
Autrement dit, sousH1, le nombre de cas `a l’int´erieur de la zone suit une loi binomialeB(µ(A), p) et `a l’ext´erieur de la zone, une loi binomiale deB(µ(A), q), avecp > q.
4.1.3 Fonction de vraisemblance
Deux approches ´equivalentes vont ˆetre explicit´ees afin de d´efinir l’expression de la fonction de vraisemblance. La premi`ere, ´enonc´ee par [Kulldorff, 1997] se base sur les observations individuelles (cas/t´emoins). La deuxi`eme, que nous explicitons, est appliqu´ee `a des donn´ees latticielles.
Approche de M. Kulldorff. Sous H0, posons oi une observation, 1 ≤ i ≤ µ(D), o`u µ(D) correspond au nombre total d’observations sur la r´egion ´etudi´ee D. Chaque observation oi peut soit prendre la valeur 1 avec une probabilit´epsoit la valeur 0 avec une probabilit´e 1−p. Consid´erons les variables al´eatoiresOi, 1≤i≤µ(D), distribu´ees selon une loi de BernoulliB(1, p). La fonction de vraisemblance a donc pour expression :
L(p) =
PosonsnD le nombre de cas observ´es dans la r´egion ´etudi´eeD.L(p) atteint son maximum lorsque p=nD/µ(D) : une probabilit´e psoit la valeur 0 avec une probabilit´e 1−p. Par ailleurs, chaque observation oi
non inclue dans Z peut soit prendre la valeur 1 avec une probabilit´eq soit la valeur 0 avec une probabilit´e 1−q. Aussi, consid´erons les variables al´eatoiresOi, 1≤i≤µ(D), dont la distribution est fonction de l’appartenance `aZ :
{Oi ∼ B(1, p) siOi∈Z Oi ∼ B(1, q) sinon.
La fonction de vraisemblance sousH1 a donc pour expression : L(Z, p, q) =∏
PosonsnZ le nombre de cas observ´es dans la zoneZ etµ(Z) le nombre total d’observations dans la zoneZ. La fonction de vraisemblance s’´ecrit alors :
L(Z, p, q) =pnZ(1−p)µ(Z)−nZqnD−nZ(1−q)[(µ(D)−µ(Z))−(nD−nZ)]
L’objectif est de d´eterminer le MLC. Aussi, doit-on d´eterminer la zoneZbqui maximiseL(Z, p, q)2. Ceci est r´ealis´e en deux ´etapes successives. La premi`ere consiste `a maximiser la fonction de vrai-semblance conditionn´ee en Z (i.e.d´eterminer les estimateur de maximum de vraisemblance dep etq). PosonsL(Z) telle que
L(Z) = sup
p>qL(Z, p, q).
2. Il est important de noter queZbest consid´er´e comme l’estimateur de maximum de vraisemblance du param`etre Z.
Statistiques de scan : th´eorie et application `a l’´epid´emiologie
4. PRINCIPAUX MODELES` 76/117
L(Z, p, q) atteint son maximum lorsque p = nZ/µ(Z) et q = (nD−nZ)/(µ(D)−µ(Z)). Aussi L(Z) peut s’´ecrire de la mani`ere suivante :
L(Z) =
Approche sur donn´ees latticielles. En consid´erant les hypoth`eses du mod`ele nous pouvons
´ecrire, sousH0, que
les Xdi ´etant consid´er´ees ind´ependantes. Par cons´equent la fonction de vraisemblance a pour ex-pression
En consid´erant le mod`ele sousH1, nous obtenons
∀di∈Z, Xdi∼ B(µ(di), p) etP(Xdi =ndi) = En cons´equence la fonction de vraisemblance a pour expression
L(Z, p, q) =P
Statistiques de scan : th´eorie et application `a l’´epid´emiologie
CHAPITRE 3. STATISTIQUES DE SCAN SPATIALES 77/117
En conditionnant par rapport `a Z, L(Z, p, q) atteint son maximum lorsque p = nZ/µ(Z) et q= (nD−nZ)/(µ(D)−µ(Z)) :
L(Z) = supp>qL(Z, p, q) =(
nZ
µ(Z)
)nZ(
1−µ(Z)nZ )µ(Z)−nZ(
nD−nZ
µ(D)−µ(Z)
)nD−nZ
×(
1−µ(D)−µ(Z)nD−nZ )[(µ(D)−µ(Z))−(nD−nZ)]∏n i=1
(µ(di) ndi
).
La deuxi`eme ´etape consiste `a d´eterminer la zoneZb={Z:L(Z)≥(L(Z′)∀Z′∈ Z}.
Remarque 3.2. Les expressions de L0 et L(Z) issues de la m´ethode pr´esent´ee par M. Kulldorff (donn´ees ponctuelles) et celles bas´ees sur les donn´ees latticielles sont, `a une constante pr`es, ´egales.
4.1.4 Test du rapport de vraisemblance
A la suite de la d´etermination du MLC, Z, sa significativit´e est test´ee au moyen d’un test deb rapport de vraisemblance qui pour expression :
λ= supZ∈Z,p>qL(Z, p, q)
suppL(p) =L(Zb) L0
Remarque 3.3. L0ne d´epend pas deZ. Aussi, le cluster le plus probable maximise `a la foisL(Z) et la statistique de testλ.
Remarque 3.4. L’expression deλest identique quel que soit le type de donn´ees : ponctuelles ou latticielles.
Remarque 3.5. Dans le cadre du mod`ele de Bernoulli, la distribution de λ ne poss`ede pas de forme analytique. Elle est approxim´ee au moyen de simulations de Monte Carlo sousH0.