• Aucun résultat trouvé

4.1.1 Conditions d’applications

Dans ce mod`ele, chaque ´ev`enement est mod´elis´e par une variable de Bernoulli de param`etrep.

Ces variables peuvent repr´esenter des individus pr´esentant une pathologie ou non (ex : malade / non malade), ou encore des individus pr´esentant diff´erents type de pathologie, comme par exemple le premier ou dernier stade d’un cancer (ex : stade 1 / stade 4). Il est important de pr´eciser que les donn´ees utilis´ees peuvent refl´eter les cas et contrˆoles d’une population sous-jacente (´echantillon), ou alors la population dans son ensemble (´etude exhaustive). De surcroˆıt, les donn´ees peuvent ˆetre repr´esent´ees sous forme de processus ponctuel marqu´e, la localisation de chaque observation ´etant n´ecessaire, ou alors, sous forme de donn´ees latticielles, les observations, suppos´ees ind´ependantes entre elles, ´etant ainsi agr´eg´ees `a une unit´e spatiale (ex : canton). Dans ce dernier cas, l’unit´e spatiale fait office d’unit´e statistique et par cons´equent le nombre de cas observ´es dans une unit´e spatiale est distribu´e selon une loi binomiale dont les param`etres sont explicit´esinfra.

4.1.2 Mod`ele

Donn´ees ponctuelles. Consid´erons X un processus spatial ponctuel sur D ⊂ R2 de marque m∈K={0,1}`a valeurs dans l’espace d’´etatsE=N. PosonsXA,A∈ Bb(D), la variable al´eatoire qui associe `aAle nombre de cas (m= 1) observ´es etµ(A) le nombre de points (m= 0 oum= 1) observ´es dansA. La variable al´eatoireXA est distribu´ee selon une loi binomialeB(µ(A), p).

Donn´ees latticielles. Consid´eronsDun ensemble discret fix´e,D⊂R2, structur´e par un graphe de voisinage G ={D, A} et muni d’une matrice d’adjacence U = (uij) et d’une matrice de poids W = (wij). Soit X = {Xd, d ∈ D} un processus al´eatoire index´e par D = {d1, d2, ...., dn} et

`a valeurs dans l’espace d’´etats E = N. Dans ce mod`ele, wij est d´efini ici comme la distance euclidienne entre le site di et le sitedj, 1≤i, j,≤n.

∀d∈D, Xd ∼ B(µ(d), p) ou µ(d) correspond au nombre d’´ev`enements observ´es au sein de la localisationd. Par construction,

∀A⊂D ,µ(A) =∑

d∈A

µ(d), et par stabilit´e par la somme de la loi binomiale

XA=∑

d∈A

Xd etXA∼ B(µ(A), p).

Hypoth`eses de test. L’objectif est de tester l’hypoth`ese nulle,H0, d’absence de cluster stipulant que dans l’ensemble de l’aire ´etudi´ee, chaque observation a la mˆeme probabilit´e p d’ˆetre un cas contre une hypoth`ese alternative, H1, supportant l’existence d’au moins une zone Z ∈ Z dans

Statistiques de scan : th´eorie et application `a l’´epid´emiologie

CHAPITRE 3. STATISTIQUES DE SCAN SPATIALES 75/117

laquelle chaque observation a une probabilit´epd’ˆetre un cas et que les observations se trouvant `a l’ext´erieur deZont une probabilit´eq,q < p, d’ˆetre un cas. De mani`ere plus formelle, les hypoth`eses de test associ´ees au mod`ele de Bernoulli sont les suivantes :

{H0 : p=q, XA∼ B(µ(A), p)∀A⊂D

H1 : p > q,∃Z∈ Z/XA∼ B(µ(A), p)∀A⊂Z etXA∼ B(µ(A), q)∀A⊂Zc

Autrement dit, sousH1, le nombre de cas `a l’int´erieur de la zone suit une loi binomialeB(µ(A), p) et `a l’ext´erieur de la zone, une loi binomiale deB(µ(A), q), avecp > q.

4.1.3 Fonction de vraisemblance

Deux approches ´equivalentes vont ˆetre explicit´ees afin de d´efinir l’expression de la fonction de vraisemblance. La premi`ere, ´enonc´ee par [Kulldorff, 1997] se base sur les observations individuelles (cas/t´emoins). La deuxi`eme, que nous explicitons, est appliqu´ee `a des donn´ees latticielles.

Approche de M. Kulldorff. Sous H0, posons oi une observation, 1 ≤ i ≤ µ(D), o`u µ(D) correspond au nombre total d’observations sur la r´egion ´etudi´ee D. Chaque observation oi peut soit prendre la valeur 1 avec une probabilit´epsoit la valeur 0 avec une probabilit´e 1−p. Consid´erons les variables al´eatoiresOi, 1≤i≤µ(D), distribu´ees selon une loi de BernoulliB(1, p). La fonction de vraisemblance a donc pour expression :

L(p) =

PosonsnD le nombre de cas observ´es dans la r´egion ´etudi´eeD.L(p) atteint son maximum lorsque p=nD/µ(D) : une probabilit´e psoit la valeur 0 avec une probabilit´e 1−p. Par ailleurs, chaque observation oi

non inclue dans Z peut soit prendre la valeur 1 avec une probabilit´eq soit la valeur 0 avec une probabilit´e 1−q. Aussi, consid´erons les variables al´eatoiresOi, 1≤i≤µ(D), dont la distribution est fonction de l’appartenance `aZ :

{Oi ∼ B(1, p) siOi∈Z Oi ∼ B(1, q) sinon.

La fonction de vraisemblance sousH1 a donc pour expression : L(Z, p, q) =∏

PosonsnZ le nombre de cas observ´es dans la zoneZ etµ(Z) le nombre total d’observations dans la zoneZ. La fonction de vraisemblance s’´ecrit alors :

L(Z, p, q) =pnZ(1−p)µ(Z)−nZqnD−nZ(1−q)[(µ(D)−µ(Z))−(nD−nZ)]

L’objectif est de d´eterminer le MLC. Aussi, doit-on d´eterminer la zoneZbqui maximiseL(Z, p, q)2. Ceci est r´ealis´e en deux ´etapes successives. La premi`ere consiste `a maximiser la fonction de vrai-semblance conditionn´ee en Z (i.e.d´eterminer les estimateur de maximum de vraisemblance dep etq). PosonsL(Z) telle que

L(Z) = sup

p>qL(Z, p, q).

2. Il est important de noter queZbest consid´er´e comme l’estimateur de maximum de vraisemblance du param`etre Z.

Statistiques de scan : th´eorie et application `a l’´epid´emiologie

4. PRINCIPAUX MODELES` 76/117

L(Z, p, q) atteint son maximum lorsque p = nZ/µ(Z) et q = (nD−nZ)/(µ(D)−µ(Z)). Aussi L(Z) peut s’´ecrire de la mani`ere suivante :

L(Z) =

Approche sur donn´ees latticielles. En consid´erant les hypoth`eses du mod`ele nous pouvons

´ecrire, sousH0, que

les Xdi ´etant consid´er´ees ind´ependantes. Par cons´equent la fonction de vraisemblance a pour ex-pression

En consid´erant le mod`ele sousH1, nous obtenons

∀di∈Z, Xdi∼ B(µ(di), p) etP(Xdi =ndi) = En cons´equence la fonction de vraisemblance a pour expression

L(Z, p, q) =P

Statistiques de scan : th´eorie et application `a l’´epid´emiologie

CHAPITRE 3. STATISTIQUES DE SCAN SPATIALES 77/117

En conditionnant par rapport `a Z, L(Z, p, q) atteint son maximum lorsque p = nZ/µ(Z) et q= (nD−nZ)/(µ(D)−µ(Z)) :

L(Z) = supp>qL(Z, p, q) =(

nZ

µ(Z)

)nZ(

1−µ(Z)nZ )µ(Z)−nZ(

nD−nZ

µ(D)−µ(Z)

)nD−nZ

×(

1−µ(D)−µ(Z)nD−nZ )[(µ(D)−µ(Z))−(nD−nZ)]n i=1

(µ(di) ndi

).

La deuxi`eme ´etape consiste `a d´eterminer la zoneZb={Z:L(Z)≥(L(Z)∀Z∈ Z}.

Remarque 3.2. Les expressions de L0 et L(Z) issues de la m´ethode pr´esent´ee par M. Kulldorff (donn´ees ponctuelles) et celles bas´ees sur les donn´ees latticielles sont, `a une constante pr`es, ´egales.

4.1.4 Test du rapport de vraisemblance

A la suite de la d´etermination du MLC, Z, sa significativit´e est test´ee au moyen d’un test deb rapport de vraisemblance qui pour expression :

λ= supZ∈Z,p>qL(Z, p, q)

suppL(p) =L(Zb) L0

Remarque 3.3. L0ne d´epend pas deZ. Aussi, le cluster le plus probable maximise `a la foisL(Z) et la statistique de testλ.

Remarque 3.4. L’expression deλest identique quel que soit le type de donn´ees : ponctuelles ou latticielles.

Remarque 3.5. Dans le cadre du mod`ele de Bernoulli, la distribution de λ ne poss`ede pas de forme analytique. Elle est approxim´ee au moyen de simulations de Monte Carlo sousH0.