• Aucun résultat trouvé

Indépendance des individus

Annexe 4.B Comportement asymptotique

5.1.1 Indépendance des individus

Nous supposons dans un premier temps que les individus d’un même ménage sont indé-pendants et que l’exposition individuelle est une fonction de l’âge et du sexe de l’individu, i.e.

yi;h = f (ai;h; si;h) + "i;h;

où yi;h est l’exposition de l’individu i du ménage h, ai;h son âge, si;h son sexe (masculin noté M ou féminin noté F ), i = 1; : : : nh; h = 1; : : : H; f une fonction à estimer et "i;h est un résidu centré gaussien.

On suppose dans la suite que les ménages sont indépendants, ce qui se traduit par cov("i;h; "j;h0) = 0 pour tout i 6= j et tout h 6= h0: On suppose également dans cette sec-tion que les individus sont indépendants au sein du même ménage, ce qui se traduit par V ("i;h) = 2

" et cov("i;h; "j;h) = 0 pour tout i 6= j.

La fonction f est estimée par spline d’ordre 1 pour chaque sexe, les splines d’ordre supérieur1 ne modi…ant pas la forme des fonctions. On pose pour cela

f (ai;h; si;h) = fM(ai;h)1lfsi;h=Mg+ fF(ai;h)1lfsi;h=Fg; avec, pour S = M; F; fS(ai;h) = S0 + S1ai;h+ KS X k=1 uSk (ai;h S;k)+; (5.1) où les ( S;k)k=1;:::;K

S sont une série de noeuds (une liste d’âges) et où la quantité

(ai;h S;k)+ = (ai;h S;k) 1lfai;h S;k>0g

désigne la partie positive de la di¤érence entre l’âge de l’individu ai;h et le noeud S;k: Nous utilisons la méthode de choix par défaut des noeuds proposée dans Ruppert et al. (2003), page 125. Pour cela, on dé…nit aS la liste des âges distincts des individus de sexe S,

KS = minn aS 4 ; 35 o et S;k = k + 1 KS + 2 eme quantile de aS pour k = 1; : : : ; KS:

1Un spline d’ordre p s’écrit S0 + S1ai;h+ ::: + Spapi;h+PKS

k=1uSk (ai;h S;k)+

p

Cette règle empirique semble bien fonctionner en pratique et assure en particulier la présence d’un nombre su¢ samment grand de points entre chaque noeud. Elle n’est cependant pas justi…ée par des considérations théoriques. Il existe de nombreux algorithmes permettant de dé…nir de manière optimale le nombre de noeuds et leurs valeurs. Citons par exemple le "myopic algorithm" (Ruppert & Carroll, 2000) et le "full search algorithm" (Ruppert, 2002) utilisant essentiellement des techniques de validation croisée généralisée. Ces méthodes n’ont, dans notre cas, pas conduit à une sélection raisonnable du nombre de noeuds.

Pour introduire une forme de pénalisation et lisser la fonction fS dé…nie en (5:1), les uSk sont supposés aléatoires et indépendants de loi

uSk

i:i:d:N 0; 2uS :

Il s’agit de la représentation spline par un modèle mixte proposée par Speed (1991) et Verbyla (1999) pour le lissage de fonction et discutée dans Brumback et al. (1999) pour les splines pénalisés.

L’exposition de chaque individu s’écrit sous forme vectorielle

yi;h = xi;h + zi;hu + "i;h; (5.2) où xi;h est un vecteur ligne dé…ni par

xi;h = 1lfsi;h=Mg ai;h1lfsi;h=Mg 1lfsi;h=Fg ai;h1lfsi;h=Fg ;

zi;h est un vecteur ligne (KM + KF colonnes) dont les KM premières colonnes sont n

(ai;h M;k)+1lfsi;h=Mg o

k=1;:::;KM

et les KF dernières sont n

(ai;h S;k)+1lfsi;h=Fg o

k=1;:::;KF

;

= M0 ; M1 ; F0; F1 0 est un vecteur colonne de paramètres à estimer et u = uM 1 ; : : : ; uM KM; uF 1; : : : ; uF KF 0

est un vecteur colonne de taille KM+ KF d’e¤ets aléatoires de loi N (0; G); où G est une matrice diagonale dont les KM premiers éléments sont 2

uM et

les KF derniers sont 2 uF:

Par sommation sur l’ensemble des nh individus d’un ménage, ces quantités deviennent

yh = nh X i=1 yi;h = nh X i=1

(xi;h + zi;hu + "i;h) ; (5.3)

où yh est l’exposition totale du ménage h et nh désigne sa taille. Plus précisément, en notant

xh = nh X i=1 xi;h et zh = nh X i=1 zi;h;

on peut réécrire le modèle (5:3) sous la forme vectorielle

yh = xh + zhu +e"h; oùe"h

Pnh

i=1"i;h:

En sommant les erreurs individuelles, on introduit de l’hétéroscédasticité puisque V (e"h) =

nh 2": Pour corriger cette hétéroscédasticité, nous divisons l’ensemble des vecteurs par p

nh

et redé…nissons Yh = yh=pnh; Xh xh=pnh; Zh zh=pnh et "h e"h=pnh: On a alors un modèle mixte usuel,

Yh = Xh + Zhu + "h; (5.4) où ("h)h N (0; 2

":IH); IH désignant la matrice identité de taille H:

Le modèle (5:4) ainsi dé…ni est un modèle mixte (McCulloch & Searle, 2001; Ruppert et al., 2003, pour une présentation générale de ce type de modèle). La technique d’estimation usuelle de ce modèle, le maximum de vraisemblance restreint (REML pour REstricted Maxi-mum Likelihood), est due à Patterson & Thompson (1971) et est présentée en annexe 5.B. Elle permet d’obtenir des estimateurs de la structure de variance-covariance moins biaisés que ceux obtenus par maximum de vraisemblance.

Notons b l’estimateur de dans le modèle (5:4) et bu la meilleure prévision de u dans ce modèle. Nous obtenons dans le modèle (5:2) une estimation de l’exposition individuelle, donnée par

c

yi;h = xi;hb + zi;hbu:

Rappelons ici que les quantités xi;h et zi;h dé…nies plus haut sont des quantités individuelles et qu’elles ne sont pas divisées par p

nh contrairement aux quantités ménage Xh et Zh: Connaissant les estimateurs des variances de b et bu; on peut facilement montrer que

(yci;h)i=1;:::;n

h;h=1;:::nH N (yi;h; ); (5.5)

où est la matrice de variance-covariance des expositions individuelles.

Cette matrice de variance-covariance dépend de la matrice de variance-covariance du vec-teur b;bu . A…n de ne pas alourdir la présentation, le calcul de et de son estimateur, sous des conditions plus générales sur la forme de la variance des erreurs et des e¤ets aléatoires, est reporté en annexe 5.C.

Quelques tests mis en oeuvre sur ce modèle

Plusieurs tests peuvent d’ores et déjà être mis en oeuvre sur ce modèle de base : les e¤ets aléatoires di¤èrent-ils réellement selon le sexe des individus ? En d’autres termes, a-t-on 2uM = 2uF = 2u? On peut aussi se demander si l’une ou l’autre de ces variances est nulle ? A-t-on 2u = 0 (resp. 2uM = 0 ou 2uF = 0)? On peut également s’interroger plus globalement sur la nécessité d’introduire une fonction di¤érente pour chaque sexe ? Est-ce que fM = fS?

Détaillons brièvement la mise en oeuvre de chacun de ces tests. Test 1 H0 : 2

uM = 2

uF contre Ha : 2

uM 6= 2

Soit ( 2

uM; 2

uF) l’estimateur REML de ( 2

uM; 2

uF) dans le modèle (5:4) et soit 2 u

l’estimateur du maximum de vraisemblance dans le modèle contraint, i.e. celui pour lequel u = uM

1 ; : : : ; uM KM; uF

1; : : : ; uF

KF est un vecteur de taille KM + KF d’e¤ets aléa-toires de loi N (0; 2uIKM+KF). Alors, on a, par des arguments standards de statistique asymptotique T = 2 ln LH0 Yh; Xh; Zh; ; 2u ln LHa Yh; Xh; Zh; ; 2uM; 2uF ! H0 2 (1); où LH0(Yh; Xh; Zh; ; 2

u ) est la valeur du maximum de vraisemblance sous H0 et LHa Yh; Xh; Zh; ; 2

uM; 2

uF , celle du maximum de vraisemblance sous Ha:

Test 2 H0 : 2u= 0 contre Ha : 2u > 0

Le modèle sous H0 s’écrit comme un modèle sans e¤et aléatoire, i.e. de la forme Yh = Xh + "h:

On calcule comme précédemment la valeur de la statistique de test T = 2 ln LH0(Yh; Xh; ) ln LHa(Yh; Xh; Zh; ; 2u ) :

Le test concerne la frontière des valeurs possibles pour 2u 2 [0; +1[ ; la loi de T sous H0 est dans ce cas non-standard, égale à un mélange de lois du 2 (Self & Liang, 1987; Crainiceanu et al., 2003). Dans ce cas précis ( 2u= 0); c’est un mélange en proportions (1=2; 1=2) entre un 2(0) (masse en zéro) et un 2(1).

Test 3 H0 : fM = fS contre Ha : fM 6= fS

Le test fM = fS consiste à tester le modèle (5:4) contre le modèle plus simple dé…ni par

Yh = Xh + Zhu + "h (5.6) où ("h)h N (0; 2

":IH); Xh est un vecteur ligne à 2 colonnes dé…ni par

Xh = pn

h

Pnh

i=1ai;h=pnh ;

Zhest un vecteur ligne à K colonnes, avec K = min a4 ; 35 ; aétant la liste des âges distincts quel que soit le sexe, dont les K colonnes sont Pnh

i=1(ai;h k)+ k=1;:::K; k

étant le K+2k+1 eme quantile de a ; = ( 0; 1) est le vecteur colonne de paramètres à estimer et u = (u1; : : : ; uK) est un vecteur colonne de taille K d’e¤ets aléatoires de loi N (0; 2

u:IK):

Comme (5:6) est un sous modèle de (5:4), nous pouvons de nouveau procéder à un test de rapport de vraisemblance (cf. test 1).