EXAMEN DU 30 MAI 2011 – LM347 (Programme : parties I, II, III, IV et V) Durée 2h - Aucun document - Pas de calculette
Exercice 1.
Cinq points du plan ont pour coordonnées, pour α >0et β >0 vérifiant α2+β2 = 1 :
point C1 C2
1 1 1
2 −2 0
3 1 −1
4 α β
5 −α −β
i)−Calculer la matrice de variance-covariance empirique CX. ii)−Calculer les valeurs propres de cette matrice.
iii)−Calculer l0inertie du nuage de points associ´ee au tableau de donn´ees.
iv)−Calculer les vecteurs propres de CX.
v)−Calculer les composantes principales de l0ACP surCX.
vi)−Repr´esenter les points et les axes principaux dans le plan de d´epart.
vii)−Calculer la matrice des corr´elations empiriques ρ(X).
viii)−Calculer le pourcentage d0inertie expliqu´ee par le premier axe.
Aide :la matrice de variance-covariance est proportionnelle à la matriceA=
3 +α2 αβ αβ 1 +β2
et 1
c
est vecteur propre de A lorsque c=−(1 + 2α2+√
1 + 8α2)/(2αβ) (à vérifier).
i) – Le tableau de données X est centré, ainsi Xc=X et en posant n = 5 :
CX = 1
nXc0Xc = 1
nX0X = 1 5
12+ (−2)2+ 12+α2+ (−α)2 12−12+αβ+ (−α)(−β) 12−12+αβ+ (−α)(−β) 12+ (−1)2+β2+ (−β)2
= 2 5A . ii) – En utilisant α2+β2 = 1, les valeurs propres λ de A sont les solutions du trinôme :
(3 +α2−λ)(1 +β2 −λ)−(αβ)2 =λ2−(4 +α2+β2)λ+ (3 +α2)(1 +β2)−α2β2
=λ2−5λ+ 3 + (α2+ 3β2) =λ2−5λ+ 6−2α2. Ces solutions valent (5±√
52−4×6 + 8α2)/2 = (5±√
1 + 8α2)/2. Les valeurs propres de CX sont donc 1±(√
1 + 8α2)/5.
iii) – D’après le cours, l’inertie du nuage de points est égale à la trace de CX, qui vaut 2/5× (3+α2 + 1+β2) = 2/5×5 = 2.
iv) – Pour être vecteur propre de A, le vecteur 1
c
doit vérifier : (3 +α2) +αβc=λ
αβ + (1 +β2)c=λc ⇐⇒ αβ+(1+β2)c= ((3+α2)+αβc)c ⇐⇒ αβc2+(1+2α2)c−αβ = 0, équation de discriminant (1 + 2α2)2 −4α2(1− α2) = 1 + 8α2 et de solutions (−(1 + 2α2)±
√1 + 8α2)/(2αβ), la solution c correspondant à λ = (5−√
1 + 8α2)/2. Ainsi V2 = √ 1
1+c2
1 c
est vecteur propre de norme 1 pour la valeur propre λ2 = 1 −(√
1 + 8α2)/5 de CX, et, par orthogonalité des vecteurs propres correspondant à des valeurs propres différentes lorsqu’on dia- gonalise une matrice symétrique, le vecteurV1 = √1
1+c2
−c 1
est vecteur propre de norme1pour la valeur propre λ1 = 1 + (√
1 + 8α2)/5.
v) – Avec les notations du cours, les composantes principales de l’ACP sur CX sont : µ1U1 = XcV1 et µ2U2 = XcV2; c’est-à-dire : µ1U1 = √1
1+c2(1−c 2c −c−1 β−αc αc−β)0 et µ2U2 =
√1
1+c2(1+c −2 1−c α+βc −α−βc)0.
vi) – A faire vous-même en fixant une valeur de α et β.
vii) – La matrice des corrélations empiriques vaut
1 ρ ρ 1
, avec ρ=αβ/p
(3 +α2)(1 +β2).
viii) – Il vaut λ1/(λ1+λ2) = λ1/2, d’après la question iii).
1
Exercice 2.
Soit a >0et un échantillon X1, . . . , Xn de loi de densitéf(x) = 2axe−ax2, pour x∈]0,∞[, et 0 sinon. On note X= (X1· · ·Xn)0.
i) – Montrer que f est bien une densité de probabilité.
ii) – Montrer queEX1 =aR∞
−∞x2e−ax2dx, en déduire la valeur deEX1et proposer un estimateur dea obtenu par la méthode des moments.
iii) – Calculer la densité fX(x, a) du v.a. X et le logarithme de la vraisemblance de X.
iv) – Trouver l’estimateur ˆa du maximum de vraisemblance de a.
v) – Montrer queE(X1k) = a−k/2Γ(k/2+1)pourk∈ {1,2, . . .}; on pourra effectuer le changement de variables y=x2.
vi) – Calculer la moyenne et la variance deX12 et montrer la normalité asymptotique dem(X2).
vii) – En déduire que ˆa est asymptotiquement normal.
viii) – Calculer l’information de Fisher I(a) de l’échantillon X1, . . . , Xn.
i) – La fonction f est positive, continue, intégrable au voisinage de 0 et au voisinage de l’infini.
De plus, en posant u=ax2, on obtient R∞
0 2axe−ax2dx=R∞
0 e−udu= 1. Ce qui montre bien que f est une densité de probabilité.
ii) – On obtient, en utilisant la parité de x→x2e−ax2 et la variance de la N(0,1/2a) :
E(X1) = Z ∞
0
x2axe−ax2dx=a Z ∞
−∞
x2e−ax2dx=√ πa
Z ∞
−∞
√2a
√2πx2e−2ax2/2dx=
√πa 2a =
√π 2√
a . Ainsi, comme presque sûrementm(X) appartient à]0,∞[, si on résout EX1 =m(X), on obtient comme estimateur π/(4(m(X))2), quantité qui appartient bien à ]0,∞[.
iii) – La vraisemblance de X, qui est égale à la densité, vaut donc fX(x, a) =Qn
i=12axie−ax2i = (2a)n(Qn
i=1xi)e−aPni=1x2i, pour x= (x1. . . xn)0∈]0,∞[n, son logarithme s’écrit : log(fX(x, a)) = nlog 2 +nloga+
n
X
i=1
log(xi)−a
n
X
i=1
x2i .
iv) – En tant que fonction de a cette dernière fonction est strictement concave, puisqu’elle est la somme de la fonction nloga qui est strictement concave et d’une fonction affine. De plus, elle est dérivable en a de dérivée n/a−Pn
i=1x2i, avec lorsque Pn
i=1x2i >0cette dérivée qui s’annule si et seulement si a =n/Pn
i=1x2i. Ainsi, puisque P(Pn
i=1Xi2 >0) = 1, aˆ= 1/m(X2) réalise le maximum de la vraisemblance.
v) – On obtient, en utilisant le changement de variablesy =x2 et la densité de la loiγ(k/2+1, a):
E(X1k) = Z ∞
0
xk2axe−ax2dx=a Z ∞
0
yk/2e−aydy= a
ak/2+1Γ(k/2 + 1) =a−k/2Γ(k/2 + 1) . vi) – Par la réponse à la question précédente,E(X12) = Γ(2)/a= 1/a, puisque Γ(2) = 1Γ(1) = 1, et E(X14) = Γ(3)/a2 = 2/a2, puisque Γ(3) = 2Γ(2) = 2. Ainsi, V(X12) = 1/a2, et on peut donc appliquer le TLC à m(X2) = (1/n)Pn
i=1Xi2, TLC qui dit que √
n(m(X2)−1/a) converge vers la loi normale N(0,1/a2) lorsque n→ ∞.
vii) – Comme aˆ= g(m(X2)) où la fonction g(x) = 1/x est dérivable, on peut appliquer la mé- thode delta qui implique que √
n(ˆa−a) =√
n(g(m(X2))−g(1/a)) converge vers la loi normale N(0, a2) puisque (g0(1/a))2 =a4 et (g0(1/a))21/a2 =a2.
viii) – Comme ∂log(f∂aX)(x, a) = na −Pn
i=1x2i et ∂2log(f∂a2X)(x, a) = −an2, les conditions de régula- rité étant supposées vérifiées, I(a) =−E(∂2log(f∂a2X)(X, a)) = an2.
Exercice 3.
Soit y1, . . . , yn des valeurs réelles connues et le modèle de régression linéaireXi =ayi+b+i, pour i ∈ {1, . . . , n}, avec a, b des paramètres réels, et 1, . . . , n des v.a.i.i.d. de loi N(0,σ2) où σ2 est un paramètre réel strictement positif.
Soit aussi α 6= β deux réels et ` ∈ {1, . . . , n − 1}. On suppose alors que n ≥ 2, et que y1 =· · ·=y` =α et que y`+1 =· · ·=yn=β.
2
i) – Ecrire le modèle sous la forme X = Aθ +, θ∈R2, et montrer que le modèle linéaire déterministeX˜ =Aθ est régulier.
ii) – Calculer les matrices A0A et (A0A)−1.
iii) – Résoudre le problème de moindres carrés associé au modèle de régression linéaire X˜ =Aθ.
iv) – Ecrire la vraisemblance deX.
v) – Trouver les estimateurs du maximum de vraisemblance a,ˆ ˆb,σˆ2, des paramètres a, b, σ2, lorsque n >2.
vi) – Calculer la loi de ˆa et celle de σˆ2.
vii) – Construire un intervalle de confiance pour le paramètre a de degré de confiance 95%.
viii) – Proposer en le justifiant un test de l’hypothèsea = 0 d’erreur de première espèce 5%.
i) – Posons X = (X1· · ·Xn)0, = (1· · ·n)0, y= (y1· · ·yn)0 et 1= (1· · ·1)0, quatre vecteurs de Rn. Posons aussi A = [y1], matrice n×2, et θ = (a b)0 ∈R2. Alors on a l’identité X =Aθ+. De plus, le vecteur y étant non colinéaire au vecteur 1 ( puisque α6=β), les deux colonnes de la matrice A sont donc linéairement indépendantes, et le rang deA est égal à 2. Ce qui montre que le modèle linéaire déterministe X˜ =Aθ est régulier.
ii) – La matrice A0A est constituée des produits scalaires des colonnes de A : A0A=
y0y y01 y01 101
=
`α2 + (n−`)β2 `α+ (n−`)β
`α+ (n−`)β n
.
Le déterminant vautn(`α2+(n−`)β2)−(`α+(n−`)β)2 =`(n−`)(α2+β2−2αβ) = `(n−`)(α−β)2, il est non nul et :
(A0A)−1 = 1
`(n−`)(α−β)2
n −`α−(n−`)β
−`α−(n−`)β `α2+ (n−`)β2
.
iii) – Le paramètre θˆsolution du problème des moindres carrés pour le modèle régulier X˜ =Aθ est donné par la formule θˆ= (A0A)−1A0X avec A0X = (y0X 10X)0 et y0X =α(X1+. . .+X`) + β(X`+1 +. . .+Xn), 10X = X1+· · ·+Xn . On peut aussi proposer la solution de la droite de régression :
θˆ=
c(y,X)/v(y)
m(X)−(c(y,X)/v(y))m(y)
.
iv) – Le vecteur X suit la loi normaleNn(Aθ,σ2In), il admet une densité par rapport à la mesure de Lebesgue sur Rn qui est sa vraisemblance :
fX(x, a, b, σ2) = (2π)−n/2σ−ne−
kx−Aθk2
2σ2 = (2π)−n/2σ−ne−2σ12
Pn
i=1(xi−ayi−b)2
.
v) – D’après le cours, puisqu’il y a deux paramètres pour la moyenne et comme il est supposé quen >2, les EMV de a et b sont donnés par le θˆobtenu à la question iii) et l’EMV de σ2 vaut ˆ
σ2 = n1kX−Aθkˆ 2 = 1nPn
i=1(Xi−ˆayi−ˆb)2.
vi) – Toujours d’après le cours (proposition 9 de la partie V), θˆsuit la loi N2(θ, σ2(A0A)−1) et nˆσ2/σ2 suit la loi χ2n−2. De l’expression de (A0A)−1 obtenu à la question ii), on déduit alors que ˆ
a suit la loi N(a, nσ2/(`(n−`)(α−β)2)).
vii) – On utilise la méthode de “studentisation”,
q`(n−`)(α−β)2 n
ˆa−a
σ suit la loi normale standard, si bien que la statistique :
T =
q`(n−`)(α−β)2 n
ˆa−a σ
q nˆσ2 (n−2)σ2
=
p`(n−`)(n−2)|α−β|(ˆa−a) n√
ˆ σ2 suit la loi de Student Tn−2, les v.a.
q`(n−`)(α−β)2 n
ˆa−a
σ et nˆσ2/σ2 étant indépendantes. En notant tn−2,α le réel positif vérifiant P(|T| ≤tn−2,α) = 1−α, pour α ∈]0,1[, un intervalle de confiance pour le paramètre a est donc :
I =i ˆ
a−tn−2,α
n
p`(n−`)(n−2)
√σˆ2
|α−β|, ˆa+tn−2,α
n
p`(n−`)(n−2)
√σˆ2
|α−β|
h
;
il est de niveau de confiance 1−α puisque :
P(a∈ I) =P(|T| ≤tn−2,α) = 1−α .
3
viii) – Si on pose R = {0 ∈ I}, cette région de l’espace des observations peut être utilisée/ comme la région de rejet d’un test de l’hypothèse a = 0. On a alors pour l’erreur de première espèce, lorsque θ = (0 b , σ2)0 :
Pθ(R) = P(0∈ I) =/ P(|T|> tn−2,α) = 1−P(|T| ≤tn−2,α) =α . On répond à la question en choisissant α= 5%.
4