EXAMEN DU 30 MAI 2011 – LM347 (Programme : parties I, II, III, IV et V) Durée 2h - Aucun document - Pas de calculette

(1)

EXAMEN DU 30 MAI 2011 – LM347 (Programme : parties I, II, III, IV et V) Durée 2h - Aucun document - Pas de calculette

Exercice 1.

Cinq points du plan ont pour coordonnées, pour α >0et β >0 vérifiant α²+β² = 1 :

point C1 C2

1 1 1

2 −2 0

3 1 −1

4 α β

5 −α −β

i)−Calculer la matrice de variance-covariance empirique CX. ii)−Calculer les valeurs propres de cette matrice.

iii)−Calculer l⁰inertie du nuage de points associ´ee au tableau de donn´ees.

iv)−Calculer les vecteurs propres de CX.

v)−Calculer les composantes principales de l⁰ACP surCX.

vi)−Repr´esenter les points et les axes principaux dans le plan de d´epart.

vii)−Calculer la matrice des corr´elations empiriques ρ(X).

viii)−Calculer le pourcentage d⁰inertie expliqu´ee par le premier axe.

Aide :la matrice de variance-covariance est proportionnelle à la matriceA=

3 +α² αβ αβ 1 +β²

et 1

c

est vecteur propre de A lorsque c=−(1 + 2α²+√

1 + 8α²)/(2αβ) (à vérifier).

i) – Le tableau de données X est centré, ainsi Xc=X et en posant n = 5 :

CX = 1

nX_c⁰X_c = 1

nX⁰X = 1 5

1²+ (−2)²+ 1²+α²+ (−α)² 1²−1²+αβ+ (−α)(−β) 1²−1²+αβ+ (−α)(−β) 1²+ (−1)²+β²+ (−β)²

= 2 5A . ii) – En utilisant α²+β² = 1, les valeurs propres λ de A sont les solutions du trinôme :

(3 +α²−λ)(1 +β² −λ)−(αβ)² =λ²−(4 +α²+β²)λ+ (3 +α²)(1 +β²)−α²β²

=λ²−5λ+ 3 + (α²+ 3β²) =λ²−5λ+ 6−2α². Ces solutions valent (5±√

5²−4×6 + 8α²)/2 = (5±√

1 + 8α²)/2. Les valeurs propres de CX sont donc 1±(√

1 + 8α²)/5.

iii) – D’après le cours, l’inertie du nuage de points est égale à la trace de CX, qui vaut 2/5× (3+α² + 1+β²) = 2/5×5 = 2.

iv) – Pour être vecteur propre de A, le vecteur 1

c

doit vérifier : (3 +α²) +αβc=λ

αβ + (1 +β²)c=λc ⇐⇒ αβ+(1+β²)c= ((3+α²)+αβc)c ⇐⇒ αβc²+(1+2α²)c−αβ = 0, équation de discriminant (1 + 2α²)² −4α²(1− α²) = 1 + 8α² et de solutions (−(1 + 2α²)±

√1 + 8α²)/(2αβ), la solution c correspondant à λ = (5−√

1 + 8α²)/2. Ainsi V₂ = ^√ ¹

1+c²

1 c

est vecteur propre de norme 1 pour la valeur propre λ2 = 1 −(√

1 + 8α²)/5 de CX, et, par orthogonalité des vecteurs propres correspondant à des valeurs propres différentes lorsqu’on dia- gonalise une matrice symétrique, le vecteurV₁ = ^√¹

1+c²

−c 1

est vecteur propre de norme1pour la valeur propre λ₁ = 1 + (√

1 + 8α²)/5.

v) – Avec les notations du cours, les composantes principales de l’ACP sur CX sont : µ₁U₁ = X_cV₁ et µ₂U₂ = X_cV₂; c’est-à-dire : µ₁U₁ = ^√¹

1+c²(1−c 2c −c−1 β−αc αc−β)⁰ et µ₂U₂ =

√1

1+c²(1+c −2 1−c α+βc −α−βc)⁰.

vi) – A faire vous-même en fixant une valeur de α et β.

vii) – La matrice des corrélations empiriques vaut

1 ρ ρ 1

, avec ρ=αβ/p

(3 +α²)(1 +β²).

viii) – Il vaut λ₁/(λ₁+λ₂) = λ₁/2, d’après la question iii).

1

(2)

Exercice 2.

Soit a >0et un échantillon X₁, . . . , X_n de loi de densitéf(x) = 2axe^−ax², pour x∈]0,∞[, et 0 sinon. On note X= (X₁· · ·X_n)⁰.

i) – Montrer que f est bien une densité de probabilité.

ii) – Montrer queEX₁ =aR∞

−∞x²e^−ax²dx, en déduire la valeur deEX₁et proposer un estimateur dea obtenu par la méthode des moments.

iii) – Calculer la densité f_X(x, a) du v.a. X et le logarithme de la vraisemblance de X.

iv) – Trouver l’estimateur ˆa du maximum de vraisemblance de a.

v) – Montrer queE(X₁^k) = a^−k/2Γ(k/2+1)pourk∈ {1,2, . . .}; on pourra effectuer le changement de variables y=x².

vi) – Calculer la moyenne et la variance deX₁² et montrer la normalité asymptotique dem(X²).

vii) – En déduire que ˆa est asymptotiquement normal.

viii) – Calculer l’information de Fisher I(a) de l’échantillon X₁, . . . , X_n.

i) – La fonction f est positive, continue, intégrable au voisinage de 0 et au voisinage de l’infini.

De plus, en posant u=ax², on obtient R∞

0 2axe^−ax²dx=R∞

0 e^−udu= 1. Ce qui montre bien que f est une densité de probabilité.

ii) – On obtient, en utilisant la parité de x→x²e^−ax² et la variance de la N(0,1/2a) :

E(X₁) = Z ∞

0

x2axe^−ax²dx=a Z ∞

−∞

x²e^−ax²dx=√ πa

Z ∞

−∞

√2a

√2πx²e^−2ax²^/2dx=

√πa 2a =

√π 2√

a . Ainsi, comme presque sûrementm(X) appartient à]0,∞[, si on résout EX₁ =m(X), on obtient comme estimateur π/(4(m(X))²), quantité qui appartient bien à ]0,∞[.

iii) – La vraisemblance de X, qui est égale à la densité, vaut donc f_X(x, a) =Qn

i=12ax_ie^−ax²ⁱ = (2a)ⁿ(Qn

i=1x_i)e^−a^Pⁿⁱ⁼¹^x²ⁱ, pour x= (x₁. . . x_n)⁰∈]0,∞[ⁿ, son logarithme s’écrit : log(f_X(x, a)) = nlog 2 +nloga+

n

X

i=1

log(x_i)−a

n

X

i=1

x²_i .

iv) – En tant que fonction de a cette dernière fonction est strictement concave, puisqu’elle est la somme de la fonction nloga qui est strictement concave et d’une fonction affine. De plus, elle est dérivable en a de dérivée n/a−Pn

i=1x²_i, avec lorsque Pn

i=1x²_i >0cette dérivée qui s’annule si et seulement si a =n/Pn

i=1x²_i. Ainsi, puisque P(Pn

i=1X_i² >0) = 1, aˆ= 1/m(X²) réalise le maximum de la vraisemblance.

v) – On obtient, en utilisant le changement de variablesy =x² et la densité de la loiγ(k/2+1, a):

E(X₁^k) = Z ∞

0

x^k2axe^−ax²dx=a Z ∞

0

y^k/2e^−aydy= a

a^k/2+1Γ(k/2 + 1) =a^−k/2Γ(k/2 + 1) . vi) – Par la réponse à la question précédente,E(X₁²) = Γ(2)/a= 1/a, puisque Γ(2) = 1Γ(1) = 1, et E(X₁⁴) = Γ(3)/a² = 2/a², puisque Γ(3) = 2Γ(2) = 2. Ainsi, V(X₁²) = 1/a², et on peut donc appliquer le TLC à m(X²) = (1/n)Pn

i=1X_i², TLC qui dit que √

n(m(X²)−1/a) converge vers la loi normale N(0,1/a²) lorsque n→ ∞.

vii) – Comme aˆ= g(m(X²)) où la fonction g(x) = 1/x est dérivable, on peut appliquer la mé- thode delta qui implique que √

n(ˆa−a) =√

n(g(m(X²))−g(1/a)) converge vers la loi normale N(0, a²) puisque (g⁰(1/a))² =a⁴ et (g⁰(1/a))²1/a² =a².

viii) – Comme ^∂^log(f_∂a^X⁾(x, a) = ⁿ_a −Pn

i=1x²_i et ^∂²^log(f_∂a2^X⁾(x, a) = −_aⁿ2, les conditions de régula- rité étant supposées vérifiées, I(a) =−E(^∂²^log(f_∂a2^X⁾(X, a)) = _aⁿ2.

Exercice 3.

Soit y₁, . . . , y_n des valeurs réelles connues et le modèle de régression linéaireX_i =ay_i+b+_i, pour i ∈ {1, . . . , n}, avec a, b des paramètres réels, et ₁, . . . , _n des v.a.i.i.d. de loi N(0,σ²) où σ² est un paramètre réel strictement positif.

Soit aussi α 6= β deux réels et ` ∈ {1, . . . , n − 1}. On suppose alors que n ≥ 2, et que y₁ =· · ·=y_` =α et que y_`+1 =· · ·=y_n=β.

2

(3)

i) – Ecrire le modèle sous la forme X = Aθ +, θ∈R², et montrer que le modèle linéaire déterministeX˜ =Aθ est régulier.

ii) – Calculer les matrices A⁰A et (A⁰A)⁻¹.

iii) – Résoudre le problème de moindres carrés associé au modèle de régression linéaire X˜ =Aθ.

iv) – Ecrire la vraisemblance deX.

v) – Trouver les estimateurs du maximum de vraisemblance a,ˆ ˆb,σˆ², des paramètres a, b, σ², lorsque n >2.

vi) – Calculer la loi de ˆa et celle de σˆ².

vii) – Construire un intervalle de confiance pour le paramètre a de degré de confiance 95%.

viii) – Proposer en le justifiant un test de l’hypothèsea = 0 d’erreur de première espèce 5%.

i) – Posons X = (X₁· · ·X_n)⁰, = (₁· · ·_n)⁰, y= (y₁· · ·y_n)⁰ et 1= (1· · ·1)⁰, quatre vecteurs de Rⁿ. Posons aussi A = [y1], matrice n×2, et θ = (a b)⁰ ∈R². Alors on a l’identité X =Aθ+. De plus, le vecteur y étant non colinéaire au vecteur 1 ( puisque α6=β), les deux colonnes de la matrice A sont donc linéairement indépendantes, et le rang deA est égal à 2. Ce qui montre que le modèle linéaire déterministe X˜ =Aθ est régulier.

ii) – La matrice A⁰A est constituée des produits scalaires des colonnes de A : A⁰A=

y⁰y y⁰1 y⁰1 1⁰1

=

`α² + (n−`)β² `α+ (n−`)β

`α+ (n−`)β n

.

Le déterminant vautn(`α²+(n−`)β²)−(`α+(n−`)β)² =`(n−`)(α²+β²−2αβ) = `(n−`)(α−β)², il est non nul et :

(A⁰A)⁻¹ = 1

`(n−`)(α−β)²

n −`α−(n−`)β

−`α−(n−`)β `α²+ (n−`)β²

.

iii) – Le paramètre θˆsolution du problème des moindres carrés pour le modèle régulier X˜ =Aθ est donné par la formule θˆ= (A⁰A)⁻¹A⁰X avec A⁰X = (y⁰X 1⁰X)⁰ et y⁰X =α(X₁+. . .+X_`) + β(X_`+1 +. . .+X_n), 1⁰X = X₁+· · ·+X_n . On peut aussi proposer la solution de la droite de régression :

θˆ=

c(y,X)/v(y)

m(X)−(c(y,X)/v(y))m(y)

.

iv) – Le vecteur X suit la loi normaleN_n(Aθ,σ²I_n), il admet une densité par rapport à la mesure de Lebesgue sur Rⁿ qui est sa vraisemblance :

fX(x, a, b, σ²) = (2π)^−n/2σ⁻ⁿe⁻

kx−Aθk2

2σ2 = (2π)^−n/2σ⁻ⁿe⁻^2σ¹²

Pn

i=1(xi−ayi−b)²

.

v) – D’après le cours, puisqu’il y a deux paramètres pour la moyenne et comme il est supposé quen >2, les EMV de a et b sont donnés par le θˆobtenu à la question iii) et l’EMV de σ² vaut ˆ

σ² = _n¹kX−Aθkˆ ² = ¹_nPn

i=1(X_i−ˆay_i−ˆb)².

vi) – Toujours d’après le cours (proposition 9 de la partie V), θˆsuit la loi N2(θ, σ²(A⁰A)⁻¹) et nˆσ²/σ² suit la loi χ²_n−2. De l’expression de (A⁰A)⁻¹ obtenu à la question ii), on déduit alors que ˆ

a suit la loi N(a, nσ²/(`(n−`)(α−β)²)).

vii) – On utilise la méthode de “studentisation”,

q`(n−`)(α−β)² n

ˆa−a

σ suit la loi normale standard, si bien que la statistique :

T =

q`(n−`)(α−β)² n

ˆa−a σ

q nˆσ² (n−2)σ²

=

p`(n−`)(n−2)|α−β|(ˆa−a) n√

ˆ σ² suit la loi de Student Tn−2, les v.a.

q`(n−`)(α−β)² n

ˆa−a

σ et nˆσ²/σ² étant indépendantes. En notant tn−2,α le réel positif vérifiant P(|T| ≤tn−2,α) = 1−α, pour α ∈]0,1[, un intervalle de confiance pour le paramètre a est donc :

I =i ˆ

a−tn−2,α

n

p`(n−`)(n−2)

√σˆ²

|α−β|, ˆa+tn−2,α

n

p`(n−`)(n−2)

√σˆ²

|α−β|

h

;

il est de niveau de confiance 1−α puisque :

P(a∈ I) =P(|T| ≤tn−2,α) = 1−α .

3

(4)

viii) – Si on pose R = {0 ∈ I}, cette région de l’espace des observations peut être utilisée/ comme la région de rejet d’un test de l’hypothèse a = 0. On a alors pour l’erreur de première espèce, lorsque θ = (0 b , σ²)⁰ :

P^θ(R) = P(0∈ I) =/ P(|T|> t_n−2,α) = 1−P(|T| ≤t_n−2,α) =α . On répond à la question en choisissant α= 5%.

4