• Aucun résultat trouvé

Durée 2h - Aucun document - Pas de calculette

N/A
N/A
Protected

Academic year: 2022

Partager "Durée 2h - Aucun document - Pas de calculette"

Copied!
4
0
0

Texte intégral

(1)

EXAMEN DU 8 JUIN 2010 – LM347 – CORRECTION (Programme : parties I, II, III, IV et V)

Durée 2h - Aucun document - Pas de calculette

Exercice 1.

Six points du plan ont pour coordonnées, pourα >0 etβ >0vérifiant α22 = 1 :

point C1 C2

1 1 1

2 −1 −1

3 −1 1

4 1 −1

5 α β

6 −α −β

i)−Calculer la matrice de variance-covariance empirique CX. ii)−Calculer les valeurs propres de cette matrice.

iii)−Calculer l0inertie du nuage de points associ´ee au tableau de donn´ees.

iv)−Calculer les vecteurs propres de CX.

v)−Calculer les composantes principales de l0ACP surCX.

vi)−Repr´esenter les points et les axes principaux dans le plan de d´epart.

vii)−Reprendre i) et ii) quand on n0observe que les points 1,2,3,4.

viii)−Pouvez-vous en d´eduire le r´esultat de iv) ?

Aide :la matrice de variance-covariance est proportionnelle à la matriceA=

2 +α2 αβ αβ 2 +β2

et ses valeurs propres ne dépendent pas deα etβ.

i) – Le tableau de données X est centré, ainsi Xc=X et en posant n = 6 :

CX = 1

nXc0Xc = 1

nX0X = 1 6

2(12+ (−1)2) +α2+ (−α)2 2(1−1) +αβ+ (−α)(−β) 2(1−1) +αβ+ (−α)(−β) 2(12+ (−1)2) +β2 + (−β)2

= 1 3A . ii) – En utilisant α22 = 1, les valeurs propres λ de A sont les solutions du trinôme :

(2 +α2−λ)(2 +β2 −λ)−(αβ)22−(4 +α22)λ+ (2 +α2)(2 +β2)−α2β2

2−5λ+ 4 + 2(α22) =λ2−5λ+ 6 . Ces solutions valent (5±√

52−4×6)/2 = (5±1)/2, c’est-à-dire 3 et 2. Les valeurs propres de CX sont donc 1 et 2/3.

iii) – D’après le cours, l’inertie du nuage de points est égale à la trace de CX, qui vaut 1/3× (2+α2 + 2+β2) = 1/3×5 = 5/3.

iv) – Un vecteur propre V = v1

v2

de A correspondant à la valeur propre 2 est solution de :

(2 +α2)v1+αβv2 = 2v1 αβv1+ (2 +β2)v2 = 2v2

⇐⇒

α2v1+αβv2 = 0

αβv12v2 = 0 ⇐⇒ αv1+βv2 = 0 ,

ainsi V2 = β

−α

est vecteur propre de norme 1 pour la valeur propre 2, et, par orthogonalité des vecteurs propres correspondant à des valeurs propres différentes lorsqu’on diagonalise une matrice symétrique, le vecteur V1 =

α β

est vecteur propre de norme1 pour la valeur propre 3.

v) – Avec les notations du cours, les composantes principales de l’ACP sur CX sont : µ1U1 = XcV1 et µ2U2 = XcV2; c’est-à-dire : µ1U1 = (α+β −(α+β) −α+β α−β 1 −1)0 et µ2U2 = (−α+β α−β −(α+β) α+β 0 0)0.

vi) – A faire vous-même : les quatre premiers points du nuages sont sur le carré à côtés parallèles aux axes, de longueur 2 et centré en 0, et les deux derniers points sont sur le cercle inscrit, de rayon 1 et centré en 0. Le premier axe principal passe par le centre du cercle et le point (α β)0. vii) – Le tableau de données X est toujours centré, ainsi Xc = X et CX est cette fois égale à l’identité en dimension 2. Il y a donc une valeur propre double égale à 1.

viii) – Tous les axes orthonormés sont axes principaux du nuage des quatre premiers points.

De plus les deux derniers points sont alignés avec le centre du nuage de points. Ainsi ce qui détermine le premier axe principal du nuage des six points, c’est la direction engendré par ces deux derniers points et V1 =

α β

doit être vecteur propre.

1

(2)

Exercice 2.

Soit a > 0 et un échantillon X1, . . . , Xn de loi β(a,2), de densité f(x) = a(a+1)xa−1(1−x), pourx∈]0,1[. On noteX= (X1· · ·Xn)0 etc(x) = −(Pn

i=1logxi)/npourx= (x1· · ·xn)0 ∈]0,1[n. Indication :les intégrales comportant dans l’intégrande le facteur(1−x)pourront être calculées comme la différence de deux intégrales en développant ce facteur.

i) – Montrer que f est bien une densité de probabilité.

ii) – Calculer EX1 et proposer un estimateur de a obtenu par la méthode des moments.

iii) – Calculer la densité fX(x, a) du v.a. X et le logarithme de la vraisemblance de X.

iv) – Montrer que l’estimateur ˆa du maximum de vraisemblance de a est l’unique solution dans l’intervalle ]0,∞[ d’un trinôme à coefficients fonctions de c(X), on notera ˆa=g(c(X)).

v) – Montrer qu’on aR1

0(logx)xαdx=−1/(α+1)2 etR1

0(logx)2xαdx= 2/(α+1)3 pourα >−1.

vi) – Calculer E((logX1)2) et montrer que c(X) est une suite asymptotiquement normale.

vii) – Comment montreriez-vous queˆaest asymptotiquement normal ? A votre avis cet estimateur est-il sans biais ?

viii) – Calculer l’information de Fisher I(a) de l’échantillon X1, . . . , Xn.

i) – La fonctionf est positive, continue, sauf en0lorsque0< a <1, intégrable au voisinage de0 poura >0. De plus, on a R1

0xa−1(1−x)dx=R1

0xa−1dx−R1

0xadx= 1/a−1/(a+1) = 1/(a(a+1)).

Ce qui montre bien que f est une densité de probabilité.

ii) – On obtient d’après i) :

E(X1) = Z 1

0

x a(a+1)xa−1(1−x)dx=a(a+1) Z 1

0

xa(1−x)dx= a(a+1)

(a+1)(a+2) = a a+2 . Ainsi, comme presque sûrement m(X) appartient à ]0,1[, si on résout EX1 =m(X), on obtient comme estimateur 2m(X)/(1−m(X)), quantité qui appartient bien à ]0,1[.

iii) – La densité = la vraisemblance de X est égale à fX(x, a) = Qn

i=1a(a+1)xa−1i (1−xi) = (a(a+1))n(Qn

i=1xi)a−1Qn

i=1(1−xi), pour x= (x1. . . xn)0∈]0,1[n, son logarithme s’écrit : log(fX(x, a)) = nlog(a(a+1))−n(a−1)c(x) + log(

n

Y

i=1

(1−xi)) .

iv) – Cette dernière fonction est strictement concave comme somme de deux fonctions strictement concaves, a → nloga et a → nlog(a+1), et d’une fonction affine. De plus, elle est dérivable en a de dérivée n/a + n/(a+1) − n c(x), avec P(c(X) > 0) = 1. Cette dérivée s’annule si et seulement si c(x)a2 + (c(x)−2)a − 1 = 0, trinôme de discriminant (c(x)−2)2 + 4c(x) = (c(x))2+ 4 >0 et de racines (2−c(x)±p

(c(x))2+ 4)/(2c(x)). Enfin, pour c(x)> 0, la racine avec le “−” est strictement négative, tandis que celle avec le “+” est strictement positive. Ainsi, ˆ

a= 2−c(X) +p

(c(X))2+ 4

/(2c(X)) réalise le maximum de la vraisemblance.

v) – Puisque α >−1, il vient par intégration par parties : Z 1

0

(logx)xαdx=h

(logx)×(xα+1/(α+1))i1 0

− Z 1

0

(1/x)×(xα+1/(α+1)) dx=−1/(α+1)2 ;

Z 1 0

(logx)2xαdx=h

(logx)2×xα+1 α+1

i1 0

− Z 1

0

2 logx

x ×xα+1

α+1 dx=− 2 α+1

Z 1 0

(logx)xαdx= 2 (α+1)3 . vi) – Par définition,c(X)est la moyenne de v.a.i.i.d., les v.a.−logXi, et, d’après ce qui précède, ces v.a. sont aussi de variance finie. En effet, E(−logX1) = a(a+1)R1

0(−logx)xa−1(1−x) dx= (a+1)/a−a/(a+1) = (2a+1)/(a(a+1)) et E((−logX1)2) = a(a+1)R1

0(logx)2xa−1(1−x) dx = 2(a+1)/a2−2a/(a+1)2, ce qui implique que la variance delogX1 est finie. On peut donc appliquer le TLC qui dit que √

n(c(X)−(2a+1)/(a(a+1))) converge vers une loi normale centrée.

vii) – Comme ˆa = g(c(X)) où la fonction g est dérivable, on peut appliquer la méthode delta.

Compte tenu des formules assez compliquées et non linéaires, l’estimateurˆaest sans doute biaisé.

viii) – Comme log(f∂aX)(x, a) = na+a+1n −n c(x) et 2log(f∂a2X)(x, a) =−an2(a+1)n 2, les conditions de régularité étant supposées vérifiées, I(b) = −E(2log(f∂a2X)(X, a)) = n(a12 +(a+1)1 2).

2

(3)

Exercice 3.

Soit y1, . . . , yn des valeurs réelles connues et le modèle de régression linéaireXi =ayi+b+i, pour i ∈ {1, . . . , n}, avec a, b des paramètres réels, et 1, . . . , n des v.a.i.i.d. de loi N(0,σ2) où σ2 est un paramètre réel strictement positif.

Soit aussi α 6= β deux réels et ` ∈ {1, . . . , n − 1}. On suppose alors que n ≥ 2, que

`α+ (n−`)β= 0, et enfin que y1 =· · ·=y` =α et que y`+1 =· · ·=yn =β.

i) – Ecrire le modèle sous la forme X = Aθ +, θ∈R2, et montrer que le modèle linéaire déterministeX˜ =Aθ est régulier.

ii) – Montrer que la matrice A0A est diagonale et calculer (A0A)−1.

iii) – Résoudre le problème de moindres carrés associé au modèle de régression linéaire X˜ =Aθ.

iv) – Ecrire la vraisemblance deX.

v) – Trouver les estimateurs du maximum de vraisemblance a,ˆ ˆb,σˆ2, des paramètres a, b, σ2, lorsque n >2.

vi) – Calculer la loi de ˆa et celle de σˆ2.

vii) – Construire un intervalle de confiance pour le paramètre a de degré de confiance 95%.

viii) – Proposer un test de l’hypothèsea = 0, d’erreur de première espèce 5%.

i) – Posons X = (X1· · ·Xn)0, = (1· · ·n)0, y= (y1· · ·yn)0 et 1= (1· · ·1)0, quatre vecteurs de Rn. Posons aussi A = [y1], matrice n×2, et θ = (a b)0 ∈R2. Alors on a l’identité X =Aθ+. De plus, le vecteur y étant non nul (α6=β) et orthogonal au vecteur 1 (y01 =`α+ (n−`)β = 0), les deux colonnes de la matrice A sont linéairement indépendantes, et le rang de A est égal à 2.

Ce qui montre que le modèle linéaire déterministe X˜ =Aθ est régulier.

ii) – La matrice A0A est constituée des produits scalaires des colonnes de A :

A0A=

y0y y01 y01 101

=

y0y 0 0 n

d0o `u (A0A)−1 =

(y0y)−1 0 0 n−1

,

ce qui a bien un sens puisque y6= 0 ⇒y0y6= 0. De plus, y0y=`α2+ (n−`)β2.

iii) – Le paramètre θˆsolution du problème des moindres carrés pour le modèle régulier X˜ =Aθ est donné par la formule θˆ= (A0A)−1A0X. Comme A0X = (y0X 10X)0, il vient :

θˆ=

(y0y)−1 0 0 n−1

y0X 10X

=

y0X/y0y 10X/n

=

c(y,X)/v(y) m(X)

,

la dernière égalité provenant du fait que le vecteur y est centré, puisque qu’il est orthogonal au vecteur 1. On a ici y0X =α(X1+. . .+X`) +β(X`+1+. . .+Xn).

iv) – Le vecteur X suit la loi normaleNn(Aθ,σ2In), il admet une densité par rapport à la mesure de Lebesgue sur Rn qui est sa vraisemblance :

fX(x, a, b, σ2) = (2π)−n/2σ−ne

kx−Aθk2

2 = (2π)−n/2σ−ne12Pni=1(xi−ayi−b)2.

v) – D’après le cours, puisqu’il y a deux paramètres pour la moyenne et comme il est supposé quen >2, les EMV de a et b sont donnés par le θˆobtenu à la question iii) et l’EMV de σ2 vaut ˆ

σ2 = n1kX−Aθkˆ 2 = 1nPn

i=1(Xi−ˆayi−ˆb)2.

vi) – Toujours d’après le cours (proposition 9 de la partie V), θˆsuit la loi N2(θ, σ2(A0A)−1) et nˆσ22 suit la loi χ2n−2. De l’expression de (A0A)−1 obtenu à la question ii), on déduit alors que ˆ

a suit la loi N(a, σ2(y0y)−1) = N(a, σ2/(nv(y))).

vii) – On utilise la méthode de “studentisation”, p

nv(y)(ˆa−a)/σ suit la loi normale standard, si bien que la statistique :

T =

pnv(y)(ˆa−a)/σ pnσˆ2/((n−2)σ2) =

pv(y)(ˆa−a) pσˆ2/(n−2) suit la loi de Student Tn−2, les v.a. p

nv(y)(ˆa−a)/σ et nσˆ22 étant indépendantes. En notant tn−2,α le réel positif vérifiant P(|T| ≤tn−2,α) = 1−α, pour α ∈]0,1[, un intervalle de confiance pour le paramètre a est donc :

I =i ˆ

a−tn−2,α

√ 1 n−2

√ ˆ σ2

pv(y), ˆa+tn−2,α

√ 1 n−2

√ ˆ σ2 pv(y)

h

;

3

(4)

il est de niveau de confiance 1−α puisque :

P(a∈ I) =P(|T| ≤tn−2,α) = 1−α .

viii) – Si on poseR ={0∈ I}, cette région de l’espace des observations peut être utilisée comme/ la région de rejet d’un test de l’hypothèse a = 0. On a alors pour l’erreur de première espèce, lorsque θ= (0 b)0 :

Pθ(R) = P(0∈ I) =/ P(|T|> tn−2,α) = 1−P(|T| ≤tn−2,α) =α . On répond à la question en choisissant α= 5%.

4

Références

Documents relatifs

Lisez attentivement et entièrement l’énoncé des exercices proposés. Respectez les instructions de l’énoncé. Écrivez votre nom sur vos copies et numérotez-les. Toute

Un transformateur d’une puissance de 15 KVA est alimenté par un réseau de fréquence 50 Hz. Il est constitué d’un circuit magnétique de section 24 cm 2. Deux essais ont

Cela signifie que si l’on imagine les points du nuage placés (avec leurs poids correspondants) sur une plaque horizontal, il suffit de placer une tige vertical sous le plateau en

Plutôt que simplement étudier un seul caractère sur une population, on peut s'intéresser à l'étude de deux caractères en même temps.. STATISTIQUES Dans certains cas, le nuage

[r]

[r]

[r]

[r]