EXAMEN DU 1 JUIN 2012 – LM347 CORRECTION

(1)

EXAMEN DU 1 JUIN 2012 – LM347 CORRECTION

Exercice 1.

Soit a > 0 et un échantillon X₁, . . . , X_n de loi de densité f(x) = ax^a−1, pour x ∈]0,1[, et 0 sinon. On note X= (X₁· · ·X_n)⁰.

i) – Montrer que f est bien une densité de probabilité.

ii) – Calculer la valeur de EX₁ et proposer un estimateur de a obtenu par la méthode des moments.

iii) – Calculer la densité f_X(x, a) du v.a. X et le logarithme de la vraisemblance de X.

iv) – Trouver l’estimateur ˆa du maximum de vraisemblance de a.

v) – Déterminer la densité de la variable logX₁. vi) – Calculer E((logX1)^k) pourk ∈ {1,2}.

vii) – En déduire que ˆa est asymptotiquement normal, et donner sa loi limite.

viii) – Calculer les deux formes de l’information de Fisher I(a) de l’échantillon X₁, . . . , X_n et montrer qu’elles sont égales.

i) – La fonction f est continue par morceaux, positive, et vérifie R

Rf(x) dx = R1

0 ax^a−1dx = [x^a]¹₀ = 1, c’est donc une densité de probabilité.

ii) – Comme EX₁ =R1

0 x ax^a−1dx = (a/(a+ 1))[x^a+1]¹₀ =a/(a+ 1), un estimateur par la mé- thode des moments réalise l’identité a/(a+ 1) = m(X) = (1/n)(X₁ +· · ·+X_n), c’est-à-dire a =m(X)/(1−m(X)), quantité qui existe presque sûrement dans ]0,∞[ puisque presque sûre- ment X_i ∈]0,1[ et donc presque sûrement m(X)∈]0,1[.

iii) – Si x= (x₁· · ·x_n)∈]0,1[ⁿ, on a f_X(x, a) =Qn

i=1f_X₁(x_i) =aⁿ(x₁· · ·x_n)^a−1, et sinon on a fX(x, a) = 0. Ainsi, pourx= (x1· · ·xn)∈]0,1[ⁿ, on alogfX(x, a) =nloga+(a−1)Pn

i=1logxi. iv) – Comme les xi sont dans]0,1[, leslogxi sont dans ]−∞,0[etPn

i=1logxi <0, alors la fonction a → logf_X(x, a) est strictement concave de limite −∞ en 0 et en ∞, avec sa dérivée qui s’annule au point a =−1/((1/n)Pn

i=1logx_i) = −1/m(logx)∈]0,∞[, ce qui correspond donc à un maximum du logarithme de la vraisemblance. Ainsi aˆ=−1/m(logX).

v) – En passant par la fonction de répartition, il vient pourx∈]−∞,0[,P(logX₁ ≤x) = P(X₁ ≤ e^x) =e^ax, et la densité de logX₁ vaut ae^ax sur ]−∞,0[ et 0 sinon.

vi) – Avec la densité de logX1, il vient E((logX1)^k) =R0

−∞y^kae^aydy = ((−1)^k/a^k)R∞

0 z^ke^−zdz (changement de variables z = −ay), avec, par intégration par parties, R∞

0 z^ke^−zdz = 1 pour k = 1 et = 2R∞

0 ze^−zdz = 2 pour k = 2, et donc E(logX₁) = −a⁻¹ et E((logX₁)²) = 2a⁻². vii) – Les v.a. logX_i sont i.i.d. de moyenne −a⁻¹ et de variance 2a⁻²−(−a⁻¹)² =a⁻², le théo- rème limite central implique donc que√

n(m(logX)−(−a⁻¹))converge en loi lorsquen → ∞vers la loi normaleN(0, a⁻²). Alors une application de la méthode delta avec la fonctionf(x) =−1/x conduit au résultat recherché : √

n(f(m(logX)−f(−a⁻¹)) = √

n(ˆa−a) converge en loi lorsque n→ ∞ vers la loi N(0, a⁻²(f⁰(−a⁻¹))²) =N(0, a²).

viii) – Pour x = (x₁· · ·x_n) ∈]0,1[ⁿ, on a ∂logf_X(x, a)/∂a = n/a − Pn

i=1logx_i et aussi

∂²logf_X(x, a)/∂a² =−n/a², ainsiI(a) =−E(∂²logf_X(X, a)/∂a²) = na⁻², et pour la deuxième expression, les v.a. logX_i étant i.i.d. de variance déjà calculée, I(a) = V(∂logf_X(X, a)/∂a) = nV(logX₁) = na⁻².

Exercice 2.

Soit y₁, . . . , y_n et z₁, . . . , z_n des valeurs réelles connues et le modèle de régression linéaire X_i = ay_i +bz_i +c+_i, pour i ∈ {1, . . . , n}, avec a, b, c des paramètres réels, et ₁, . . . , _n des v.a.i.i.d. de loiN(0,σ²) oùσ² est un paramètre réel strictement positif.

On suppose alors que n≥3, et que y1+· · ·+yn =z1 +· · ·+zn=y1z1+· · ·+ynzn = 0.

i) – Ecrire le modèle sous la formeX=Aθ+,θ∈R³, et indiquer sous quelles conditions le modèle linéaire déterministe X˜ =Aθ est régulier. On supposera ces conditions vérifiées par la suite.

ii) – Calculer les matrices A⁰A et (A⁰A)⁻¹.

iii) – Résoudre le problème de moindres carrés associé au modèle de régression linéaire X˜ =Aθ.

iv) – Ecrire la vraisemblance deX.

1

(2)

v) – Trouver les estimateurs du maximum de vraisemblance ˆa,ˆb,ˆc,σˆ², des paramètresa, b, c, σ², en précisant pour quelles valeurs de n ils existent.

vi) – Préciser la loi deˆa et celle de σˆ².

vii) – Construire un intervalle de confiance pour le paramètre a de degré de confiance 95%.

viii) – Proposer en le justifiant un test de l’hypothèsea = 0 d’erreur de première espèce 5%.

i) – En notant 1, y, z, X et les vecteurs de Rⁿ de coordonnées respectivement, que des 1, les y_i, les z_i, les X_i et les _i, on a A = [y z1], θ = (a b c)⁰ ∈ R³, et donc X = Aθ +. Le modèle X˜ =Aθ est régulier si et seulement si le rang de A est égal à 3, or les trois colonnes constituant A sont par hypothèse orthogonales, elles forment donc une famille libre (⇔ rangA = 3) si et seulement si y6= 0 et z 6= 0.

ii) – La matrice A⁰A est constituée des produits scalaire des colonnes de A, comme ces colonnes sont orthogonales, elle est diagonale et vaut





y⁰y 0 0 0 z⁰z 0

0 0 n



, avec y⁰y et z⁰z > 0, ainsi (A⁰A)⁻¹ =





1/y⁰y 0 0 0 1/z⁰z 0

0 0 1/n



.

iii) – Comme le modèle est régulier, la solution du problème des moindres carrés est donnée par θˆ = (A⁰A)⁻¹A⁰X = (y⁰X/y⁰y z⁰X/z⁰z 1⁰X/n)⁰, c’est-à-dire ˆa = y⁰X/y⁰y = m(Xy)/m(y²), ˆb=z⁰X/z⁰z=m(Xz)/m(z²) et cˆ=1⁰X/n=m(X).

iv) – PuisqueX ∼ Nn(Aθ, σ²In), sa densité vaut fX(x) = (2π)^−n/2σ⁻ⁿexp(−(1/2σ²)||x−Aθ||²).

v) – D’après le cours, lorsque n −rangA ≥ 1 ⇔ n ≥ 4, les EMV des paramètres existent et sont donnés par θˆ la solution du problème des moindres carrés (calculée à la question iii)) et ˆ

σ² = (1/n)||X−Aθ||ˆ ² = (1/n)Pn

i=1(X_i−ˆay_i−ˆbz_i−ˆc)².

vi) – Comme ˆa = (1/y⁰y)y⁰X est une fonction linéaire de X, ˆa suit donc la loi normale N((1/y⁰y)y⁰Aθ,(1/y⁰y)²y⁰(σ²I_n)y) = N(a, σ²/y⁰y), et, d’après le cours, nˆσ²/σ² ∼χ²_n−3.

vii) – On utilise la méthode de “studentisation”, √

y⁰y^ˆ^a−a_σ suit la loi normale standard, si bien que la statistique :

T =

√y⁰y^ˆ^a−a_σ q nˆσ²

(n−3)σ²

=

p(n−3)y⁰y(ˆa−a)

√nσˆ

suit la loi de Student Tn−3, les v.a. √

y⁰y^ˆ^a−a_σ et nσˆ²/σ² étant indépendantes. En notant tn−3,α le réel positif vérifiant P(|T| ≤t_n−3,α) = 1−α, pour α ∈]0,1[, un intervalle de confiance pour le paramètre a est donc :

I = i

ˆ a−

√n

p(n−3)y⁰ytn−3,ασ ,ˆ ˆa+

√n

p(n−3)y⁰ytn−3,ασˆ h

; il est de niveau de confiance 1−α puisque P(a∈ I) = P(|T| ≤t_n−3,α) = 1−α.

viii) – Si on poseR ={0∈ I}, cette région de l’espace des observations peut être utilisée comme/ la région de rejet d’un test de l’hypothèse a = 0. On a alors pour l’erreur de première espèce, lorsque δ= (0 b c σ²)⁰ :

P^δ(R) = P^δ(0∈ I) =/ P(|T|> tn−3,α) = 1−P(|T| ≤tn−3,α) =α , et on répond à la question en choisissant α= 5%.

Exercice 3.

Six points du plan ont pour coordonnées, pourα >0 etβ >0vérifiant α² +β² = 1 :

point C1 C2

1 1 1

2 1 −1

3 −1 1

4 −1 −1

5 α β

6 −α −β

i)−Calculer la matrice de variance-covariance empirique CX.

ii)−Calculer l⁰inertie du nuage de points associ´ee au tableau de donn´ees.

iii)−Calculer les composantes principales de l⁰ACP sur CX (utiliser l⁰aide).

iv)−Repr´esenter les points et les axes principaux dans le plan de d´epart.

v)−Expliquer le calcul des vecteurs propres à partir de la figure précédente.

vi)−Calculer le pourcentage d⁰inertie expliqu´ee par le premier axe.

2

(3)

Aide : la matrice de variance-covariance admet comme vecteurs propres α

β

pour la valeur propre1, et

β

−α

pour la valeur propre 2/3.

i) – Le tableau est centré, ainsiX_c=X etCX =X⁰X/n, la matriceX⁰X s’obtenant en effectuant les produits scalaires des colonnes de X, de la sorte on obtient CX = (1/3)

2 +α² αβ αβ 2 +β²

. ii) – C’est la trace de CX, elle vaut donc 5/3 (puisque α²+β² = 1).

iii) – D’après l’aide V₁ = (α β)⁰ et V₂ = (β −α)⁰ (dans cet ordre), de sorte que les composantes principales sont µ₁U₁ = X_cV₁ = XV₁ = (α+β α−β −α+β −α−β 1 −1)⁰ et µ₂U₂ = X_cV₂ = XV₂ = (−α+β −α−β α+β α−β 0 0)⁰ .

iv) – Les quatre premiers points sont les sommets d’un carré centré en (0,0), ils sont situés sur les deux diagonales, tandis que les deux derniers points sont situés sur le cercle de rayon1centré en (0,0), de façon symétrique par rapport au centre du cercle. Ces deux derniers points portent les axes principaux du nuage de points.

v) – Les quatre premiers points, symétriquement disposés, ne contribuent pas aux axes principaux (avec uniquement ces quatre points, les deux valeurs propres seraient égales à cause de la symétrie de la figure). Ainsi les axes principaux sont déterminés par les deux derniers points, celui de plus grande inertie étant porté par ces deux points.

vi) – C’est l’inertie du premier axe, qui est égale à la première valeur propre de CX, divisée par l’inertie totale, c’est-à-dire 1/(5/3) = 3/5, ce rapport exprimé en pourcentage valant 60%.

3