Universit´e de Strasbourg S´egolen Geffray
M2 - Statistique geffray@math.unistra.fr
Outils pour la statistique avanc´ee Ann´ee 2018/2019
TD 2 : Algorithme EM
Exercice 1.
Estimation dans un mod`ele de m´elange.
1. Estimation param´etrique d’une densit´e dans un mod`ele de m´elange.
Soient X1, ..., Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees de variable parente X dont la densit´e est de la forme :
fX(x) =p1λ1e−λ1x+p2λ2e−λ2x+p3λ3e−λ3x, x >0
o`u λ1, λ2, λ3 >0 et p1, p2, p3 ∈]0,1[ avecp1 +p2 +p3 = 1 sont des param`etres inconnus.
Proposer une m´ethode d’estimation de θ= (p1, p2, p3, λ1, λ2, λ3).
2. Estimation param´etrique d’une densit´e dans un mod`ele de m´elange.
Soient X1, ..., Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees de variable parente X dont la densit´e est de la forme :
fX(x) =p1π1x(1−π1)1−x+p2π2x(1−π2)1−x+p3π3x(1−π3)1−x, x >0
o`uπ1, π2, π3, p1, p2, p3 ∈]0,1[ avecp1+p2+p3 = 1 sont des param`etres inconnus. Proposer une m´ethode d’estimation de θ = (p1, p2, p3, π1, π2, π3).
3. Estimation param´etrique d’une densit´e dans un mod`ele de m´elange.
Soient X1, ..., Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees de variable parente X dont la densit´e est de la forme :
fX(x) = p+ (1−p)ga,b(x), x∈[0,1]
o`u p∈]0,1[,a >0 et b >0 sont des param`etres inconnus et o`u ga,b(x) = Γ(a+b)
Γ(a)Γ(b)xa−1(1−x)b−1, x∈[0,1]
(a) De quel m´elange s’agit-il ?
(b) Ecrire l’algorithme EM permettant de d´eterminer l’estimateur du maximum de vrai- semblance de θ= (p, a, b).
4. Estimation param´etrique d’une densit´e dans un mod`ele de m´elange.
Soient X1, ..., Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees de variable parente X dont la densit´e est de la forme :
fX(x) =pδ{0}(x) + (1−p)λxe−λ
x! , x∈N o`u p∈]0,1[ et λ >0 sont des param`etres inconnus.
(a) De quel m´elange s’agit-il ?
(b) Ecrire l’algorithme EM permettant de d´eterminer l’estimateur du maximum de vrai- semblance de θ= (p, λ).
(c) Construire un intervalle de confiance bilat´eral pourλau niveau de confiance (1−α).
5. Estimation dans un m´elange de mod`eles de r´egression lin´eaire gaussiens stan- dards.
Soient (Yi, Xi(1), ..., Xi(p)) pouri= 1, ..., ndes vecteurs al´eatoires ind´ependants avecYi ∈R et Xi(j) ∈ R pour j = 1, ..., p. On suppose que la loi de Yi conditionnelle `a Xi est la sui- vante :
f(yi|Xi) = p
p2πσ12 exp
− 1
2σ12(yi−Xi.β[1])2
+ (1−p) p2πσ22 exp
− 1
2σ22(yi−Xi.β[2])2
o`u 0 < p < 1, o`u β[1], β[2] ∈ Rp+1 et en notant Xi = (1, Xi(1), ..., Xi(p)). Proposer une m´ethode d’estimation de θ= (p, β[1], β[2], σ12, σ22).
6. Estimation dans un m´elange de mod`eles de r´egression de Poisson.
Soient (Yi, Xi(1), ..., Xi(p)) pouri= 1, ..., ndes vecteurs al´eatoires ind´ependants avecYi ∈R et Xi(j) ∈ R pour j = 1, ..., p. On suppose que la loi de Yi conditionnelle `a Xi est la suivante :
f(yi|Xi) =pe−λ[1]i (λ[1]i )yi
yi! + (1−p)e−λ[2]i (λ[2]i )yi yi!
o`u 0 < p < 1, o`u λ[1]i = eXi.β[1] et λ[2]i = eXi.β[2] avec β[1], β[2] ∈ Rp+1 et en notant Xi = (1, Xi(1), ..., Xi(p)). Proposer une m´ethode d’estimation de θ= (p, β[1], β[2]).
7. Estimation dans un m´elange de mod`eles de r´egression exponentielle.
Soient (Yi, Xi) pour i = 1, ..., n des vecteurs al´eatoires ind´ependants avec Yi ∈ R et Xi ∈R. On suppose que la loi de Yi conditionnelle `aXi est la suivante :
f(yi|Xi) = pλ[1]i e−λ[1]i yi+ (1−p)λ[2]i e−λ[2]i yi, yi >0 o`u 0< p < 1, o`u
λ[1]i =eβ0[1]+Xi.β1[1]
et o`u
λ[2]i =eβ0[2]+Xi.β1[2]
avecβ0[1], β1[1], β0[2], β1[2] ∈R. Proposer une m´ethode d’estimation deθ = (p, β0[1], β1[1], β0[2], β1[2]).
Exercice 2.
Clustering.
Consid´erons un ´echantillon de donn´ees de comptage ind´ependantes (X1, ..., Xn). On fait l’hy- poth`ese que cet ´echantillon est constitu´e de trois sous-groupes que l’on cherche `a reconstituer.
Pour cela, on travaille avec l’hypoth`ese que les donn´ees sont issues d’un mod`ele de m´elange de distributions de Poisson.
1. Ecrire le mod`ele de m´elange en question.
2. D´etailler un algorithme permettant d’estimer les param`etres de ce mod`ele par la m´ethode du maximum de vraisemblance.
3. En d´eduire un estimateur de la probabilit´e que Xi appartienne `a chacun des trois sous- groupes conditionnellement `a la valeur de l’observation de Xi (i= 1, ..., n).
4. Pr´edire le sous-groupe auquel Xi appartient (i= 1, ..., n).
5. Ecrire un programme qui r´ealise ceci.
Exercice 3.
Probl`emes de donn´ees manquantes.
1. Donn´ees manquantes dans un mod`ele gaussien i.i.d. univari´e.
Soient X1, ..., Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees de variable parente X de loiN(µ, σ2). Les variablesX1, ..., Xr sont observ´ees tandis que les variables Xr+1, ..., Xn sont manquantes (avec 1< r < n).
Proposer plusieurs m´ethodes d’estimation de θ= (µ, σ2).
2. Donn´ees manquantes dans un mod`ele gaussien i.i.d. bivari´e.
Soient (X1, Y1), ...,(Xn, Yn) v.a.i.i.d. distribu´ees comme une variable parente (X, Y) de R2 de loi N2
0 0
,
σ21 ρσ1σ2 ρσ1σ2 σ22
. Les variables (X1, Y1), ...,(Xr, Yr) sont observ´ees tandis que les variables (Xr+1, Yr+1), ...,(Xn, Yn) sont manquantes (avec 1< r < n).
Proposer plusieurs m´ethodes d’estimation de θ= (σ12, σ22, ρ).
3. Donn´ees manquantes dans un mod`ele gaussien i.i.d. bivari´e, autre sch´ema de donn´ees manquantes.
Soient (X1, Y1), ...,(Xn, Yn) v.a.i.i.d. distribu´ees comme une variable parente (X, Y) deR2 de loi N2
0 0
,
σ12 ρσ1σ2 ρσ1σ2 σ22
. Les variables (Xr1+1, ..., Xr2) sont manquantes ainsi que les variables (Yr2+1, .., Yn) (avec 1< r1 < r2 < n).
Proposer plusieurs m´ethodes d’estimation de θ= (σ12, σ22, ρ).
Exercice 4.
Estimation en g´en´etique.
Le g`ene codant pour le groupe sanguin d’un individu a trois all`eles possibles : A, B et O. Le type O est r´ecessif, les types A et B sont dominants. On observe quatre groupes sanguins (ou ph´enotypes) : [A] (pour un g´enotype AA ou AO), [B] (pour un g´enotype BB ou BO), [AB]
(pour un g´enotype AB) et [O] (pour un g´enotype OO). On souhaite estimer les probabilit´es qu’un chromosome porte l’all`ele A, B ou O respectivement not´eespA, pB et pO = 1−pA−pB. On observe pour cela le ph´enotype de 521 personnes. Les donn´ees sont les suivantes :
nA nB nAB nO 208 57 21 235
D´eterminer une estimation de pA, pB et pO par la m´ethode du maximum de vraisemblance en utilisant l’algorithme EM.
Exercice 5.
Estimation en ´epid´emiologie.
D’apr`es les observations rapport´ees par McKendrick (1926), le chol´era affectant les foyers indiens au d´ebut du 20`emesi`ecle peut donner lieu `a des infections s´ev`eres ou `a des infections plus l´eg`eres qui sont alors asymptomatiques de sorte que l’observation des foyers sans cas est non fiable. Les malades asymptomatiques sont n´eanmoins transmetteurs de la maladie. McKendrick a recens´e le nombre de cas par foyer dans une certaine r´egion indienne au cours d’une ´epid´emie donn´ee.
Les donn´ees sont les suivantes :
nombre de cas par foyer 0 1 2 3 4 ≥5
effectif NA 32 16 6 1 0
En admettant que les comptages suivent une loi de Poisson, proposer une imputation du nombre de foyer sans cas.
Indication : estimer le(s) param`etre(s) du mod`ele par maximum de vraisemblance (utiliser l’algorithme EM).
Exercice 6.
Donn´ees manquantes dans un mod`ele de r´egression lin´eaire.
Soient (Yi, Xi) des vecteurs i.i.d. de r´ealisation (yi, xi) pour i = 1, ..., n. On suppose que l’ob- servation de certains desYi est manquante. On cherche `a ajuster sur ces donn´ees un mod`ele de r´egression sur ces donn´ees.
1. Ajuster un mod`ele de r´egression lin´eaire gaussien standard.
2. Ajuster un mod`ele de r´egression lin´eaire g´en´eralis´e de Poisson.
Exercice 7.
Etude d´emographique.
Une ´etude d´emographique est r´ealis´ee afin d’´etudier le nombre moyen d’enfants par foyer. Une campagne de recensement est effectu´ee. Pour des raisons techniques, les donn´ees suivantes sont recueillies :
nombre d’enfants par foyer 0 1 ou 2 3 ou 4 5 ≥6
effectif 24 32 16 4 0
1. En admettant que la loi du nombre d’enfants par foyer est une loi de Poisson, proposer une estimation du param`etre λ de cette loi (utiliser l’algorithme EM).
2. Ecrire un programme calculant cette estimation avec le logiciel R.
3. Donner la construction d’un intervalle de confiance bilat´eral bootstrap studentis´e pour λ de niveau de confiance (1-α).
4. Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilat´eral boots- trap studentis´e.