• Aucun résultat trouvé

Proposer une m´ethode d’estimation de θ= (p1, p2, p3, λ1, λ2, λ3)

N/A
N/A
Protected

Academic year: 2022

Partager "Proposer une m´ethode d’estimation de θ= (p1, p2, p3, λ1, λ2, λ3)"

Copied!
4
0
0

Texte intégral

(1)

Universit´e de Strasbourg S´egolen Geffray

M2 - Statistique geffray@math.unistra.fr

Outils pour la statistique avanc´ee Ann´ee 2018/2019

TD 2 : Algorithme EM

Exercice 1.

Estimation dans un mod`ele de m´elange.

1. Estimation param´etrique d’une densit´e dans un mod`ele de m´elange.

Soient X1, ..., Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees de variable parente X dont la densit´e est de la forme :

fX(x) =p1λ1e−λ1x+p2λ2e−λ2x+p3λ3e−λ3x, x >0

o`u λ1, λ2, λ3 >0 et p1, p2, p3 ∈]0,1[ avecp1 +p2 +p3 = 1 sont des param`etres inconnus.

Proposer une m´ethode d’estimation de θ= (p1, p2, p3, λ1, λ2, λ3).

2. Estimation param´etrique d’une densit´e dans un mod`ele de m´elange.

Soient X1, ..., Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees de variable parente X dont la densit´e est de la forme :

fX(x) =p1π1x(1−π1)1−x+p2π2x(1−π2)1−x+p3π3x(1−π3)1−x, x >0

o`uπ1, π2, π3, p1, p2, p3 ∈]0,1[ avecp1+p2+p3 = 1 sont des param`etres inconnus. Proposer une m´ethode d’estimation de θ = (p1, p2, p3, π1, π2, π3).

3. Estimation param´etrique d’une densit´e dans un mod`ele de m´elange.

Soient X1, ..., Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees de variable parente X dont la densit´e est de la forme :

fX(x) = p+ (1−p)ga,b(x), x∈[0,1]

o`u p∈]0,1[,a >0 et b >0 sont des param`etres inconnus et o`u ga,b(x) = Γ(a+b)

Γ(a)Γ(b)xa−1(1−x)b−1, x∈[0,1]

(a) De quel m´elange s’agit-il ?

(b) Ecrire l’algorithme EM permettant de d´eterminer l’estimateur du maximum de vrai- semblance de θ= (p, a, b).

4. Estimation param´etrique d’une densit´e dans un mod`ele de m´elange.

Soient X1, ..., Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees de variable parente X dont la densit´e est de la forme :

fX(x) =pδ{0}(x) + (1−p)λxe−λ

x! , x∈N o`u p∈]0,1[ et λ >0 sont des param`etres inconnus.

(a) De quel m´elange s’agit-il ?

(2)

(b) Ecrire l’algorithme EM permettant de d´eterminer l’estimateur du maximum de vrai- semblance de θ= (p, λ).

(c) Construire un intervalle de confiance bilat´eral pourλau niveau de confiance (1−α).

5. Estimation dans un m´elange de mod`eles de r´egression lin´eaire gaussiens stan- dards.

Soient (Yi, Xi(1), ..., Xi(p)) pouri= 1, ..., ndes vecteurs al´eatoires ind´ependants avecYi ∈R et Xi(j) ∈ R pour j = 1, ..., p. On suppose que la loi de Yi conditionnelle `a Xi est la sui- vante :

f(yi|Xi) = p

p2πσ12 exp

− 1

12(yi−Xi[1])2

+ (1−p) p2πσ22 exp

− 1

22(yi−Xi[2])2

o`u 0 < p < 1, o`u β[1], β[2] ∈ Rp+1 et en notant Xi = (1, Xi(1), ..., Xi(p)). Proposer une m´ethode d’estimation de θ= (p, β[1], β[2], σ12, σ22).

6. Estimation dans un m´elange de mod`eles de r´egression de Poisson.

Soient (Yi, Xi(1), ..., Xi(p)) pouri= 1, ..., ndes vecteurs al´eatoires ind´ependants avecYi ∈R et Xi(j) ∈ R pour j = 1, ..., p. On suppose que la loi de Yi conditionnelle `a Xi est la suivante :

f(yi|Xi) =pe−λ[1]i[1]i )yi

yi! + (1−p)e−λ[2]i[2]i )yi yi!

o`u 0 < p < 1, o`u λ[1]i = eXi[1] et λ[2]i = eXi[2] avec β[1], β[2] ∈ Rp+1 et en notant Xi = (1, Xi(1), ..., Xi(p)). Proposer une m´ethode d’estimation de θ= (p, β[1], β[2]).

7. Estimation dans un m´elange de mod`eles de r´egression exponentielle.

Soient (Yi, Xi) pour i = 1, ..., n des vecteurs al´eatoires ind´ependants avec Yi ∈ R et Xi ∈R. On suppose que la loi de Yi conditionnelle `aXi est la suivante :

f(yi|Xi) = pλ[1]i e−λ[1]i yi+ (1−p)λ[2]i e−λ[2]i yi, yi >0 o`u 0< p < 1, o`u

λ[1]i =eβ0[1]+Xi1[1]

et o`u

λ[2]i =eβ0[2]+Xi1[2]

avecβ0[1], β1[1], β0[2], β1[2] ∈R. Proposer une m´ethode d’estimation deθ = (p, β0[1], β1[1], β0[2], β1[2]).

Exercice 2.

Clustering.

Consid´erons un ´echantillon de donn´ees de comptage ind´ependantes (X1, ..., Xn). On fait l’hy- poth`ese que cet ´echantillon est constitu´e de trois sous-groupes que l’on cherche `a reconstituer.

Pour cela, on travaille avec l’hypoth`ese que les donn´ees sont issues d’un mod`ele de m´elange de distributions de Poisson.

1. Ecrire le mod`ele de m´elange en question.

2. D´etailler un algorithme permettant d’estimer les param`etres de ce mod`ele par la m´ethode du maximum de vraisemblance.

3. En d´eduire un estimateur de la probabilit´e que Xi appartienne `a chacun des trois sous- groupes conditionnellement `a la valeur de l’observation de Xi (i= 1, ..., n).

(3)

4. Pr´edire le sous-groupe auquel Xi appartient (i= 1, ..., n).

5. Ecrire un programme qui r´ealise ceci.

Exercice 3.

Probl`emes de donn´ees manquantes.

1. Donn´ees manquantes dans un mod`ele gaussien i.i.d. univari´e.

Soient X1, ..., Xn des variables al´eatoires ind´ependantes et identiquement distribu´ees de variable parente X de loiN(µ, σ2). Les variablesX1, ..., Xr sont observ´ees tandis que les variables Xr+1, ..., Xn sont manquantes (avec 1< r < n).

Proposer plusieurs m´ethodes d’estimation de θ= (µ, σ2).

2. Donn´ees manquantes dans un mod`ele gaussien i.i.d. bivari´e.

Soient (X1, Y1), ...,(Xn, Yn) v.a.i.i.d. distribu´ees comme une variable parente (X, Y) de R2 de loi N2

0 0

,

σ21 ρσ1σ2 ρσ1σ2 σ22

. Les variables (X1, Y1), ...,(Xr, Yr) sont observ´ees tandis que les variables (Xr+1, Yr+1), ...,(Xn, Yn) sont manquantes (avec 1< r < n).

Proposer plusieurs m´ethodes d’estimation de θ= (σ12, σ22, ρ).

3. Donn´ees manquantes dans un mod`ele gaussien i.i.d. bivari´e, autre sch´ema de donn´ees manquantes.

Soient (X1, Y1), ...,(Xn, Yn) v.a.i.i.d. distribu´ees comme une variable parente (X, Y) deR2 de loi N2

0 0

,

σ12 ρσ1σ2 ρσ1σ2 σ22

. Les variables (Xr1+1, ..., Xr2) sont manquantes ainsi que les variables (Yr2+1, .., Yn) (avec 1< r1 < r2 < n).

Proposer plusieurs m´ethodes d’estimation de θ= (σ12, σ22, ρ).

Exercice 4.

Estimation en g´en´etique.

Le g`ene codant pour le groupe sanguin d’un individu a trois all`eles possibles : A, B et O. Le type O est r´ecessif, les types A et B sont dominants. On observe quatre groupes sanguins (ou ph´enotypes) : [A] (pour un g´enotype AA ou AO), [B] (pour un g´enotype BB ou BO), [AB]

(pour un g´enotype AB) et [O] (pour un g´enotype OO). On souhaite estimer les probabilit´es qu’un chromosome porte l’all`ele A, B ou O respectivement not´eespA, pB et pO = 1−pA−pB. On observe pour cela le ph´enotype de 521 personnes. Les donn´ees sont les suivantes :

nA nB nAB nO 208 57 21 235

D´eterminer une estimation de pA, pB et pO par la m´ethode du maximum de vraisemblance en utilisant l’algorithme EM.

Exercice 5.

Estimation en ´epid´emiologie.

D’apr`es les observations rapport´ees par McKendrick (1926), le chol´era affectant les foyers indiens au d´ebut du 20`emesi`ecle peut donner lieu `a des infections s´ev`eres ou `a des infections plus l´eg`eres qui sont alors asymptomatiques de sorte que l’observation des foyers sans cas est non fiable. Les malades asymptomatiques sont n´eanmoins transmetteurs de la maladie. McKendrick a recens´e le nombre de cas par foyer dans une certaine r´egion indienne au cours d’une ´epid´emie donn´ee.

Les donn´ees sont les suivantes :

(4)

nombre de cas par foyer 0 1 2 3 4 ≥5

effectif NA 32 16 6 1 0

En admettant que les comptages suivent une loi de Poisson, proposer une imputation du nombre de foyer sans cas.

Indication : estimer le(s) param`etre(s) du mod`ele par maximum de vraisemblance (utiliser l’algorithme EM).

Exercice 6.

Donn´ees manquantes dans un mod`ele de r´egression lin´eaire.

Soient (Yi, Xi) des vecteurs i.i.d. de r´ealisation (yi, xi) pour i = 1, ..., n. On suppose que l’ob- servation de certains desYi est manquante. On cherche `a ajuster sur ces donn´ees un mod`ele de r´egression sur ces donn´ees.

1. Ajuster un mod`ele de r´egression lin´eaire gaussien standard.

2. Ajuster un mod`ele de r´egression lin´eaire g´en´eralis´e de Poisson.

Exercice 7.

Etude d´emographique.

Une ´etude d´emographique est r´ealis´ee afin d’´etudier le nombre moyen d’enfants par foyer. Une campagne de recensement est effectu´ee. Pour des raisons techniques, les donn´ees suivantes sont recueillies :

nombre d’enfants par foyer 0 1 ou 2 3 ou 4 5 ≥6

effectif 24 32 16 4 0

1. En admettant que la loi du nombre d’enfants par foyer est une loi de Poisson, proposer une estimation du param`etre λ de cette loi (utiliser l’algorithme EM).

2. Ecrire un programme calculant cette estimation avec le logiciel R.

3. Donner la construction d’un intervalle de confiance bilat´eral bootstrap studentis´e pour λ de niveau de confiance (1-α).

4. Ecrire un programme qui calcule les bornes de cet intervalle de confiance bilat´eral boots- trap studentis´e.

Références

Documents relatifs

hi´ erarchique R´ eponse Normale Introduit les Mod` eles de Markov Latents en SAE Enquˆ ete LFS: donn´ ees trimestrielles 2004-2014.. Meilleure Pr´ ediction Empirique SAE avec donn´

En occultant ensuite cette information, ajuster un ou plusieurs mod` eles (soit de type AR/MA/ARMA/ARIMA/SARIMA, soit de type r´ egression avec tendance et/ou saisonnalit´ e

On suppose que l’on observe seulement le nombre de particules dans le r´ecipient A au cours du temps, et que l’on d´esire estimer le nombre total de particules. Et construire

On s’int´ eresse au d´ elai d’apparition d’une infection localis´ ee au point d’insertion du cath´ eter chez des patients souffrant de maladie r´ enale et ayant un ´

Interpr´ eter les tests et conclure sur le d´ elai d’apparition d’une infection en fonction du sexe.. (d) R´ ealiser le test de l’effet sexe en stratifiant sur le type

Interpr´ eter les tests et conclure sur le d´ elai d’apparition d’une infection en fonction du sexe.. (d) R´ ealiser le test de l’effet sexe en stratifiant sur le type

Aujourd’hui on cherche ` a les g´ en´ eraliser ` a des structures de plus en plus complexes pour d´ etecter des d´ efauts soit lors d’un processus industriel (contrˆ ole de

Blade ”National motor-gasoline survey” Bureau of Mines Report of Investigation 5041..