• Aucun résultat trouvé

XI.11 Mariage d’un prince

Exercice XI.14 (Mariage d’un prince).

Le probl`eme du choix de la princesse pour un prince, appel´e probl`eme du mariage

et dans un autre contexte probl`eme du recrutement d’une secr´etaire22, date des ann´ees 1960 et a donn´e lieu `a de nombreuses analyses. Ce probl`eme s’inscrit dans la th´eorie plus g´en´erale du contrˆole optimal23.

Le prince doit choisir une princesse pour son mariage. Il existen≥3 candidates qui lui sont pr´esent´ees pour la premi`ere fois. Les candidates sont pr´esent´ees au hasard l’une apr`es l’autre. `A l’issue de l’entretien avec une princesse, le prince lui donne une r´eponse ferme. Soit il l’´epouse et il arrˆete les entretiens ; soit il ne l’´epouse pas (et il ne revient plus sur cette d´ecision) et il rencontre la princesse suivante. On suppose que l’on peut classer les princesses de la meilleure `a la pire sans avoir d’´egalit´e. Et on souhaite trouver une strat´egie optimale qui maximise la probabilit´e pour le prince d’´epouser la meilleure princesse. (Si on modifie le crit`ere

`

a optimiser, alors la strat´egie optimale est modifi´ee.)

On consid`ere le mod`ele suivant. On note Σi le rang (de la meilleure `a la pire) de la i-`eme princesse rencontr´ee. Le prince souhaite recruter la princesse i telle que Σi = 1. Le vecteur des rangs Σ = (Σ1, . . . , Σn) est une variable al´eatoire `a valeurs dans l’ensemble des permutations de {1, . . . , n}, not´e Sn. Toutefois, lors de la rencontre avec la princesse k, son rang est inconnu (sauf sik =n). Mais le prince observe Rk son rang partiel parmi les k premi`eres princesses rencontr´ees.

Le vecteur des rangs partiels associ´e `a Σ, not´e R = (R1, . . . , Rn), peut ˆetre vu comme une fonction,h, deΣ:R=h(Σ). On admet quehest une bijection deSn

dansEn=Qn

k=1{1, . . . , k}. On a en particulier R1 = 1 etRnn. Par exemple, pour n = 5 et la permutation σ = (2,5,3,1,4), les rangs partiels correspondants sonth(σ) = (1,2,2,1,4).

Le but du probl`eme est de montrer que la strat´egie optimale (pour n grand) consiste `a rencontrer 37% des princesses, puis `a choisir la prochaine meilleure. Ceci assure d’´epouser la meilleure princesse avec une probabilit´e d’environ 37%.

I Pr´eliminaires

1. Justifier en quelques mots que la loi de Σ est la loi uniforme surSn.

2. D´eterminer la loi de R. Puis, en d´eduire que Rk est de loi uniforme sur {1, . . . , k}.

3. V´erifier que les variables al´eatoires (R1, . . . , Rn) sont ind´ependantes.

4. V´erifier que{Σn= 1}={Rn = 1} et que pourk∈ {1, . . . , n−1} : {Σk= 1}={Rk= 1, Rk+1 >1, . . . , Rn>1}.

22. T. Ferguson. Who solved the secretary problem. Stat. Sciences, vol. 4(3), pp. 282-296, (1989).

23. D.P. Bertsekas and S.E. Shreve.Stochastic optimal control. Academic Press Inc. (1978).

II Les strat´egies de seuil

Soit c ∈ {0, . . . , n−1}. On consid`ere la strat´egie de seuil suivante : le prince rencontre les c premi`eres princesses, puis `a partir de la c+ 1-`eme rencontre, il choisit d’´epouser la premi`ere princesse meilleure que les c premi`eres et s’il n’y en a pas, il ´epouse la derni`ere princesse rencontr´ee. Il ´epouse donc la princesse :

τc= inf{k∈ {c+ 1, . . . , n};Rk= 1},

4. En d´eduire que τc est la strat´egie de seuil optimale.

5. On rappelle que Pn1 III Les strat´egies g´en´erales

Une strat´egieτcorrespond `a une famille d’ensemblesAk⊂Ek =Qk

i=1{1, . . . , i}, pour k∈ {1, . . . , n−1}et le fait d’´epouser la princesse :

τ = inf{k∈ {1, . . . , n−1,}; (R1, . . . , Rk)∈Ak},

avec la convention τ = n si {k ∈ {1, . . . , n−1,}; (R1, . . . , Rk) ∈ Ak} = ∅. (Les strat´egies de seuil τc sont un cas particulier de strat´egies g´en´erales avec Ak = ∅ pourk≤cetAk =Ek1× {1}pourk > c.) La variable al´eatoire24τ est `a valeurs dans{1, . . . , n}et on peut facilement v´erifier que :

{τ =k}={(R1, . . . , Rk)∈Bk} et {τ > k}={(R1, . . . , Rk)∈Ck} pour des ensemblesBk ⊂Ek etCk⊂Ek que l’on ne cherchera pas `a ´ecrire.

On d´efinit la probabilit´e de recruter la meilleure princesse `a partir de l’instantk et conditionnellement `a{R1 =r1, . . . , Rk =rk}, pour (r1, . . . , rk)∈E1× · · · ×Ek, par :

Gk(r1, . . . , rk) =P(Στ = 1, τ ≥k|R1 =r1, . . . , Rk=rk).

Ainsi, la probabilit´e que le prince ´epouse la meilleure princesse avec la strat´egie τ est G1(1) =P(Στ = 1).

1. Calculer Gn(r1, . . . , rn).

2. En utilisant la question I.4, montrer que : Gk(r1, . . . , rk) =k!

n

X

i=k

i

nP(Ri = 1, τ =i, R1 =r1, . . . , Rk =rk).

3. En d´eduire que pourk∈ {1, . . . , n−1} : Gk(r1, . . . , rk) = k

n1{rk=1}1{(r1,...,rk)Bk}

+E[Gk+1(r1, . . . , rk, Rk+1)]1{(r1,...,rk)Ck}, et donc :

Gk(r1, . . . , rk)≤max k

n1{rk=1},E[Gk+1(r1, . . . , rk, Rk+1)]

1{(r1,...,rk)BkCk}. On consid`ere la fonctiong d´efinie sur{1, . . . , n+ 1}par la r´ecursion descendante g(n+ 1) = 0 et pourk∈ {1, . . . , n} :

g(k) =E

max k

n1{Rk=1}, g(k+ 1)

.

On reprend les notations de la partie II.

4. Montrer queE[Gk(r1, . . . , rk1, Rk)] ≤g(k) pour k∈ {0, . . . , n−1}, et donc queG1(1)≤g(1).

24. On dit queτ est un temps d’arrˆet associ´e aux variables al´eatoires (R1, . . . , Rn).

5. Montrer que pour k > c on a g(k) = g(k−1) et que pour k ≤ c on a g(k) =g(c).

6. En d´eduire que la strat´egie τc est la strat´egie optimale.

Probl` emes (probabilit´ es et statistique)

XII.1 Le mod`ele de Hardy-Weinberg

Exercice XII.1(Mod`ele de Hardy-Weinberg pour la distribution d’un g´enotype).

Le but de cet exercice est l’´etude simplifi´ee du mod`ele de Hardy-Weinberg1 pour la r´epartition d’un g´enotype dans la population humaine2.

On consid`ere un g`ene poss´edant deux caract`eres a et A. Le g´enotype d’un individu est donc soitaa,Aaou AA. On note 1 le g´enotype aa; 2 le g´enotype Aa et 3 le g´enotype AA. On s’int´eresse `a la proportion de la population poss´edant le g´enotypej ∈ {1,2,3}.

I Distribution du g´enotype : le mod`ele de Hardy-Weinberg

Le but de cette partie est d’´etablir que la r´epartition du g´enotype de la popu-lation est stable d`es la premi`ere g´en´eration.

On consid`ere la g´en´eration 0 d’une population de grande taille dont les propor-tions sont les suivantes :





proportion deaa : u1, proportion deaA : u2, proportion deAA: u3.

On suppose les mariages al´eatoires et la transmission du g`ene a ou A uniforme.

On note M le g´enotype de la m`ere,P le g´enotype du p`ere et E celui de l’enfant.

1. Montrer que P(E =aa|M =aA, P =aA) = 14,P(E=aa|M =aa, P =aA) =

1

2,P(E=aa|M =aA, P =aa) = 12, etP(E =aa|M =aa, P =aa) = 1.

1. G. Hardy. Mendelian proportions in a mixed population.Science, vol. 28(706) pp. 49–50 (1908).

2. D. L. Hartl and E. W. Jones.Genetics : analysis of genes and genomes. Jones and Bartlett Publishers, 5th ed. (2001).

2. Montrer, en pr´ecisant les hypoth`eses, que : P(E =aa) =u21+u1u2+1

4u22 =

u1+u2 2

2

.

3. Montrer sans calcul que P(E =AA) = u3+u222

. On pose doncθ=u1+ u2

2 .

4. Montrer, sans calcul, que la r´epartition du g´enotype `a la premi`ere g´en´eration est :





proportion deaa : q12,

proportion deaA : q2 = 2θ(1−θ), proportion deAA: q3= (1−θ)2.

(XII.1) 5. Calculer la r´epartition du g´enotype `a la seconde g´en´eration. En d´eduire que la

r´epartition (XII.1) est stationnaire au cours du temps.

II Mod`ele probabiliste

On suppose que la taille de la population est grande et que la r´epartition du g´enotype suit le mod`ele de Hardy-Weinberg (XII.1). On dispose d’un ´echantillon denpersonnes. On noteXi ∈ {1,2,3}le g´enotype de lai-`eme personne. On a donc P(Xi =j) =qj. On suppose de plus que les variables al´eatoires (Xi;i∈ {1, . . . , n}) sont ind´ependantes. On note :

Nj =Nj[n] =

n

X

i=1

1{Xi=j}, (XII.2)

le nombre de personnes de l’´echantillon poss´edant le g´enotype j.

1. Donner la loi 1{Xi=j}. En d´eduire la loi de Nj. 2. Donner E[Nj] et Var(Nj).

3. D´eduire des questions pr´ec´edentes un estimateur sans biais de qj. Est-il convergent ?

4. Montrer qu’il est asymptotiquement normal et donner sa variance asympto-tique.

5. On rappelle que n1+n2+n3 =n. Montrer que : P(N1=n1, N2 =n2, N3 =n3) = n!

n1!n2!n3!qn11q2n2qn33. (XII.3) On pourra utiliser que le nombre de partitions d’un ensemble `an´el´ements en trois sous-ensembles den1,n2 etn3 ´el´ements est n!

n1!n2!n3!.

6. Calculer la matrice de covariance du vecteur 1{X1=1},1{X1=2}

. En d´eduire Cov(N1, N2).

7. Donner la limite en loi du couple

N1[n]−nq1

√n ,N2[n]−nq2

√n

quand n tend vers l’infini.

III Estimation de θ `a l’aide du g´enotype

On note Pθ la loi de (N1, N2, N3) d´efinie par l’´equation (XII.3) de param`etre θ∈]0,1[.

1. V´erifier que la log-vraisemblanceLn(n1, n2, n3;θ) de l’´echantillon de loi Pθ est : Ln(n1, n2, n3;θ) =c+ 2n1logθ+n2logθ+n2log(1−θ) + 2n3log(1−θ), o`uc est une constante ind´ependante deθ.

2. Calculer le score de l’´echantillon.

3. Calculer la d´eriv´ee du score en θ. En d´eduire que l’information de Fisher de l’´echantillon de taillenest :

In(θ) = 2n θ(1−θ)·

4. On rappelle queN1+N2+N3=n. Montrer que ˆθn= N1 n +N2

2n est l’estimateur du maximum de vraisemblance deθ.

5. L’estimateur de θ, ˆθn, est-il sans biais ? 6. Est-il efficace ?

7. Montrer que l’estimateur ˆθn est convergent. Montrer qu’il est asymptotique-ment normal et donner sa variance asymptotique. On pourra soit utiliser di-rectement (XII.2) soit utiliser le r´esultat de la question II.7.

IV Tests asymptotiques sur le mod`ele de Hardy-Weinberg

On d´esire savoir si le mod`ele de Hardy-Weinberg est valide pour certaines ma-ladies g´en´etiques. On teste donc l’hypoth`ese H0 : la proportion (q1, q2, q3) des g´enotypes aa, aA, AA satisfait l’´equation (XII.1).

1. Calculer (ˆq1,qˆ2,qˆ3) l’estimateur du maximum de vraisemblance de (q1, q2, q3).

On consid`ere la statistique de test : ζn=n

3

X

j=1

(ˆqj−qj(ˆθn))2 ˆ

qj ·

2. Donner un test asymptotique `a partir de la statistique de testζn. 3. En d´eduire un test asymptotique convergent.

4. La mucoviscidose est une maladie g´en´etique. Le g´enotype aa correspond aux cas pathologiques. Les g´enotypesaAetAAsont sains. Les valeurs num´eriques suivantes sont inspir´ees de valeurs r´eelles : nombre de naissances aux USA en 1999 n≃3.88 106, nombre de nouveau-n´es atteints de la maladie n1 = 1 580, nombre de nouveau-n´es portant le g`enea:n1+n2= 152 480. Rejetez-vous le mod`ele au seuil de 5% ?

5. On dispose des donn´ees suivantes sur l’h´emophilie. Nombre de nouveau-n´es atteints d’h´emophilie : n1 = 388, nombre de nouveau-n´es portant le g`ene a : n1+n2 = 1 164. Rejetez-vous le mod`ele au seuil de 5% ? En fait on sait que l’h´emophilie concerne essentiellement la population masculine. Commentaire.

XII.2 Estimation de la taille d’une population