XI.11 Mariage d’un prince
Exercice XI.14 (Mariage d’un prince).
Le probl`eme du choix de la princesse pour un prince, appel´e probl`eme du mariage
et dans un autre contexte probl`eme du recrutement d’une secr´etaire22, date des ann´ees 1960 et a donn´e lieu `a de nombreuses analyses. Ce probl`eme s’inscrit dans la th´eorie plus g´en´erale du contrˆole optimal23.
Le prince doit choisir une princesse pour son mariage. Il existen≥3 candidates qui lui sont pr´esent´ees pour la premi`ere fois. Les candidates sont pr´esent´ees au hasard l’une apr`es l’autre. `A l’issue de l’entretien avec une princesse, le prince lui donne une r´eponse ferme. Soit il l’´epouse et il arrˆete les entretiens ; soit il ne l’´epouse pas (et il ne revient plus sur cette d´ecision) et il rencontre la princesse suivante. On suppose que l’on peut classer les princesses de la meilleure `a la pire sans avoir d’´egalit´e. Et on souhaite trouver une strat´egie optimale qui maximise la probabilit´e pour le prince d’´epouser la meilleure princesse. (Si on modifie le crit`ere
`
a optimiser, alors la strat´egie optimale est modifi´ee.)
On consid`ere le mod`ele suivant. On note Σi le rang (de la meilleure `a la pire) de la i-`eme princesse rencontr´ee. Le prince souhaite recruter la princesse i telle que Σi = 1. Le vecteur des rangs Σ = (Σ1, . . . , Σn) est une variable al´eatoire `a valeurs dans l’ensemble des permutations de {1, . . . , n}, not´e Sn. Toutefois, lors de la rencontre avec la princesse k, son rang est inconnu (sauf sik =n). Mais le prince observe Rk son rang partiel parmi les k premi`eres princesses rencontr´ees.
Le vecteur des rangs partiels associ´e `a Σ, not´e R = (R1, . . . , Rn), peut ˆetre vu comme une fonction,h, deΣ:R=h(Σ). On admet quehest une bijection deSn
dansEn=Qn
k=1{1, . . . , k}. On a en particulier R1 = 1 etRn=Σn. Par exemple, pour n = 5 et la permutation σ = (2,5,3,1,4), les rangs partiels correspondants sonth(σ) = (1,2,2,1,4).
Le but du probl`eme est de montrer que la strat´egie optimale (pour n grand) consiste `a rencontrer 37% des princesses, puis `a choisir la prochaine meilleure. Ceci assure d’´epouser la meilleure princesse avec une probabilit´e d’environ 37%.
I Pr´eliminaires
1. Justifier en quelques mots que la loi de Σ est la loi uniforme surSn.
2. D´eterminer la loi de R. Puis, en d´eduire que Rk est de loi uniforme sur {1, . . . , k}.
3. V´erifier que les variables al´eatoires (R1, . . . , Rn) sont ind´ependantes.
4. V´erifier que{Σn= 1}={Rn = 1} et que pourk∈ {1, . . . , n−1} : {Σk= 1}={Rk= 1, Rk+1 >1, . . . , Rn>1}.
22. T. Ferguson. Who solved the secretary problem. Stat. Sciences, vol. 4(3), pp. 282-296, (1989).
23. D.P. Bertsekas and S.E. Shreve.Stochastic optimal control. Academic Press Inc. (1978).
II Les strat´egies de seuil
Soit c ∈ {0, . . . , n−1}. On consid`ere la strat´egie de seuil suivante : le prince rencontre les c premi`eres princesses, puis `a partir de la c+ 1-`eme rencontre, il choisit d’´epouser la premi`ere princesse meilleure que les c premi`eres et s’il n’y en a pas, il ´epouse la derni`ere princesse rencontr´ee. Il ´epouse donc la princesse :
τc= inf{k∈ {c+ 1, . . . , n};Rk= 1},
4. En d´eduire que τc∗ est la strat´egie de seuil optimale.
5. On rappelle que Pn−1 III Les strat´egies g´en´erales
Une strat´egieτcorrespond `a une famille d’ensemblesAk⊂Ek =Qk
i=1{1, . . . , i}, pour k∈ {1, . . . , n−1}et le fait d’´epouser la princesse :
τ = inf{k∈ {1, . . . , n−1,}; (R1, . . . , Rk)∈Ak},
avec la convention τ = n si {k ∈ {1, . . . , n−1,}; (R1, . . . , Rk) ∈ Ak} = ∅. (Les strat´egies de seuil τc sont un cas particulier de strat´egies g´en´erales avec Ak = ∅ pourk≤cetAk =Ek−1× {1}pourk > c.) La variable al´eatoire24τ est `a valeurs dans{1, . . . , n}et on peut facilement v´erifier que :
{τ =k}={(R1, . . . , Rk)∈Bk} et {τ > k}={(R1, . . . , Rk)∈Ck} pour des ensemblesBk ⊂Ek etCk⊂Ek que l’on ne cherchera pas `a ´ecrire.
On d´efinit la probabilit´e de recruter la meilleure princesse `a partir de l’instantk et conditionnellement `a{R1 =r1, . . . , Rk =rk}, pour (r1, . . . , rk)∈E1× · · · ×Ek, par :
Gk(r1, . . . , rk) =P(Στ = 1, τ ≥k|R1 =r1, . . . , Rk=rk).
Ainsi, la probabilit´e que le prince ´epouse la meilleure princesse avec la strat´egie τ est G1(1) =P(Στ = 1).
1. Calculer Gn(r1, . . . , rn).
2. En utilisant la question I.4, montrer que : Gk(r1, . . . , rk) =k!
n
X
i=k
i
nP(Ri = 1, τ =i, R1 =r1, . . . , Rk =rk).
3. En d´eduire que pourk∈ {1, . . . , n−1} : Gk(r1, . . . , rk) = k
n1{rk=1}1{(r1,...,rk)∈Bk}
+E[Gk+1(r1, . . . , rk, Rk+1)]1{(r1,...,rk)∈Ck}, et donc :
Gk(r1, . . . , rk)≤max k
n1{rk=1},E[Gk+1(r1, . . . , rk, Rk+1)]
1{(r1,...,rk)∈Bk∪Ck}. On consid`ere la fonctiong∗ d´efinie sur{1, . . . , n+ 1}par la r´ecursion descendante g∗(n+ 1) = 0 et pourk∈ {1, . . . , n} :
g∗(k) =E
max k
n1{Rk=1}, g∗(k+ 1)
.
On reprend les notations de la partie II.
4. Montrer queE[Gk(r1, . . . , rk−1, Rk)] ≤g∗(k) pour k∈ {0, . . . , n−1}, et donc queG1(1)≤g∗(1).
24. On dit queτ est un temps d’arrˆet associ´e aux variables al´eatoires (R1, . . . , Rn).
5. Montrer que pour k > c∗ on a g∗(k) = g(k−1) et que pour k ≤ c∗ on a g∗(k) =g(c∗).
6. En d´eduire que la strat´egie τc∗ est la strat´egie optimale.
△
Probl` emes (probabilit´ es et statistique)
XII.1 Le mod`ele de Hardy-Weinberg
Exercice XII.1(Mod`ele de Hardy-Weinberg pour la distribution d’un g´enotype).
Le but de cet exercice est l’´etude simplifi´ee du mod`ele de Hardy-Weinberg1 pour la r´epartition d’un g´enotype dans la population humaine2.
On consid`ere un g`ene poss´edant deux caract`eres a et A. Le g´enotype d’un individu est donc soitaa,Aaou AA. On note 1 le g´enotype aa; 2 le g´enotype Aa et 3 le g´enotype AA. On s’int´eresse `a la proportion de la population poss´edant le g´enotypej ∈ {1,2,3}.
I Distribution du g´enotype : le mod`ele de Hardy-Weinberg
Le but de cette partie est d’´etablir que la r´epartition du g´enotype de la popu-lation est stable d`es la premi`ere g´en´eration.
On consid`ere la g´en´eration 0 d’une population de grande taille dont les propor-tions sont les suivantes :
proportion deaa : u1, proportion deaA : u2, proportion deAA: u3.
On suppose les mariages al´eatoires et la transmission du g`ene a ou A uniforme.
On note M le g´enotype de la m`ere,P le g´enotype du p`ere et E celui de l’enfant.
1. Montrer que P(E =aa|M =aA, P =aA) = 14,P(E=aa|M =aa, P =aA) =
1
2,P(E=aa|M =aA, P =aa) = 12, etP(E =aa|M =aa, P =aa) = 1.
1. G. Hardy. Mendelian proportions in a mixed population.Science, vol. 28(706) pp. 49–50 (1908).
2. D. L. Hartl and E. W. Jones.Genetics : analysis of genes and genomes. Jones and Bartlett Publishers, 5th ed. (2001).
2. Montrer, en pr´ecisant les hypoth`eses, que : P(E =aa) =u21+u1u2+1
4u22 =
u1+u2 2
2
.
3. Montrer sans calcul que P(E =AA) = u3+u222
. On pose doncθ=u1+ u2
2 .
4. Montrer, sans calcul, que la r´epartition du g´enotype `a la premi`ere g´en´eration est :
proportion deaa : q1 =θ2,
proportion deaA : q2 = 2θ(1−θ), proportion deAA: q3= (1−θ)2.
(XII.1) 5. Calculer la r´epartition du g´enotype `a la seconde g´en´eration. En d´eduire que la
r´epartition (XII.1) est stationnaire au cours du temps.
II Mod`ele probabiliste
On suppose que la taille de la population est grande et que la r´epartition du g´enotype suit le mod`ele de Hardy-Weinberg (XII.1). On dispose d’un ´echantillon denpersonnes. On noteXi ∈ {1,2,3}le g´enotype de lai-`eme personne. On a donc P(Xi =j) =qj. On suppose de plus que les variables al´eatoires (Xi;i∈ {1, . . . , n}) sont ind´ependantes. On note :
Nj =Nj[n] =
n
X
i=1
1{Xi=j}, (XII.2)
le nombre de personnes de l’´echantillon poss´edant le g´enotype j.
1. Donner la loi 1{Xi=j}. En d´eduire la loi de Nj. 2. Donner E[Nj] et Var(Nj).
3. D´eduire des questions pr´ec´edentes un estimateur sans biais de qj. Est-il convergent ?
4. Montrer qu’il est asymptotiquement normal et donner sa variance asympto-tique.
5. On rappelle que n1+n2+n3 =n. Montrer que : P(N1=n1, N2 =n2, N3 =n3) = n!
n1!n2!n3!qn11q2n2qn33. (XII.3) On pourra utiliser que le nombre de partitions d’un ensemble `an´el´ements en trois sous-ensembles den1,n2 etn3 ´el´ements est n!
n1!n2!n3!.
6. Calculer la matrice de covariance du vecteur 1{X1=1},1{X1=2}
. En d´eduire Cov(N1, N2).
7. Donner la limite en loi du couple
N1[n]−nq1
√n ,N2[n]−nq2
√n
quand n tend vers l’infini.
III Estimation de θ `a l’aide du g´enotype
On note Pθ la loi de (N1, N2, N3) d´efinie par l’´equation (XII.3) de param`etre θ∈]0,1[.
1. V´erifier que la log-vraisemblanceLn(n1, n2, n3;θ) de l’´echantillon de loi Pθ est : Ln(n1, n2, n3;θ) =c+ 2n1logθ+n2logθ+n2log(1−θ) + 2n3log(1−θ), o`uc est une constante ind´ependante deθ.
2. Calculer le score de l’´echantillon.
3. Calculer la d´eriv´ee du score en θ. En d´eduire que l’information de Fisher de l’´echantillon de taillenest :
In(θ) = 2n θ(1−θ)·
4. On rappelle queN1+N2+N3=n. Montrer que ˆθn= N1 n +N2
2n est l’estimateur du maximum de vraisemblance deθ.
5. L’estimateur de θ, ˆθn, est-il sans biais ? 6. Est-il efficace ?
7. Montrer que l’estimateur ˆθn est convergent. Montrer qu’il est asymptotique-ment normal et donner sa variance asymptotique. On pourra soit utiliser di-rectement (XII.2) soit utiliser le r´esultat de la question II.7.
IV Tests asymptotiques sur le mod`ele de Hardy-Weinberg
On d´esire savoir si le mod`ele de Hardy-Weinberg est valide pour certaines ma-ladies g´en´etiques. On teste donc l’hypoth`ese H0 : la proportion (q1, q2, q3) des g´enotypes aa, aA, AA satisfait l’´equation (XII.1).
1. Calculer (ˆq1,qˆ2,qˆ3) l’estimateur du maximum de vraisemblance de (q1, q2, q3).
On consid`ere la statistique de test : ζn=n
3
X
j=1
(ˆqj−qj(ˆθn))2 ˆ
qj ·
2. Donner un test asymptotique `a partir de la statistique de testζn. 3. En d´eduire un test asymptotique convergent.
4. La mucoviscidose est une maladie g´en´etique. Le g´enotype aa correspond aux cas pathologiques. Les g´enotypesaAetAAsont sains. Les valeurs num´eriques suivantes sont inspir´ees de valeurs r´eelles : nombre de naissances aux USA en 1999 n≃3.88 106, nombre de nouveau-n´es atteints de la maladie n1 = 1 580, nombre de nouveau-n´es portant le g`enea:n1+n2= 152 480. Rejetez-vous le mod`ele au seuil de 5% ?
5. On dispose des donn´ees suivantes sur l’h´emophilie. Nombre de nouveau-n´es atteints d’h´emophilie : n1 = 388, nombre de nouveau-n´es portant le g`ene a : n1+n2 = 1 164. Rejetez-vous le mod`ele au seuil de 5% ? En fait on sait que l’h´emophilie concerne essentiellement la population masculine. Commentaire.
△
XII.2 Estimation de la taille d’une population