G148 – Mystères autour d’une urne
Je dispose d’une urne qui contient 2011 boules bleues et rouges mais sa composition est pour moi un mystère. Toutes les configurations de x boules bleues et 2011 – x boules rouges avec 0x2011 sont donc équiprobables, ce qui revient à écrire: Pr{x boules bleues et 2011 – x boules rouges dans l’urne} = 1 / 2012 pour 0x2011.
Dans un premier tirage sans remise, je prélève un certain nombre k de boules. Elles sont toutes de couleur rouge. Je calcule que, avec cette valeur k, j’avais une chance sur sept de réaliser un tel tirage.
En déduire la probabilité d’obtenir dans un deuxième tirage sans remise qui suit le premier le même nombre k de boules toutes de couleur bleue.
Solution par Patrick Gordon
Première question
Posons : y (nombre de boules rouges dans l'urne avant le premier tirage) = 2011 – x.
Notons la probabilité totale :
p = Pr {les k boules tirées sont toutes de couleur rouge}
et la probabilité conditionnelle :
p (y) = Pr {les k boules tirées sont toutes rouges / il y a x boules bleues et y boules rouges dans l'urne}
Si y < k, p(y) = 0.
Sinon, p(y) = y/2011 × (y–1)/2010… × (y–k+1)/(2011– k+1) = [y! / (y–k)!] / [2011! / (2011–k)!]
Donc (puisque toutes les valeurs de y sont équiprobables, de probabilité 1 / 2012) : 1) p = (2011–k)! / [2011! × 2012] × ∑y=k2011
[y! / (y–k)!]
Or : y! / (y–k)! = Cyk k!
Donc :
p = (2011–k)! k! / [2011! × 2012] × ∑y=k2011
Cyk
= [∑y=k2011
Cyk
] / 2012 C2011k
Or : [∑y=k2011
Cyk
] = Ckk
+ Ck+1k
+ Ck+2k
+ … C2001k
et l'on reconnaît là une identité connue (somme des termes d'une "diagonale" du triangle de Pascal) :
Ckk + Ck+1k + Ck+2k + … Cnk = Cn+1k+1 Ainsi, en définitive :
p = [∑y=k2011
Cyk
] / 2012 C2011k
= C2012k+1
/ 2012 C2011k
Ce qui se simplifie en : 2) p = 1 / (k+1)
Ce résultat, d'une simplicité troublante, mérite quelques explications.
Tout d'abord, il ne dépend pas du nombre total N de boules dans l'urne (ici N = 2011).
Supposons k = 1 (je tire une seule boule). S'il y a dans l'urne x boules bleues et y (= N – x) boules rouges, p(y) = y / N.
Mais toutes les valeurs de y sont supposées équiprobables, de probabilité 1 / (N+1).
Donc p = (1/N + 2/N +… + N/N) / (N+1) = ½, ce qui est bien égal à 1 / (k+1).
Si k = 2 (je tire deux boules) et qu'il y ait dans l'urne x boules bleues et y (= N – x) boules rouges, la probabilité p(y) de tirer deux boules rouges est y (y – 1) / N (N – 1).
Mais toutes les valeurs de y sont supposées équiprobables, de probabilité 1 / (N+1).
Donc p est la somme suivante (qui commence à y = 2, bien entendu) :
p = [2.1 / N (N–1) + 3.2 / N (N–1) +…+ N (N – 1) / N (N–1)] / (N+1).
Mais la somme 2.1 + 3.2 +…+ N (N – 1) vaut : (N – 1) N (N + 1) / 3.
Donc :
p = [(N – 1) N (N + 1) / 3] / (N – 1) N (N + 1) = 1/3, ce qui est bien égal à 1 / (k+1).
Ainsi, le surprenant résultat p = 1 / (k+1) s'explique (il tient à l'hypothèse d'équiprobabilité de toutes les configurations), et il implique ici que k = 6.
Seconde question
Compte tenu des résultats du premier tirage, la seconde question se pose comme suit :
Quelle est la probabilité d’obtenir 6 boules bleues dans un tirage sans remise opéré dans une urne qui contient 2005 boules dont y' = y – 6 boules rouges et x' = 2005 – y' bleues?
Mais attention! On ne peut pas ajouter cette fois : sachant que toutes les
configurations de x' boules bleues et y' boules rouges sont équiprobables. Il nous faut raisonner plus avant.
Définissons les événements suivants, tous situés avant le premier tirage :
Ax = il y avait x boules bleues (sur un total de 2011) dans l'urne avant le premier tirage,
B = le premier tirage donne 6 boules rouges.
Nous cherchons la probabilité Pr {Ax / B}. Elle vaut :
Pr {Ax / B} = Pr {Ax et B} / Pr {B}
= Pr { B / Ax} Pr {Ax} / Pr {B}.
Le terme Pr {Ax} du numérateur ne pose aucun problème : c'est la probabilité a priori de l'événement Ax, soit 1/2012. Par ailleurs, il est inutile d'invoquer le théorème de Bayes (ou des probabilités totales) pour calculer le dénominateur car nous savons que Pr{B} = 1/7.
Reste donc le terme Pr { B / Ax} = probabilité (qu'il y avait lors du premier tirage) de tirer 6 boules rouges s'il y avait x bleues et donc y = 2011 – x rouges. Comme on ne peut pas tirer 6 boules rouges s'il y en a moins de 6 dans l'urne, le terme Pr {B / Ax} vaut 0 si y < 6, c’est-à-dire si x > 2005 – et Pr {Ax / B} = 0.
Si y ≥ 6, Pr {B / Ax} n'est autre que le p(y) que nous avons calculé plus haut (juste avant la relation (1)) pour une valeur k qu'il faut remplacer désormais par 6, ce qui donne :
Pr {B / Ax} = [y! / (y–6)!] / [2011! / 2005!]
Au total donc :
3) Pr {Ax / B} = 7 [y! / (y–6)!] / [2012! / 2005!] pour y ≥ 6, 0 sinon
On vérifie bien que la somme des Pr {Ax / B} pour x ≤ 2005 est égale à 1. En effet, le
"p" que nous avons calculé plus haut (1) s'écrit, avec k = 6 : p = 2005! / 2012! × ∑y=62011 [y! / (y–6)!]
et vaut 1/7.
Revenons au calcul de la probabilité d’obtenir 6 boules bleues dans un tirage sans remise opéré dans une urne qui contient 2005 boules dont x boules bleues, sachant (cette fois) que la probabilité qu'il y ait x boules bleues dans l'urne est donnée par (3) avec y = 2011 – x.
S'il y a moins de 6 boules bleues dans l'urne, cette probabilité est nulle. S'il y a x boules bleues (6 ≤ x ≤ 2005), la probabilité d'en tirer 6 bleues sans remise est :
4) p(x) = [x! / (x – 6)!] / [2005! / 1999!]
La probabilité cherchée est la somme, de x = 6 à x = 2005 inclus, des p(x) de
l'expression (4), pondérés par les probabilités (3) dans lesquelles on remplacera y par 2011 – x. La sommation donne :
p = ∑62005
[x! / (x – 6)!] / [2005! / 1999!] × 7 [(2011 – x)! / (2005 – x)!] / [2012! / 2005!]
p = 7 (1999! / 2012!)
× ∑62005[x! × (2011 – x)!] / [(x – 6)! × (2005 – x)!]
Ce qui ne fait pas apparaître d'expression littérale simple.
En revanche, au moyen d'un tableur, on calcule aisément : p = 0,000583
Ce résultat peut sembler surprenant en ce qu'il est très éloigné de la valeur 1/7 trouvée à la première question.
À la réflexion, il est tout de même logique. Faisons un raisonnement simpliste (sans trop approfondir les aspects d'estimation statistique).
Si l'on a obtenu 6 boules rouges au premier tirage, c'est qu'il y avait, nous suggère l'intuition, "beaucoup de boules rouges dans l'urne". Mais "combien beaucoup"?
Avec une moitié de boules rouges (soit à peu près 1000), on n'aurait eu qu'une chance sur 26 = 64, soit environ 1,5 chance sur 100 de tirer 6 boules rouges. Avec ¾ de boules rouges (soit à peu près 1500), les choses deviennent plus raisonnables car on aurait eu à peu près 1 chance sur 6 de tirer 6 boules rouges, soit du même ordre que la
probabilité a priori, et le calcul par les paramètres de la loi hypergéométrique donne, pour le nombre de boules rouges, une moyenne de 4,47 et un écart-type de 1,06, soit une fourchette à 2 très large mais pas trop mauvaise : de 2,34 à 6,60.
Ainsi, si nous avions à "estimer" grossièrement la teneur de l'urne au départ, nous dirions sans doute : elle contenait au moins ¾ de boules rouges.
Or, inversement, pour obtenir 6 boules bleues avec la probabilité p = 0,000583 trouvée ci-dessus, il faudrait une proportion de boules bleues de 0,000583(1/6) = 0,29, soit 580 boules bleues environ. Les ordres de grandeur ne sont donc pas aberrants.