CONCENTRATION ET LOI DES GRANDS NOMBRES

(1)

Chap.19 :

CONCENTRATION

ET LOI DES GRANDS NOMBRES

Partie 1 : inégalité de Bienaymé-Tchebychev

Irénée-Jules Bienaymé est un mathématicien français qui a énoncé cette inégalité en 1853. Mais c’est Pafnouti Tchebychev qui l’a démontrée en 1867.

Pafnouti Lvovitch Tchebychev, le plus célèbre mathématicien russe du XIX^e siècle, ne se prénommait pas Bienaymé comme le pensent parfois certains étudiants. Si les noms de ces deux mathématiciens sont associés pour désigner une célèbre inégalité, ce n’est pas un hasard. Irénée-Jules Bienaymé était un responsable inspecteur des finances lorsqu’il fut exclu de son poste en 1848 pour « manque de chaleur républicaine ». Il se tourne alors vers une brillante carrière de mathématicien qui le conduira à l’Académie des sciences. Il fait la connaissance de Tchebychev en octobre 1852 et une forte amitié s’installe entre les deux hommes. Le mathématicien russe séjourne plusieurs fois chez le savant français et celui-ci, féru de langue russe, traduit les écrits de son ami, ce qui permet à celui-ci de diffuser ses recherches. Dans le cadre d’un article pour défendre la méthode des moindres carrés de Laplace face aux critiques de Denis Poisson, Bienaymé énonce et démontre, en 1853, l’inégalité qui porte leurs deux noms. Tchebychev se rend compte de l’importance de ce résultat passé inaperçue par son ami français. Il la publie et l’utilise pour démontrer la loi des grands nombres dans un cadre général. La notoriété du Russe la fait connaître mais la véritable inégalité est sans doute qu’elle ne porte que le nom de Tchebychev, excepté dans la littérature française.

La principale interprétation de l’écart-type 𝜎 réside dans le fait que les écarts avec l’espérance sont de l’ordre de grandeur de 𝜎. L’inégalité de Bienaymé-Tchebychev précise cette idée.

Théorème : inégalité de Bienaymé-Tchebychev

On considère une variable aléatoire 𝑋 d’espérance 𝜇 et de variance 𝑉.

Pour tout nombre réel strictement positif 𝛿, on a :

𝑃(|𝑋 − 𝜇| ≥ 𝛿) ≤^-(.)

/⁰ .

Démonstration : soit Ω² = {𝑥₆ ; 𝑥₉ ; … ; 𝑥_;} l’ensemble des valeurs prises par la variable aléatoire 𝑋 et soit l’ensemble 𝐴 = {|𝑋 − 𝜇| ≥ 𝛿} dont on note les éléments 𝑎6, 𝑎₉, … , 𝑎_@.

Ces éléments 𝑎6, 𝑎₉, … , 𝑎_@ appartiennent à 𝐴 et pour tout 𝑖 tel que 1 ≤ 𝑖 ≤ 𝑘, |𝑎_D− 𝜇| ≥ 𝛿 On sait que 𝑉(𝑋) = (𝑥₆− 𝜇)⁹𝑃(𝑋 = 𝑥₆) + ⋯ + (𝑥_;− 𝜇)⁹𝑃(𝑋 = 𝑥_;)

Tous les termes de cette somme sont positifs donc si on ne garde dans cette somme que les termes portant sur les issues présentes dans A, la somme diminue, d’où :

𝑉(𝑋) ≥ (𝑎₆− 𝜇)⁹𝑃(𝑋 = 𝑎₆) + ⋯ + (𝑎_@− 𝜇)⁹𝑃(𝑋 = 𝑎_@) Irénée-Jules Bienaymé

1796 – 1878 Pafnouti Tchebychev

1821 – 1894

(2)

Par définition de 𝐴, chaque nombre |𝑎_D− 𝜇| est supérieur à 𝛿 donc chacun des nombres (𝑎_D− 𝜇)² est supérieur à δ². Ainsi :

(𝑎₆− 𝜇)⁹𝑃(𝑋 = 𝑎₆) + ⋯ + (𝑎_@− 𝜇)⁹𝑃(𝑋 = 𝑎_@) ≥ 𝛿⁹𝑃(𝑋 = 𝑎_D) + ⋯ + 𝛿⁹𝑃(𝑋 = 𝑎_@) Donc :

𝑉(𝑋) ≥ 𝛿⁹𝑃(𝑋 = 𝑎_D) + ⋯ + 𝛿⁹𝑃(𝑋 = 𝑎_@) 𝑒𝑡 𝑃(𝑋 = 𝑎₆) + ⋯ + 𝑃(𝑋 = 𝑎_@) = 𝑃(𝑋 ∈ 𝐴) D’où :

𝑉(𝑋) ≥ 𝛿²𝑃(𝑋 ∈ 𝐴) Et ainsi,

𝑃(𝑋 ∈ 𝐴) ≤𝑉(𝑋) 𝛿² Soit encore :

𝑃(|𝑋 − 𝜇| ≥ 𝛿) ≤𝑉(𝑋) 𝛿⁹ Remarque : De manière équivalente, on a :

𝑃(|𝑋 − 𝜇| < 𝛿) = 𝑃(𝑋 ∈ ]𝜇 − 𝛿 ; 𝜇 + 𝛿[) ≥ 1 − 𝑉 𝛿⁹

Exemple : dans une usine, la variable aléatoire 𝐿 donnant la largeur en millimètres d’une puce électronique prise au hasard a pour espérance 𝐸(𝐿) = 12 et pour variance 𝑉(𝐿) = 0,01. Si la largeur d’une puce n’appartient pas à l’intervalle ]11 ; 13[, c’est-à-dire si |𝐿 − 12| ≥ 1, la puce n’est pas commercialisable.

La probabilité qu’une puce ne soit pas commercialisable est donc : 𝑃(|𝐿 − 12| ≥ 1) c’est-à-dire 𝑃(|𝐿 − 𝜇| ≥ 𝛿) avec 𝜇 = 𝐸(𝐿) et 𝛿 = 1.

Comme 𝑉(𝐿) = 0,01, on a d’après l’inégalité de Bienaymé-Techebychev, 𝑃(|𝐿 − 12| ≥ 1) ≤0,01

1⁹ Soit 𝑃(|𝐿 − 12| ≥ 1) ≤ 0,01

Propriété : application à 𝜹 = 𝒌 𝝈

Soit 𝑋 une variable aléatoire d’espérance 𝐸(𝑋) = 𝜇, de variance 𝑉(𝑋) = 𝑉 et d’écart-type 𝜎(𝑋) = 𝜎.

Soit 𝑘 un entier naturel non nul. On a alors :

𝑃(|𝑋 − 𝜇| ≥ 𝑘𝜎) ≤ 1

𝑘⁹ et 𝑃(|𝑋 − 𝜇| < 𝑘𝜎) ≥ 1 − 1 𝑘⁹

Démonstration : on applique l’inégalité de Bienaymé-Tchebychev avec 𝛿 = 𝑘𝜎 > 0 et on obtient : 𝑃(|𝑋 − 𝜇| ≥ 𝑘𝜎) ≤_(@[)²^- . Or, _(@[)²^- = ^-

@⁰[²= ^-

@²-= ⁶

@⁰ et donc 𝑃(|𝑋 − 𝜇| ≥ 𝑘𝜎) ≤_@⁶₀.

Exemple : reprenons l’exemple précédent : dans une usine, la variable aléatoire 𝐿 donnant la largeur en millimètres d’une puce électronique prise au hasard a pour espérance 𝐸(𝐿) = 12 et pour variance 𝑉(𝐿) = 0,01.

𝜎(𝐿) = √𝑉 = ]0,01 = 0,1

Ainsi la probabilité que la largeur de la puce soit éloignée d’au moins 𝑘 = 5 écarts-types, c’est-à-dire 5 × 0,1 = 0,5 de son espérance 12 est inférieure ou égale à _`⁶₀= 0,04 : il y a au maximum « 4 % de chance » que la largeur d’une puce soit inférieure ou égale à 12 − 0,5 = 11,5 mm ou supérieure ou égale à 12 + 0,5 = 12,5 mm

Remarque : on mesure donc la dispersion d’une variable aléatoire autour de son espérance en nombre d’écarts-types.

(3)

Exemple : soit 𝑋 une variable aléatoire qui suit une loi binomiale de paramètre 𝑛 = 20 et 𝑝 = 0,45, on a : 𝐸(𝑋) = 20 × 0,45 = 9 et 𝜎(𝑋) = ]20 × 0,45 × 0,55 ≈ 2,22

Donc d’après la propriété précédente, on a :

𝑃(|𝑋 − 9| ≥ 2𝜎(𝑋)) ≤ 1

2⁹= 0,25 D’autre part,

𝑃(|𝑋 − 9| ≥ 2𝜎(𝑋)) = 𝑃f𝑋 ≤ 9 − 2𝜎(𝑋)g + 𝑃(𝑋 ≥ 9 + 2𝜎(𝑋))

= 𝑃(𝑋 ≤ 4) + 𝑃(𝑋 ≥ 14) (puisque X ne prend que des valeurs entières) On observe ci-dessous que 𝑃(𝑋 ≤ 4) + 𝑃(𝑋 ≥ 14) semble très inférieur à 0,25.

Après calculs, on trouve que 𝑃(𝑋 ≤ 4) + 𝑃(𝑋 ≥ 14) ≈ 0,04

L’inégalité de Bienaymé-Tchebychev donne une majoration de 𝑃(|𝑋 − 𝜇| ≥ 𝛿) par 0,25 qui est toujours vraie mais qui est loin d’être optimale.

Partie 2 : inégalité de concentration

C’est Jacques Bernoulli qui publie l’une des premières versions de ce résultat dans son ouvrage posthume Ars Conjectandi en 1713. Il le démontre dans le cas particulier de la loi binomiale.

Propriété : inégalité de concentration

Soit (𝑋₆ ; 𝑋₉ ; … ; 𝑋_;) un échantillon de 𝑛 variables aléatoires d’espérance 𝜇 et de variance 𝑉.

Soit 𝑀_;=^.^j^k.⁰^k⋯k.^l

; la variable aléatoire moyenne de cet échantillon. Alors pour tout réel 𝛿 > 0, on a : 𝑃(|𝑀_;− 𝜇| ≥ 𝛿) ≤ ^-

;/⁰.

Démonstration : on applique l’inégalité de Bienaymé-Tchebychev à la variable aléatoire 𝑀_; : 𝑃(|𝑀_;− 𝐸(𝑀_;)| ≥ 𝛿) ≤𝑉(𝑀_;)

𝛿⁹ D’une part, 𝐸(𝑀_;) = 𝜇 et d’autre part, 𝑉(𝑀_;) =^-

;, ce qui entraîne : 𝑃(|𝑀_;− 𝜇| ≥ 𝛿) ≤ ^-

;/⁰

Jacques Bernoulli 1654 – 1705

(4)

Exemple : on lance 𝑛 fois un dé équilibré à 8 faces et on nomme 𝑋D la variable aléatoire donnant le résultat du 𝑖-ième lancer.

On admet que 𝐸(𝑋_D) = 4,5 et 𝑉(𝑋_D) = 5,25 pour tout entier 𝑖 entre 1 et 𝑛.

Les lancers étant indépendants, (𝑋₆, 𝑋₉, … , 𝑋_;) est un échantillon de variables aléatoires d’espérance 𝜇 = 4,5, de variance 𝑉 = 5,25 et de moyenne 𝑀_;=^.^j^k.⁰^k⋯k.^l

; .

D’après l’inégalité de concentration pour 𝑛 = 100 et 𝛿 = 0,5, on a : 𝑃(|𝑀_6nn− 4,5| ≥ 0,5) ≤ 5,25

100 × 0,5⁹ = 0,21

Donc 𝑃(|𝑀_6nn− 4,5| ≥ 0,5), la probabilité que l’écart entre 𝑀_6nn (la moyenne des 100 premiers résultats) et 4,5 soit supérieur ou égal à 0,5 est inférieure ou égale à 0,21.

On peut également appliquer l’inégalité de concentration pour déterminer la taille d’un échantillon :

Exemple : soit une variable aléatoire 𝑋 qui suit la loi de Bernoulli de paramètre 0,2. On considère un échantillon de 𝑛 variables aléatoires suivant la loi de 𝑋. On appelle 𝑀_; la variable aléatoire moyenne associée à cet échantillon. Déterminer la taille 𝑛 de l’échantillon tel que la probabilité que la moyenne 𝑀_; appartienne à l’intervalle ]0,03 ; 0,37[ soit supérieure à 0,95.

On cherche à calculer 𝑛 tel que 𝑃(0,03 < 𝑀;< 0,37) ≥ 0,95

Dans l’idée d’appliquer l’inégalité de concentration, on fait apparaitre l’espérance de 𝑋 dans l’inégalité.

Or, 𝐸(𝑋) = 𝑝 = 0,2

Ainsi, on cherche 𝑛 tel que : 𝑃(0,03 − 0,2 < 𝑀_;− 0,2 < 0,37 − 0,2) ≥ 0,95 Soit : 𝑃(−0,17 < 𝑀_;− 0,2 < 0,17) ≥ 0,95

Soit encore : 𝑃(|𝑀;− 0,2| < 0,17) ≥ 0,95 Et donc, en considérant l’évènement contraire :

1 − 𝑃(|𝑀_;− 0,2| ≥ 0,17) ≥ 0,95 𝑃(|𝑀_;− 0,2| ≥ 0,17) ≤ 0,05 En prenant 𝛿 = 0,17 dans l’inégalité de concentration, on a :

𝑃(|𝑀_;− 𝐸(𝑋)| ≥ 𝛿) ≤ 0,05, avec ^-(.)_{; /}₀ = 0,05.

Or, 𝑉(𝑋) = 𝑝(1 − 𝑝) = 0,2 × 0,8 = 0,16

On cherche donc un entier n tel que _{; n,6s}^n,6r₀ ≤ 0,05 Et donc 𝑛 ≥ _{n,n`× n,6s}^n,6r ₀ ≈ 110,7

Pour 𝑛 ≥ 111, la probabilité que la moyenne 𝑀; appartienne à l’intervalle ]0,03 ; 0,37[ est supérieure à 0,95.

Partie 3 : loi faible des grands nombres

Propriété : loi (faible) des grands nombres

Soit (𝑋₆ ; 𝑋₉ ; … ; 𝑋_;) un échantillon de 𝑛 variables aléatoires d’espérance 𝜇 et de variance 𝑉.

Soit 𝑀;=^.^j^k.⁰_;^k⋯k.^l la variable aléatoire moyenne de cet échantillon. Alors pour tout réel 𝛿 > 0, on a :

;→kxlim 𝑃(|𝑀_;− 𝜇| ≥ 𝛿) = 0.

Démonstration : soit 𝛿 un nombre réel strictement positif.

D’après l’inégalité de concentration, pour tout entier naturel 𝑛 non nul, 𝑃(|𝑀_;− 𝜇| ≥ 𝛿) ≤ 𝑉

𝑛𝛿⁹ D’où

0 ≤ 𝑃(|𝑀_;− 𝜇| ≥ 𝛿) ≤ 𝑉

𝑛𝛿⁹ 𝑒𝑡 𝑙𝑖𝑚

;→kx{ 𝑉

𝑛𝛿⁹| = 0 Ainsi, d’après le théorème de comparaison des limites, on en déduit que

;→kx𝑙𝑖𝑚 𝑃(|𝑀_;− 𝜇| ≥ 𝛿) = 0

(5)

Remarques :

• Ce résultat justifie la possibilité de définir des probabilités en prenant pour valeurs approchées les fréquences obtenues pour un « grand » nombre d’essais.

• La loi des grands nombres traduit le fait que plus la taille de l’échantillon d’une variable aléatoire 𝑋 est grande, plus l’écart entre la moyenne de cet échantillon et l’espérance de la variable aléatoire 𝑋 est faible.

Exemple : on lance 𝑛 fois un dé équilibré à 8 faces et on nomme 𝑋D la variable aléatoire donnant le résultat du 𝑖-ième lancer.

On admet que 𝐸(𝑋D) = 4,5 et 𝑉(𝑋_D) = 5,25 pour tout entier 𝑖 entre 1 et 𝑛.

Les lancers étant indépendants, (𝑋₆, 𝑋₉, … , 𝑋_;) est un échantillon de variables aléatoires d’espérance 𝜇 = 4,5, de variance 𝑉 = 5,25 et de moyenne 𝑀_;=^.^j^k.⁰^k⋯k.^l

; .

On considère 𝛿 = 0,1.

D’après la loi des grands nombres, 𝑃(|𝑀_;− 4,5| ≥ 0,1), que l’on peut également écrire 𝑃(𝑀_;∉]4,4 ; 46[), tend vers 0 lorsque la taille de l’échantillon tend vers +∞.

On en déduit que 𝑃(𝑀;∈]4,4 ; 46[) tend vers 1 lorsque la taille de l’échantillon tend vers +∞. Autrement dit, si l’on fait un nombre suffisamment grand de lancers, on peut rendre l’événement « la moyenne de l’échantillon est dans ]4,4 ; 4,6[ » aussi probable qu’on le souhaite en prenant 𝑛 suffisamment grand.

Remarque : dans cet exemple, on aurait pu prendre 𝛿 = 0,01 ou 0,001, etc. : la loi des grands nombres illustre le fait que la moyenne de l’échantillon se rapproche de l’espérance des variables aléatoires quand la taille de l’échantillon « devient grande » comme cela a été vu en première.