1 Illustrations de la L.F.G.N.

(1)

Université des Sciences et Technologies de Lille U.F.R. de Mathématiques Pures et Appliquées

IS-Math314 Ann´ee 2004-2005

T.P nô1, théorèmes limites

1 Illustrations de la L.F.G.N.

1.1 Convergence des fr´equences

Une application importante de la loi forte des grands nombres est la convergence des fréquences de succès dans une suite d’épreuves répétées de Bernoulli indépendantes.

Exécutez plusieurs fois¹ le script cvfreqIS.sce en donnant différentes valeurs à n et p. Zoomez sur les trajectoires obtenues.

1.2 L.F.G.N. pour diverses lois de X

A faire plus tard. En s’inspirant du script sur la convergence des fr´` equences, illustrer la L.F.G.N. pour des X_i de loi facile `a simuler, par exemple loi uniforme sur [a, b], loi exponentielle de param`etre a,. . .

1.3 Th´eor`eme de Glivenko-Cantelli

Le script GlvkCanIS.sceillustre le théorème de Glivenko-Cantelli pour la f.d.r. empirique construite sur un échantillon de taille n de la gaussienne N(m, σ).

1.4 L.F.G.N. et loi de Cauchy

Le script CauchylfgnIS.sce montre le comportement asymptotique des moyennes arithmétiquesS_n/n, oùS_n =X₁+· · ·+X_n, les X_iétant des v.a. indépendantes de même loi de Cauchy de densité

f :t7−→ 1 π(1 +t²).

Faites le tourner plusieurs fois, en n’hésitant pas à prendre de très grandes valeurs de n.

Qu’observez-vous ? Interpr´etation.

1. Pour charger ce script en mémoire, utiliser le menuFile->File operations de Scilab et cliquer sur Exec après avoir sélectionné le nom du fichier, ici cvfreqIS.sce. Scilab répond en affichant la ligne;exec(...avec le nom de chemin adapté à votre machine. Pour les exécutions suivantes, il suffit d’utiliser le rappel des commandes avec la touche ↑ .

(2)

U.S.T. Lille I U.F.R. Math´ematiques

2 Illustrations du T.L.C.

2.1 Approximations d’une loi binomiale

Contrairement à tous les autres scripts de ce T.P., les scripts BinPoissIS.sce et BinGaussIS.sce n’effectuent aucune simulation. Ils se contentent de calculer des pro- babilités et de les représenter graphiquement (diagrammes en bâtons), afin de visualiser la comparaison avec la loi limite.

Etudiez exp´´ erimentalement la validit´e de l’approximation par une loi de Poisson en fonction des valeurs denp.

Le deuxième script illustre le théorème de de Moivre Laplace, ou plus exactement un résultat plus fort : un théorème de limite locale qui donne la convergence des proba- bilités binomiales renormalisées vers la densité gaussienne. Étudiez expérimentalement l’influence des valeurs dep sur la vitesse de cette convergence. Essayez avec p= 1/2 ou proche de 1/2, puis avec p proche de 0 ou de 1.

2.2 Le «peigne » des intervalles de confiance

Une application directe du théorème de de Moivre-Laplace est la construction d’intervalles de confiance pour l’estimation d’une probabilité inconnue pà partir de l’observa- tion d’unéchantillon den variables de Bernoulli indépendantes de paramètre p. Consi- dérons pour t >0 l’événement

A_n,t:=

ω ∈Ω; −t≤ rn

pq

S_n(ω) n −p

≤t

.

Le th´eor`eme de de Moivre-Laplace nous dit que pour n assez grand, on peut utiliser l’approximation :

P A_n,t

'Φ(t)−Φ(−t) = 2Φ(t)−1.

Ceci peut se r´e´ecrire P

Sn

n −t rpq

n ≤p≤ Sn

n +t rpq

n

= 2Φ(t)−1 +ε_n. On ignore la valeur de p, donc a fortiori celle de √

pq. Heureusement, il est possible de la majorer carp(1−p) est maximal pour p= 1/2. D’o`u

√pq≤ r1

4 = 1

2, (1)

de sorte qu’en notant B_n,t :=

ω ∈Ω; S_n(ω)

n − t

2√

n ≤p≤ S_n(ω)

n + t

2√ n

,

l’inclusion An,t⊂Bn,t nous donne : P B_n,t

≥2Φ(t)−1 +ε_n. (2)

2

(3)

Licence I.S. 2004–05

En pratique, n est fixé et on a observé des valeurs numériques explicites x₁, . . . , x_n que l’on interprète comme les valeurs de X₁(ω), . . . , X_n(ω) pour un même ω tiré au sort (suivant P). On est donc en présence d’une valeur numérique explicite, S_n(ω)/n= (x₁+· · ·+x_n)/n, disons pour fixer les idéesS_n(ω)/n= 0,53. Proposer pour le paramètre inconnu p l’intervalle de confiance

I_n,t=

0,53− t 2√

n; 0,53 + t 2√

n

,

c’est faire le pari que leω observé est bien dansB_n,t. La probabilité de gagner ce pari est minorée par 2Φ(t)−1 +ε_n. On dit queI_n,t est un intervalle de confiance pourp avec un niveau d’au moins 2Φ(t)−1 +εn. En pratique, on laisse tomber leεn et on détermine t de fa¸con approchée grâce à la tabulation de Φ. Par exemple pour un niveau de confiance de 95%, on est ramené à la résolution de l’équation Φ(t) = 1,95/2 = 0,975 d’oùt'1,96, ce qui nous donne l’intervalle

I_n=

S_n(ω)

n − 1,96 2√

n; S_n(ω)

n + 1,96 2√

n

, au niveau de confiance 95%.

En fait les statisticiens préfèrent une variante de cette méthode pour obtenir des intervalles de confiance plus étroits, notamment quand p n’est pas trop proche de 1/2.

L’id´ee est de remplacer la variance inconnue pq de X₁ par un estimateur au lieu de la majorer de fa¸con certaine par (1). Ainsi en estimant pqparMn(1−Mn) o`uMn:=Sn/n, on obtient au niveau de confiance 95% l’intervalle

J_n=

M_n(ω)−1,96

rMn(ω)(1−Mn(ω))

n ; M_n(ω) + 1,96

rMn(ω)(1−Mn(ω)) n

. Le scriptPeigneIS.scesimule 100 échantillons et calcule les intervalles de confiance du typeI,i.e.avec majoration dep(1−p) par 1/4. Les intervalles contenant effectivement la vraie valeur de psont représentés verticalement en vert, les autres en rouge. Le script retourne en outre les numéros d’échantillons pour lesquels p /∈I.

Le script Peigne2IS.sce simule 100 ´echantillons et calcule pour chacun l’intervalle de confiance du type I et celui du type J. On obtient ainsi deux «peignes», ce qui permet de comparer les deux m´ethodes pour diverses valeurs de p.

2.3 Vitesse de convergence dans le T.L.C. et lois de Par´eto

La vitesse de convergence dans la T.L.C. est en O(n^−1/2) si E|X₁|³ < +∞ et en O(n^−δ/2) si on a seulement E|X₁|^2+δ < +∞ pour un δ ∈]0,1[. On illustre ces r´esultats avec les lois de Pareto. La v.a. X suit la loi de Pareto de param`etre p si :

P(X > x) =

1 six≤1, x^−p six >1.

L’esp´erance existe pour p >1, la variance pour p > 2. Elles valent respectivement : EX = p

p−1, VarX = p

(p−1)²(p−2).

3

(4)

U.S.T. Lille I U.F.R. Math´ematiques

Le script ParetoTLCIS.sce génère N échantillons de taille n de la loi de Paréto de paramètre p et calcule pour chacun la somme centrée réduite (S_n^∗). Il trace ensuite l’histogramme de ces N sommes centrées réduites (classes de longueur 1/2 entre −4 et +4) ainsi que la courbe de la densité gaussienne standard. Étudier l’influence du paramètre p sur la qualité de l’approximation gaussienne. L’intérêt de la loi de Paréto dans ce contexte est que E|X|^r est fini pour tout réel r tel que 0≤r < p et infini pour tout r≥p.

Question subsidiaire : allez voir dans le code Scilab comment est généré l’échantillon de la loi de Paréto et étudiez l’influence de psur la valeur maximale de l’échantillon.

3 Sondages et deuxi` eme tour

En guise de contribution au thème Statistique et Citoyenneté, terminons par une pe- tite étude empirique de la difficulté de pronostiquer les noms des deux candidats restant au second tour d’une élection présidentielle lorsqu’il y a beaucoup de candidats. Exécutez une dizaine de fois le script presidentielle1.sce qui simule le sondage d’un échan- tillon de 500 personnes avant le premier tour d’un élection présidentielle où concourent 12 candidats désignés par une lettre A, B,. . ., L dans l’ordre alphabétique correspondant

`

a leur pourcentage de voix dans la population totale.

On voit quelques erreurs de pronostic du deuxième tour prévoyant un duel A-C au lieu de A-B. Pour en savoir plus sur la fréquence de ce type d’erreurs, on réalise grâce au script presidentielle2.sce 1 000 simulations d’un tel sondage de premier tour et on regarde la fréquence d’erreur de pronostic du second tour (i.e. prévision de présence au second tour d’au moins un candidat autre que A ou B).

4