Statistiques math´ ematiques : cours 1
Guillaume Lecu´e
28 aoˆut 2018
2/54
Organisation
9 cours de 2h (18h) Guillaume Lecu´e
guillaume.lecue@ensae.fr
I mardi 28 `a 10h15 ; mercredi 29 `a 13h30 et 15h45 ; jeudi 30 `a 10h15
I lundi 3 `a 17h ; mercredi 5 `a 10h15 ; jeudi 6 `a 10h15
I mercredi 12 `a 10h15
I lundi 17 `a 17h
Slides du cours et recueil d’exos et annales t´el´echargeables `a
http://lecueguillaume.github.io/2015/10/05/rappels-stats/
6 TD (12h)Lucas Gerin
vendredi 31 `a 13h30 ; mercredi 5 et 12 `a 8h30 ; mercredi 26 `a 8h30 ; jeudi 27 `a 17h.
Examen
Fin octobre/ d´ebut novembre
2/54
Pr´ esentation (succinte) du cours de stats math
I Echantillonnage et mod´elisation statistique. Fonction de r´epartition empirique(2 cours)
I M´ethodes d’estimation classiques (2 cours)
I Information statistique, th´eorie asymptotique pour l’estimation(1 cours)
I D´ecision statistique et tests(2 cours)
I Mod`ele de r´egression(1 cours)
I Statistiques Bay´esiennes(1 cours)
4/54
Aujourd’hui
Organisation du cours
Echantillonnage et mod´elisation statistique Donn´ees d’aujourd’hui
Exp´erience statistique Mod´ele statistique
Fonction de r´epartition empirique et th´eor`eme fondamentale de la statistique
Loi d’une variable al´eatoire Fonction de r´epartition empirique Approche non-asymptotique
4/54
Les donn´ ees d’aujourd’hui :
fichiers (en local).csvou.txtLes chiffres du travail
Taux d’activit´e par tranche d’ˆage hommes vs. femmes
http://www.insee.fr/
6/54
Les donn´ ees d’aujourd’hui : s´ eries temporelles
Le monde de la finance
http://fr.finance.yahoo.com/
http://www.bloomberg.com/enterprise/data/
6/54
Les donn´ ees d’aujourd’hui : grandes matrices
Biopuces et analyse d’ADN
8/54
Les donn´ ees d’aujourd’hui : graphes
acteurs de s´eries
8/54
Les donn´ ees d’aujourd’hui :
le m´etier en data scienceProbl`ematique :
I stockage, requettage : expertise en base de donn´ees
I data “jujitsu”, data “massage”
I data-vizualization (Gephi, Tulip, widget python, power BI, etc.)
I math´ematiques :
? mod´elisation(statistiques)
? construction d’estimateurs impl´ementation d’algorithmes
I Python, R, H2O, TensorFlow, vowpal wabbit, spark,..., github,...
Pour s’entrainer aux m´etiers en “data science” :
• https://www.kaggle.com,https://www.datascience.net/
• notebooks python
• Coursera
10/54
Objectif du cours
“statistiques math´ematiques”1. Construire des mod`eles statistiques pour des donn´ees classiques 2. Construire des estimateurs / tests classiques
3. Connaˆıtre leurs propri´et´es statistiques et les outils math´ematiques qui permettent de les obtenir
10/54
Probl´ ematique statistique
1) Point de d´epart: donn´ees (ex. : des nombres r´eels) x1, . . . ,xn
2) Mod´elisation statistique:
I les donn´ees sont des r´ealisations
X1(ω), . . . ,Xn(ω) de variable al´eatoires r´eelles (v.a.r.) X1, . . . ,Xn.
(autrement dit, pour un certainω,X1(ω) =x1, . . . ,Xn(ω) =xn)
I LaloiP(X1,...,Xn)de (X1, . . . ,Xn)est inconnue, mais appartient `a une famille donn´ee (a priori)
Pnθ, θ∈Θ : le mod´ele
On pense qu’il existe θ∈Θ tel queP(X1,...,Xn)=Pnθ.
12/54
Probl´ ematique statistique (suite)
I θ est leparam`etreet Θl’ensembledes param`etres.
I Estimation: `a partir de X1, . . . ,Xn, construireϕn(X1, . . . ,Xn) qui
“approche au mieux”θ.
I Test: `a partir des donn´eesX1, . . . ,Xn, ´etablir uned´ecision Tn(X1, . . . ,Xn)∈ {ensemble de d´ecisions} concernant une hypoth`ese surθ.
Definition
Unestatistiqueest une fonction mesurable des donn´ees
!ATTENTION !Une statistique ne peut pas d´ependre du param`etre inconnu : une statistique se construit uniquement `a partir des donn´ees !
12/54
Exemple du pile ou face
I On lance une pi`ece de monnaie 18 fois et on observe (P= 0,F = 1) 0,0,0,1,1,0,1,0,0,1,1,0,1,0,0,1,1,0
I Mod´ele statistique : on observen= 18 variables al´eatoires (Xi)18i=1 ind´ependantes, de Bernoulli de param`etreinconnuθ∈Θ = [0,1].
I Estimation. Estimateur ¯X18=181 P18 i=1Xi
= 8/18 = 0.44. Quelleici
pr´ecision ?
I Test. D´ecision `a prendre :la pi`ece est-elle ´equilibr´ee ?. Par exemple : on compare ¯X18`a 0.5. Si|X¯18−0.5|estpetit, on accepte l’hypoth`esela pi`ece est ´equilibr´ee. Sinon, on rejette.
Quel seuil choisir ? et avec quelles cons´equences (ex. probabilit´e de se tromper) ?
14/54
Echantillonnage = r´ ep´ etition d’une mˆ eme exp´ erience
I L’exp´erience statistique la plus centrale : on observe la r´ealisation de X1, . . . ,Xn, v.a. o`u lesXi sont ind´ependantes,identiquement distribu´ees (i.i.d.), de mˆeme loi communePX ∈ {Pθ:θ∈Θ}.
I probl`eme : `a partir des donn´eesX1, . . . ,Xnque dire de la loiPX communeauxXi? (moyenne, moments, sym´etrie, densit´e, etc.)
14/54
Exp´ erience statistique
Consiste `a d´eterminer :
I l’espace des observations
Z(ex. :Z={0,1}18) C’est l’espace o`u vivent les observations
I Unetribu:Z (ex. :Z=P(Z) = tous les sous-ensembles deZ)
I Une famille de lois = mod`ele
{Pθ, θ∈Θ} (ex. :Pθ=Pnθ= (θδ1+ (1−θ)δ0)⊗18)
16/54
Exp´ erience statistique
Definition
Uneexp´erience statistiqueE est un triplet E = Z,Z,
Pθ, θ∈Θ o`u
I Z,Z
espace mesurable (ex. :(Rn,B(Rn))),
I {Pθ, θ∈Θ} famille de probabilit´es d´efiniessimultan´ementsur le mˆeme espace Z,Z
.
16/54
Mod´ eles statistiques (jargon)
I {Pθ, θ∈Θ} est appel´emod´ele
I quand il existek tel que Θ⊂Rk, on parle de mod´eleparam´etrique
I quandθ est un param`etre infini dimensionnel, on parle de mod´ele non-param´etrique(ex. : densit´e)
I quandθ= (f, θ0) o`uf est infini dimensionnel (souvent, param`etre de nuisance) etθ0∈Rk (param`etre d’int´erˆet), on parle de mod´ele semi-param´etrique
I quandθ∈Θ7→Pθ est injectif, on dit que le mod´ele estidentifiable
18/54
Mod´ eles statistiques
Question centrale en statistiques : Quel mod´ ele est le plus adapt´ e ` a ces donn´ ees ?
Il existe deux mani`eres ´equivalentes de d´efinir un mod´ele : 1. soit en se donnant une famille de loi{Pθ, θ∈Θ}
2. soit en se donnant une ´equation
18/54
Exemple de mod´ ele/mod´ elisation (1)
On observe unn-uplet de variables al´eatoires r´eelles : Z = (X1, . . . ,Xn)
On peut mod´eliser ces observations de deux mani`eres (´equivalentes) :
I par une famille de lois : {Pθ:θ∈R}; par exemple, Pθ= N(θ,1)⊗n
I par une ´equation ; par exemple, pour touti∈1, . . . ,n, Xi =θ+gi
o`ug1, . . . ,gn sontnvariables al´eatoires Gaussiennes centr´ees r´eduites ind´ependantes.
20/54
Exemple de mod´ ele/mod´ elisation (2)
On observe unn-uplet de variables al´eatoires r´eelles : Z = (X1, . . . ,Xn).
On peut mod´eliser ces observations de deux mani`eres (´equivalentes) :
I Par une ´equation :X1=g1et pour touti ∈1, . . . ,n−1, Xi+1 =θXi+gi
o`ug1, . . . ,gn sont iidN(0,1).
I Famille de lois : {Pθ:θ∈R}o`u Pθ=fθ.λn o`uλn est la mesure de Lebesgue surRnet
fθ(x1, . . . ,xn) =f(x1)f(x2−θx1)· · ·f(xn−θxn−1) etf(x) = exp(−x√ 2/2)
2π .
20/54
Pourquoi mod´ eliser ?
Donn´ees Probl`eme concrˆet
Processus stochastique Probl`eme math´ematique
Mod´ elisation
Pourquoi mod´eliser ? : 1) Outils math´ematiques 2) R´esultats math´ematiques 3) Algorithmes
22/54
3 mod` eles (non-param´ etriques) classiques
1. Mod´ele dedensit´e: on observe unn-´echantillon
X1, . . . ,Xn de v.a.r. de densit´ef tel quef ∈ C o`uCest une classe de densit´es surR(Lebesgue).
2. Mod´ele der´egression: on observe unn-´echantillon de couples (Xi,Yi)ni=1 tel queYi∈R,Xi ∈Rd et
Yi =f(Xi) +ξi
o`uξi sont des v.a.r.i.i.d. ind´ependantes desXi etf ∈ C.
I quandf(Xi) = θ,Xi
: mod´ele de regressionlin´eaire,
I et quandξi ∼ N(0, σ2) : mod´elelin´eaire Gaussien
3. mod´ele declassification: on observe unn-´echantillon (Xi,Yi)ni=1 tel queYi ∈ {0,1} etXi∈ X. Par ex. :
P[Yi = 1|Xi =x] =σ(
x, θ
) o`uσ(x) = (1 +e−x)
22/54
Partie 2
Fonction de r´ epartition empirique et th´ eor` eme
fondamentale de la statistique
24/54
Question fondamentale
Consid´erons le mod´ele d’´echantillonnage surR: on observe X1, . . . ,Xn
qui sont i.i.d. de loi communePX.
Rem. : Comme la loi de l’observation (X1, . . . ,Xn) estP⊗nX , se donner un mod´ele est ici (pour le mod´ele d’´echantillonnage) ´equivalent `a se donner un mod´ele sur PX.
Par exemple :PX ∈ {N(θ,1) :θ∈R}
Question fondamentale
On consid`ere le mod´ele “total” = PX ∈ {toutes les lois sur R}. Est-il possible de connaˆıtreexactementPX quand le nombrende donn´ees tends vers∞?
24/54
Rappel : loi d’une variable al´ eatoire r´ eelle
Definition
X : Ω,A,P
−→ R,B
Loi de X : mesure de probabilit´e sur(R,B), not´eePX, d´efinie par PX
A
=P[X ∈A], ∀A∈ B.
Formule d’int´egration
E ϕ(X)
= Z
Ω
ϕ X(ω)
P(dω) = Z
R
ϕ(x)PX(dx) pour toute fonction testϕ.
26/54
Loi d’une variable al´ eatoire (1/4)
Exemple 1 :X suit la loi de Bernoulli de param`etre 1/3
I La loi de X est d´ecrite par P
X = 1
=13 = 1−P X = 0
I Ecriture de PX :
PX = 13δ1+23δ0 I Formule de calcul(ϕfonction test)
E ϕ(X)
= Z
R
ϕ(x)PX(dx)
= 13 Z
R
ϕ(x)δ1(dx) +23 Z
R
ϕ(x)δ0(dx)
= 13ϕ(1) +23ϕ(0)
26/54
Loi d’une variable al´ eatoire (2/4)
Exemple 2 :X ∼loi de Poisson de param`etre 2
I La loi de X est d´ecrite par P
X =k
= 2k
k!e−2, k = 0,1, . . .
I Ecriture de PX :
PX =e−2X
k∈N 2k k!δk
I Formule de calcul(ϕfonction test) E
ϕ(X)
= Z
R
ϕ(x)PX(dx) =e−2X
k∈N
ϕ(k)2k!k
28/54
Loi d’une variable al´ eatoire (3/4)
Exemple 3 :X ∼ N(0,1) (loi normale standard).
I La loi de X est d´ecrite par P
X ∈[a,b]
= Z
[a,b]
e−x2/2√dx
2π
I Ecriture de PX :
PX =f.λ o`uf(x) = √1
2πe−x2/2 λ: mesure de Lebesgue
I Formule de calcul
E ϕ(X)
= Z
R
ϕ(x)PX(dx) = Z
R
ϕ(x)e−x2/2√dx
2π
28/54
Loi d’une variable al´ eatoire (4/4)
Exemple 4 :X =min(Z,1), o`u la loi deZ a une densit´ef par rapport `a la mesure de Lebesgue surR.
I Ecriture de PX :
PX =g.λ+P Z ≥1
δ1, o`ug(x) =f(x)I x <1
,∀x∈R.
I Formule de calcul
E ϕ(X)
= Z 1
−∞
ϕ(x)f(x)dx+P Z ≥1
ϕ(1)
30/54
Fonction de r´ epartition
Les lois sont des objets compliqu´ees. On peut n´eanmoins les caract´eriser par des objets plus simples.
Definition
Soit X variable al´eatoire r´eelle. La fonction de r´epartition de X est : F(x) :=P
X ≤x
, ∀x∈R.
I F est croissante, cont. `a droite, F(−∞) = 0, F(+∞) = 1
I F caract´erisela loi PX : PX
(a,b]
=P
a<X ≤b
=F(b)−F(a)
I SiF est d´erivable alorsPX << λetfX =F0
I D´esormais, laloi deX d´esignera indiff´eremmentF ouPX.
30/54
Retour sur la question fondamentale
On “observe”
X1, . . . ,Xn∼i.i.d.F, F fonction de r´epartitionquelconque, inconnue.
Question : Est-il possible de retrouver exactementF quand ntends vers
∞?
Id´ee : On va chercher `a estimerF surR. Soitx∈R.F(x) =P[X ≤x]
est la probabilit´e queX soit plus petit quex. On va alors compter le nombres deXi qui sont plus petit quex et diviser parn:
1 n
n
X
i=1
I(Xi≤x).
32/54
Fonction de r´ epartition empirique
Definition
Fonction de r´epartition empiriqueassoci´ee au n-´echantillon(X1, . . . ,Xn):
Fbn(x) = 1 n
n
X
i=1
I Xi ≤x
, x ∈R.
(C’est une fonction al´eatoire)
32/54
Propri´ et´ es asymptotiques de F b
n(x)
Pour toutx∈R:
Fbn(x)−→p.s. F(x) quandn→ ∞
C’est une cons´equence de laloi forte des grands nombres appliqu´ee `a la suite de v.a.r.i.i.d. I(Xi≤x)
i.
On dit queFbn(x) est un estimateurfortement consistantde F(x).
34/54
Propri´ et´ es asymptotiques de F b
nTheorem (Glivenko-Cantelli)
Fbn−F
∞
p.s.
−→0 quand n→ ∞ Aussi appel´eTh´eor`eme fondamental de la statistique.
Interpr´etation : Avec un nombre infini de donn´ees dans le mod`ele d’´echantillonnage, on peut donc reconstruire exactementF et donc d´eterminer exactement la loi des observations.
34/54
Notebooks
http://localhost:8888/notebooks/cdf_empirique.ipynb Glivenko-Cantelli
36/54
Autres propri´ et´ es asymptotiques de F b
n(x)
Soitx ∈R. On sait que sin→ ∞alors Fbn(x)−→p.s. F(x)
Question : Quelle est la vitesse de convergence deFn(x) versF(x) ? Outil :Th´eor`eme central-limiteappliqu´e `a la suite de v.a.r.i.i.d.
I(Xi ≤x)
i :
√n Fbn(x)−F(x) d
−→ N 0,F(x)(1−F(x))
On dit queFbn(x) estasymptotiquement normaldevariance asymptotique F(x)(1−F(x).
36/54
TCL et intervalle de confiance asymptotique
On a montr´e par le TCL que pour tout 0< α <1, quandn→ ∞, P
bFn(x)−F(x) ≥cα
σ(F)√ n
→ Z
|x|>cα
exp(−x2/2) dx
√2π =α o`uσ(F) =F(x)(1−F(x)) etcα= Φ−1(1−α/2).
I Attention ! ceci ne fournitpasun intervalle de confiance : σ(F) =F(x)1/2 1−F(x)1/2
est inconnu !
I Solution : remplacerσ(F) parσ(bFn) =Fbn(x)1/2 1−Fbn(x)1/2
(qui est observable), grˆace au lemme de Slutsky.
38/54
TCL et intervalle de confiance asymptotique
Proposition
Pour toutα∈(0,1),
In,αasymp=
"
Fbn(x)±Fbn(x)1/2 1−Fbn(x)1/2
√n Φ−1(1−α/2)
#
est un intervalle de confiance asymptotique pour F(x)au niveau de confiance1−α:
P
F(x)∈ In,αasymp
→1−α.
38/54
Notebooks
http://localhost:8888/notebooks/cdf_empirique.ipynb Glivenko-Cantelli
40/54
Vitesse de convergence dans le Th´eor`eme de Glivenko-Cantelli
Theorem (Th´ eor` eme de Kolmogorov-Smirnov)
Soit X une v.a.r. de fonction de r´epartition F qu’on suppose continue et (Xn)nune suite de v.a.r. i.i.d. de mˆeme loi que X alors :
√n
Fbn−F ∞
−→d K
o`u K est une variable al´eatoire telle que pour tout x∈R
P[K ≤x] = 1−2
∞
X
k=1
(−1)k+1exp(−2k2x2)
I Utile pour letest de Kolmogorov-Smirnov
40/54
r´ esultats asymptotiques et non-asymptotiques
On classe les r´esultats statistiques en deux cat´egories :
1. Un r´esultat obtenu quand ntend vers l’infiniest un r´esultat dit asympotique
2. Un r´esultat obtenu `anfix´eest un r´esultat ditnon-asympotique
42/54
Estimation non-asymptotique de F (x ) par F b
n(x )
Soit0< α <1 donn´e(petit). On veuttrouverε, le plus petit possible, de sorte que
P
|bFn(x)−F(x)| ≥ε
≤α.
On a(Tchebychev) P
|bFn(x)−F(x)| ≥ε
≤ 1 ε2Var
Fbn(x)
=F(x) 1−F(x) nε2
≤ 1 4nε2
≤α Conduit `a
ε= 1
2√ nα
42/54
Intervalle de confiance non-asymptotique
Conclusion : pour toutn≥1 et toutα >0, P
h|bFn(x)−F(x)| ≥ 1 2√
nα i≤α.
Terminologie
L’intervalle
In,α=
Fbn(x)± 1 2√
nα
est un intervalle de confiance non-asymptotique pour F(x)au niveau de confiance1−α.
44/54
In´ egalit´ e de Hoeffding
Proposition
Y1, . . . ,Yn v.a.r.i.i.d. telles que a≤Y1≤b p.s.. Alors
P
"
1 n
n
X
i=1
Yi−EY1
≥t
#
≤2 exp
− 2nt2 (a−b)2
Application : on poseYi =I(xi ≤x) etp=F(x). On en d´eduit P
bFn(x)−F(x) ≥ε
≤2 exp(−2nε2).
On r´esout en ε:
2 exp(−2nε2) =α, soit
ε= r 1
2nlog2 α .
44/54
Comparaison Tchebychev vs. Hoeffding
Nouvel intervalle de confiance
In,αhoeffding=
"
Fbn(x0)± r 1
2nlog2 α
#
`a comparer avec
In,αtchebychev=
Fbn(x0)± 1 2√
nα
I Mˆeme ordre de grandeur en n.
I Gain significatifdans la limiteα→0.
46/54
Observation finale
Comparaison des longueurs des 3 intervalles de confiance :
I Tchebychev (non-asymptotique) √2n2√1α
I Hoeffding (non-asymptotique) √2nq
1 2logα2
I TCL (asymptotique) √2nFbn(x0)1/2 1−Fbn(x0)1/2
Φ−1(1−α/2).
I La longueur la plus petite est celle fournie par le TCL. Mais la longueur de l’intervalle de confiance fournie par l’in´egalit´e de Hoeffding estcomparable`a celle du TCL ennetα(dans la limite α→0).
46/54
Version non-asymptotique de Kolmogorov-Smirnov
X1, . . . ,Xn i.i.d. de loiF continue,Fbnleur fonction de r´epartition empirique.
Proposition (In´ egalit´ e de Dvoretsky-Kiefer-Wolfowitz)
Pour toutε >0.
P sup
x∈R
bFn(x)−F(x) ≥ε
≤2 exp −2nε2 .
I R´esultat difficile (th´eorie des processus empiriques).
I Permet de construire des r´egionsde confiance avec des r´esultats similaires au cadre ponctuel :
P
h∀x∈R,F(x)∈
Fbn(x)±q
1
2nlogα2i
≥1−α
48/54
Rappels de probabilit´ es
48/54
Tribus et mesures de probabilit´ e
SoitZun ensemble.
1. UnetribuZ surZest un ensemble de parties deZtel que :
I Z est stable par union et intersection d´enombrable
I Z est stable par passage au compl´ementaire
I Z∈ Z
Les ´el´ements deZ sont appel´es des´ev´enements.
2. Unemesure de probabilit´esur (Z,Z) est une appplication P:Z 7→[0,1] telle que
I P[Z] = 1
I Si (An) est une famille d´enombrable d’´ev´enements disjoints alors P
∪nAn
=X
n
P[An]
Le dernier point est aussi ´equivalent `a : pour (An) une suite
↑ (∪A
50/54
Type de convergence de suite de variables al´ eatoires
Soit (Zn) une suite de variable al´eatoires etZ une variable al´eatoire `a valeurs dans (R,B) (toutes d´efinies sur un espace probabilis´e (Ω,F,P)).
1. (Zn) converge enloivers Z, not´eZn
→d Z, quand pour pour toute fonction continue born´eef :R7→Ron a
Ef(Zn)→Ef(Z)
2. (Zn) converge enprobabilit´e, versZ, not´eZn→P Z, quand pour tout >0,
P
|Zn−Z| ≥
→0 3. (Zn) convergepresque surementversZ, not´eZn
p.s.→ Z, quand il existe un ´ev´enement Ω0∈ F tel queP[Ω0] = 1 et pour toutω∈Ω0
Zn(ω)→Z(ω)
50/54
Loi forte des grands nombres
Theorem
Soit(Xn)une suite de v.a.r.i.i.d. telle que E|X1|<∞. Alors 1
n
n
X
i=1
Xi p.s.→EX1
Il y a aussi une “´equivalence” `a ce r´esultat : si (Xn) est une suite de v.a.r.i.i.d. telle que
1 n
Pn i=1Xi
n
converge presque surement alors E|X1|<∞et elle converge presque surement versEX1.
52/54
Th´ eor` eme central-limite
Theorem
Soit(Xn)une suite de v.a.r.i.i.d. telle que EX12<∞. Alors
√n σ
1 n
n
X
i=1
Xi−EX1
d
→ N(0,1)
I TCL :vitessedans la loi des grands nombres.
I Interpr´etation du TCL : 1
n
n
X
i=1
Yi =µ+ σ
√nξ(n), ξ(n)≈ Nd (0,1).
I Le mode de convergence estla convergence en loi. Ne peut pas avoir lieu en probabilit´e.
52/54
Lemme de Slutsky
I Le vecteur (Xn,Yn)→d (X,Y) si E
ϕ(Xn,Yn)
→E
ϕ(X,Y) , pour ϕcontinue born´ee.
I Attention ! SiXn
→d X etYn
→d Y, onn’a pas en g´en´eral (Xn,Yn)→d (X,Y).
I Mais(lemme de Slutsky) siXn→d X etYn→P c (constante), alors (Xn,Yn)→d (X,Y).
I Par suite, sous les hypoth`eses du lemme,pour toute fonction continueg, on a g(Xn,Yn)→d g(X,Y).
54/54
Continuous map theorem
Soitf :R7→Rune fonction continue et (Xn) une suite de v.a.r.
1. si (Xn) converge enloivers X alorsf(Xn) converge en loi versf(X) 2. si (Xn) converge enprobabilit´eversX alorsf(Xn) converge en
probabilit´e versf(X)
3. si (Xn) convergep.s.vers X alorsf(Xn) converge p.s. vers f(X)
54/54