• Aucun résultat trouvé

MNCS–Thème 3 : analyse de données, statistique descriptive et inférentielle

N/A
N/A
Protected

Academic year: 2022

Partager "MNCS–Thème 3 : analyse de données, statistique descriptive et inférentielle"

Copied!
14
0
0

Texte intégral

(1)

MNCS–Thème 3 : analyse de données, statistique descriptive et inférentielle

J. Lefrère

Université Pierre et Marie Curie

février 2015

J. Lefrère (UPMC) MNCS Thème 3 février 2015 1 / 52

Table des matières

Table des matières I

Introduction

Bref rappel de probabilités Variables aléatoires

Lois de probabilité, fonction de répartition Moments d’une v.a.

Statistiques d’ordre et quantiles d’une v.a.

Fonctions caractéristiques et fonction génératrice Fonctions d’une variable aléatoire

Distributions bivariées, conditionnement Variables aléatoires indépendantes (v.a.i.) Lois de probabilité usuelles

J. Lefrère (UPMC) MNCS Thème 3 février 2015 2 / 52

Table des matières

Table des matières II

Estimation

Position du problème Estimateurs des moments

Loi de probabilité, fonction de répartition Théorème de la limite centrale

Tests

Introduction aux tests Test duχ2

Test de Kolmogorov-Smirnov

Introduction

Introduction

En physique, on est souvent amené à analyser de vastes séries de mesures, dont on cherche à synthétiser les propriétés statistiques.

1750 1800 1850 1900 1950 2000

−10

−5 0 5 10 15 20 25

Température moyenne mensuelle sur 239 ans à Montsouris

Année

Température en Celsius

On fait alors appel à lastatistique descriptivedont le but est de faire ressortir l’information contenue dans les données (par exemple par des méthodes de classification, d’analyse en composantes principales...) ;

Souvent, on doit définir ces propriétés sans disposer de toutes les mesures possibles. On ne dispose dans ce cas que d’un échantillon des mesures et l’on cherche à estimer les propriétés de la variable aléatoire sous-jacente. On utilise alors les résultats de la statistique inférentiellequi s’appuie sur la théorie des probabilités.

(2)

Bref rappel de probabilités

Variables aléatoires

Unevariable aléatoire(v.a.)X est un objet mathématique permettant de représenter une expérience ou une mesure dont le résultat n’est ou ne peut être connu exactement à l’avance.

On distingue deux types de variables aléatoires :

variablesà valeurs discrètes: tirage d’un dé, jet d’une pièce de monnaie, comptage d’événements (particules, photons, appels téléphoniques), etc.

variablesà valeurs continues: durée d’un trajet, durée de vie d’un composant, vitesse d’une molécule dans un gaz, température, etc.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 5 / 52

Bref rappel de probabilités Lois de probabilité, fonction de répartition

Variables aléatoires discrètes

Dans le cas discret, à chaque valeur possiblexk de la variableX, on associe la probabilité de réalisation de l’événementX =xk soitP(X =xk) =pk. Loi des grands nombres : cette probabilité peut être vue comme la fréquence d’occurrence de l’événementxk dans la limite d’un nombre d’expériences infini.

P est appelé laloi de probabilité de X et vérifieP

k

P(X =xk) = 1.

Définir lafonction de répartition FX deX par :

FX(x) =P(X 6x) (1)

FX est croissante, lim

x→−∞FX(x) = 0, lim

x→+∞FX(x) = 1et P(a<X 6b) =FX(b)−FX(a).

J. Lefrère (UPMC) MNCS Thème 3 février 2015 6 / 52

Bref rappel de probabilités Lois de probabilité, fonction de répartition

Variables aléatoires continues

Dans le cas continu, la loi de probabilité peut admettre unedensité de probabilitéfX (pdf : probability density function), et alors :

P(x<X 6x+dx) =fX(x) dx (2) avecR+∞

−∞ fX(x) dx= 1. N.-B. : dans le cas continu,P(X =x) = 0

Lafonction de répartition(cdf : cumulative density function) est définie de la même manière que dans le cas continu, et dans le cas oùfX existe,FX est la primitive defX : FX(−∞) = 0etFX(+∞) = 1

FX(x) = Z x

−∞

fX(t) dt (3)

P(a<X 6b) =FX(b)−FX(a) =Rb

a fX(t) dt.

N.-B. : Une loi discrète peut être représentée dans ce formalisme par une densité constituée de distributions de Dirac aux pointsxk pondérées par leur probabilités pk respectives.

fX(x) =X

k

pkδ(xxk) (4) La fonction de répartition présente alors des discontinuitéspk en ces points.

Bref rappel de probabilités Moments d’une v.a.

Moments d’une v.a.

On définit lemoment d’ordren d’une variable aléatoireX par :

mn = E (Xn) =





 X

k

xknP(X =xk) discret Z +∞

−∞

xnf(x) dx continu

(5)

Moment d’ordre 1 = espérance mathématiqueE (X)(ou la moyenne) On définit de même lemoment centré d’ordre n par :

µn= E ([X−E (X)]n) =





 X

k

(xkm1)nP(X =xk) discret Z +∞

−∞

(x−m1)nf(x) dx continu (6)

(3)

Bref rappel de probabilités Moments d’une v.a.

Moment centré d’ordre 2 =variance V (X)de la v.a.X V (X) = E [X−E (X)]2

= E X2

−E (X)2 σ=√

V (X) =√

µ2 estl’écart type(standard deviation) deX σmesure la dispersion des données autour de la moyenne.

Variablecentréelorsque sa moyenne est nulle,

Variableréduitelorsque de plus sa variance vaut 1.

Variable centrée-réduiteX0 associée àX par :X0 =Xm1 σ

J. Lefrère (UPMC) MNCS Thème 3 février 2015 9 / 52

Bref rappel de probabilités Moments d’une v.a.

On définit aussiles coefficientssans dimension liés aux moments d’ordre 3 et 4 : d’asymétrie(skewness) γ1= µ3

σ3 d’aplatissement(kurtosis) γ2= µ4

σ4 −3

(7)

Certains auteurs définissent ce coefficient comme µ4

σ4; on parle alors d’excess kurtosispourγ2.

Le coefficient d’asymétrie (et plus généralement, tous les moments centrés d’ordre impair) est nul pour une variable dont la loi de probabilité est symétrique par rapport à la moyenne.

Le coefficient d’aplatissement mesure l’importance des « queues » de la loi de probabilité : il est positif quand les événements extrêmes sont plus probables que pour une variable gaussienne.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 10 / 52

Bref rappel de probabilités Statistiques d’ordre et quantiles d’une v.a.

Statistiques d’ordre et quantiles d’une v.a.

Quantile(percentile ou fractile) d’ordreq (0<q<1)=

valeurxq telle que P(X 6xq) =q, c’est-à-direxq=FX−1(q) xq ne dépend que de l’ordreentre les valeurs prises par la v.a.

⇒moins sensible aux valeurs aberrantes isolées que les moments.

Mode= valeur la plus probable (v.a. discrète) ou valeur où la densité de probabilité est maximale (v.a. continue)

Médiane= valeurx1/2 telle que FX(x1/2) = 1/2

⇔autant de valeurs à gauche qu’à droite de la médiane (ne pas confondre avec la moyenne ni avec le mode)

utilisée pour éliminer des parasites isolés dans un signal (filtre médian)

en statistique, on définit desintervalles de confianceà 90%, par

[x0.05, x0.95]dans le cas symétrique pour encadrer des paramètres estimés.

Bref rappel de probabilités Fonctions caractéristiques et fonction génératrice

Fonctions caractéristiques et fonction génératrice I

La première fonction caractéristiqueΦX est la transformée de Fourier de la densitéfX :

ΦX(u) = E eiuX

= Z +∞

−∞

fX(x)eiux dx (8) À partir de la densité de probabilité, on peut calculer tous les moments d’une v.a.

et il faut tous les connaître pour revenir à sa densité.

ΦX(u) =

X

k=0

ikuk

k! E Xk

(9) dnΦX

dun (u= 0) =inE (Xn) et ΦX(0) = 1 (10) ΦX(u) = 1 +iuE (X)−1

2u2E X2

+· · · (11)

(4)

Bref rappel de probabilités Fonctions caractéristiques et fonction génératrice

Fonctions caractéristiques et fonction génératrice II

La deuxième fonction caractéristiqueΨX est le logarithme de la première.

ΨX(u) = ln ΦX(u) = ln

E eiuX

(12) ΨX se développe selon les cumulantsKn(X).

dnΨX

dun (u= 0) =inKn(X) et ΨX(0) = 0 (13) En particulierK1(X) = E (X)etK2(X) = V (X).

SiX est centrée,K3(X) =µ3(X)etK4(X) =µ4(X)−3µ2(X)2 (tous deux nuls pour une gaussienne).

ΨX(u) =iuE (X)−1

2u2V (X) +· · · (14) Transformation linéaire deX :

Y =aX+b ⇒ ΦaX+b(u) = E

eiu(aX+b)

=eiubΦX(au)

⇒ ΨaX+b(u) =iub+ ΨX(au)

J. Lefrère (UPMC) MNCS Thème 3 février 2015 13 / 52

Bref rappel de probabilités Fonctions d’une variable aléatoire

Fonctions d’une variable aléatoire I

Distribution de la fonction d’une v.a.

Y =g(X)g est une fonction certaine.

Déduire laloi deg(X)de celle deX

Cas oùg estmonotone(croissante par exemple)

P(X 6x) =FX(x) =P(g(X)6g(x)) =FY(g(x))

FY(y) =FX(g−1(y)) ⇒ fY(y) = fX(g−1(y) g0(g−1(y)) Plus généralement

fY(y) =fX(x)

dx dy Sommer toutes les contributions si gnon monotone.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 14 / 52

Bref rappel de probabilités Fonctions d’une variable aléatoire

Application I

Égalisation d’histogrammeen traitement d’image

Rendre uniforme l’histogramme des niveaux de gris pour améliorer le contraste

0*100 1*104 2*104 3*104 4*104 5*104 6*104 7*104 8*104

0 50 100 150 200 250

niveau de gris histogramme cumulé initial

nécessite de classer les données

0*100 1*104 2*104 3*104 4*104 5*104 6*104 7*104 8*104

0 50 100 150 200 250

niveau de gris histogramme cumulé après égalisation

Bref rappel de probabilités Fonctions d’une variable aléatoire

Application II

Générateurs pseudo-aléatoiresde loi imposée à partir d’un générateur uniforme X uniforme sur[0,1]doncfX(x) = 1etFX(x) =x.

fY imposée doncFY par intégration, puis choisirg=FY−1

Exemple : loi exponentielle de paramètre λ

générer la v.a. Y de densité

fY(y) =λe−λy pour y>0.

1. intégrer la densité de probabilité de Y FY(y) =

Z y 0

fY(y1) dy1= 1−e−λy=x 2. inverser la fonction de répartition deY

Y =−ln(1−X)/λ suit une loi exponentielle

(5)

Bref rappel de probabilités Fonctions d’une variable aléatoire

Moments de la fonction d’une v.a.

Approximation desmoments d’une fonction non-linéaire d’une v.a.: développerg(X)autour de la moyenne m1= E (X)

g(X) =g(m1) + dg

dX

m1

(X −m1) +1 2

d2g dX2

m1

(X−m1)2+· · · En prenant l’espérance,

E (g(X))≈g(m1) +1 2

d2g dX2

m1

V (X)≈g(m1) =g(E (X)) En négligeant le terme du second ordre dans la moyenne,

V (g(X))≈ dg

dX 2

m1

V (X)

J. Lefrère (UPMC) MNCS Thème 3 février 2015 17 / 52

Bref rappel de probabilités Distributions bivariées, conditionnement

Distributions bivariées, conditionnement

Probabilité conjointe deAet B:P[Aet B]

X etY de loi conjointeFX,Y =P[X 6x etY 6y]

Densité de probabilité conjointedeX etY : fX,Y(x,y) = 2FX,Y

∂x ∂y Densité de probabilité marginale de Y :

fY(y) = Z +∞

−∞

fX,Y(x,y) dx Probabilité conditionnelledeB sachant queAest vrai :

P[B|A] =P[AetB]/P[A]

Densité de probabilité conditionnelledeY connaissantX : fY|X(y;x) = fX,Y(x,y)

fX(x) (15)

J. Lefrère (UPMC) MNCS Thème 3 février 2015 18 / 52

Bref rappel de probabilités Variables aléatoires indépendantes (v.a.i.)

Variables aléatoires indépendantes (v.a.i.)

Événementsindépendants

P[Aet B] =P[A]×P[B] ⇐⇒ P[A|B] =P[A]

X et Yvariables aléatoires indépendantes(v.a.i.) si factorisation des cdf et pdf : FX,Y(x,y) =FX(x)×FY(y) ⇔ fX,Y(x,y) =fX(x)×fY(y)

ou encorefY|X(y;x) =fY(y)

Moments bivariés

E (g(X,Y)) =RR

g(x,y)fX,Y(x,y) dx dy Covariance(? pour complexe conjugué)

Cov(X,Y) = E ((X−E (X))(Y −E (Y))?) = E (XY?)−E (X) E (Y?)

Moments de v. a. indépendantes.

E (XY) = E (X) E (Y) et covariance nulle car RR

x,yfX,Y(x,y)xy dx dy =hR

xx fX(x) dxi hR

yy fY(y) dyi

Bref rappel de probabilités Variables aléatoires indépendantes (v.a.i.)

Somme de variables aléatoires indépendantes

Loi de la sommede deux variables aléatoires :Z =X+Y FZ(z) =P[Z 6z] =

Z +∞

x=−∞

Z z−x y=−∞

fX,Y(x,y) dx dy = Z +∞

x=−∞

FY|X=x(z−x)fX(x) dx

$y$

$z$

$z$

$x$

$y=z−x$

$x$ $x+dx$

y z

z x

y = z

x

x x+dx

Cas général :produit de convolution fZ=fY|X=x ?fX

Cas oùX etY sontindépendantes: fX+Y =fX?fY =⇒ ΦX+Y = ΦXΦY Les secondes fonctions caractéristiques s’ajoutent.

ΨX+Y = ΨX+ ΨY

(6)

Bref rappel de probabilités Lois de probabilité usuelles

Variables aléatoires discrètes I

la loi discrèteuniformesur1,2, ...,n :

∀k∈ {1,2, ...,n},P[X =k] = 1

n; (16)

moyennem1= n+ 1

2 , varianceσ2= n2−1 12 .

la loi de Bernoulli(ou de pile ou face) de paramètrep:

P[X = 1] =p etP[X = 0] = 1−p; (17) moyennem1=p, varianceσ2=p(1p),

Φ(u) =peiu+ 1−p≈1 +piupu2/2 +· · ·

Ψ(u) = ln (1 +p(eiu−1))≈piup(1p)u2/2 +· · ·

J. Lefrère (UPMC) MNCS Thème 3 février 2015 21 / 52

Bref rappel de probabilités Lois de probabilité usuelles

Variables aléatoires discrètes II

la loi binomiale de paramètres n etp,

obtenue en sommant n variables de pile ou face indépendantes :

P(X =k) =Cnkpk(1−p)n−k, pour06k6n. (18) moyennem1=np, varianceσ2=np(1p).

Ψ(u) =nln (1 +p(eiu−1))≈npiunp(1p)u2/2 +· · ·

la loi de Poisson de paramètreλ: P[X =k] = λk

k! exp(−λ) k>0 (19) moyennem1=λ, variance σ2=λ.

ΦX(u) = exp [λ(eiu−1)]

ΨX(u) =λ(eiu−1) =λ(iu+u2/2iu3/6 +· · ·) Kn(X) =λ ∀n

J. Lefrère (UPMC) MNCS Thème 3 février 2015 22 / 52

Bref rappel de probabilités Lois de probabilité usuelles

Variables aléatoires discrètes III

Applications des secondes fonctions caractéristiques

La somme de deux v.a.i. de Poisson de paramètresλ1 etλ2 est une v.a. de Poisson de paramètreλ1+λ2.

La loi de Poisson est la limite de la loi binomiale pourn → ∞etp→0avec np=λ. →loi des événements rares

En développant la seconde fonction caractéristique Ψ(u) =nln

1 +λ

n(eiu−1)

=n

"

λ

n(eiu−1)− λ

n 2

· · ·

#

λ(eiu−1)

Bref rappel de probabilités Lois de probabilité usuelles

Variables aléatoires continues I

la loiuniformesur[0 ;a], de densité de probabilité : f(x) = 1

a pour06x6a; (20) moyennem1=a/2, varianceσ2=a2/12.

loiexponentielle de paramètreλ:

f(x) =λexp(−λx)six >0 (21) moyennem1= 1/λ, variance σ2= 1/λ2, mn=n!/λn.

Cette distribution est étalée vers la droite : γ1= 2etγ2= 6.

Φ(u) = λ

λiu = 1

1−iu/λ =

X

k=0

iu λ

k

=

X

k=0

(iu)k k! mk

(7)

Bref rappel de probabilités Lois de probabilité usuelles

Variables aléatoires continues II

la loigaussienne(ou normale) d’espérancem et de varianceσ2: f(x) = 1

σ√ 2πe

(x−m)2

2 (22)

µ2k+1 = 0etγ2= 0. Fonction de répartition sans expression analytique obtenue à partir de la «fonction d’erreur » (erf(x) = 2πRx

0 e−t2 dt) : F(x) = 1

2

1 +erf

xm σ

2

(23) moyennem1=m, varianceV (X) =σ2

Φ(u) = exp (ium−u2σ2/2)

Ψ(u) =iumu2σ2/2polynôme de degré 2 (cumulants d’ordre > 2 nuls) Conséquence : la somme de deux v.a.i. de Gauss est une v.a. de Gauss (les moyennes et les variances s’ajoutent).

J. Lefrère (UPMC) MNCS Thème 3 février 2015 25 / 52

Bref rappel de probabilités Lois de probabilité usuelles

Variables aléatoires continues III

loi duχ2n àn degrés de liberté ; c’est la loi de la variable :

n

X

k=1

Xk2 (24)

où les variables Xk sont des variables gaussiennes centrées-réduites indépendantes.

Fonction de répartition F(x) =P

n

X

k=1

Xk2<x

!

= Γn 2, x

2

(25) où Γest la fonction gamma incomplète :

Γ(a,x) = Rx

0 e−tta−1 dt R

0 e−tta−1 dt (26)

moyennem1=n, varianceV (X) = 2n.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 26 / 52

Bref rappel de probabilités Lois de probabilité usuelles

Densité de la loi du χ

2

5 D.L.

10 D.L.

20 D.L.

50 D.L.

100 D.L.

0 20 40 60 80 100 120 140 160 180 200

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16

Densité de probabilité de la loi du chi^2

Densité de probabilité du chi^2

Estimation Position du problème

La question de l’estimation

On se place ici dans le cas où l’on dispose d’un ensemble de données (par exemple, une série d’observations d’un même phénomène en physique) et l’on cherche à estimer les propriétés de la variable aléatoire (le phénomène physique) dont les données constituent une réalisation.

Si lesn données sont des tiragesindépendants de la variable aléatoire, elles constituent unéchantillon de taille n.

Définir unestimateurd’un paramètre statistique de la loi que suit la variable aléatoire, c’est se donner une méthode de calcul approché de ce paramètre en fonction desn tirages.L’estimateur est alors lui-même une variable aléatoire, puisque sa valeur dépend de la réalisation dont on dispose.

Il s’agit de choisir un estimateur :

sans biais (sans erreur systématique)

de faible variance (présentant le minimum de dispersion)

convergent: qui tend vers le paramètre à estimer (souvent au sens de la moyenne quadratique) lorsque la taille de l’échantillon tend vers l’infini.

(8)

Estimation Estimateurs des moments

Estimateur de la moyenne

L’estimateur X de la moyenne est calculé selon : X = 1

n

n

X

k=1

Xk (27)

L’estimationx est une réalisation de la variable aléatoireX, fonction desn réalisations indépendantes deX dont on cherche à estimer les propriétés :m sa moyenne etσ2 sa variance.X est un estimateur :

sans biais :∀n,E X

=m; E X

= E 1 n

n

X

k=1

Xk

!

= 1 n

n

X

k=1

E (Xk) = 1

nnE (X) = E (X)

de variance :V X

=σ2

n (car lesXk sont indépendants) V X

= V 1 n

n

X

k=1

Xk

!

= 1 n2 V

n

X

k=1

Xk

!

= 1 n2

n

X

k=1

V (Xk) = V (X) n

convergent :X −→

n→ ∞m.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 29 / 52

Estimation Estimateurs des moments

Estimateur de la variance

Si la moyenne n’est pas connue, un estimateur naturel de la variance est : S02= 1

n

n

X

k=1

XkX2

Mais l’emploi de la moyenne empirique en fait un estimateur biaisé : X(Xkm)2=X

(XkX)2+ 2(X−m)X

(XkX) +n(X−m)2 X(XkX) = 0 ⇒ nV (X) =nE S02

+nV X E S02

= n−1 n σ2 On lui préfère donc l’estimateur sans biaisS :

S2= 1 n−1

n

X

k=1

XkX2

(28) Cet estimateur est aussi convergent.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 30 / 52

Estimation Estimateurs des moments

Estimateurs des moments d’ordre supérieur

Les coefficients d’asymétrie et d’aplatissement sont estimés respectivement selon :

Γ1= 1 n

n

P

k=1

(XkX)3

S3 Γ2=

1 n

n

P

k=1

(XkX)4

S4 −3 (29)

Les estimateurs associés sont asymptotiquement (n→ ∞) non-biaisés et convergents.

Estimation Loi de probabilité, fonction de répartition

Estimateurs des lois et fonction de répartition

On obtient des informations sur la loi de probabilité de la variable aléatoire que l’on étudie en construisant l’histogramme empiriquedes fréquences

d’occurrence des différentes valeurs observées. Le problème pratique, dans le cas continu, consiste à trouver un compromis entre des intervalles de valeurs (ou classes) assez larges permettant d’obtenir un histogramme d’allure régulière, mais suffisamment petits pour ne pas trop réduire l’information.

La fonction de répartition est quant à elle approchée par lafonction de répartition empirique Fn : soient(x1,x2, . . . ,xn)les différentes valeurs observéesclassées par ordre croissant, alors :

Fn(x) =





0 six <x1 k

n sixk 6x <xk+1 1 six >xn

(30)

On peut démontrer que la fonction de répartition empirique converge presque sûrement vers la fonction de répartition de la variable dont on possède un échantillon.

(9)

Estimation Théorème de la limite centrale

Théorème de la limite centrale I

X1,X2,· · ·,Xn n variables aléatoires indépendantes de même loi (échantillon de taillen) possédant une moyennem et une varianceσ2.

Xn= 1 n

n

X

i=1

Xi moyenne empirique

E Xn

= E (X) et V Xn

= σ2

n →0sin → ∞ SoitYi la variable centrée associée àXi

SoitZn la variable centrée réduite associée à Xn Zn= Xnm

σ/

n = 1 σ

n

n

X

i=1

Yi

ΨZn(u) = ΨσnZn(u/σ√

n) =nΨYi(u/σ√ n)

J. Lefrère (UPMC) MNCS Thème 3 février 2015 33 / 52

Estimation Théorème de la limite centrale

Théorème de la limite centrale II

CommeYi est centrée,ΨYi(v) =−σ2v2/2 +v2ε(v), donc ΨZn(u) =n

σ2 2

u2 2 + u2

2ε u

σn

ΨZn(u) =−u2 2 +u2

σ2ε u

σn

→ −u2

2 si n→ ∞ ΨZn →deuxième fonction caractéristique d’une gaussienne centrée-réduite.

Xn tend vers une gaussienne de moyennem et sa variance tend vers 0 comme1/n Rôle prépondérant des gaussiennes dans lesphénomènes additifs

(physique macroscopique = somme de contributions microscopiques indépendantes)

Application : générateurs pseudo-aléatoires quasi-gaussiens

Somme den v.a.i. uniformes =⇒ convolution des distributions : densité de la somme = polynôme de degrén−1.

Convergence rapide :n = 12pour simplifier le calcul (variance unité).

Autre application : la loi duχ2n tend vers une gaussienne pourn grand.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 34 / 52

Estimation Théorème de la limite centrale

Un cas de non application de la limite centrale : la loi de Cauchy

Loi de Cauchy : celle du rapport de 2 gaussiennes centrées réduites indépendantes Densité de probabilité

fX(x) = 1 π

1 1 +x2 Fonction de répartition

FX(x) = 1 2+1

πarctanx Fonctions caractéristiques

ΦX(u) = exp(−|u|) et ΨX(u) =−|u|

Mais aucun moment de la loi de Cauchy n’existe !Mais mode et médiane nuls.

La moyenneXn den v.a.i. de Cauchy suit aussi une loi de Cauchy quel que soitn. ΨX

n(u) =X(u/n) =−n|u/n|=−|u|= ΨX(u)

Estimation Théorème de la limite centrale

Échantillon de la loi de Cauchy

−500

−400

−300

−200

−100 0 100 200 300

0 100 200 300 400 500 600 700 800 900 1000

1000 tirages de Cauchy

Figure:Un échantillon de 1000 tirages selon la loi de Cauchy

(10)

Tests Introduction aux tests

Introduction aux tests d’hypothèses I

Untestest un mécanisme de décision permettant de trancher entre deux hypothèses :

une hypothèse dite « nulle » notéeH0

et une hypothèse alternative notéeH1

au vu des résultats d’un échantillon d’observations.

Nous ne présentons ici que deux tests relatifs à laloi de probabilitéque suit la variable étudiée, outests d’adéquation(goodness-of-fit) :

letest du χ2 et

letest de Kolmogorov-Smirnov.

De nombreux autres tests existent, permettant de comparer par exemple

lamoyennede deux échantillons (test de Student)

ou leurvariance(test de Fisher).

J. Lefrère (UPMC) MNCS Thème 3 février 2015 37 / 52

Tests Introduction aux tests

Introduction aux tests d’hypothèses II

````

````````

Décision

Hypothèse

H0 H1 acceptationD0 1−α β rejet (région critique)D1 α 1−β

Stratégie de décision : partition de l’espace des observations entre région d’acceptation (D0) et région critique (D1).

Performancesdéterminées par :

α=P[D1|H

0]risque de première espèce(rejet erroné ou fausse alarme)

β=P[D0|H

1]risque dedeuxième espèce (acceptation erronée)

1−β=P[D1|H

1]puissancedu test (rejet justifié)

J. Lefrère (UPMC) MNCS Thème 3 février 2015 38 / 52

Tests Introduction aux tests

Maximum de vraisemblance a posteriori

Minimiser la somme des probabilités d’erreur :

min (β+α) ⇐⇒ min P[D0|H1] +P[D1|H0] min

Z

D0

p(#–x|H1) d#–x + 1− Z

D0

p(#–x|H0) d#–x min

Z

D0

[p(#–x|H1)−p(#–x|H0)] d#–x

Choisir le domaineD0 de façon à minimiser l’intégrale en n’intégrant que des termes négatifs. La décision est donc :

#–xD0 ⇐⇒ V(#–x) =p(#–x|H0) p(#–x|H1) >1 Comparaison durapport de vraisemblance V(#–x)à 1.

Tests Introduction aux tests

Stratégie bayésienne

Si on connait les probabilités a priori p0=P[H0] etp1=P[H1], la probabilité d’erreur est :

pe=p0P[D1|H0] +p1P[D0|H1] =p0α+p1β Mais on affecte parfois des coûts différents à ces deux risques

min p0c10P[D1|H0] +p1c01P[D0|H1] La décision est donc :

#–xD0 ⇐⇒ V(#–x) = p(#–x|H0)

p(#–x|H1) > p1c01

p0c10

Comparaison durapport de vraisemblanceV(#–x)à un seuil.

(11)

Tests Introduction aux tests

Cas non paramétrique

L’hypothèseH1 est simplement la négation deH0 et ne permet en général pas de calculer des probabilités.

Stratégie de Neyman-Pearson :

choisir un risqueacceptable de rejetα

etmaximiser la puissance 1−βdu test (minimiserβ)

Comparaison du rapport de vraisemblanceV(#–x)à un seuil déterminé parα.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 41 / 52

Tests Test duχ2

Test du χ

2

sur l’histogramme I

On cherche à évaluer l’écartD entre l’histogramme construit à partir de l’échantillon et la loi de probabilité qu’est censée suivre la variable aléatoire.

Dans le cas continu, cela impose de discrétiser les observations en classes, ce qui peut faire préférer le test de Kolmogorov-Smirnov présenté plus loin.

On considère ainsi que l’histogramme empiriquea été construit en utilisantk classes d’effectifsN1,N2, . . . ,Nk avec la condition :

k

X

i=1

Ni=NN est le nombre total d’observations (31) L’hypothèse que l’on cherche à tester est :

H0 : la variable aléatoireX dont on possède un échantillon suit une loi de probabilité donnée, pour laquelle la probabilité associée à chaque classe estp1,p2, . . . ,pk.

L’hypothèse alternative est :

H1 : la variable aléatoireX suit une autre loi de probabilité.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 42 / 52

Tests Test duχ2

Test du χ

2

sur l’histogramme II

Ni=effectif d’une classe = somme de N v.a.i. de type pile ou face :

1si le tirage tombe dans la classei

(probabilitépi donnée par la loi et la classe)

0sinon (probabilité1−pi)

Ni suit une loi binomiale de moyenne Npi et devarianceNpi(1−pi)≈Npi

Mais lesNi liés parPk

1Ni=N

On calcule alors la distance (ou « statistique »)D permettant de mesurer l’écart quadratique pondérépar l’inverse de la variance de l’histogramme à celui de la loi de probabilité testée :

D=

k

X

i=1

(NiNpi)2 Npi

(32)

Tests Test duχ2

Test du χ

2

sur l’histogramme III

On démontre queD suit uneloi duχ2ν, àν =k−1−cdegrés de liberté, dans la limite où l’effectif de chaque classe est suffisamment grand,

=⇒ éliminer les classes d’effectif inférieur à 5 par exemple.

Nombre de degrés de liberté ν=k−1−c

+k nombre de classes retenues dans l’histogramme (de population assez grande)

−1car l’effectif total impose une relation entre lesNi

−cle nombre de paramètres de la loi estimés à partir de l’échantillon (par exemple : moyenne, écart-type, etc.)

(12)

Tests Test duχ2

Test du χ

2

sur l’histogramme IV

0 100 200 300 400 500 600 700

−15 −10 −5 0 5 10

nombre d’ocurrences

anomalie de température (K) histogramme des anomalies de température

classes trop peu peuplées exclues

Ni expérimental Npi théorique seuil de population à 5

12 classes retenues

⇒9 degrés de liberté

Figure:Histogrammes expérimental et théorique

J. Lefrère (UPMC) MNCS Thème 3 février 2015 45 / 52

Tests Test duχ2

Test du χ

2

sur l’histogramme V

Question :quand rejeterH0 avec un risque r (généralement faible) acceptable ?

Estimer la moyenne et la variance via les moments empiriques pour identifier la gaussienne candidate.

Fixer le nombre classes et leurs bornes (il faudrait qu’elle aient des populations proches). Calculer l’histogramme théorique.

Calculer l’histogramme de l’échantillon et en déduireν etd.

Fixer unrisquer (faible : 5% par ex.) de rejeterH0 alors qu’elle est vraie ; en déduire unseuil, la valeur critiquedc définie par

Pχ2

ν[D6dc] = 1−r ce qui nécessite d’inverser la distribution cumulée du χ2.

Décider :

sid>dc, rejeter l’hypothèseH0;

sid<dc, accepter l’hypothèseH0.

N.-B. :on ne démontre jamais que la variable aléatoire étudiée suit bien la loi de probabilité testée, mais seulement que l’échantillon dont on dispose est conforme avec l’hypothèse H0.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 46 / 52

Tests Test duχ2

Test du χ

2

sur l’histogramme VI

Risque déduit du seuil : densité de probabilité duχ2

zone de rejet de H0

seuil = 18.31

0 5 10 15 20 25 30 35 40

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10

Test du chi^2 à10 degrés de liberté avec un risque de 0.050

densité de probabilité

Tests Test duχ2

Test du χ

2

sur l’histogramme VII

Risque déduit du seuil : inversion de la fonction de répartition cumulée duχ2

95 %

seuil = 18.31

0 5 10 15 20 25 30 35 40

0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Test du chi^2 à10 degrés de liberté avec un risque de 0.050

Probabilité cumulée du chi^2 à10 degrés de liberté

(13)

Tests Test de Kolmogorov-Smirnov

Test de Kolmogorov-Smirnov I

Letest de Kolmogorov Smirnovne nécessite pas de discrétiser les variables aléatoires continues (avantage par rapport au test duχ2) :

=⇒évite un choix arbitraire des classes de l’histogramme empirique.

Ce test travaille sur la fonction de répartition et l’on teste l’hypothèse :

H0: la variable aléatoire X dont on possède un échantillon suit une loi de probabilité donnée de fonction de répartition F(x) =P(X 6x).

L’hypothèse alternative est comme précédemment :

H1: la variable aléatoire X suit une autre loi de probabilité.

On mesure l’écart maximaldN entreF(x)et la fonction de répartition empirique FN(x):

dN =sup |FN(x)−F(x)| (33) En pratique, il fautclasser les données et, puisque la fonction de répartition empirique estdiscontinueaux valeursxk de l’échantillon, il faut calculerdN comme :

dN =sup (|FN(xk)−F(xk)| ;|FN(xk−1)−F(xk)|) (34)

J. Lefrère (UPMC) MNCS Thème 3 février 2015 49 / 52

Tests Test de Kolmogorov-Smirnov

Test de Kolmogorov-Smirnov II

La fonction de répartition de la variable aléatoireDN dontdN est une réalisation a pu être calculée (pourN → ∞).

Elle estindépendante de la loi de probabilité de la variableX : Ph√

N DN <dci

−→

N→∞1 + 2

X

k=1

(−1)kexp (−2k2dc2) (35) On pourra utiliser la valeur limite dès queN >80. Le calcul de la somme fournit : P

DN <1,223

N

= 0,90 ; P

DN < 1,358

N

= 0,95 ; P

DN < 1,629

N

= 0,99 La comparaison dedn calculé à partir de l’échantillon avec les valeurs limites précédentes permet donc de conclure, pour un certain risque, sur le rejet ou non de l’hypothèse nulle.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 50 / 52

Tests Test de Kolmogorov-Smirnov

Test de Kolmogorov-Smirnov III

Cas où on estime des paramètres de la loi avant le test

La limite (35) n’est exacte que lorsque la fonction de répartitionF(x)à tester est entièrement spécifiéea priori.

Si on a recours à l’échantillon pour estimer certains paramètres deF(x)(tels que moyenne ou écart-type), les valeurs de distances critiques sont trop conservatives : le test pousse à conserver l’hypothèse nulle, alors qu’il faudrait la rejeter.

Des simulations numériques ont permis de calculer les valeurs dedc adéquates, notamment lorsque l’on teste si l’échantillon peut être une réalisation d’une variable aléatoire gaussienne et qu’on estime la moyenne et l’écart-type à partir de l’échantillon.

=⇒prendredc0 ≈2dc/3, par exemple : P

DN < 0,886

N

= 0,95 (36)

Tests Test de Kolmogorov-Smirnov

0 0.2 0.4 0.6 0.8 1

−12 −10 −8 −6 −4 −2 0 2 4 6

fréq. cumulée d’ocurrences

anomalie de température fonction de répartition cumulée des anomalies de température expérimental

théorique

Allure générale

0.45 0.46 0.47 0.48 0.49 0.5 0.51 0.52 0.53 0.54 0.55

−0.2 −0.15 −0.1 −0.05 0 0.05 0.1 0.15 0.2

fréq. cumulée d’ocurrences

anomalie de température

Zoom fonction de répartition cumulée des anomalies de température expérimental

théorique

Zoom : on remarque les discontinuités de la répartition empirique Figure:Répartition cumulée expérimentale et

théorique pour le test de Kolmogoroff Smirnov

(14)

Bibliographie

Quelques références bibliographiques

Jenkins, GwilymetD. G. Watts,Spectral analysis and its applications, 525 pages (Holden-Day, 1968), ISBN 0-8162-4464-2.

Lejeune, Michel,Statistique : la théorie et ses applications, 434 pages (Springer, 2010), deuxième édition, ISBN 978-2-8178-0156-8.

Saporta, Gilbert, Probabilité, Analyse des données et Statistique, 622 pages (Technip, 2011), troisième édition, ISBN 978-2-7108-0980-7.

J. Lefrère (UPMC) MNCS Thème 3 février 2015 52 / 52

Références

Documents relatifs

On se place ici dans le cas où l’on dispose d’un ensemble de données (par exemple, une série d’observations d’un même phénomène en physique) et l’on cherche à estimer

Soit le sous- schéma multidimensionnel suivant qui permet d'analyser les appels par rapport au temps, aux progiciels et aux clients.. − Dessiner le graphe des cuboïdes qu'il

Tests bilatéraux et unilatéraux de comparaison de deux proportions ou de deux moyennes dans le cadre de la loi normale.. • Utiliser les tests bilatéraux et unilatéraux relatifs

moyenne la plus élevée) et le groupe le moins motivé (valeur moyenne la plus faible), ce qui donne le tableau 3 : Groupes les plus motivés et les moins motivés selon

un autre échantillon I' (de même effectif que I) pourra avoir dans B(s,R) non 20 points mais 16 ou 24.De plus au lieu de l'expression analytique de l'élément de volume naturel

§ 2.1). Schématisons d'après l'expérience des trous d'Young l'essentiel de tout phénomène d'interférence. Entre la source lumineuse ponctuelle S et l'écran E est interposée

Dans le cas de quatre particules émergentes, les énergies {E .} , nombres positifs de somme fixée E sont bien représentées par un point intérieur à un tétraèdre : c'est

l’approche spécifique, cette première phase devra être suivie d’une exploration graphique analogue mais dans laquelle chaque facteur sera examiné en référence à un