Probabilit´ es et statistiques pour l’ing´ enieur
M1 Informatique
Etienne Birmel´ e
I. Statistiques descriptives
Types de variables
Une variable peut ˆ etre de trois types :
Nominale : variable cat´ egorielle sans hi´ erarchie entre les diff´ erentes classes (sexe, esp` ece, ...)
Ordinale : variable cat´ egorielle pour laquelle l’ordre des classes est significatif (indice de satisfaction ...). Elle peut ˆ etre convertie en variable quantitative.
Quantitative : variable num´ erique.
Echantillons
D´ efinition
Un ´ echantillon est un ensemble de mesures d’une mˆ eme variable sur des individus diff´ erents.
Remarque : Les individus peuvent ˆ etre des personnes, des cellules, des actions en bourse, etc .
Appariement
Des ´ echantillons mesur´ es sur les mˆ emes individus sont appel´ es ´ echantillons appari´ es.
Exemple : Des performances de sportifs avant et apr` es un entraˆınement
sp´ ecifique.
Exemple de donn´ ees
Jeu de donn´ ees de 153 mesures de qualit´ e de l’air de mai ` a octobre, mesurant six variables :
I
taux d’ozone
I
rayonnement solaire
I
vitesse du vent
I
temp´ erature
I
mois
I
jour
Disponible sous R par la commande data(airquality).
I.1 Description des variables cat´ egorielles
Description des variables cat´ egorielles
I
La fr´ equence d’une cat´ egorie est la proportion de l’´ echantillon repr´ esent´ e par la cat´ egorie.
I
Le mode d’un ´ echantillon est la cat´ egorie de plus grande fr´ equence.
I
La repr´ esentation des fr´ equences se fait ` a l’aide d’histogrammes ou de diagrammes circulaires.
5 6 7 8 9
0 10 20 30
I.2 Description des variables num´ eriques
Taux d’ozone
> airquality$Ozone
[1] 41 36 12 18 NA 28 23 19 8 NA 7 16 11 14 18 14 34 6 [19] 30 11 1 11 4 32 NA NA NA 23 45 115 37 NA NA NA NA NA [37] NA 29 NA 71 39 NA NA 23 NA NA 21 37 20 12 13 NA NA NA [55] NA NA NA NA NA NA NA 135 49 32 NA 64 40 77 97 97 85 NA [73] 10 27 NA 7 48 35 61 79 63 16 NA NA 80 108 20 52 82 50 [91] 64 59 39 9 16 78 35 66 122 89 110 NA NA 44 28 65 NA 22 [109] 59 23 31 44 21 9 NA 45 168 73 NA 76 118 84 85 96 78 73 [127] 91 47 32 20 23 21 24 44 21 28 9 13 46 18 13 24 16 13 [145] 23 36 7 14 30 NA 14 18 20
Besoin de r´ esumer l’information par au moins de deux valeurs, appel´ ees
statistiques : une pour d´ efinir le centre de l’´ echantillon, l’autre pour sa
dispersion.
Statistique de centre
Moyenne
La moyenne de l’´ echantillon {x = (x
1, . . . , x
n) est d´ efinie x =
P
n i=1x
in
[1] 42.12931 M´ ediane
Une m´ ediane de l’´ echantillon est un r´ eel m tel que la moiti´ e des valeurs de l’´ echantillon sont sup´ erieures ou ´ egales ` a m et l’autre moiti´ e sont inf´ erieures.
[1] 31.5
Remarque : La m´ ediane n’est pas unique si l’´ echantillon est de taille paire. Cela
a peu d’impact en pratique s’il est assez grand.
Moyenne vs M´ ediane
I
la formule close de la moyenne est plus simple pour faire des statistiques (estimation, vitesse de convergence ...)
I
la m´ ediane est beaucoup moins sensible que la moyenne aux erreurs de mesure.
I
comparer la m´ ediane et la moyenne d’un ´ echantillon permet d’avoir une
id´ ee sur l’assym´ etrie de l’´ echantillon.
Variance et ´ ecart-type
Definition : variance
La variance s
2de l’´ echantillon est d´ efinie par var (x) = s
2= 1
n − 1
n
X
i=1
(x
i− x)
2Definition : ´ ecart-type
L’indicateur de dispersion associ´ e ` a la moyenne est l’´ ecart-type s de l’´ echantillon, correspondant ` a la racine carr´ ee de la variance.
σ(x) = s = p
var(x)
Variance et ´ ecart-type
Interpr´ etation
Plus l’´ ecart-type et la variance sont grands, plus l’´ echantillon est dispers´ e.
> var(airquality$Ozone[airquality$Month==5],na.rm=TRUE) [1] 493.9262
> sd(airquality$Ozone[airquality$Month==5],na.rm=TRUE) [1] 22.22445
> sd(airquality$Ozone[airquality$Month==8],na.rm=TRUE)
[1] 39.68121 Remarques
I
l’´ ecart-type est homog` ene avec les donn´ ees en terme d’unit´ e de mesure, contrairement ` a la variance
I
remplacer x
ipar y
i=
xi−xsconserve le les positions relatives des donn´ ees
en ramenant la moyenne ` a 0 et l’´ ecart-type ` a 1. y un l’´ echantillon
normalis´ e.
Quantiles
Definition : quantile
Pour tout 0 ≤ p ≤ 1, un quantile d’ordre p est un nombre q tel que la fraction de l’´ echantillon inf´ erieure ou ´ egale ` a q est p.
I
Une m´ ediane est par exemple un quantile d’ordre 0.5.
I
Le quantile q
1d’ordre 0.25 et le quantile q
3d’ordre 0.75 sont appel´ es premier et troisi` eme quartile.
I
Les distances m − q
1et q
3− m sont des indicateurs de la dispersion de
l’´ echantillon.
Quantiles
> quantile(airquality$Ozone,probs=c(0,.25,.5,.75,1),na.rm=TRUE) 0% 25% 50% 75% 100%
1.00 18.00 31.50 63.25 168.00
I
des disparit´ es entre q
3− m et m − q
1permettent de d´ etecter une assym´ etrie dans l’´ echantillon, ce qui ne peut pas ˆ etre mis en ´ evidence par l’´ ecart-type.
I
la remarque sur la non-unicit´ e de la m´ ediane reste valable pour les quantiles.
I
les quartiles, tout comme la m´ ediane, sont moins sensibles aux erreurs de
mesure.
Points extrˆ emes
Definition : point extrˆ eme
On appelle point extrˆ eme toute valeur inf´ erieure ` a q
1− 1, 5(q
3− q
1) ou sup´ erieure ` a q
3+ 1, 5(q
3− q
1).
I
mani` ere de caract´ eriser les mesures qui s’´ ecartent clairement des autres
I
un point extrˆ eme peut correspondre ` a une erreur de mesure
I
un point extrˆ eme peut ˆ etre primordial dans l’interpr´ etation des donn´ ees
La boˆıte ` a moustache (boxplot)
La boˆıte ` a moustache est un graphique r´ esumant l’´ echantillon :
I
boˆıte dont la hauteur est d´ efinie par q
1et q
3.
I
trait ´ epais ` a hauteur de m
I
moustache au-dessous de la boˆıte : de q
1au minimum de l’´ echantillon s’il n’y a pas de point extreme bas. Sinon, la moustache s’arrˆ ete en
q
1− 1, 5 × EIQ .
I
moustache au-dessus : de q
3soit au maximum de l’´ echantillon, soit ` a q
3+ 1, 5 × EIQ
I
´ eventuels points extrˆ emes
La boˆıte ` a moustache (boxplot)
Outil visuel pour r´ esumer un ´ echantillon et les comparer (grossi` erement, cf tests).
●
●
●
● ●
●
5 6 7 8 9
0 50 100 150
Corr´ elation
D´ efinition
(x
1, . . . , x
n) et (y
1, . . . , y
n) deux ´ echantillons correspondant ` a deux grandeurs mesur´ ees sur les mˆ emes individus. Leur covariance est
cov(x, y) = 1 n − 1
n
X
i=1
(x
i− x)(y
i− y)
La version normalis´ ee, appel´ ee corr´ elation, est corr (x, y) = cov(x, y)
s
xs
y> cor(airquality$Ozone,airquality$Temp,use='pairwise.complete.obs') [1] 0.6983603
> cor(airquality$Ozone,airquality$Wind,use= ' pairwise.complete.obs ' ) [1] -0.6015465
> cor(airquality$Ozone,airquality$Temp)
[1] NA
Corr´ elation
I
La corr´ elation est toujours comprise entre −1 et 1.
I
Une corr´ elation proche de 1 indique que X et Y ont tendance ` a avoir des variations communes (corr´ elation positive).
I
Une corr´ elation proche de −1 indique que X et Y ont tendance ` a avoir des variations oppos´ ees (corr´ elation n´ egative).
I
Si les deux variables mesur´ ees sont ind´ ependantes, la corr´ elation des
´
echantillons sera proche de 0. L’inverse n’est cependant pas forc´ ement vrai.
II. Probabilit´ es
II.1 ´ Ev` enements
Ev` ´ enement
D´ efinition :´ ev` enement
Une exp´ erience al´ eatoire E a pour issues possibles les valeurs ω d’un ensemble Ω.
Ω est l’univers.
On appelle ´ ev` enement tout sous-ensemble de Ω.
Exemple : Pour l’exp´ erience consistant ` a lire al´ eatoirment deux nucl´ eotides successifs d’une s´ equence d’ADN
Ω = {AA, AC , AG, AT , CA, CC , CG, CT , GA, GC, GG , GT, TA, TC, TG, TT }
Notations
∅ ensemble vide ne contient aucun ´ el´ ement A ∩ B intersection de A et B A et B sont r´ ealis´ es A ∪ B Union de A et B A ou B est r´ ealis´ e A
ccompl´ ementaires de A dans Ω A n’est pas r´ ealis´ e
A ⊂ B A inclus dans B la r´ ealisation de A implique la r´ ealisation de B A\B A moins B A est r´ ealis´ e et B n’est pas r´ ealis´ e
Deux ´ ev` enements sont disjoints si ils ne peuvent se produire en mˆ eme temps :
A ∩ B = ∅.
Probabilit´ e
D´ efinition : Probabilit´ e
Une probabilit´ e est une fonction P assignant ` a tout ´ ev` enement A un r´ eel P (A) entre 0 et 1 et telle que
1. P (∅) = 0 et P (Ω) = 1 ;
2. Si A et B sont deux ´ ev` enements disjoints, alors P (A ∪ B) = P (A) + P (B ).
I
Des probabilit´ es diff´ erentes peuvent ˆ etre d´ efinies sur un mˆ eme univers.
I
On parle en g´ en´ eral de loi de probabilit´ e pour d´ esigner une fonction P .
IMPORTANT ! ! !
En g´ en´ eral, la formule
probabilit´ e = #cas favorables
#cas possibles
est FAUSSE
Elle n’est vraie que dans le cas d’exp´ eriences ´ equiprobables, c’est-` a-dire avec des univers finis et dont tous les ´ el´ ements individuels on la mˆ eme probabilit´ e.
Pour s’en souvenir
Une personne prise au hasard n’a pas une chance sur deux d’ˆ etre asthmatique.
Propri´ et´ es
1. P (A ∪ B) = P (A) + P (B) − P (A ∩ B ) ; 2. P (A
c) = 1 − P (A) ;
3. Si A ⊂ B, alors P (A) ≤ P (B).
Discret vs Continu
Les univers peuvent ˆ etre de trois types :
I
Un nombre fini d’issues possibles
I
Un ensemble infini mais d´ enombrable d’issues possibles (on peut les
´
enum´ erer comme dans le cas des entiers)
On parle d’univers discret et de loi de probabilit´ e discr` ete.
I
Un ensemble infini et ind´ enombrable d’issues possibles (un intervalle par exemple)
On parle alors d’univers continu et de loi de probabilit´ e continue.
Loi discr` ete
I
Une loi de probabilit´ e discr` ete est d´ efinie de fa¸ con unique par la donn´ ee des P (ω), ω ∈ Ω
I
Pour tout ´ ev` enement A, P (A) = P
ω∈A
P (ω)
Exemple :
Read AA AC AG AT CA CC CG CT
Pr. .03 .05 .05 .07 .05 .08 .12 .05
Read GA GC GG GT TA TC TG TT
Pr. .05 .12 .08 .05 .07 .05 .05 .03
La probabilit´ e d’avoir A en premi` ere lettre est
P (A.) = P (AA) + P (AC) + P (AG) + P (AT ) = .2
Loi continue
I
La loi est d´ efinie par une fonction f positive telle que R
Ω
f (x )dx = 1.
I
Pour tout ´ ev` enement A, P (A) = R
A
f (x )dx
I
Pour tout ω ∈ Ω, P (ω) = 0 Exemple : Ω = [−1, 1], f (x ) = 1 − |x |.
P ([0.5 : 1]) = Z
10.5
(1 − x )dx = 1 8
−2 −1 0 1 2
0.0 0.6
Probabilit´ es conditionnelles
Definition : probabilit´ e conditionnelle
Soit A et B deux ´ ev` enements de B(Ω), avec P (B ) 6= 0. On appelle probabilit´ e conditionnelle de A sachant B le r´ eel
P (A|B) = P (A ∩ B)
P (B) .
Probabilit´ es conditionnelles
Definition : probabilit´ e conditionnelle
Soit A et B deux ´ ev` enements de B(Ω), avec P (B ) 6= 0. On appelle probabilit´ e conditionnelle de A sachant B le r´ eel
P (A|B) = P (A ∩ B) P (B) .
Proposition
Soit B un ´ ev` enement tel que P (B) > 0. L’application A 7→ P (A|B) est une probabilit´ e sur (Ω, B(Ω)), not´ ee P (·|B) ou P
B(·), et appel´ ee loi de probabilit´ e conditionnelle sachant B.
On a donc les propri´ et´ e classiques d’une probabilit´ e. En particulier P (A|B) = 1 − P (A
c|B).
Par contre
P (A|B) 6= 1 − P (A|B
c).
Conditionnement - Formule de Bayes
On d´ eduit de la d´ efinition des probabilit´ es conditionnelles que P (A ∩ B) = P (A|B ) P (B ) (Conditionnement) puis que
P (A|B) = P (B|A) P (A)
P (B) (Formule de Bayes)
Exemple : Un laboratoire mettant en place un test sanguin pour une maladie peut ´ evaluer les probabilit´ es P (positif |sain) et P (positif ). Si on connaˆıt l’incidence P (malade ) de la maladie dans la population, on peut en d´ eduire la probabilit´ e qu’un individu dont le test est positif est en fait sain :
P (sain|positif ) = P (positif |sain)(1 − P (malade ))
P (positif )
Formule des probabilit´ es totales
Proposition
Soit (B
k)
1≤k≤Nune partition de Ω telle que P (B
k) > 0 pour tout k . Alors, pour tout ´ ev` enement A :
P (A) = X
1≤k≤N
P (A ∩ B
k) = X
1≤k≤N
P (A|B
k) P (B
k).
En particulier, P (A) = P (A|B) P (B ) + P (A|B
c) P (B
c).
Exemple : Dans l’exemple pr´ ec´ edent, il est plus simple d’´ evaluer P (positif |sain) et P (positif |malade). On en d´ eduit
P (sain|positif ) = P (positif |sain)(1 − P (malade))
P (positif |sain)(1 − P (malade)) + P (positif |malade ) P (malade)
Ind´ ependance d’´ ev` enements
D´ efinition : ind´ ependance
A et B sont deux ´ ev` enements ind´ ependants si P (A ∩ B) = P (A) P (B).
Interpr´ etation
Si P (B > 0), alors A et B sont ind´ ependants ssi P (A|B ) = P (A).
L’ind´ ependance de A et B signifie donc qu’avoir des indications sur la
r´ ealisation ou non de B ne change pas la probabilit´ e qu’on a de voir A se
r´ ealiser.
Ind´ ependance d’´ ev` enements
D´ efinition : ind´ ependance
A et B sont deux ´ ev` enements ind´ ependants si P (A ∩ B) = P (A) P (B).
Interpr´ etation
Si P (B > 0), alors A et B sont ind´ ependants ssi P (A|B ) = P (A).
L’ind´ ependance de A et B signifie donc qu’avoir des indications sur la r´ ealisation ou non de B ne change pas la probabilit´ e qu’on a de voir A se r´ ealiser.
Plus g´ en´ eralement, une famille d’´ ev` enements (A
i)
i∈Iest dite famille d’´ ev` enements (mutuellements) ind´ ependants si pour toute partie J ⊂ I on a
P (∩
i∈JA
i) = Π
i∈JP (A
i).
Des ´ ev` enements mutuellement ind´ ependants sont deux ` a deux ind´ ependants
mais l’inverse n’est pas toujours vrai.
II.2 Variables al´ eatoires
Variable al´ eatoire
D´ efinition : variable al´ eatoire
Consid´ erons un processus al´ eatoire d’univers Ω. On appelle variable al´ eatoire une fonction de l’ espace Ω dans R .
En consid´ erant X (Ω) comme un nouvel univers et X (ω) comme la r´ ealisation correspondant ` a ω, on obtient une loi de probabilit´ e sur les sous-ensembles de X (Ω). Elle est appel´ ee loi de probabilit´ e de la variable al´ eatoire.
Exemple : Consid´ erons une grille de loto remplie et le processus al´ eatoire correspondant au tirage. Ω est l’ensemble des 6-uplets d’entiers entre 0 et 49.
Si X est le nombre de bons num´ eros, X (Ω) = {0, 1, 2, 3, 4, 5, 6} et la loi de probabilit´ e de X correspond au probabilit´ es d’avoir aucun, un, ... bons num´ eros.
On pourrait raisonner de mˆ eme en prenant pour X le gain r´ ealis´ e.
Fonction de r´ epartition
D´ efinition : fonction de r´ epartition
On appelle fonction de r´ epartition de la variable al´ eatoire X la fonction F
Xd´ efinie pour t dans R , par F
X(t) = P (X ≤ t). C’est une fonction croissante, tendant vers 0 en −∞ et vers 1 en +∞.
La fonction de r´ epartition caract´ erise la loi d’une variable al´ eatoire. Autrement
dit deux variables al´ eatoires ayant mˆ eme fonction de r´ epartition, ont mˆ eme loi.
V.a discr` ete Loi
La loi de la variable al´ eatoire X est donn´ ee par les probabilit´ es P (X = x ), pour tout x dans X (Ω), telles que P
x∈X(Ω)
P (X = x ) = 1.
Fonction de r´ epartition
La fonction de r´ epartition est une fonction en escalier. Si X prend la valeur x avec une probabilit´ e non nulle, la courbe de F
X(t) pr´ esente un saut de hauteur P (X = x ) en t = x .
0 2 4
−2 2 6 10
0 4 8
V.a continue Loi
La loi de X est d´ efinie par une fonction f
Xnomm´ ee densit´ e, qui est positive et telle que R
I
f
X(t)dt = 1.
Fonction de r´ epartition F
X(t) = R
x−∞
f (t)dt donc F
X0(t) = f
x(t).
−3 −1 1 3
0.0 0.2 0.4
−3 −1 1 3
0.0 0.4 0.8
Esp´ erance
Esp´ erance
L’esp´ erance caract´ erise le comportement moyen de la variable al´ eatoire.
Elle est d´ efinie pour une variable discr` ete par E (X ) = X
x∈X(Ω)
x P (X = x )
et pour une variable continue par E (X ) =
Z
+∞−∞
tf
X(t)dt.
Variance
Variance
La variance caract´ erise la dispersion de la variable autour de l’esp´ erance. Elle est d´ efinie par
Var(X ) = E [(X − E (X ))
2] ou alternativement
Var(X ) = E (X
2) − E (X )
2.
Plus g´ en´ eralement, le moment d’ordre p de X est d´ efini, s’il existe, par
M
p= E (X
p).
Propri´ et´ es de l’esp´ erance et de la variance
1. E (aX + bY ) = a E (X ) + b E (Y ). L’esp´ erance est lin´ eaire.
2. Var(X ) ≥ 0.
3. Var(aX + b) = Var(aX ) = a
2Var(X ).
4. [ E (X )]
2≤ E (X
2). In´ egalit´ e de Cauchy-Schwarz.
5. Z = (X − E (X ))/ p
Var(X ) v´ erifie E (Z ) = 0 et Var(Z ) = 1. On dit que
Z est une variable centr´ ee et r´ eduite.
Couples de variables
(X , Y ) est un couple de variable al´ eatoire si X et Y sont des variables al´ eatoires. L’´ etude du couple permet d’´ etudier les liens entre ces variables.
D´ efinition : Loi du couple
La loi d’un couple de variable al´ eatoire est comme dans le cas donn´ e par l’ensemble des valeurs possibles et des probabilit´ es correspondantes.
Dans le cas discret, cela revient ` a lister l’ensemble des valeurs P (X = x , Y = y) pour tous les couples (x , y).
Dans le cas continu, cela revient ` a d´ efinir une fonction de densit´ e ` a deux
variables f (x , y) qui permet de calculer P (X ∈ I , Y ∈ J ) pour tout couple
d’intervalles ` a l’aide d’int´ egrales doubles.
Marginales
I
La donn´ ee de la loi de (X , Y ) permet de d´ eterminer la loi de X et celle de Y . Ces lois sont appel´ ees les lois marginales du couple.
I
Connaˆıtre la loi du couple permet de d´ eterminer les marginales. L’inverse
n’est pas vrai.
Variables ind´ ependantes
D´ efinition : variables ind´ ependantes
Les variables X et Y sont ind´ ependantes si et seulement si la loi du couple est le produit des lois marginales.
Dans le cas discret, cela veut dire que pour tous x ∈ X (Ω) et y ∈ Y (Ω), on a P (X = x ∩ Y = y) = P (X = x ) P (Y = y).
Dans le cas continu, cela se traduit pas f
(X,Y)(x , y) = f
X(x )f
Y(y).
I
L’interpr´ etation est la mˆ eme que dans le chapitre des statistiques
descriptives : X et Y sont ind´ ependantes si ils n’ont aucune influence l’un sur l’autre.
I
Dans le cas de l’exemple des dinucl´ eotides,
P (XY = AT ) 6= P (X = A) P (Y = T). Deux nucl´ eotides successifs ne
sont pas ind´ ependants.
Covariance et corr´ elation
D´ efinition : covariance et coor´ elation
On appelle covariance entre X et Y , la quantit´ e
Cov(X , Y ) = E [(X − E (X ))(Y − E (Y ))]
La covariance n’´ etant pas stable par changement d’´ echelle, on d´ efinit la corr´ elation entre X et Y
Corr(X , Y ) = Cov(X , Y ) p Var(X ) p
Var(Y ) .
Propri´ et´ es de la corr´ elation et de la covariance
I
Si X et Y sont ind´ ependantes, alors Cov(X , Y ) = Corr(X , Y ) = 0.
L’inverse est faux
I
Cov(X , X ) = var(X ) et Corr(X , X ) = 1.
I
Var(X + Y ) = Var(X ) + Var(Y ) + 2Cov(X , Y ).
En particulier, si X et Y sont ind´ ependantes alors Var(X + Y ) = Var(X ) + Var(Y ).
I
Soient X
1, · · · , X
n, n variables al´ eatoires ind´ ependantes. Alors Var( P
ni=1
X
i) = P
ni=1
Var(X
i).
II.3 Loi normale
Loi normale (ou gaussienne) centr´ ee r´ eduite D´ efinition : loi normale centr´ ee r´ eduite
Une variable al´ eatoire X suit une loi normale (ou gaussienne) centr´ ee r´ eduite et on note X ∼ N (0, 1) si la variable X est ` a valeurs dans R et si sa densit´ e f
Xest donn´ ee par
f
X(x) = 1
√ 2π exp(− x
22 ).
−3 −2 −1 0 1 2 3
0.0 0.2 0.4
Loi normale (ou gaussienne) centr´ ee r´ eduite
D´ efinition : loi normale centr´ ee r´ eduite
Une variable al´ eatoire X suit une loi normale (ou gaussienne) centr´ ee r´ eduite et on note X ∼ N (0, 1) si la variable X est ` a valeurs dans R et si sa densit´ e f
Xest donn´ ee par
f
X(x) = 1
√ 2π exp(− x
22 ).
X v´ erifie alors E (X ) = 0 et VarX = 1.
Loi normale (ou gaussienne) D´ efinition : loi normale
Une variable al´ eatoire X suit une loi normale (ou gaussienne) et on note X ∼ N (µ, σ
∈) si la variable X est ` a valeurs dans R et si sa densit´ e f
Xest donn´ ee par
f
X(x ) = 1 σ √
2π exp
− (x − µ)
22σ
2.
−4 −2 0 2 4 6 8
0.02 0.08
Loi normale (ou gaussienne)
D´ efinition : loi normale
Une variable al´ eatoire X suit une loi normale (ou gaussienne) et on note X ∼ N (µ, σ
∈) si la variable X est ` a valeurs dans R et si sa densit´ e f
Xest donn´ ee par
f
X(x ) = 1 σ √
2π exp
− (x − µ)
22σ
2.
X v´ erifie alors E (X ) = µ et VarX = σ
2.
Influence des param` etres µ et σ
−4 0 2 4
0.0 0.2 0.4
−4 0 2 4
0.0 0.2 0.4
A droite, les lois sont toutes d’´ ecart-type 1 et d’esp´ erance −2 (vert), 0 (rouge)
et 2 (bleu). A droite, les densit´ es sont toutes d’esp´ erance 0 et d’´ ecarts-types
0.25 (vert), 1 (rouge) et 4 (bleu).
Propri´ et´ es de la loi normale
I
La variable X de loi N (µ, σ
2) est sym´ etrique autour de µ, sa m´ ediane est
´
egale ` a son esp´ erance.
I
Si X ∼ N (µ, σ
2) alors X − µ
σ ∼ N (0, 1).
I
Si X ∼ N (µ, σ
2) et Y ∼ N (µ
0, σ
02) sont deux variables al´ eatoires
gaussiennes ind´ ependantes, alors X + Y ∼ N (µ + µ
0, σ
2+ σ
02).
Importance de la loi normale
I
Loi mod´ elisant de nombreuses situations r´ eelles
I
Th´ eor` eme central limite (TCL)
Loi des grands nombres
Th´ eor` eme
Loi des grands nombres Soient X
1, X
2, · · · , X
n, n variables al´ eatoires de mˆ eme loi qu’une variable al´ eatoire X . Alors, presque sˆ urement (c’est-` a-dire avec probabilit´ e 1),
n→+∞
lim
X
1+ . . . + X
nn = µ
Plus la taille de l’´ echantillon augmente, plus la moyenne empirique (observ´ ee
sur l’´ echantillon) est proche de l’esp´ erance (moyenne th´ eorique).
Th´ eor` eme Central Limite
Th´ eor` eme
Soient X
1, · · · , X
ndes variables al´ eatoires ind´ ependantes et identiquement distribu´ ees d’esp´ erance µ et de variance σ
2. On note X
n= n
−1P
ni=1
X
i. Alors la loi de
Xσ/n√−µntend vers la loi normale centr´ ee r´ eduite.
Ceci s’´ ecrit aussi : pour tous a et b r´ eels,
P
a ≤ √ n
Y
n− µ σ
≤ b
→ P (a ≤ Z ≤ b), (1) o` u Z est une variable gaussienne centr´ ee r´ eduite, Z ∼ N (0, 1).
Ce r´ esultat reste vrai quand σ est remplac´ e par b σ, un estimateur consistant de
σ, en particulier pour l’estimateur de la variance d´ efini au chapitre des
statistiques descriptives.
II.4 Autres lois usuelles discr` etes
Loi de Bernoulli
I
Exp´ erience ayant deux issues possibles (succ` es/´ echec)
I
X v.a. valant 1 en cas de succ` es,0 sinon
I
p la probabilit´ e de succ` es
X est une variable de Bernoulli. et on le note X ∼ B(p).
I
P (X = 1) = p et P (X = 0) = 1 − p.
I
E (X ) = p et Var(X ) = p(1 − p).
Loi Binomiale B(n, p )
On r´ ep` ete n fois, dans des conditions identiques, une exp´ erience al´ eatoire de Bernoulli de param` etre p. On note X le nombre de succ` es parmi les n exp´ eriences ind´ ependantes.
I
X nombre de succ` es parmi n exp´ eriences de Bernoulli ind´ ependantes identiques.
I
ensemble des valeurs possibles {0, · · · , n}
I
P (X = k) = C
nkp
k(1 − p)
n−k, pour tout k ∈ {0, · · · , n}.
I
E (X ) = np et Var(X ) = np(1 − p).
0 10 20 30 40
0.00 0.06 0.12
Loi de Poisson P (λ)
I
ensemble des valeurs possibles est N
I
P (X = k) = exp (−λ) λ
kk ! , pour tout k ∈ N .
I
E (X ) = λ et Var(X ) = λ.
0 10 20 30 40
0.00 0.06 0.12
Loi de Poisson
Applications
Deux applications principales et courantes :
I
Une loi binomiale de param` etres n et p avec n grand et p faible peut ˆ etre approch´ ee par une loi de Poisson de param` etre np.
Exemples : Nombre de mutations lors d’une copie d’ADN, nombre de foyers d’une ´ epid´ emie ...
I
Si un processus suit un temps d’attente exponentiel entre deux
´
ev` enements, le nombre d’´ ev` enements pendant un temps donn´ ee suit une loi de Poisson
Exemples : Nombre de mutations au cours du temps, de d´ esint´ egrations
atomiques, d’arriv´ ees dans une file d’attente .... pendant un temps donn´ e
Loi g´ eom´ etrique
I
X d´ esigne le nombre de r´ ep´ etitions d’une exp´ erience de Bernoulli n´ ecessaires pour obtenir un succ` es
I
ensemble des valeurs possibles est N ∗
I
P (X = k) = p(1 − p)
k−1, pour tout k ∈ N
∗I
E (X ) =
p1et Var(X ) =
1−pp2.
5 10 15
0.00 0.15 0.30
Loi uniforme discr` ete
I
Valeurs possibles sont {1, ..., N }.
I
P (X = k) =
N1, pour tout k ∈ {1, · · · , N }.
I
E (X ) =
N2+1et Var(X ) =
N212−1.
2 4 6 8 10
0.06 0.10 0.14
Loi uniforme discr` ete
I
Valeurs possibles sont {1, ..., N }.
I
P (X = k) =
N1, pour tout k ∈ {1, · · · , N }.
I
E (X ) =
N2+1et Var(X ) =
N212−1. Application
Loi correspondant aux situations d’´ equiprobabilit´ e.
Loi Hyperg´ eom´ etrique H(N , n , p)
I
Population de N individus dont une proportion p est rouge
I
On pr´ el` eve au hasard, sans remise un ´ echantillon de n individus
I
X nombre d’individus rouges dans l’´ echantillon
I
P (X = k) =
Ck
Np×CN(1−p)n−k
CNn
, pour tout k tel que max(0, n − N (1 − p)) ≤ k ≤ min(n, Np).
I
E (X ) = np et Var(X ) =
N−nN−1np(1 − p).
Application
Tests d’enrichissements
II.4 Autres lois usuelles continues
Loi uniforme U [a,b]
I
X est ` a valeurs dans [a, b ]
I
sa densit´ e f
Xest donn´ ee par f
X(x ) = 1/(b − a) I
x∈[a,b]I
E (X ) = (b + a)/2 et Var(X ) = (b − a)
2/12
0 1 2 3 4 5 6
0.00 0.15
Loi exponentielle E(λ)
I
X est ` a valeurs dans R
+I
sa densit´ e f
Xest donn´ ee par f
X(x ) = λe
−λxI
x≥0I
E (X ) = 1/λ et Var(X ) = 1/λ
2.
0 2 4 6 8 10
0.0 1.0
Loi exponentielle E(λ)
I
X est ` a valeurs dans R
+I
sa densit´ e f
Xest donn´ ee par f
X(x ) = λe
−λxI
x≥0I
E (X ) = 1/λ et Var(X ) = 1/λ
2. Application
Mod´ elisation des temps d’attente sans m´ emoire (la date du prochain
´ ev` enement d’interˆ et ne d´ epend pas de la date du dernier ` a avoir eu lieu).
Lois du Chi-Deux, de Student et de Fisher
Les lois du Chi-Deux, de Student et de Fisher ne servent pas ` a des fins de
mod´ elisation mais sont tabul´ ees dans tout logiciel de statistique en raison de
leur grande utilit´ e dans le cadre des tests.
III. TESTS STATISTIQUES
Test
Definition
Un test statistique est une proc´ edure de d´ ecision entre deux hypoth` eses concernant un ou plusieurs ´ echantillons.
Exemple : On consid` ere deux s´ eries de personnes soumises les unes ` a un m´ edicament, les autres ` a un placebo. On mesure les tensions art´ erielles dans les deux groupes.
Au vu des r´ esultats, le m´ edicament a-t-il un effet sur la tension ?
Hypoth` eses
D´ efinition
L’hypoth` ese nulle not´ ee H
0est celle que l’on consid` ere vraie ` a priori. Le but du test est de d´ ecider si cet ` a priori est cr´ edible.
L’hypoth` ese alternative not´ ee H
1est l’hypoth` ese compl´ ementaire de H
0.
Exemple : Sous H
0, le m´ edicament n’a pas d’influence, sous H
1il en a une.
Hypoth` eses
D´ efinition
L’hypoth` ese nulle not´ ee H
0est celle que l’on consid` ere vraie ` a priori. Le but du test est de d´ ecider si cet ` a priori est cr´ edible.
L’hypoth` ese alternative not´ ee H
1est l’hypoth` ese compl´ ementaire de H
0. Exemple : Sous H
0, le m´ edicament n’a pas d’influence, sous H
1il en a une.
Attention
I
Les deux hypoth` eses ne sont pas sym´ etriques. H
1est choisie uniquement par d´ efaut si H
0n’est pas consid´ er´ ee comme cr´ edible.
I
Le choix de H
0et de H
1est en g´ en´ eral impos´ e par le test qu’on utilise et
ne rel` eve donc pas de l’utilisateur.
Ecriture des hypoth` eses
Soit µ
1et µ
2les moyennes de tension des deux populations correspondant ` a la prise de m´ edicament ou de placebo. Une mani` ere de d´ emontrer que le
m´ edicament modifie la tension est de montrer que µ
2est diff´ erent de µ
1. Les hypoth` eses deviennent alors { H
0: les moyennes des deux populations sont
´ egales } et { H
0: les moyennes des deux populations sont diff´ erentes } . On l’´ ecrit succintement sous la forme :
H
0: µ
1= µ
2H
1: µ
16= µ
2Ecriture des hypoth` eses
Question 1
La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8.
Le m´ edicament est-il efficace ?
Question 2 (pour ceux qui ont r´ epondu oui)
Je lance six fois un d´ e, puis fais 50 pompes, puis relance six fois un d´ e. Ma premi` ere s´ erie de lancers vaut en moyenne 3,1. La seconde s´ erie vaut en moyenne 3,7.
Les pompes m’ont-elles rendues meilleur au lancer de d´ e ?
R´ eponse
On n’en sait rien ` a ce stade !
Ecriture des hypoth` eses
Question 1
La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8.
Le m´ edicament est-il efficace ?
Question 2 (pour ceux qui ont r´ epondu oui)
Je lance six fois un d´ e, puis fais 50 pompes, puis relance six fois un d´ e. Ma premi` ere s´ erie de lancers vaut en moyenne 3,1. La seconde s´ erie vaut en moyenne 3,7.
Les pompes m’ont-elles rendues meilleur au lancer de d´ e ?
R´ eponse
On n’en sait rien ` a ce stade !
Ecriture des hypoth` eses
Question 1
La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de la tension dans le second groupe est de 12,8.
Le m´ edicament est-il efficace ?
Question 2 (pour ceux qui ont r´ epondu oui)
Je lance six fois un d´ e, puis fais 50 pompes, puis relance six fois un d´ e. Ma premi` ere s´ erie de lancers vaut en moyenne 3,1. La seconde s´ erie vaut en moyenne 3,7.
Les pompes m’ont-elles rendues meilleur au lancer de d´ e ?
R´ eponse
On n’en sait rien ` a ce stade !
Ecriture des hypoth` eses
Attention
Les moyennes x
1et x
2des ´ echantillons r´ esultents d’´ echantillonnages, et ne sont donc que des estimations de µ
1et µ
2. Ce n’est pas parce qu’elles sont
diff´ erentes que µ
1et µ
2le sont (et vice-versa, mais c’est rare !).
Comparer les moyennes des ´ echantillons ne peut en aucun cas suffire !
Ecriture des hypoth` eses
Attention
Les moyennes x
1et x
2des ´ echantillons r´ esultents d’´ echantillonnages, et ne sont donc que des estimations de µ
1et µ
2. Ce n’est pas parce qu’elles sont
diff´ erentes que µ
1et µ
2le sont (et vice-versa, mais c’est rare !).
Comparer les moyennes des ´ echantillons ne peut en aucun cas suffire !
Les signes =, 6=, > et ≤ dans l’´ ecriture succinte des hypoth` eses ne
correspondent pas ` a l’´ egalit´ e ou aux in´ egalit´ es au sens math´ ematique du terme.
Il s’agit d’une fa¸ con d’´ ecrire :
H
0: Il est cr´ edible de penser que µ
1= µ
2H
1: µ
1est significativement diff´ erent de µ
2Statistique
L
a statistique de test S est une fonction qui r´ esume l’information sur l’´ echantillon qu’on veut tester. On la choisit de fa¸ con ` a pouvoir calculer sa loi sous H
0.
I
S est une variable al´ eatoire, d´ efinie ind´ ependemment des donn´ ees observ´ ees. La valeur que prend cette variable al´ eatoire pour les donn´ ees observ´ ees sera appel´ ee statistique observ´ ee et not´ ee S
obsdans la suite.
I
Suivant le type de statistique choisi, le test sera param´ etrique ou
non-param´ etrique.
Statistique
D´ efinition : test param´ etrique
Un test param´ etrique est un test pour lequel on fait une hypoth` ese sur la forme des donn´ ees sous H
0(normale, Poisson, ...). Les hypoth` eses du test concernant alors les param` etres gouvernant cette loi.
Exemple : On suppose que la tension sous m´ edicament suit une loi N (µ
1, σ
1) et celle sous placebo suit une loi N (µ
2, σ
2).
H
0: µ
1= µ
2H
1: µ
16= µ
2S = x
1− x
2σ q
1n
+
m1o` u σ = s
(n − 1) ˆ σ
12+ (m − 1) ˆ σ
22n + m − 2
La loi de S sous H
0est connue (loi de Student)
Statistique
D´ efinition : test non-param´ etrique
Un test non param´ etrique est un test ne n´ ecessitant pas d’hypoth` ese sur la forme des donn´ ees. Les donn´ ees sont alors remplac´ ees par des statistiques ne d´ ependant pas des moyennes/variances des donn´ ees initiales (tables de contingence, statistique d’ordre ...).
Exemple : on classe les tensions de tous les individus par ordre croissant et on regarde comment sont class´ es les personnes sont m´ edicaments. On obtient par exemple
M M P M M P M P P M P P
S est alors la somme des rangs des individus sous m´ edicaments. On peut
d´ eterminer sa loi sous H
0.
R´ egion de rejet - Lat´ eralit´ e
D´ efinition
La r´ egion de rejet est le sous-ensemble I de R tel qu’on rejette H
0si S
obsappartient ` a I.
D´ efinir une proc´ edure de test peut donc se faire en d´ efinissant 1. une statistique
2. une r´ egion de rejet pour cette statistique
Exemple : Les test m´ edicaux figurant sur une prise de sang, comme le taux de fer.
H
0: La ferritine est entre 20 et 300µg /L
H
1: La ferritine est trop haute ou trop basse
R´ egion de rejet - Lat´ eralit´ e
D´ efinition
La r´ egion de rejet est le sous-ensemble I de R tel qu’on rejette H
0si S
obsappartient ` a I.
La forme de la r´ egion de rejet d´ efinit la lat´ eralit´ e du test :
I
test multilat´ eral : On veut rejetter H
0si S
obsest trop grand ou trop petit, sans ` a priori. La r´ egion de rejet est alors de la forme ] − ∞, a] ∪ [b, +∞[.
I
test unilat´ eral ` a droite : On veut rejetter H
0seulement si S
obsest trop grand. La r´ egion de rejet est alors de la forme [a, +∞[.
I
test unilat´ eral ` a gauche : On veut rejetter H
0seulement si S
obsest trop
petit. La r´ egion de rejet est alors de la forme ] − ∞, b ].
Exemples
On consid` ere toujours des m´ edicaments r´ eduisant la tension art´ erielle. Quelles sont les hypoth` eses pour r´ epondre aux questions suivantes ?
I
Comparaison entre deux m´ edicaments en vente
H
0: µ
1= µ
2H
1: µ
16= µ
2I
Int´ erˆ et d’un nouveau m´ edicament plus cher que l’existant.
H
0: µ
new≥ µ
oldH
1: µ
new< µ
oldI
Int´ erˆ et d’un nouveau m´ edicament moins cher que l’existant.
H
0: µ
new≤ µ
oldH
1: µ
new> µ
oldExemples
On consid` ere toujours des m´ edicaments r´ eduisant la tension art´ erielle.
I
Comparaison entre deux m´ edicaments en vente H
0: µ
1= µ
2H
1: µ
16= µ
2I
Int´ erˆ et d’un nouveau m´ edicament plus cher que l’existant.
H
0: µ
new≥ µ
oldH
1: µ
new< µ
oldI
Int´ erˆ et d’un nouveau m´ edicament moins cher que l’existant.
H
0: µ
new≤ µ
oldH
1: µ
new> µ
oldProbabilit´ e critique D´ efinition
La probabilit´ e critique (ou p-valeur) est la probabilit´ e, sous H
0, que la
statistique soit au moins aussi ´ eloign´ ee de son esp´ erance que la valeur observ´ ee.
En d’autres termes, c’est la probabilit´ e d’observer quelque chose d’au moins aussi surprenant que ce que l’on observe.
I
Si le test est unilat´ eral ` a droite, la probabilit´ e critique est P (S > S
obs).
S obs
Probabilit´ e critique D´ efinition
La probabilit´ e critique (ou p-valeur) est la probabilit´ e, sous H
0, que la
statistique soit au moins aussi ´ eloign´ ee de son esp´ erance que la valeur observ´ ee.
En d’autres termes, c’est la probabilit´ e d’observer quelque chose d’au moins aussi surprenant que ce que l’on observe.
I
Si le test est unilat´ eral ` a gauche, la probabilit´ e critique est P (S < S
obs).
S obs
Probabilit´ e critique D´ efinition
La probabilit´ e critique (ou p-valeur) est la probabilit´ e, sous H
0, que la
statistique soit au moins aussi ´ eloign´ ee de son esp´ erance que la valeur observ´ ee.
En d’autres termes, c’est la probabilit´ e d’observer quelque chose d’au moins aussi surprenant que ce que l’on observe.
I
Si le test est bilat´ eral et que la loi de la statistique est sym´ etrique par rapport ` a 0, la probabilit´ e critique est P (|S| > |S
obs|).
S obs
Risque de premi` ere esp` ece ou confiance
D´ efinition
Le risque de premi` ere esp` ece α est la probabilit´ e sous H
0de la r´ egion de rejet.
En d’autres termes, il s’agit de la proabilit´ e avec laquelle on accepte de d´ ecider H
1si la v´ erit´ e est H
0.
α = P
H0(H
1) La quantit´ e 1 − α est la confiance du test.
En d’autres termes, une proportion α des situations dans lesquelles la v´ erit´ e est H
0verront une d´ ecision en faveur de H
1.
α est la probabilit´ e avec laquelle on accepte de se tromper quand la v´ erit´ e
est H
0Autre mani` ere de mener le test
On peut comparer la p-valeur ` a α plutˆ ot que S
obset la r´ egion de rejet.
I
si la p-valeur est sup´ erieure ` a α, il n’est pas exceptionnel sous H
0d’observer la valeur effectivement observ´ ee. Par cons´ equent, H
0est accept´ ee.
I
si la p-valeur est inf´ erieure ` a α, la valeur observ´ ee est jug´ ee exceptionnelle sous H
0. On d´ ecide alors de rejeter H
0et de valider H
1.
Acceptation
Seuil 5%
S obs
Autre mani` ere de mener le test
On peut comparer la p-valeur ` a α plutˆ ot que S
obset la r´ egion de rejet.
I
si la p-valeur est sup´ erieure ` a α, il n’est pas exceptionnel sous H
0d’observer la valeur effectivement observ´ ee. Par cons´ equent, H
0est accept´ ee.
I
si la p-valeur est inf´ erieure ` a α, la valeur observ´ ee est jug´ ee exceptionnelle sous H
0. On d´ ecide alors de rejeter H
0et de valider H
1.
Rejet
Seuil
5%
S obs
Autre mani` ere de mener le test
On peut comparer la p-valeur ` a α plutˆ ot que S
obset la r´ egion de rejet.
I
si la p-valeur est sup´ erieure ` a α, il n’est pas exceptionnel sous H
0d’observer la valeur effectivement observ´ ee. Par cons´ equent, H
0est accept´ ee.
I
si la p-valeur est inf´ erieure ` a α, la valeur observ´ ee est jug´ ee exceptionnelle sous H
0. On d´ ecide alors de rejeter H
0et de valider H
1.
Avantage
Cette m´ ethode permet de se rendre compte ` a quel point on est sur de sa d´ ecision : la position de la p-valeur par rapport ` a α ne d´ epend pas de l’´ echelle des donn´ ees, contrairement ` a S
obs et au(x) seuil(s) de la r´ egion de rejet.
Exemple : Si on a fix´ e α = 0.05, une p-valeur de 3.10
−4est clairement un rejet,
alors qu’une p-valeur de 0.03 est un rejet ’de peu’ qu’il faudra nuancer au
moment de l’interpr´ etation.
Risque de premi` ere esp` ece ou confiance
I
Hormis dans des cas de tests multiples non abord´ es dans ce cours, α varie g´ en´ eralement entre 0, 01 et 0, 05.
I
Dans le cas de variables continues, on peut choisir une valeur arbitraire de α et obtenir une r´ egion de rejet pr´ esentant exactement le risque α.
I
Dans le cas de variables discr` etes, le nombre de r´ egions de rejet, et donc
de risques, possibles est fini ou d´ enombrable. Dans ce cas, on fixe un
risque, dit risque nominal, par exemple de 5%. On cherche alors la plus
grande r´ egion ne d´ epassant pas ce risque, qui devient la r´ egion de rejet. Le
v´ eritable risque, dit risque r´ eel, peut alors ˆ etre recalcul´ e.
Risque de deuxi` eme esp` ece ou puissance
D´ efinition
Le risque de deuxi` eme esp` ece β est la probabilit´ e d’accepter H
0alors que la v´ erit´ e est H
1.
β = P
H1(H
0) La quantit´ e 1 − β est la puissance du test.
V´ erit´ e H
0H
1D´ ecision H
01-α β
H
1α 1-β
Choix de α et β
H 0 H 1
S β α
Si l’´ echantillon reste inchang´ e, une diminution de α entraˆıne une augmentation de β et inversement. Autrement dit, si on d´ ecide de r´ eduire le nombre de faux positifs, on augmente forc´ ement le nombre de faux n´ egatifs.
La seule mani` ere d’am´ eliorer les deux crit` eres est d’augmenter la taille de
l’´ echantillon.
Courbe de puissance
I
Pour d´ eterminer la puissance, il faut connaˆıtre la lois de S sous H
1, ce qui n’est g´ en´ eralement pas le cas.
I
On recourt alors ` a des courbes de puissance qui sont des courbes pour laquelle la puissance est calcul´ ee pour des valeurs donn´ ees des param` etres du probl` eme ou de la taille de l’´ echantillon.
On ne sait pas o` u se situe la situation r´ eelle sur cette courbe mais on y lit la probabilit´ e de d´ etecter H
1en fonction de son ’´ eloignement’ de H
0. Exemple : Courbe de puissance d’un test de Student bilat´ eral sur 100 individus en fonction de mu[2] − mu[1] (en supposant que σ
1= σ
2= 1).
0.0 0.5 1.0 1.5
0.0 0.4 0.8
Principe du test
Les ´ etapes d’un test sont toujours r´ ealis´ ees dans l’ordre suivant : 1) Choix du risque α
2) Choix du type de test et de sa lat´ eralit´ e si besoin 3) Calcul de la statistique de test
4) Calcul de la p-valeur 5) Conclusion
En pratique, l’utilisation d’un logiciel type R permet de ne pas se soucier des
partie 3) et 4). Par contre, les choix li´ ees aux ´ etapes 1) et 2) ainsi que
l’interpr´ etation finale ne peuvent ˆ etre faits par le logiciel.
Remarques sur les tests
I
Le r´ esultat d’un test comprend toujours une dose d’incertitude : ON NE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION !
I
La probabilit´ e critique permet d’avoir une vision plus fine que sa simple
comparaison avec α. En effet, plus elle est petite, plus l’´ ev` enement observ´ e
est surprenant sous H
0. Ainsi, pour α = 0.5, des probabilit´ es critiques de
10
−6et de 0.35 impliquent le rejet de H
0mais avec des degr´ es de
certitude diff´ erent concernant la d´ ecision.
IV. QUEL TEST POUR REPONDRE A QUELLE QUESTION ?
IV.1. Test d’ad´ equation
Ad´ equation de l’esp´ erance
Hypoth` eses
On consid` ere un ´ echantillon de donn´ ees de taille n, de moyenne µ ˆ et d’´ ecart-type ˆ σ, et une moyenne ` a priori µ
0. On veut savoir s’il est cr´ edible de penser que l’´ echantillon a ´ et´ e tir´ e dans une population de moyenne µ
0ou si la moyenne de l’´ echantillon est significativement diff´ erente de µ
0.
H
0: µ = µ
0H
1: µ 6= µ
0Statistique
Sous H
0, on connaˆıt la loi de la statistique de Student d´ efinie par t = µ ˆ − µ
0ˆ σ/ √
n
Il s’agit de la loi de Student ` a n − 1 degr´ es de libert´ e.
Ad´ equation de l’esp´ erance
Lat´ eralit´ e - R´ egion de rejet
Les trois options sont possibles : test unilat´ eral ` a droite, ` a gauche ou bilat´ eral.
Sous R
t.test en utilisant les param` etres x pour l’´ echantillon et mu pour la valeur de µ
0.
Version non param´ etrique
Test de Wilcoxon ( wilcox.test ). Dans ce cas, l’ad´ equation est test´ e pour la m´ ediane, et non pour l’esp´ erance.
H
0: m = m
0H
1: m 6= m
0Exemple
On r´ ealise 20 sondages de taille 100 dans une population dont 55% des gens votent pour le candidat d’int´ erˆ et. La moyenne de ces sondages est-elle significativement diff´ erente de 0.
> x <- rbinom(20,100,.55)
> x
[1] 60 61 47 56 55 48 60 54 55 59 50 58 55 61 54 64 37 62 54 49
> t.test(x,mu=50,alternative="two.sided")
One Sample t-test data: x
t = 3.4573, df = 19, p-value = 0.002639
alternative hypothesis: true mean is not equal to 50 95 percent confidence interval:
51.95334 57.94666 sample estimates:
mean of x
54.95
Ad´ equation d’un ´ echantillon ` a une loi Hypoth` eses
Soit (x
1, . . . , x
n) un ´ echantillon tir´ e suivant une loi L inconnue et L
∗une loi fix´ ee par l’utilisateur.
H
0: L = L
∗H
1: L 6= L
∗Statistique
On s´ epare les valeurs possibles en k classes C
i. On note O
ile nombre d’observations dans C
i. L’effectif moyen E
ide C
isous H
0est donn´ e par E
i= np
i∗o` u p
∗iest la probabilit´ e qu-une v.a. X suivant la loi L
∗prenne sa valeur dans C
i.
L’´ ecart entre la r´ ealit´ e et la th´ eorie sous H
0est mesur´ ee par la statistique S =
k
X
i=1
(np
∗i− O
i)
2np
i∗=
k
X
i=1
O
i2np
i∗− n Sous H
0, la loi de S tend vers une loi du chi-deux.
Remarque : En pratique, il faut que les effectifs 0
isoit sup´ erieurs ` a 5 pour
que l’approximation par une loi du chi-deux soit valide. Si ce n’est pas le cas, il
faut fusionner des classes C
i(ce qui fera perdre de la puissance).
Ad´ equation ` a une loi
Lat´ eralit´ e - R´ egion de rejet
La r´ egion de rejet est de la forme {RC > a }.
Sous R chisq.test
Autre possibilit´ e
Test de Kolmogorov-Smirnov ( ks.test), qui est plus puissant que le test du χ
2mais dont l’utilisation est limit´ ee aux distributions continues. Il consiste ` a tester l’´ ecart maximal entre les fonctions de r´ epartition th´ eorique et empiriques.
A noter qu’il existe de nombreuses adaptations de ces tests pour tester
l’appartenance ` a des familles de lois, notamment le test de Shapiro-Wilk pour
les lois normales.
Exemple
On recueille le nombre de requˆ etes par heure sur un serveur. On recueille le nombre de requˆ etes sur 100 heures.
Ce nombre suit-il une loi normale ?
> x[1:10]
[1] 290 303 287 291 324 306 291 319 308 327
> c(mean(x),var(x)) [1] 300.1400 305.7378
> ks.test(x,"pnorm",mean(x),sd(x))
One-sample Kolmogorov-Smirnov test data: x
D = 0.099225, p-value = 0.2784
alternative hypothesis: two-sided
Exemple
On recueille le nombre de requˆ etes par heure sur un serveur. On recueille le nombre de requˆ etes sur 100 heures.
Ce nombre suit-il une loi de Poisson de param` etre 300 ?
> br<- c(min(x),280,290,300,310,320,max(x))
> nx <- hist(x,breaks=br)$counts
> nx
[1] 14 19 21 18 14 14
> att
[1] 12.95252 16.44741 22.13494 21.44826 15.11642 11.90045
> chisq.test(nx,p=patt)
Chi-squared test for given probabilities data: nx
X-squared = 1.5463, df = 5, p-value = 0.9077
IV.2. Tests de comparaison d’esp´ erance et de variance
Appariement
D´ efinition
Des ´ echantillons sont appari´ es s’ils correspondent ` a des mesures prises sur les mˆ emes individus
I
mesurer la tension des mˆ emes personnes ` a des moments diff´ erents donne des ´ echantillons appari´ es.
I
comparer la taille des hommes et des femmes ne peut pas se faire avec des
´
echantillons appari´ es.
I
comparer les temp´ eratures de 1950 et 2015 aux mˆ emes stations m´ et´ eo donne des ´ echantillons appari´ es.
Remarque : Si possible, il vaut toujours mieux recueillir des donn´ ees appari´ ees,
les tests en sont plus puissants.
Test d’´ egalit´ e des variances : test de Fisher
Hypoth` eses
On dispose de deux ´ echantillons d’´ ecart-types respectifs σ ˆ
1et σ ˆ
2. On se demande s’il est raisonnable de penser que les deux ´ echantillons ont ´ et´ e tir´ es suivant des lois de mˆ eme ´ ecart-type ou si ils sont significativement diff´ erents.
H
0: σ
1= σ
2H
1: σ
16= σ
2Statistique F =
σσˆˆ1222
suit une loi de Fisher F
n1,n2sous H
0. Lat´ eralit´ e - R´ egion de rejet
Les trois options ´ enonc´ ees au chapitre pr´ ec´ edent sont possibles : rejet unilat´ eral
` a droite, ` a gauche ou bilat´ eral.
Sous R
var.test
Comparaison de la moyenne de deux ´ echantillons : t-test ou test de Student
Hypoth` eses
On dispose de deux ´ echantillons de moyennes respectives µ
1et µ
2et d’´ ecart-type respectifs σ
1et σ
2. On se demande s’il est raisonnable de penser que les deux ´ echantillons ont ´ et´ e tir´ es suivant des lois de mˆ eme esp´ erance ou si leurs moyennes sont significativement diff´ erentes.
H
0: µ
1= µ
2H
1: µ
16= µ
2Comparaison de la moyenne de deux ´ echantillons : t-test ou test de Student
Statistique
La valeur de la statistique peut prendre quatre expressions diff´ erentes suivants les crit` eres suivants :
appariement les ´ echantillons sont appari´ es si ils sont correspondent ` a diff´ erentes mesures prises sur les mˆ emes individus.
´ egalit´ e des variances les variances sont significativement diff´ erentes ou pas (cf test de Fisher).
Toutes ces statistiques reposent en fait sur le mˆ eme principe qui est de d´ ependre essentiellement de la diff´ erence µ
1− µ
2, normalis´ ee par une quantit´ e permettant d’obtenir une variable de loi de Student sous H
0.
Par exemple, dans le cas d’´ echantillons non appari´ es, de variance non significativement diff´ erentes, et de taille respectives n et m ,
t = µ
1− µ
2σ q
1n