• Aucun résultat trouvé

R ) Rappelssurquelquestestsstatistiques(etlesfonctionsassociéessous A.Samson

N/A
N/A
Protected

Academic year: 2022

Partager "R ) Rappelssurquelquestestsstatistiques(etlesfonctionsassociéessous A.Samson"

Copied!
18
0
0

Texte intégral

(1)

Version du 7 avril 2015

A. Samson

Rappels sur quelques tests statistiques (et les fonctions

associées sous R)

(2)

Table des matières

1 Tests concernant des variables de Bernoulli 3

1.1 Test d’une probabilité . . . 3

1.2 Comparaison de deux probabilités : échantillons appariés . . . 3

1.3 Comparaison de deux probabilités : échantillons indépendants . . . 4

1.4 Comparaison de plus de deux probabilités : échantillons appariés . . . 5

1.5 Comparaison de plus de deux probabilités : échantillons indépendants (test du Chi-deux d’independance de Pearson . . . 5

2 Tests concernant des variables quantitatives 7 2.1 Test d’une espérance . . . 7

2.2 Comparaison de deux échantillons : échantillons appariés . . . 7

2.2.1 Test paramétrique d’égalité de deux espérances . . . 8

2.2.2 Test non paramétrique de symétrie de la distribution des différences . . . 8

2.3 Comparaison de deux échantillons : échantillons indépendants . . . 9

2.3.1 Test paramétrique d’égalité de deux espérances . . . 9

2.3.2 Test non paramétrique d’égalité de deux distributions . . . 11

2.4 Comparaison de plus de deux échantillons, échantillons indépendants . . . 12

2.4.1 Test paramétrique d’égalité d’espérances . . . 12

2.4.2 Test non paramétrique de comparaison des distributions . . . 12

2.5 Comparaison de plus de deux échantillons, échantillons appariés . . . 13

2.5.1 Test paramétrique d’égalité des espérances . . . 13

2.5.2 Test non paramétrique de comparaison des distributions . . . 14

2.6 Test d’égalité de deux variances . . . 14

2.6.1 Test paramétrique . . . 14

2.6.2 Test non paramétrique . . . 15

2.7 Test d’égalité de plusieurs variances . . . 15

2.7.1 Test paramétrique . . . 15

3 Test de corrélation 16 3.1 Test paramétrique . . . 16

3.2 Test non paramétrique . . . 16

4 Test d’ajustement à la famille gaussienne 18 4.1 Test de Kolmogorov-Smirnov . . . 18

4.2 Test de Shapiro-Wilks . . . 18

(3)

1 Tests concernant des variables de Bernoulli

1.1 Test d’une probabilité

On s’intéresse au caractèreAdans une population. La probabilité qu’un individu ait le caractère Aest égale àp. Au vu d’un échantillon de taille n, on désire prendre une décision quant à la valeur de cette probabilité, au niveau α. On cherche à tester si la probabilité est égale àp0. Les hypothèses du test sont

H0 :p=p0 H1 :p6=p0

A partir de l’échantillon, l’estimateur de la probabilité théorique sera la fréquence empiriquepn=nx oùxest le nombre d’individus possédant le caractèreA dans l’échantillon.

Méthode exacte

SousH0,pn∼ B(n, p0)et sousH1,pn ∼ B(n, p)avecp6=p0. La règle de décision est

– sit1≤pn≤t2, alors on rejetteH0

– sit1≥pn oupn≥t2, alors on ne rejette pasH0 oùt1 ett2 sont définis par

P(t1≤ B(n, p0)≤t2) = 1−α La fonction R permettant de réaliser ce test est binom.test(x,n,p=p0).

Méthode approchée

Si la taille de l’échantillon est suffisamment grande (en pratique,np0>5etn(1−p0)>5), on considère la statistique de test

Sn= pn−p0

pp0(1−p0)/n On peut montrer que

Sn−−−−→L

n→∞ N(0,1) sousH0 La règle de décision est

– si|Sn| ≥sα, alors on rejetteH0 – si|Sn|< sα, alors on ne rejette pasH0 oùsαest défini par

P(|N(0,1)| ≥sα) =α La fonction R permettant de réaliser ce test est prop.test(x,n,p=p0).

1.2 Comparaison de deux probabilités : échantillons appariés

On s’intéresse au caractère A d’une population dans deux conditions différentes appelées expérience 1 et expérience 2. On suppose que sous l’expérience 1, la probabilité qu’un individu possède le caractère A est égale à p1 et vaut p2 sous l’expérience 2. On considère un échantillon denindividus qu’on soumet aux deux conditions d’expériences. On note (X1, . . . , Xn) les observations obtenues lors de l’expérience 1 et (Y1, . . . , Yn) celles obtenues lors de l’expérience 2. Par nature, les échantillonsX et Y ne sont pas indépendants puisqu’ils sont mesurés sur les mÍmes individus. Les hypothèses du test d’égalité des probabilités sont

H0 :p1=p2

H1 :p16=p2

A partir des deux expériences, on mesure le nombrex1,1 d’individus ayant le caractèreA dans les deux expériences, x1,0le nombre d’individus n’ayant pas le caractère Adans l’expérience 1 mais l’ayant dans l’expérience 2,x0,1 le nombre d’individus ayant le caractèreAdans l’expérience 1 mais pas dans l’expérience 2 et enfinx0,0le nombre d’individus n’ayant pas le caractèreAdans les deux expériences. On peut résumer les données dans le tableau de contingence suivant Comme les échantillons sont appariés, les effectifsn1,1etn0,0 n’apportent pas d’information sur l’écart entre les deux expériences.

En revanche, les individus associés aux deux autres couplages sont ceux qui contribuent à la différence entre les deux expériences. On reformule les hypothèses du test. On considère la population formée des individus qui ont changé de caractère entre les deux expériences. L’hypothèse nulle est l’égale répartition de ces individus entre le couplage "caractère

(4)

expérience 1 expérience 2 A non A

A x1,1 x0,1

non A x1,0 x0,0

Aà l’expérience 1 et nonA à l’expérience 2" et le couplage "caractère nonA à l’expérience 1 etAà l’expérience 2". On notep1,0 etp0,1 les probabilités de ces deux couplages respectivement. Les hypothèses du test sont

H0 :p1,0=p0,1

H1 :p1,06=p0,1

On construit alors un tableau des effectifs observés et des effectifs théoriques. On noten1/0=x1,0+x0,1 la taille de la population considérée.

(1,0) (0,1) total Observé x1,0 x0,1 n1/0 Théorique n1/0/2 n1/0/2 n1/0

On peut alors construire un test du χ2 de symétrie, aussi appelé test de Mc Nemar. La statistique du test est

mcNn= (x1,0−n1/0/2)2

x1/0/2 = (x1,0−x0,1)2 x1,0+x0,1

On peut montrer que

mcNn −−−−→L

n→∞ χ2(1)sousH0 La règle de décision est

– simcNn≥sα, alors on rejetteH0 – simcNn< sα, alors on ne rejette pas H0 oùsαest défini par

P(χ2(1)≥sα) =α

La fonction R permettant de réaliser ce test estmcnemar.test(table)oùtable=matrix(c(x1,1,x0,1,x1,0,x0,0),2,2) est le tableau de contingence.

1.3 Comparaison de deux probabilités : échantillons indépendants

Soientp1etp2les probabilités qu’un individu ait une certaine modalitéAdans les populationsM1etM2respectivement.

On extrait un échantillon de taille n1 et n2 dans les populations M1 et M2 respectivement. On note (X1, . . . , Xn) les observations obtenues dans la population M1 et (Y1, . . . , Yn) celles obtenues dans la population M2. On teste à partir de ces échantillons si les probabilités sont les mÍmes dans les deux populations. Les hypothèses du test d’égalité des probabilités sont

H0 :p1=p2

H1 :p16=p2

Les variables aléatoiresXi,i= 1, . . . , nsont i.i.d. de loiB(p1)et lesYi,i= 1, . . . , nsont i.i.d. de loiB(p2). On notexet yle nombre d’individus possédant le caractèreAdans l’échantillon de taillen1de la populationM1et dans l’échantillon de taillen2de la populationM2respectivement. On dispose d’une estimationf1=nx

1 etf2=ny

2 dep1etp2respectivement.

On se ramène au test d’une probabilité en reformulant les hypothèses du test H0 :p1−p2= 0

H1 :p1−p26= 0 Il s’agit donc de comparer à0la différence p1−p2.

(5)

SousH0,xety ont mÍme loi. On estime alors la variance de la variablef1−f2 parpˆ= n1nf1+n2f2

1+n2 . La statistique de test est

Sn1,n2 = f1−f2 qp(1ˆ −p)(ˆ n1

1 +n1

2)

Méthode approchée Si la taille de l’échantillon est suffisamment grande (en pratique,n1p1>5, n2p2>5,n1(1− p1)>5et n2(1−p2)>5), on peut montrer que

Sn1,n2

−−−−−−→L

n1,n2→∞ N(0,1)sousH0

La règle de décision est donnée par – si|Sn1,n2| ≥sα, alors on rejetteH0

– si|Sn1,n2|< sα, alors on ne rejette pasH0

oùsαest défini par

P(|N(0,1)| ≥sα) =α La fonction R permettant de réaliser ce test est

prop.test(matrix(x1,x2,n1,n2),2,2).

Ce test est équivalent au test du chi-deux d’indépendance pour deux variablesX et Y binaires, qu’on peut réaliser à l’aide de la fonctionchisq.test.

1.4 Comparaison de plus de deux probabilités : échantillons appariés

On s’intéresse au caractèreA d’une population dansK conditions différentes. On suppose que sous les conditions k, k= 1, . . . , K, la probabilité qu’un individu possède le caractèreAest égale àpk. On considère un échantillon denindividus qu’on soumet auxKconditions d’expériences. On désire prendre une décision quant à l’égalité desKprobabilités, au niveau α. Par nature, les proportionsp1, . . . , pK sont liées puisqu’elles sont mesurées sur les mÍmes individus. Les hypothèses du test d’égalité des probabilités sont

H0 :p1=. . .=pK H1 :∃i6=j, pi 6=pj au risque α.

La méthode statistique pour répondre à cette question généralise le test de Mac Nemar d’égalité de deux probabilités pour échantillons appariés présenté dans le paragraphe 1.2. Ce test du Chi-deux est appelé test de Cochran-Mantel- Haenszel.

La fonction R permettant de réaliser ce test estmantelhaen.test(table) oùtableest le tableau de contingence desK populations.

1.5 Comparaison de plus de deux probabilités : échantillons indépendants (test du Chi- deux d’independance de Pearson

Soitpij la probabilité qu’un individu ait une certaine modalitéAi (i= 1, . . . , I) dans la populationMj,j = 1, . . . , J. On extrait J échantillons de taille n1, . . . , nJ dans les populationsM1, . . . , MJ respectivement. On teste à partir de ces échantillons si les probabilités sont les mÍmes dans les J populations. Les hypothèses du test d’égalité des probabilités sont

H0 :pij =pij0∀i, j, j0 H1 :∃i,∃j6=j0, pij 6=pij0

On utilise alors un test du Chi-deux d’indépendance de Pearson qui généralise le test du Chi-deux d’égalité de deux probabilités présenté dans le paragraphe 1.3.

Le tableau de fréquences observées se présente de la faÁon suivante.

La proportion théorique attendue estEij =nNn·j. La statistique du test de Chi2 d’indépendance de Pearson est

XN2 =X

i,j

(Oij−Eij)2 Eij

(6)

modalité population Total

A1 O1,1 O1,2 . . . O1,J n=PJ

j=1O1j

A2 O2,1 O2,2 . . . O2,J n=PJ

j=1O2j

. . . .

AI OI,1 OI,2 . . . OI,J n=PJ

j=1OIj total n·1=PI

i=1Oi1 n·2=PI

i=1Oi2 . . . n·J =PI

i=1OiJ N =PI i=1Oi1

On peut montrer que sousH0,

XN2 −−−−→L

N→∞ χ2((I−1)(J−1)) sousH0

La fonction R permettant de réaliser ce test est chisq.test(table) oùtableest le tableau de contingence desI populations.

(7)

2 Tests concernant des variables quantitatives

2.1 Test d’une espérance

On dispose denobservations(x1, . . . , xn). On suppose que lesxisont des réalisations de variables aléatoires(Xi)1≤i≤n, qui sont indépendantes, identiquement distribuées d’espéranceµet de varianceσ2. Les paramètresµet σ2sont supposés inconnus.

On cherche à savoir si l’espérance µest égale à une valeur donnéeµ0. Les hypothèses du test sont donc H0 :µ=µ0

H1 :µ6=µ0 La moyenne empiriquex¯=n1Pn

i=1xiest un estimateur de la moyenne et la variance empiriques2=n−11 Pn

i=1(xi−x)¯ 2 un estimateur de la variance.x¯ets2sont des réalisations de variables aléatoiresX¯ etS2. On considère alors la statistique de test

Tn= X−µ0

s/√ n

Cas gaussienOn suppose que les variables aléatoires(Xi)1≤i≤n sont de loi normaleN(µ, σ2). Par construction, sous H0,X suit une loi normale d’espéranceµ0 et de varianceσ2/n, etS2suit une loi du Chi-deux. On peut montrer que

Tn∼ T(n−1)sousH0

oùT(n−1)est une loi de Student àn−1degrés de liberté. La règle de décision est – si|Tn| ≥sα, alors on rejetteH0

– si|Tn|< sα, alors on ne rejette pasH0

oùsαest défini par

P(|T(n−1)| ≥sα) =α La fonction R permettant de réaliser ce test est t.test(x,mu=mu0).

Il faut alors vérifier les conditions d’application du test de Student, en particulier l’hypothèse de normalité de l’échan- tillon. Pour cela, on réalise un test de normalité dont les hypothèses sont

H0 : (Xi)suit une loi normale H1 : (Xi)ne suit pas une loi normale

Les fonctions R permettant de réaliser ce test sont shapiro.testoulillie.testdu packagenortest.

Cas non gaussienOn suppose que les variables aléatoires (Xi)1≤i≤n sont de loi quelconque mais que n est grand.

Par le théorème central limite, on peut montrer que Tn

−−−−→L

n→∞ N(0,1)sousH0

La règle de décision est donnée par – si|Tn| ≥sα, alors on rejetteH0

– si|Tn|< sα, alors on ne rejette pasH0

oùsαest défini par

P(|N(0,1)| ≥sα) =α

Il n’existe pas de fonction R qui réalise ce test. Lorsque n est grand, les quantiles de la loi normale centrée ré- duite sont très proches des quantiles d’une loi de Student à n−1 degrés de liberté. On pourra donc utiliser la fonction t.test(x,mu=mu0) commeapproximation du test d’une espérance dans le cas non gaussien.

2.2 Comparaison de deux échantillons : échantillons appariés

On dispose dencouples d’observations(xi, yi), mesures effectuées sur un mÍme individu. Plus précisément, on considère qu’une mÍme variable a été mesurée sur un mÍme individui, dans des conditions différentes ou à deux instants différents. On considère que ces couples(xi, yi)sont les réalisations de variables aléatoires(Xi, Yi)qui sont indépendantes, identiquement distribuées. Par nature les variablesXietYisont liées puisqu’elles sont des mesures effectuées sur un mÍme individu. Dans ce contexte on se demande si la loi deX est différente de celle deY.

(8)

2.2.1 Test paramétrique d’égalité de deux espérances

On suppose que X a pour espéranceµX et variance σ2 etY a pour espéranceµY et variance σ2. Dans le cadre d’un test paramétrique, on cherche à comparer les espérances des deux échantillons. Les hypothèses du test sont

H0XY

H1X 6=µY

On introduit la variable différence Di =Xi−Yi. Le test revient donc à tester la nullité de l’espérance de la variable Di, en se ramenant au test d’une espérance. On considère donc la statistique de test :

Tn =√ nD

S oùD= n1Pn

i=1Di est la moyenne empirique desDi etS2= n−11 Pn

i=1(Di−D)2 est l’estimateur de la variance.

Cas gaussienOn suppose que les variablesDi sont de lois gaussiennes. SousH0, l’espérance deDi est nulle. On peut montrer que

Tn∼ T(n−1)sousH0 oùT(n−1)est une loi de Student àn−1degrés de liberté.

La règle de décision est

– si|Tn| ≥sα, alors on rejetteH0

– si|Tn|< sα, alors on ne rejette pasH0

oùsαest défini par

P(|T(n−1)| ≥sα) =α La fonction R permettant de réaliser ce test est t.test(x,y,paired=T).

Il faut alors vérifier l’hypothèse de normalité de l’échantillonD1, . . . , Dn à l’aide d’un test de normalité. Les fonctions R permettant de réaliser ce test sontshapiro.testoulillie.testdu packagenortest.

Cas non gaussienOn suppose que les variables aléatoires (Di)1≤i≤n sont de loi quelconque mais que n est grand.

Par le théorème central limite, on peut montrer que Tn

−−−−→L

n→∞ N(0,1)sousH0

La règle de décision est donnée par – si|Tn| ≥sα, alors on rejetteH0

– si|Tn|< sα, alors on ne rejette pasH0

oùsαest défini par

P(|N(0,1)| ≥sα) =α

Il n’existe pas de fonction R qui réalise ce test. Lorsque n est grand, les quantiles de la loi normale centrée ré- duite sont très proches des quantiles d’une loi de Student à n−1 degrés de liberté. On pourra donc utiliser la fonction t.test(x,y,paired=T)comme approximationdu test d’une espérance dans le cas non gaussien.

2.2.2 Test non paramétrique de symétrie de la distribution des différences

Les tests non paramétriques de comparaison de deux échantillons appariés sont le test du signe ou le test du signe et rangs de Wilcoxon. On introduit la variable différenceDi =Xi−Yi. Ces deux tests sont des tests sur la médiane deD.

On teste

H0 :medD= 0 H1 :medD>0

Test du signe Le test du signe ne s’intéresse qu’au signe deX −Y. C’est un test de symétrie de X−Y. On teste si P(X −Y > 0) = P(X −Y ≤ 0). On note Zi = IDi>0. Les variables Zi sont des variables i.i.d., de loi B(p) avec p=P(D >0). SousH0,p= 1/2. On est dans le cadre d’un test sur le paramètre d’une variable de Bernoulli à la valeur 1/2. On construit la statistique de test

Sn=

√n(Z−1/2) p1/2(1−1/2)

(9)

avec Z = n1Pn

i=1IDi>0. La loi de la statistique de test sousH0 peut se calculer de manière exacte (loi binomiale) ou approchée (loi normale) (voir le paragraphe 1.1).

Test du signe et rangs de WilcoxonLe test du signe et rangs de Wilcoxon teste si(X, Y)a mÍme loi que(Y, X).

On range par ordre croissant les|Di| et on attribue un rangRi à|Di|(rang moyen en cas d’ex-aequo). La statistique de test est

Wn =

n

X

i=1

RiIDi>0 On peut montrer que

Wn−n(n+ 1)/4 qn(n+1)(2n+1)

24

−−−−→L

n→∞ N(0,1)sousH0

La règle de décision est donnée par – si

Wn−n(n+1)/4 qn(n+1)(2n+1)

24

≥sα, alors on rejetteH0

– si

Wn−n(n+1)/4 qn(n+1)(2n+1)

24

< sα, alors on ne rejette pasH0 oùsαest défini par

P(|N(0,1)| ≥sα) =α

La fonction R permettant de réaliser le test de signe et rangs de Wilcoxon est wilcox.test(x,y, paired=T).

L’optionexact=Tpermet de calculer des p-values exactes lorsqu’il y a moins den= 50observations. Attention, lorsqu’il y a des ex-aequos, la p-value calculée par la fonctionwilcox.testest fausse. Il faut utiliser la fonctionwilcox.exact du packageexactRankTestsqui réalise le test exact de signe et rang de Wilcoxon.

2.3 Comparaison de deux échantillons : échantillons indépendants

On considèreX1, . . . , Xn1, n1variables aléatoires i.i.d. etY1, . . . , Yn2,n2 variables aléatoires i.i.d., avec(X1, . . . , Xn1) et(Y1, . . . , Yn2)indépendants. On cherche à savoir si les lois des deux variables aléatoires sont les mÍmes.

2.3.1 Test paramétrique d’égalité de deux espérances

On suppose queX etY ont pour espérancesµX etµY et pour écart typesσX etσY. On teste H0XY

H1X 6=µY

On estime les moyennes empiriquesX =n1

1

Pn1

i=1Xi etY = n1

2

Pn2

i=1Yi et les varianceSX2 = n1

1−1

Pn1

i=1(Xi−X)2 et SY2 = n1

2−1

Pn2

i=1(Yi−Y)2 à partir des deux échantillons. La statistique de test dépend de l’égalité des variances.

Si σXY. La statistique de test est

Zn= mX−mY

Sq

1 n1 +n1

2

avec S = s

n1s2X+n2s2Y n1+n2−2

Cas gaussien On suppose que les variablesX etY sont distribuées selon des lois gaussiennes. On peut montrer que Zn ∼ T(n1+n2−2)sousH0

oùT(n1+n2−2)est une loi Student àn1+n2−2 degrés de liberté. C’est un test de Student.

La règle de décision est donnée par – si|Zn|> tα, alors on rejetteH0 – si|Zn| ≤tα, alors on ne rejette pasH0

(10)

oùsαest défini par

P(|T(n1+n2−2)| ≥tα) =α

La fonction R permettant de réaliser ce test est t.test(x,y,var.equal=T).

Cas non gaussienOn suppose que les variablesX etY sont de lois quelconques mais quen1 etn2sont suffisamment grands. On peut montrer que

Zn

−−−−−−→L

n1,n2→∞ N(0,1)sousH0

La règle de décision est donnée par – si|Zn|> sα, alors on rejetteH0

– si|Zn| ≤sα, alors on ne rejette pasH0

oùsαest défini par

P(|N(0,1)| ≥sα) =α

Il n’existe pas de fonction R qui réalise ce test. Lorsque n est grand, les quantiles de la loi normale centrée ré- duite sont très proches des quantiles d’une loi de Student à n−1 degrés de liberté. On pourra donc utiliser la fonction t.test(x,y,var.equal=T)comme approximationdu test de deux espérances dans le cas non gaussien.

Si σX 6=σY

La statistique de test est

Zn= mX−mY q s2

X

n1−1+ns2Y

2−1

Cas gaussien On suppose que les variablesX etY sont distribuées selon des lois gaussiennes. On peut montrer que Zn∼ T(ν)sousH0

oùT(ν)est une loi Student àν degrés de liberté avec ν est l’entier le plus proche de h s2

X

n1−1+ns2Y

2−1

i2

s4X

(n1−1)n21 +(n s4Y

2−1)n22

C’est le test de Welch. La règle de décision est donnée par – si|Zn|> tα, alors on rejetteH0

– si|Zn| ≤tα, alors on ne rejette pasH0 oùsαest défini par

P(|T(n1+n2−2)| ≥tα) =α La fonction R permettant de réaliser ce test estt.test(x,y,var.equal=F).

L’égalité des variances des deux échantillons peut se vérifier par un test d’homogénéité des variances. On peut par exemple utiliser un test de Fisher-Snedecor (fonction R :var.test()).

L’hypothèse de normalité de l’échantillon se vérifie à l’aide d’un test de normalité. Les fonctions R permettant de réaliser ce test sontshapiro.testoulillie.testdu packagenortest.

Cas non gaussienOn suppose que les variablesX etY sont de lois quelconques mais quen1 etn2sont suffisamment grands. On peut montrer que

Zn

−−−−−−→L

n1,n2→∞ N(0,1)sousH0

La règle de décision est donnée par – si|Zn|> sα, alors on rejetteH0

– si|Zn| ≤sα, alors on ne rejette pasH0

(11)

oùsαest défini par

P(|N(0,1)| ≥sα) =α

Il n’existe pas de fonction R qui réalise ce test. Lorsque n est grand, les quantiles de la loi normale centrée ré- duite sont très proches des quantiles d’une loi de Student à n−1 degrés de liberté. On pourra donc utiliser la fonction t.test(x,y,var.equal=F)comme approximationdu test de deux espérances dans le cas non gaussien.

2.3.2 Test non paramétrique d’égalité de deux distributions

On souhaite savoir si les lois des deux variables aléatoiresX et Y sont les mÍmes, autrement dit on va tester H0 :X etY ont mÍme loi

H1 :X etY n’ont pas mÍme loi

Il existe deux tests non paramétriques dans ce cadre : le test de Wilcoxon de la somme des rangs et le test de Mann- Whitney.

Test de la somme des rangs de Wilcoxon On rassemble les 2 échantillons en un seul. On ordonne l’échantillon global : on interclasse lesXi et les Yj pour obtenir une suite mélangée et ordonnée de Xi et Yj. Sous H0, l’alternance desXi etYj doit Ítre à peu près régulière. Cette régularité dans l’alternance est mesurée par les rangs des Xi etYj dans l’échantillon ordonné. A chaqueXi, on associe son rangRi dans l’échantillon global ordonné. On noteWn=Pn

i=0Ri. La statistique de test est

Un =Wn−n1(n1+n2+ 1)/2 pn1n2(n1+n2+ 1)/12 On peut montrer que

Un −−−−→L

n→∞ N(0,1)sousH0 La règle de décision est donnée par

– si|Un|> sα, alors on rejetteH0 – si|Un| ≤sα, alors on ne rejette pasH0 oùsαest défini par

P(|N(0,1)| ≥sα) =α

Test de Mann-Whitney On compte le nombre de couples(Xi, Yj)pour lesquelsXi> Yj. On introduit

M Wn =

n1

X

i=0 n2

X

j=0

IXi>Yj =Wn−n1(n1/1)/2

On peut montrer que

Zn= M Wn−n1n2/2 pn1n2(n1+n2+ 1)/12

−−−−→L

n→∞ N(0,1)sousH0

La règle de décision est donnée par – si|Un|> sα, alors on rejetteH0

– si|Un| ≤sα, alors on ne rejette pasH0

oùsαest défini par

P(|N(0,1)| ≥sα) =α

La fonction R permettant de réaliser le test de Mann-Whitney est

wilcox.test(x,y) (contrairement à son nom, cette fonction ne réalise pas le test de la somme des rangs de Wil- coxon). Attention, lorsqu’il y a des ex-aequos, la p-value calculée par la fonctionwilcox.testest fausse. Il faut utiliser la fonctionwilcox.exactdu packageexactRankTestsqui réalise le test exact de Mann-Whitney.

(12)

2.4 Comparaison de plus de deux échantillons, échantillons indépendants

On dispose deK groupes. Pour chaque groupe, on mesurenk observations indépendantesxk,1, . . . , xk,nkd’une v.a.Xk

(k= 1, . . . , K). On veut savoir si les lois dans lesKgroupes sont les mÍmes. On noten=PK

k=1nk l’effectif de l’échantillon global.

On notexle vecteur de toutes les observations,groupela variable associant le numéro de groupe à chaque observations.

Attention dans R : la variable groupe doit Ítre de type "facteur". Si ce n’est pas le cas, on peut la transformer à l’aide de la commandegroupe = factor(groupe).

2.4.1 Test paramétrique d’égalité d’espérances

On suppose que les v.a. Xk sont indépendantes, de lois normales de mÍme variance. On est dans le cadre de l’analyse de la variance (ANOVA) à 1 facteur. On noteµ1, . . . , µK les espérances de cesK v.a. On va donc tester les hypothèses

H01=. . .=µK H1 :∃k6=k0, µk 6=µk0

L’analyse de la variance est basée sur une décomposition de la variance du modèle. On définit la somme des carrés totaleSCT =PK

k=1(xki−x¯··)2, la somme des carrés du modèleSCM =PK

k=1(¯x−x¯··)2et la somme des carrés résiduels SCR =PK

k=1(xki−x¯)2 où x¯ = n1

k

Pnk

i=1xki est la moyenne du groupe k et x¯·· = n1PK k=1

Pnk

i=1xki est la moyenne totale. On a alors la formule de décomposition de la variance :

SCT =SCM+SCR

La statistique de test de l’analyse de la variance est

Fn = SCT /(K−1) SCR/(n−K) On peut montrer que

Fn∼ F(K−1, n−K)sousH0

oùF(K−1, n−K)est une loi de Fisher à K−1et n−K degrés de liberté.

La règle de décision est donnée par – siFn> fα, alors on rejetteH0

– siFn≤fα, alors on ne rejette pasH0

oùfαest défini par

P(F(K−1, n−K)≥fα) =α

On peut ensuite réaliser une ANOVA à l’aide de la commande summary(aov(x∼groupe)).

2.4.2 Test non paramétrique de comparaison des distributions

Dans le cadre non paramétrique, on ne fait aucune hypothèse sur les distributions des v.a.Xk. On noteP1, . . . , PK les distributions des v.a. On va donc tester les hypothèses

H0 :P1=. . .=PK

H1 :∃k6=k0, Pk 6=Pk0

Le test de Kruskal-Wallis est une généralisation du test de Mann-Whitney au cas deK échantillons. On ordonne l’échan- tillon global. SousH0, l’alternance entre les K groupes est a peu près régulière. On affecte un rang Rki à l’observation Xki dans l’échantillon global ordonné. On calculeR¯ = n1

k

Pnk

i=1Rki la moyenne des rangs du groupek, R¯·· = n+12 la moyenne de tous les rangs. On introduit la somme des carrés des rangs du modele SCM = PK

k=1nk( ¯R−R¯··)2 et la somme des carrés des rangs résiduelsSCR=n−11 PK

k=1

Pnk

i=1(Rki−R)¯ 2. La statistique du test de Kruskal Wallis est

(13)

KWn = (n−1) PK

k=1nk( ¯R−R¯··)2 PK

k=1

Pnk

i=1(Rki−R¯··)2

= 12

n(n+ 1)

K

X

k=1

(Pnk i=1Rki)2

nk

−3(n+ 1)

= SCM

SCR On peut montrer que

KWn

−−−−→L

n→∞ χ2(K−1)sousH0

La règle de décision est donnée par – siKWn> tα, alors on rejetteH0

– siKWn≤tα, alors on ne rejette pasH0

oùtαest défini par

P(χ2(K−1)≥tα) =α

On peut remarquer que la statistique KWn est similaire à l’analyse de la variance paramétrique. La fonction R permettant de réaliser le test de Kruskal-Wallis estkruskal.test(x∼groupe).

2.5 Comparaison de plus de deux échantillons, échantillons appariés

On mesure cheznindividus le caractèreAdansKconditions différentes ou àKtemps différents. Pour chaque condition d’expérience, on mesure doncnobservations indépendantesxk,1, . . . , xk,nd’une v.a.Xk (k= 1, . . . , K). On veut savoir si les lois dans lesKconditions sont les mÍmes.

On notexle vecteur de toutes les observations,groupela variable associant le numéro de groupe à chaque observation.

On note id la variable identité associant le numéro de l’individu à chaque observation. Attention dans R : les variable groupe et identité doivent Ítre de type "facteur". Si ce n’est pas le cas, on peut les transformer à l’aide de la commande groupe = factor(groupe)etid = factor(id).

2.5.1 Test paramétrique d’égalité des espérances

On suppose que les v.a.Xk sont indépendantes et de lois normales de mÍme variance. On est dans le cadre de l’analyse de la variance (ANOVA) à 2 facteurs : le facteur condition d’expérience et le facteur individu. C’est un plan d’expérience sans répétition, on ne dispose que d’une seule observation pour chaque traitement. On noteµ1, . . . , µK les espérances de cesK v.a. On va donc tester les hypothèses

H01=. . .=µK

H1 :∃k6=k0, µk 6=µk0

Ce test revient à tester l’effet du facteur expérience dans un modèle d’ANOVA 2 sans interaction. On définit la somme des carrés du au facteur expérienceSCE =nPK

k=1(¯x−x¯··)2 et la somme des carrés résiduels du modèle d’ANOVA 2 sans interactionSCR=PK

k=1

Pn

i=1(xki−x¯−x¯·i+ ¯x··)2. La statistique du test d’ANOVA 2 est Fn= SCE/(K−1)

SCR/((n−1)(K−1)) On peut montrer que

Fn∼ F(K−1,(n−1)(K−1))sousH0

oùF(K−1,(n−1)(K−1))est une loi de Fisher àK−1 et(n−1)(K−1) degrés de liberté.

La règle de décision est donnée par – siFn> fα, alors on rejetteH0

– siFn≤fα, alors on ne rejette pasH0

(14)

oùfαest défini par

P(F(K−1,(n−1)(K−1))≥fα) =α

Il faut vérifier l’hypothèse d’homogénéité des variances, par exemple en utilisant le test de Bartlettbartlett.test(x∼groupe) etbartlett.test(x∼ id).

On peut ensuite réaliser une ANOVA à 2 facteurs à l’aide de la commande summary(aov(x∼groupe+id)).

2.5.2 Test non paramétrique de comparaison des distributions

Dans le cadre non paramétrique, on ne fait aucune hypothèse sur les lois des v.a. Xk. On note (Pk)les distributions des v.a. On va donc tester les hypothèses

H0 :P1=. . .=PK H1 :∃k6=k0, Pk 6=Pk0

Le test de Friedman compare les sommes des rangs desIéchantillons appariés. On ordonne l’échantillon global composé des(xki)K×n valeurs observées. On affecte à chaque observationxkison rangRki dans l’échantillon global. On calcule la moyenne des rangs du groupek R¯= n1Pn

i=1Rki, la moyenne de tous les rangsR¯·· = nK1 PK k=1

Pn

i=1Rki = nK+12 . On introduit la somme des carrés des rangs du modeleSCM =nPK

k=1( ¯R−R¯··)2 et la somme des carrés des rangs résiduels SCR= n(K−1)1 PK

k=1

Pn

i=1(Rki−R)¯ 2. La statistique du test de Friedman est FK,n=n2(K−1)

PK

k=1( ¯R−R¯··)2 PK

k=1

Pn

i=1(Rki−R¯··)2 = SCM SCR On peut montrer que

FK,n−−−−→L

K→∞ χ2(n−1)sousH0 La règle de décision est donnée par

– siFK,n> sα, alors on rejetteH0 – siFK,n≤sα, alors on ne rejette pasH0

oùsαest défini par

P(χ2(n−1)≥sα) =α La fonction R permettant de réaliser le test de Friedman est

friedman.test(x,groupe,id).

2.6 Test d’égalité de deux variances

On considère deux échantillons indépendants (X1, . . . , Xnx) et (Y1, . . . , Yny) de variances respectives σ2X et σ2Y. On cherche à tester

H0X2Y2 H1X2 6=σY2

2.6.1 Test paramétrique Cas gaussien

On considère que les deux échantillons sont gaussiens, de lois respectivesN(µX, σ2X)etN(µY, σY2).

On introduit les estimateurs des variances : Sx2 = 1 nx−1

nx

X

i=1

(Xi−X)2 et S2y = 1 ny−1

ny

X

j=1

(Yj−Y)2. La statistique du test de Fisher est :

Fn= Sx2 Sy2 On peut montrer que

Fn∼ F(nx−1, ny−1)sousH0 oùF(nx−1, ny−1)est une loi de Fisher ànx−1 etny−1 degrés de liberté.

La règle de décision est donnée par

(15)

– siFn> fα, alors on rejetteH0 – siFn≤fα, alors on ne rejette pasH0 oùfαest défini par

P(F(nx−1, ny−1)≥fα) =α

La fonction R permettant de réaliser le test d’égalité de variance de Fisher estvar.test(x,y).

2.6.2 Test non paramétrique

On ordonne l’échantillon global desXi etYj de taillen=nx+ny. On attribue à chaque valeur un rang de symétrie : le rang 1 est à attribué à la plus petite et à la plus grande desnvaleurs, le rang 2 est attribué à la plus petite et à la plus grande desn−2valeurs restantes, etc. On noteRsi le rang de symétrie desXi dans l’échantillon global. La statistique du test d’Ansari-Bradley est

ABnx,ny =

nx

X

i=1

Rsi

La loi deABnx,ny sousH0 est tabulée pour de petites valeurs denx etny. On peut montrer que Sn= ABnx,ny−E(ABnx,ny)

V ar(ABnx,ny)

−−−−→L

ny→∞ N(0,1)sousH0

La règle de décision est donnée par – si|Sn|> sα, alors on rejetteH0

– si|Sn| ≤sα, alors on ne rejette pasH0 oùsαest défini par

P(|N(0,1)| ≥sα) =α

La fonction R permettant de réaliser le test d’égalité de variances d’Ansari-Bradley estansari.test(x,y).

2.7 Test d’égalité de plusieurs variances

2.7.1 Test paramétrique Cas gaussien

On considèreKéchantillons indépendants(X11, . . . , X1n1), . . . ,(XK1, . . . , X1nK), de lois respectivesN(µ1, σ12), . . . ,N(µK, σK2).

On cherche à tester

H021=. . .=σ2K H1 :∃k, k0, σ2k6=σ2k0

On introduit les estimateurs de la variance de chaque échantillonSk2= 1 nk−1

nk

X

i=1

(Xki−Xk)2. La statistique du test de Barlett est

Bn= (N−k) ln(Sp2)−Pk

i=1(ni−1) ln(Si2) 1 +3(k−1)1

Pk i=1(n1

i−1)−N1−k oùn=PK

k=1nk et S2=n−K1 PK

k=1(nk−1)Sk2 est l’estimateur global de la variance. On peut montrer que Bn

−−−−→L

n→∞ χ2(K−1) sousH0

La règle de décision est donnée par – siBn > sα, alors on rejetteH0 – siBn ≤sα, alors on ne rejette pasH0 oùsαest défini par

P(χ2(K−1)≥sα) =α

On note datal’échantillon global, et groupela variable prenant des valeurs entre 1 etK indiquant le groupe pour chaque observation (groupedoit Ítre un facteur groupe=factor(groupe)). La fonction R permettant de réaliser le test d’égalité de variance de Fisher estbartlett.test(data,groupe).

(16)

3 Test de corrélation

On mesure deux caractères continus surnindividus. On dispose ainsi d’un ensemble de couples de valeurs(xi, yi)chez l’ensemble desnindividus. On suppose que les observations proviennent d’un échantillon((X1, Y1), . . . ,(Xn, Yn))i.i.d. On cherche à savoir si les deux variablesX etY sont corrélées.

3.1 Test paramétrique

On suppose que l’échantillon((X1, Y1), . . . ,(Xn, Yn))provient d’une loi normale bidimensionnelle, d’espérance(µx, µy) et de matrice de covariance :

σ2x σxσyρ σxσyρ σy2

.

C’est la loi d’un couple de variables, dont les espérances respectives sontµxetµy et les variancesσx2etσy2, le coefficient de corrélation étantρ. L’estimateur naturel de ρest le coefficient de corrélation empirique, à savoir la variable aléatoire Rsuivante :

R=

n

X

i=1

(Xi−X)(Yi−Y)

q Pn

i=1(Xi−X)2 q

Pn

i=1(Yi−Y)2

où X et Y désignent les moyennes empiriques des Xi et des Yi respectivement. L’hypothèse nulle que l’on souhaite tester est

H0 :ρ= 0 H1 :ρ6= 0 La statistique de test est

Tn=√

n−2 R

√1−R2

On peut montrer que

Tn ∼ T(n−2) sousH0

oùT(n−2)est la loi de Student àn−2degrés de liberté. Ce test est appelé test de corrélation de Pearson.

La règle de décision est donnée par – siTn> tα, alors on rejetteH0

– siTn≤tα, alors on ne rejette pasH0

oùtαest défini par

P(T(n−2)≥tα) =α La fonction R permettant de réaliser le test de corrélation de Pearson est

cor.test(x,y,method="pearson").

3.2 Test non paramétrique

On ne fait aucune hypothèse sur la loi de l’échantillon. On cherche à tester H0 :X etY sont indépendantes

H1 :X etY ne sont pas indépendantes

Il existe deux tests de corrélation, le test de corrélation de Spearman et celui de Kendall.

Test de corrélation de SpearmanOn ordonne chaque échantillon séparément. On calcule pour chaque individu i la différencedi entre le classement de l’observationXi dans l’échantillon desX ordonné et le classement de l’observation Yi dans l’échantillon desY ordonné. Le coefficient de corrélation de Spearman est donné par :

ρn = 1−6 Pi=n

i=1d2i n(n2−1)

(17)

On peut montrer que

√n−1ρn

−−−−→L

n→∞ N(0,1) sousH0

La règle de décision est donnée par – si|ρn|> sα, alors on rejetteH0

– si|ρn| ≤sα, alors on ne rejette pasH0

oùsαest défini par

P(|N(0,1)| ≥sα) =α La fonction R permettant de réaliser le test de corrélation de Spearman est cor.test(x,y,method="spearman").

Test de corrélation de Kendall On noteck le nombre de paires de couples(xi, yi),(xj, yj)qui sont concordantes, c’est à dire telles que(xj−xi)(yj−yi)>0avec1≤i < j≤n. On notedk le nombre de paires de couples(xi, yi),(xj, yj) qui sont discordantes, c’est à dire telles que (xj−xi)(yj−yi) <0 avec 1 ≤ i < j ≤n. On note sk =ck−dk. Le tau empirique de Kendall est défini par

τn= 2sk n(n−1) On peut montrer que

τn

var(τn)

−−−−→L

n→∞ N(0,1)sousH0

On en déduit alors la région de rejet du test. La règle de décision est donnée par – si|τn|> sα, alors on rejetteH0

– si|τn| ≤sα, alors on ne rejette pasH0 oùsαest défini par

P(|N(0,1)| ≥sα) =α La fonction R permettant de réaliser le test de corrélation de Kendall est cor.test(x,y,method="kendall").

(18)

4 Test d’ajustement à la famille gaussienne

On considère une variable aléatoire réelle continue X de loi inconnue PX, de fonction de répartition continue F. A partir d’unn-échantillon (X1, . . . , Xn) deX de loi P, on cherche à tester si la loiP appartient à la famille gaussien de fonction de répartitionFθ avecθ= (µ, σ2)inconnu. On va tester

H0 : la loiF =Fθ

H1 : la loiF 6=Fθ

4.1 Test de Kolmogorov-Smirnov

La première étape consiste à estimer θ sousH0 parθb= (X, S2)avec S2 = n−11 Pn

i=1(Xi−X)2. La deuxième étape consiste à tester

H0 : la loiF =F

θb

H1 : la loiF 6=F

θb

Pour construire le test, il faut estimer la fonction de répartition deX. La fonction de répartition est définie parF(x) = P(X ≤x) =E(IX≤x). Pour toutxdansR, on peut estimerF(x)par

Fbn(x) = 1 n

n

X

i=1

IXi≤x

Cet estimateurFbn(x)est la fonction de répartition empirique de(X1, . . . , Xn).

La statistique de test est

Tn = Fbn−Φ

bµ,σb2

avecΦµ,σ2 =P(N(µ, σ2)≤x) On peut montrer que

P(√

n(1 + 0.85−0.01/n)Tn>0.895) = 0.05sousH0

La fonction R permettant de réaliser le test de Kolmogorov-Smirnov d’ajustement à la famille gaussienne estlillie.test(x), du packagenortest. ATTENTION, la fonction ks.testne réalise pas le test d’ajustement à une famille de loi, mais

le test d’ajustement à une loi connue. On ne peut pas l’utiliser dans ce contexte.

4.2 Test de Shapiro-Wilks

On estime la moyenne empirique X = 1nPn

i=1Xi. On ordonne l’échantillon X1, . . . , Xn. On noteX(1) ≤. . .≤X(n) l’échantillon ordonné.

La statistique de test est

Wn= (Pn

i=1aiX(i))2 Pn

i=1(Xi−X)2 où les coefficientsai sont données par le vecteura= (a1, . . . , an)défini par

a0=M V−1(M0V−1V−1M)−1/2

où M sont les valeurs attendues pour une statistique d’ordre d’un échantillon de taillen de loi normale centrée réduite, et V est la matrice de variance-covariance associée. Le numérateur est la fonction des étendues partielles alors que le dénominateur est la fonction des carrés des écarts à la moyenne. On peut tabuler la loi de la statistique sousH0.

La règle de décision est donnée par – siWn > sα, alors on rejetteH0 – siWn ≤sα, alors on ne rejette pasH0 oùsαse lit dans la table du test de Shapiro-Wilks.

La fonction R permettant de réaliser le test de normalité de Shapiro-Wilks estshapiro.test(x).

Références

Documents relatifs

[r]

Calcul d’une réalisation de la statistique de test et la p-valeur du test sur les données5. Conclusion statistique : no rejet ou rejet de l’hypothèse

Ce test ne fait pas l'objet d'un menu spécifique dans R Commander, mais le test des rangs de Friedman, avec application de la correction pour ex aequo, aboutit à un résultat

Ce test ne fait pas l'objet d'un menu spécifique dans R Commander, mais le test des rangs de Friedman, avec application de la correction pour ex aequo,

n’avons aucune information de caractère théorique sur la forme concrète de la fonction de répartition théorique inconnue Fq (x), nous sommes bien dans le cadre d’un

Les observations sont faites dans les mêmes conditions pour les deux éléments de chaque paire, tandis qu’elles peuvent varier de paire à paire.. On utilise le test

blables pour l’application du test de Kolmogorov aux échantillons qui pro - viennent des populations exponentielles avec paramètres inconnus, que l’on estime au

Veuillez fournir un tableau de statistiques descriptives (moyenne, écart type, erreur standard moyenne, etc.) pour ces nouveaux groupes. Veuillez n’inclure que les