Soient X et Y deux variables al´eatoires discr`etes. On veut d´ecrire une proc´edure de test pour voir si l’on peut consid´erer ces deux variables comme ind´ependantes.
D´esignons par A1, ..., AI les r´esultats possibles pour X et par B1, ..., BJ les r´esultats possibles pour Y. La loi bivari´ee de (X, Y) est caract´eris´ee par les probabilit´es jointes
pij =P[X =Ai etY =Bj] i= 1, .., I, j = 1, .., J On range ces probabilit´es dans un tableauI×J
B1. . . Bj. . . BJ
A1 p11. . . p1j. . . p1J p1·:=p11+. . .+p1J
... ... ... ...
Ai pi1. . . pij. . . piJ pi·:=pi1+. . .+piJ
... ... ... ...
AI pI1. . . pIj. . . pIJ pI·:=pI1+. . .+pIJ p·1 :=p11. . .+pI1 p·j :=p1j. . .+pIj p·J 1
L’exp´erience al´eatoire E `a laquelle est associ´ee une mesure de (X, Y) peut donc ˆetre vue comme une exp´erience relevant d’un sch´ema multinomial:
R´esultats Probabilit´es (A1, B1) p11 (A1, B2) p12
...
(AI, BJ) pIJ
Il y a (I×J) r´esultats possibles. Rappelons que l’ind´ependance de X et Y s’´enonce :
pij =pi·p·j ∀i, j.
www.al3abkari-pro.com
132En effetpi· =P
jpij =P[X =Ai] d´efinit la fonction de probabilit´e marginale deX etp·j =P
ipij =P[Y =Bj] d´efinit la fonction de probabilit´e marginale de Y.
L’exp´erience E est r´ep´et´ee n fois (sous des conditions uniformes et de fa¸con `a assurer l’ind´ependance entre les n r´ep´etitions). Ces n r´ep´etitions donnent lieu `a des effectifs observ´es nij (qui sont les valeurs observ´ees de variables al´eatoiresNij ∼Bin(n, pij)) pr´esent´es sous la forme d’une table de contingence I ×J.
B1. . . Bj. . . BJ
A1 n11. . . n1j. . . n1J n1·:=n11+. . .+n1J
... ... ...
Ai ni1. . . nij. . . niJ ni·:=ni1+. . .+niJ
... ... ...
AI nI1. . . nIj. . . nIJ nI·
n·1 :=n11. . .+nI1 n·j n·J
Remarque 10.4 Les effectifs th´eoriques sont donn´es par E(Nij) = npij = npi.p.j sous l’hypoth`ese que les variables sont ind´ependantes.
Test d’ind´ependance:
H0 : pij =pi. p.j ∀ i, j
H1 : ∃ i, j tels que pij 6=pi. p.j. Statistique de test :
Q=
I
X
I=1 J
X
j=1
(Nij − Ni·nN·j)2
Ni·Nj·
n
. o`u Ni·=P
jNij et N·j =P
iNij.
La loi de Qsous l’hypoth`eseH0 est approximativement une loi chi-carr´e Q≈ X(I−1)(J−1)2
www.al3abkari-pro.com
133et l’approximation est valable sous les conditions ´enonc´ees pr´ec´edemment.
R`egle de comportement au niveau α : RH0 siq =
I
X
i=1 J
X
j=1
(nij − ni.nn.j)2
ni. n.j
n
>X(I−1)(J−1) ;α
Remarque 10.5 Les quantit´es ni.nn.j sont les effectifs th´eoriques estim´es sous la condition H0, soit npˆij = npˆi·pˆ·j avec les estimations ˆpi· = nni· et
ˆ
p·j = nn·j.
Exemple 10.3 Des certificats de d´ec`es, au nombre de 2.100, ont ´et´e pr´elev´es au hasard dans l’ensemble des certificats de d´ec`es des hopitaux publics. On les a class´e selon deux crit`eres :
la cause de d´ec`es d’une part (qu’on notera (X)) et les habitudes tabagiques du d´efunt (Y)
Les r´esultats sont les suivants:
Cause du d´ec`es Non fumeur Fumeur mod´er´e Grand fumeur Total
Maladie respiratoire 55 120 162 337
Maladie cardiaque 49 388 315 752
Autre 61 300 650 1011
Total 165 808 1127 2100
Le tableau des effectifs th´eoriques estim´es npˆi.pˆ.j = ni.nn.j sous la condition d’ind´ependance H0, est
Cause du d´ec`es Non fumeur Fumeur mod´er´e Grand fumeur Total Maladie respiratoire 26,6 = 337X1652100 129,7 180,8 337 Maladie cardiaque 59,1 = 752X1652100 289,3 403,6 752
Autre 79,4 = 1011X1652100 389 542,6 1011
Total 165 808 1127
www.al3abkari-pro.com
134La valeur q de la statistique de test est:
q =(55−26,5)2
26,5 + (120−129,7)2
129,7 +(162−180,8)2
180,8 +(49−59,1)2
59,1 + (388−289,3)2 289,3 + (315−403,6)2
403,6 +(61−79,4)2
79,4 = 134,1.
Le nombre de degr´es de libert´e est (3−1)(3−1) = 4. Donc on rejette H0; les deux variables ne sont pas ind´ependantes.
www.al3abkari-pro.com
135Chapitre 11
Le mod` ele de r´ egression lin´ eaire simple
L’objectif de l’analyse de r´egression est d’exploiter le lien entre deux (ou plusieurs) variables pour obtenir de l’information sur l’une d’entre elles `a travers la connaissance des valeurs des autres. Deux variables x et y sont li´ees de mani`ere d´eterministe si, quand on connaˆıt la valeur de x, celle de y est compl`etement d´etermin´ee. Par exemple, si une particule se d´epla¸ce sur une droite avec une vitesse initiale v0 et une acc´el´eration constante ´egale `a a0, la distance parcourue (y) est connue si on connaˆıt le temps (x) depuis le moment initial:
y=v0 x+1
2 a0 x2.
Il arrive souvent que deux variables soient li´ees, mais pas de mani`ere d´eter–
ministe. Par exemple si x est l’ˆage d’un enfant et y la taille de cet enfant ou encore si x est la moyenne obtenue en Bac1 et y la moyenne obtenue en Bac3 ...
L’analyse de la r´egression est le domaine des statistiques qui ´etudie les rela-tions entre deux (ou plusieurs) variables li´ees de mani`ere non d´eterministe.
La plus simple relation d´eterministe entre deux variables xet yest une rela-tion lin´eaire y=β0+β1x.Si les deux variables ne sont pas li´ees de mani`ere d´eterministe, alors pour une valeur fix´ee de la variable x, la valeur de la sec-onde variable y est al´eatoire.
G´en´eralement la variable dont la valeur est fix´ee par l’exp´erimentateur est not´ee x et est appel´ee variable ind´ependante. Pour une valeur fix´ee x, la
www.al3abkari-pro.com
136seconde variable est al´eatoire; on la note Y et on note y la valeur observ´ee.
On appelle Y la variable d´ependante.
En g´en´eral, des observations sont faites pour un certain nombre de valeurs de la variable ind´ependante x, soit les valeurs x1, . . . , xN. notons Yi la variable al´eatoire - etyi sa valeur observ´ee - associ´ee `a xi. Les donn´ees consistent en n paires (x1, y1). . .(xN, yN).
Une premi`ere ´etape dans l’analyse de r´egression de deux variables est de dessiner le “scatter plot” ( graphique de dispersion) des donn´ees.
€
€
x
€
y
€
(x2y2)
€
(x1,y1)
€
(x3y3)
Il n’y a aucune courbe simple passant par ces points; cependant, il y a une nette tendance observ´ee: la valeur de y diminue quand celle de x augmente.
La g´en´eralisation du mod`ele d´eterministe lin´eaire y =β0+β1 x est de sup-poser que l’esp´erance de Y pour une valeur fix´ee dex est une fonction lin´eaire
de x et, pour une valeur fix´ee de x, la variable Y diff`ere de son esp´erance par une variable al´eatoire ε.
Pour unxfix´e, siµY|x :=E[Y|x] on aµY|x =β0+β1 xet siσY2|x :=V ar[Y|x]
on a σY|x =σ2 =V ar[ε].
www.al3abkari-pro.com
137En r´ealit´e, la distribution de Y|x autour de µy|x, donc la distribution de ε est diff´erente suivant la valeur de x mais on fait dans ce mod`ele une hypoth`ese simplificatrice.
(Par exemple si xd´esigne la taille d’un homme et y son poids, les variations autour d’un poids moyen pour une taille donn´ee augmentent avecx, donc on devrait avoir V ar(Y|x) = σ2x avec σx2 croissant avecx pour ˆetre plus r´ealiste
sont appel´es param`etres de la droite de r´egression.
11.1 Estimation des param` etres
Avant de faire des inf´erences sur les param`etresβ0etβ1, on doit pr´eciser com-ment les paires (xi, yi) observ´ees sont obtenues `a partir du mod`ele lin´eaire probabiliste expos´e plus haut.
www.al3abkari-pro.com
138Hypoth`ese : Pour les valeurs fix´eesx1, x2, . . . , xnde la variablex, les obser-vations y1, . . . , yn sont les valeurs observ´ees de variables al´eatoiresY1, . . . , Yn telles que
Y1 =β0+β1 x1+ε1 ...
Yn=β0+β1 xn+εn
o`u lesεisont des variables al´eatoires ind´ependantes identiquement distribu´ees, telles que E(εi) = 0 V ar(εi) =σ2.
En pratique, les valeurs des param`etres β0 et β1 ne sont pas connues; les paires (x1, y1) sont distribu´ees autour de la droite de r´egression; si la vari-anceσ2est grande, de nombreuses observations seront loin de la droite mais si σ2 est petite, les observations s’agglom`erent autour de la droite de r´egression.
!
!
"0+"1x
!
"0+"1x
!
x
!
y
!
x
!
y
Petite variance Grande variance
www.al3abkari-pro.com
139€
€
x
€
y
€
y=b0+b1x
€
y=a0+a1x
Notre estimation de y=β0+β1 xdoit ˆetre une droite qui s’adapte le mieux possible aux donn´ees observ´ees.
11.1.1 M´ ethode des moindres carr´ es (Gauss 1777–
1855)
Principe : Parmi toutes les droites y = b0 +b1 x, la droite de r´egression estim´ee y= ˆβ0+ ˆβ1 x est celle qui minimise la somme des carr´es des r´esidus
SC(b0, b1) =
n
X
i=1
(yi−(b0+b1 x))2 donc
SC( ˆβ0,βˆ1)6SC(b0, b1) ∀ β0, β1
Pour chercher le minimum on doit avoir ∂SC∂b
0 ( ˆβ0,βˆ1) = 0 et ∂SC∂b
1 = 0 donc
n
X
i=1
(yi−( ˆβ0+ ˆβ0 xi)) = 0
n
X
i=1
(yi−( ˆβ0+ ˆβ0 xi))xi = 0.
www.al3abkari-pro.com
140Ceci donne:
La valeur du minimum de la somme des carr´es des r´esidus SCr´es =SC( ˆβ0,βˆ1) =
n
X
i=1
(Yi−( ˆβ0+ ˆβ1 xi))2 est appel´ee la somme des carr´es r´esiduelle.
11.1.2 Estimateurs pour β
0, β
1et σ
2On suppose que les valeurs des xi sont choisies avant de faire l’exp´erience, donc seules les yi sont les valeurs de variables al´eatoires Yi. Les estimateurs de β0 etβ1 sont not´es ˆB0 et ˆB1 sont d´efinis par:
Un estimateur pour σ2 est donn´e par
11.1.3 Distribution des estimateurs dans le cas gaussien
Pour tester des hypoth`eses et construire des intervalles de confiance, on doit faire des hypoth`eses suppl´ementaires sur la distribution des Yi.
Hypoth`ese: On suppose que les Yi sont non seulement ind´ependants mais sont normalement distribu´es (i.e. on suppose les εi ∼ N(0, σ2)).
De plus, les deux variables ˆB1 et (n−2)Sσ2 2 sont ind´ependantes donc Bˆ1−β1
S/pP
i(xi−x)2 ∼tn−2.