1.3.4 Analyses multivari´ ees quantitatives
Elles consistent `a d´eterminer la matrice des corr´elations entre toutes les variables quantita-tives consid´er´ees, notamment la variable `a expliquer, lorsque celle-ci est quantitative. Cela peut permettre encore de supprimer des variables tr`es corr´el´ees, par exemple afin d’´eviter de faire une r´egression sur de telles variables, dont on sait que les r´esultats seraient tr`es instables, voire sans aucune signification. Cela permet aussi de prendre connaissance de la structure de corr´elation entre les variables consid´er´ees, ce qui est toujours utile dans le cadre d’une mod´elisation.
On peut ´egalement envisager, `a ce niveau, de r´ealiser une analyse en composantes princi-pales (A.C.P.) de toutes ces variables, afin de pr´eciser davantage, de fa¸con globale, leurs relations lin´eaires.
1.3.5 Analyses multivari´ ees qualitatives
C’est le pendant des analyses ci-dessus, cette fois pour les variables qualitatives. On peut, tout d’abord, d´eterminer la matrice des coefficients de Tschuprow (ou celle des coefficients de Cram´er) et l’analyser comme une matrice de corr´elations. Toutefois, il est bien connu que, dans la pratique, ces coefficients sont syst´ematiquement petits : pratiquement toujours inf´erieurs `a 0.5 et le plus souvent compris entre 0.1 et 0.3. Leur interpr´etation est donc, en g´en´eral, assez d´elicate. Ils permettent n´eanmoins de rep´erer les liaisons les plus importantes, mˆeme si elles sont de l’ordre de 0.3, 0.4 ou 0.5.
Il est d’autant plus important d’envisager, dans ces analyses pr´eliminaires, de r´ealiser une analyse des correspondances multiples (A.C.M.) entre variables qualitatives. Celle-ci permettra, le cas ´ech´eant, de confirmer une liaison forte entre certains couples de variables et, si n´ecessaire, d’en ´eliminer quelques-unes. L’A.C.M. permet ´egalement de regrouper certaines modalit´es d’une mˆeme variable lorsque celles-ci apparaissent proches dans l’ensemble des r´esultats et, par suite, de simplifier les donn´ees. Enfin, le tableau de Burt, fourni avec les r´esultats de l’A.C.M., permet de rep´erer des occurences tr`es faibles pour certains croisements de modalit´es et d’envisager encore d’autres regroupements.
1.3.6 Bilan
Une fois r´ealis´ees toutes les ´etapes pr´eliminaires d´ecrites ci-dessus, on dispose de donn´ees “mises au propre”, simplifi´ees, et dont on commence `a connaˆıtre certaines caract´eristiques. On peut, `a partir de ce moment l`a, envisager leur mod´elisation.
Les mod`eles susceptibles d’ˆetre adapt´es aux donn´ees consid´er´ees, parmi tous ceux d´ecrits dans le paragraphe pr´ec´edent, sont n´ecessairement limit´es `a ce stade l`a. Ils sont fonction de la nature des donn´ees ainsi que des questions pos´ees par l’utilisateur, autrement dit de ses objectifs.
Insistons ici sur le fait que des donn´ees sont toujours recueillies (produites) par un utilisateur (biologiste, informaticien, gestionnaire...) dans un but bien pr´ecis. La mod´elisation statistique doit avoir pour objectif premier de r´epondre aux questions que s’est pos´e cet utilisateur lorsqu’il a d´ecid´e de recueillir les donn´ees. Une collaboration entre utilisateur et statisticien est donc, `a ce niveau l`a, absolument indispensable.
1.4 Formalisation de la notion de mod` ele statistique
Mˆeme si nous ne l’utilisons que fort peu dans la suite de ce cours, nous donnons, dans ce dernier paragraphe, une formalisation de ce qu’est un mod`ele statistique, afin de relier cette notion au formalisme habituellement utilis´e en calcul des probabilit´es.
La notion de mod`ele statistique correspond `a la mod´elisation d’une succession d’exp´eriences al´eatoires, chacune associ´ee `a une observation de l’´echantillon consid´er´e. Ainsi, consid´eronsn va-riables al´eatoires r´eelles (v.a.r.)Yi, chacune associ´ee `a une exp´erience al´eatoire dont le r´esultat est la valeur observ´ee de Yi (en fait, on suppose ici que l’exp´erience consid´er´ee est quantitative, par exemple le r´esultat d’une certaine mesure ; cela ´etant, ce qui suit se g´en´eralise sans difficult´e au cas qualitatif).
On suppose donc, au d´epart, que les v.a.r. Yi sont d´efinies sur un certain espace probabilis´e (Ω,A,Π) et sont `a valeurs dans (IR,BIR). Si l’on appelle Q la loi de probabilit´e conjointe des v.a.r. (Y1, . . . , Yn), soit encore la loi induite sur (IRn,BIRn) parY = (Y1, . . . , Yn), alors le mod`ele statistique associ´e `a l’exp´erience consid´er´ee est, par d´efinition :
(IRn,BIRn, Q).
C’est donc l’espace probabilis´e qui va rendre compte des exp´eriences al´eatoires r´ealis´ees. Ainsi, pr´eciser le mod`ele (faire des hypoth`eses...) reviendra `a pr´eciser la loi de probabilit´eQ.
La premi`ere hypoth`ese que l’on fait g´en´eralement dans la pratique est celle de l’ind´ependance des diff´erentes exp´eriences, autrement dit l’ind´ependance mutuelle des v.a.r. Yi, i = 1, . . . , n. Si l’on appellePi la loi de probabilit´e induite parYi sur (IR,BIR), le mod`ele statistique peut alors se mettre sous la forme suivante :
(IRn,BIRn,
n
Y
i=1
Pi).
On retiendra que c’est ce cadre g´en´eral qui est celui du mod`ele lin´eaire et du mod`ele lin´eaire g´en´eralis´e, l’hypoth`ese de lin´earit´e concernant, dans les deux cas, la relation entre IE(Yi) et les variables explicatives.
Une autre hypoth`ese, souvent faite dans la pratique, est que les Yi ont toutes la mˆeme loi de probabilit´e (elles sontidentiquement distribu´ees). Dans ce cas, on aPi =P,∀i = 1, . . . , n, et le mod`ele devient :
(IRn,BIRn, Pn).
On a coutume de le noter (IR,BIR, P)⊗n ou, plus simplement, (IR,BIR, P)n. C’est ce qu’on ap-pelle le mod`ele d’´echantillonnage qui suppose les v.a.r. ind´ependantes et identiquement distribu´ees(i.i.d.). On notera que ce mod`ele ne peut servir de cadre au mod`ele lin´eaire que pour la loi des erreurs (les v.a.r.Yi n’ont pas toutes, dans le mod`ele lin´eaire, la mˆeme esp´erance).
Dans la pratique, un mod`ele statistique n’est r´eellement op´erationnel que si l’on pr´ecise la loi de probabilit´eP (cas i.i.d.) ou les loisPi (cas seulement ind´ependant ; dans ce dernier cas, lesPi
sont en g´en´eral choisies dans une mˆeme famille de lois : normale, binomiale...). Apr`es avoir ainsi pr´ecis´e la loi de probabilit´e (ou la famille de lois de probabilit´e) du mod`ele, il reste d’abord `a faire des tests, d’une part pour essayer de simplifier le mod`ele retenu, d’autre part pour tester la significativit´e de ce dernier, ensuite `a en estimer les param`etres. C’est tout ce travail – choix de la loi de probabilit´e ou de la famille de lois, tests, choix du mod`ele, estimation des param`etres du mod`ele retenu, validation du mod`ele – qui constitue la mod´elisation statistique.
Chapitre 2
G´ en´ eralit´ es sur le mod` ele lin´ eaire
L’objectif du chapitre 2 est uniquement de mettre en place les principaux ´el´ements du mod`ele lin´eaire (essentiellement gaussien), `a savoir l’estimation ponctuelle, l’estimation par intervalle de confiance et les tests.
Pour des compl´ements bibliographiques, nous renvoyons essentiellement `a six ouvrages : trois en fran¸cais et trois autres en langue anglaise. Aza¨ıs & Bardet (2005) est un ouvrage consacr´e sp´ecifiquement au mod`ele lin´eaire et constitue un excellent compl´ement de ce cours ; Monfort (1997) propose une approche tr`es math´ematique, de la statistique en g´en´eral et du mod`ele lin´eaire en particulier ; Saporta (2006) est d’un abord plus simple, le mod`ele lin´eaire ne constituant qu’une petite partie de cet ouvrage tr`es complet et tr`es int´eressant ; Jorgensen (1993) couvre bien les chapitres 2 et 3 de ce cours ; Milliken & Johnson (1984) en couvre la presque totalit´e ; enfin, Rencher
& Schaalje (2008) est notre ouvrage de r´ef´erence sur le mod`ele lin´eaire. Cela ´etant, signalons que le nombre d’ouvrages consacr´es, au moins partiellement, au mod`ele lin´eaire est consid´erable.
R´esum´e
Pr´ecisons l’´ecriture du mod`ele lin´eaire pour tout individu i (i= 1, . . . , n) d’un ´echantillon de taillen:
Yi=
p
X
j=1
βjXij+Ui .
Yi est la variable al´eatoire r´eelle r´eponse et Ui est la variable al´eatoire r´eelle erreur, suppos´ee N(0, σ2), les Ui ´etant ind´ependantes (et donc i.i.d.). Les βj sont des coefficients, des param`etres inconnus, `a estimer. Les Xij sont les valeurs des variables explicatives qui ne sont en g´en´eral pas consid´er´ees comme al´eatoires : on suppose qu’il s’agit de valeurs choisies, contrˆol´ees.
Matriciellement, on peut r´e´ecrire
Y =Xβ+U ,
o`u Y et U sont des vecteurs al´eatoires de IRn, Xest une matricen×pet β est le vecteur de IRp des param`etres.
Si l’estimation ponctuelle est possible sans aucune hypoth`ese de distribution sur les erreurs du mod`ele, grˆace `a la m´ethode des moindres carr´es, il n’en va pas de mˆeme pour l’estimation par intervalle de confiance et pour les tests : dans ce cas, l’hypoth`ese de normalit´e des erreurs (l’hypoth`ese gaussienne) est indispensable. De mani`ere souvent implicite, l’hypoth`ese gaussienne sera faite dans tout ce cours car elle est quasiment partout indispensable.
L’estimation ponctuelle du vecteur des param`etresβ, que ce soit par moindres carr´es ou par maximum de vraisemblance dans le cas gaussien, conduit au r´esultat suivant :
Bˆ= (X0X)−1X0Y.
On appelle valeurs pr´edites les ˆYi, coordonn´ees du vecteur al´eatoire Yˆ =XBˆ=X(X0X)−1X0Y =HY,
15
o`uHest la matrice de projection orthogonale sur le sous-espace vectoriel de IRn engendr´e par les colonnes deX.
On appelle r´esidus les ˆUi, coordonn´ees du vecteur al´eatoire Uˆ=Y −Yˆ =H⊥Y,
o`u H⊥ = In −H est la matrice de projection orthogonale sur le sous-espace vectoriel de IRn suppl´ementaire orthogonal au pr´ec´edent.
L’estimateur de la variance du mod`ele (σ2), apr`es correction de biais, est donn´ee par : Σˆ2=
Pn i=1Uˆi2
n−p = kUˆk2 n−p .
L’estimation par intervalle de confiance d’une fonction lin´eaire des param`etres, c0β = Pp
j=1cjβj,conduit `a l’intervalle
c0βˆ ± t [ˆσ2c0(X0X)−1c]1/2 , o`ut=tn−p(1−α
2) est le quantile d’ordre 1−α
2 d’une loi de Student `an−pdegr`es de libert´e. Le coefficient de s´ecurit´e de cet intervalle est 1−α, autrement dit son risque estα.
Le test d’une hypoth`ese nulle{H0 :C0β = 0}, lin´eaire en β, contre l’alternative oppos´ee, se fait au moyen de la statistique de Fisher (ou Fisher-Snedecor) qui s’´ecrit :
F =N U M qΣˆ2 ,
o`uqest le nombre de contraintes d´efinies parH0(autrement dit, le rang deC, matrice de dimension p×q, avec 1≤q < p) et o`u le num´erateurN U M peut s’´ecrire sous l’une des formes suivantes
N U M=kUˆ0k2− kUˆk2=kUˆ0−Uˆk2=kYˆ0−Yˆk2=kBˆ0−Bˆk2X0X = ˆB0C[C0(X0X)−1C]−1C0B ,ˆ Bˆ0, ˆY0et ˆU0d´esignant respectivement le vecteur des estimateurs, celui des valeurs pr´edites et celui des r´esidus dans le mod`ele sousH0.
2.1 D´ efinitions et notations
2.1.1 Le mod` ele lin´ eaire
Definition 1 On appelle mod`ele lin´eaire un mod`ele statistique qui peut s’´ecrire sous la forme Y =
p
X
j=1
βjXj+U.
Dans la d´efinition ci-dessus, les ´el´ements intervenant ont les caract´eristiques suivantes : – Y est une variable al´eatoire r´eelle (v.a.r.) que l’on observe et que l’on souhaite expliquer,
ou pr´edire (ou les deux `a la fois) ; on l’appelle variable `a expliquer, ou variable r´eponse (parfois aussi variable d´ependante, ou variable endog`ene).
– Chaque variable Xj est une variable r´eelle (´eventuellement ne prenant que les valeurs 0 et 1), non al´eatoire dans le mod`ele de base, ´egalement observ´ee ; l’ensemble des Xj est cens´e expliquerY, en ˆetre la cause (au moins partiellement) ; les variablesXjsont appel´ees variables explicatives, oupr´edicteurs(parfois variables ind´ependantes, ou variables exog`enes).
Pour chaque variable Xj, l’exp´erimentateur est suppos´e choisir diverses valeurs caract´eris-tiques (au moins deux) pour lesquelles il r´ealise une ou plusieurs exp´eriences en notant les valeurs correspondantes deY : il contrˆole donc les variablesXj, pour cette raison appel´ees aussi variables contrˆol´ees; en r´ealit´e, dans la pratique, ce n’est pas toujours exactement le cas.
2.1. D ´EFINITIONS ET NOTATIONS 17 – Lesβj (j= 1, . . . , p) sont des coefficients, desparam`etres, non observ´es ; on devra donc les
estimer au moyen de techniques statistiques appropri´ees.
– U est le terme d’erreur du mod`ele ; c’est une v.a.r. non observ´ee pour laquelle on fait syst´ematiquement les hypoth`eses suivantes :
IE(U) = 0 ; Var(U) =σ2>0
(σ2 est un param`etre inconnu, ´egalement `a estimer). Lorsqu’on r´ep`ete les observations de Y et desXj, on suppose que la variance de U est constante (σ2) ; c’est ce que l’on appelle l’hypoth`ese d’homosc´edasticit´e.
– Les hypoth`eses faites sur U entraˆınent les cons´equences suivantes sur Y : IE(Y) =
p
X
j=1
βjXj ; Var(Y) =σ2.
– L’esp´erance math´ematique de Y s’´ecrit donc comme une combinaison lin´eaire des Xj : la liaison entre les Xj et Y est de nature lin´eaire (lin´eaire en moyenne). C’est la raison pour laquelle ce mod`ele est appel´e le mod`ele lin´eaire.
2.1.2 Le mod` ele lin´ eaire gaussien
C’est un mod`ele lin´eaire dans lequel on fait l’hypoth`ese suppl´ementaire que la v.a.r. U est gaussienne, c’est-`a-dire normale. On pose donc :
U ∼ N(0, σ2), cette hypoth`ese entraˆınant la normalit´e deY.
Si l’on veut, dans un mod`ele lin´eaire, pouvoir construire des intervalles de confiance ou faire des tests concernant les param`etres (lesβj et σ2), cette hypoth`ese gaussienne est indispensable.
Sauf indication contraire, elle sera faite dans toute la suite de ce cours.
2.1.3 Notations
Pour pouvoir faire, au minimum, l’estimation ponctuelle des param`etresβj etσ2, il est indis-pensable de r´epliquer, de mani`eres ind´ependantes, les observations simultan´ees des variablesXjet Y.
Nous supposerons donc par la suite que n observations ind´ependantes sont r´ealis´ees et nous
´ecrirons le mod`ele, pour lai-i`eme observation (i= 1, . . . , n), sous la forme :
Les valeurs observ´ees des variables seront not´ees par des minuscules, de sorte qu’on ´ecrira : yi=
p
X
j=1
βjxji +ui (´egalit´e entre nombres r´eels).
Par ailleurs, on notera Y =
le vecteur al´eatoire de IRn correspondant `a l’ensemble de l’´echantillon des v.a.r. r´eponses (la notation Y est identique `a celle introduite en 2.1.1 pour une seule v.a.r. r´eponse, mais cela ne devrait pas entraˆıner de confusion puisqu’on travaillera dor´enavant avec un ´echantillon), X = (xji) la matrice r´eelle, n×p, des valeurs contrˆol´ees des pr´edicteurs,β= de IRn contenant les erreurs du mod`ele (mˆeme remarque que ci-dessus).
Matriciellement, le mod`ele lin´eaire s’´ecrit donc Y =Xβ+U, avec, dans le cas gaussien,
U ∼ Nn(0, σ2In) et Y ∼ Nn(Xβ, σ2In), In d´esignant la matrice identit´e d’ordren.
Par la suite, on supposera n > p (le nombre d’observations est au moins ´egal au nombre de param`etres `a estimer), p≥ 1 (il y a au moins une variable explicative dans le mod`ele) et X de rangp(les variablesXj sont lin´eairement ind´ependantes).
Remarque 1 On notera que les v.a.r.Ui sont i.i.d. (ind´ependantes et identiquement distribu´ees) par hypoth`ese, alors que les v.a.r. Yi sont ind´ependantes, de mˆeme variance, normales dans le cas gaussien, mais n’ont pas toutes la mˆeme moyenne (elles ne sont donc pas i.i.d.).
Remarque 2 Dans le mod`ele lin´eaire, et plus particuli`erement dans l’analyse de variance, la matriceXest souvent appel´ee matrice d’incidence.
2.1.4 Trois exemples basiques
Le mod`ele constant, ou mod`ele “blanc”
Il s’´ecrit :
Yi=β+Ui (Y =β1In+U).
Autrement dit, p= 1 etX = 1In : l’unique pr´edicteur est la variable constante et ´egale `a 1. Ce mod`ele n’a pas d’int´erˆet pratique, mais il est utilis´e comme mod`ele de r´ef´erence, celui par rapport auquel on comparera d’autres mod`eles.
Le mod`ele de r´egression lin´eaire simple C’est le mod`ele suivant :
Yi=β1+β2Xi2+Ui.
Ici,p= 2 etX= (1In X2) : on a rajout´e un “vrai” pr´edicteur quantitatif (X2) `a la constante.
Le mod`ele d’analyse de variance `a un facteur `a deux niveaux Ce mod`ele s’´ecrit :
Yi=βj+Ui,
lorsque la i-i`eme observation de Y est r´ealis´ee au niveau j (j = 1,2) du facteur (la variable explicative est ici qualitative `a deux modalit´es ; dans le contexte du mod`ele lin´eaire, on parle plutˆot defacteur`a deuxniveaux). En fait, chaque niveau du facteur est remplac´e par une variable indicatrice, de sorte quep= 2.
Matriciellement, ce mod`ele peut s’´ecrire
Y =Xβ+U,
Dans la matriceXci-dessus, lesn1premi`eres lignes sont (1 0) s’il y an1 observations r´ealis´ees au niveau 1 du facteur, les n2 suivantes ´etant (0 1) s’il y a n2 observations r´ealis´ees au niveau 2 du facteur (n1+n2=n).