• Aucun résultat trouvé

Formalisation de la notion de mod`ele statistique

1.3.4 Analyses multivari´ ees quantitatives

Elles consistent `a d´eterminer la matrice des corr´elations entre toutes les variables quantita-tives consid´er´ees, notamment la variable `a expliquer, lorsque celle-ci est quantitative. Cela peut permettre encore de supprimer des variables tr`es corr´el´ees, par exemple afin d’´eviter de faire une r´egression sur de telles variables, dont on sait que les r´esultats seraient tr`es instables, voire sans aucune signification. Cela permet aussi de prendre connaissance de la structure de corr´elation entre les variables consid´er´ees, ce qui est toujours utile dans le cadre d’une mod´elisation.

On peut ´egalement envisager, `a ce niveau, de r´ealiser une analyse en composantes princi-pales (A.C.P.) de toutes ces variables, afin de pr´eciser davantage, de fa¸con globale, leurs relations lin´eaires.

1.3.5 Analyses multivari´ ees qualitatives

C’est le pendant des analyses ci-dessus, cette fois pour les variables qualitatives. On peut, tout d’abord, d´eterminer la matrice des coefficients de Tschuprow (ou celle des coefficients de Cram´er) et l’analyser comme une matrice de corr´elations. Toutefois, il est bien connu que, dans la pratique, ces coefficients sont syst´ematiquement petits : pratiquement toujours inf´erieurs `a 0.5 et le plus souvent compris entre 0.1 et 0.3. Leur interpr´etation est donc, en g´en´eral, assez d´elicate. Ils permettent n´eanmoins de rep´erer les liaisons les plus importantes, mˆeme si elles sont de l’ordre de 0.3, 0.4 ou 0.5.

Il est d’autant plus important d’envisager, dans ces analyses pr´eliminaires, de r´ealiser une analyse des correspondances multiples (A.C.M.) entre variables qualitatives. Celle-ci permettra, le cas ´ech´eant, de confirmer une liaison forte entre certains couples de variables et, si n´ecessaire, d’en ´eliminer quelques-unes. L’A.C.M. permet ´egalement de regrouper certaines modalit´es d’une mˆeme variable lorsque celles-ci apparaissent proches dans l’ensemble des r´esultats et, par suite, de simplifier les donn´ees. Enfin, le tableau de Burt, fourni avec les r´esultats de l’A.C.M., permet de rep´erer des occurences tr`es faibles pour certains croisements de modalit´es et d’envisager encore d’autres regroupements.

1.3.6 Bilan

Une fois r´ealis´ees toutes les ´etapes pr´eliminaires d´ecrites ci-dessus, on dispose de donn´ees “mises au propre”, simplifi´ees, et dont on commence `a connaˆıtre certaines caract´eristiques. On peut, `a partir de ce moment l`a, envisager leur mod´elisation.

Les mod`eles susceptibles d’ˆetre adapt´es aux donn´ees consid´er´ees, parmi tous ceux d´ecrits dans le paragraphe pr´ec´edent, sont n´ecessairement limit´es `a ce stade l`a. Ils sont fonction de la nature des donn´ees ainsi que des questions pos´ees par l’utilisateur, autrement dit de ses objectifs.

Insistons ici sur le fait que des donn´ees sont toujours recueillies (produites) par un utilisateur (biologiste, informaticien, gestionnaire...) dans un but bien pr´ecis. La mod´elisation statistique doit avoir pour objectif premier de r´epondre aux questions que s’est pos´e cet utilisateur lorsqu’il a d´ecid´e de recueillir les donn´ees. Une collaboration entre utilisateur et statisticien est donc, `a ce niveau l`a, absolument indispensable.

1.4 Formalisation de la notion de mod` ele statistique

Mˆeme si nous ne l’utilisons que fort peu dans la suite de ce cours, nous donnons, dans ce dernier paragraphe, une formalisation de ce qu’est un mod`ele statistique, afin de relier cette notion au formalisme habituellement utilis´e en calcul des probabilit´es.

La notion de mod`ele statistique correspond `a la mod´elisation d’une succession d’exp´eriences al´eatoires, chacune associ´ee `a une observation de l’´echantillon consid´er´e. Ainsi, consid´eronsn va-riables al´eatoires r´eelles (v.a.r.)Yi, chacune associ´ee `a une exp´erience al´eatoire dont le r´esultat est la valeur observ´ee de Yi (en fait, on suppose ici que l’exp´erience consid´er´ee est quantitative, par exemple le r´esultat d’une certaine mesure ; cela ´etant, ce qui suit se g´en´eralise sans difficult´e au cas qualitatif).

On suppose donc, au d´epart, que les v.a.r. Yi sont d´efinies sur un certain espace probabilis´e (Ω,A,Π) et sont `a valeurs dans (IR,BIR). Si l’on appelle Q la loi de probabilit´e conjointe des v.a.r. (Y1, . . . , Yn), soit encore la loi induite sur (IRn,BIRn) parY = (Y1, . . . , Yn), alors le mod`ele statistique associ´e `a l’exp´erience consid´er´ee est, par d´efinition :

(IRn,BIRn, Q).

C’est donc l’espace probabilis´e qui va rendre compte des exp´eriences al´eatoires r´ealis´ees. Ainsi, pr´eciser le mod`ele (faire des hypoth`eses...) reviendra `a pr´eciser la loi de probabilit´eQ.

La premi`ere hypoth`ese que l’on fait g´en´eralement dans la pratique est celle de l’ind´ependance des diff´erentes exp´eriences, autrement dit l’ind´ependance mutuelle des v.a.r. Yi, i = 1, . . . , n. Si l’on appellePi la loi de probabilit´e induite parYi sur (IR,BIR), le mod`ele statistique peut alors se mettre sous la forme suivante :

(IRn,BIRn,

n

Y

i=1

Pi).

On retiendra que c’est ce cadre g´en´eral qui est celui du mod`ele lin´eaire et du mod`ele lin´eaire g´en´eralis´e, l’hypoth`ese de lin´earit´e concernant, dans les deux cas, la relation entre IE(Yi) et les variables explicatives.

Une autre hypoth`ese, souvent faite dans la pratique, est que les Yi ont toutes la mˆeme loi de probabilit´e (elles sontidentiquement distribu´ees). Dans ce cas, on aPi =P,∀i = 1, . . . , n, et le mod`ele devient :

(IRn,BIRn, Pn).

On a coutume de le noter (IR,BIR, P)⊗n ou, plus simplement, (IR,BIR, P)n. C’est ce qu’on ap-pelle le mod`ele d’´echantillonnage qui suppose les v.a.r. ind´ependantes et identiquement distribu´ees(i.i.d.). On notera que ce mod`ele ne peut servir de cadre au mod`ele lin´eaire que pour la loi des erreurs (les v.a.r.Yi n’ont pas toutes, dans le mod`ele lin´eaire, la mˆeme esp´erance).

Dans la pratique, un mod`ele statistique n’est r´eellement op´erationnel que si l’on pr´ecise la loi de probabilit´eP (cas i.i.d.) ou les loisPi (cas seulement ind´ependant ; dans ce dernier cas, lesPi

sont en g´en´eral choisies dans une mˆeme famille de lois : normale, binomiale...). Apr`es avoir ainsi pr´ecis´e la loi de probabilit´e (ou la famille de lois de probabilit´e) du mod`ele, il reste d’abord `a faire des tests, d’une part pour essayer de simplifier le mod`ele retenu, d’autre part pour tester la significativit´e de ce dernier, ensuite `a en estimer les param`etres. C’est tout ce travail – choix de la loi de probabilit´e ou de la famille de lois, tests, choix du mod`ele, estimation des param`etres du mod`ele retenu, validation du mod`ele – qui constitue la mod´elisation statistique.

Chapitre 2

G´ en´ eralit´ es sur le mod` ele lin´ eaire

L’objectif du chapitre 2 est uniquement de mettre en place les principaux ´el´ements du mod`ele lin´eaire (essentiellement gaussien), `a savoir l’estimation ponctuelle, l’estimation par intervalle de confiance et les tests.

Pour des compl´ements bibliographiques, nous renvoyons essentiellement `a six ouvrages : trois en fran¸cais et trois autres en langue anglaise. Aza¨ıs & Bardet (2005) est un ouvrage consacr´e sp´ecifiquement au mod`ele lin´eaire et constitue un excellent compl´ement de ce cours ; Monfort (1997) propose une approche tr`es math´ematique, de la statistique en g´en´eral et du mod`ele lin´eaire en particulier ; Saporta (2006) est d’un abord plus simple, le mod`ele lin´eaire ne constituant qu’une petite partie de cet ouvrage tr`es complet et tr`es int´eressant ; Jorgensen (1993) couvre bien les chapitres 2 et 3 de ce cours ; Milliken & Johnson (1984) en couvre la presque totalit´e ; enfin, Rencher

& Schaalje (2008) est notre ouvrage de r´ef´erence sur le mod`ele lin´eaire. Cela ´etant, signalons que le nombre d’ouvrages consacr´es, au moins partiellement, au mod`ele lin´eaire est consid´erable.

R´esum´e

Pr´ecisons l’´ecriture du mod`ele lin´eaire pour tout individu i (i= 1, . . . , n) d’un ´echantillon de taillen:

Yi=

p

X

j=1

βjXij+Ui .

Yi est la variable al´eatoire r´eelle r´eponse et Ui est la variable al´eatoire r´eelle erreur, suppos´ee N(0, σ2), les Ui ´etant ind´ependantes (et donc i.i.d.). Les βj sont des coefficients, des param`etres inconnus, `a estimer. Les Xij sont les valeurs des variables explicatives qui ne sont en g´en´eral pas consid´er´ees comme al´eatoires : on suppose qu’il s’agit de valeurs choisies, contrˆol´ees.

Matriciellement, on peut r´e´ecrire

Y =Xβ+U ,

o`u Y et U sont des vecteurs al´eatoires de IRn, Xest une matricen×pet β est le vecteur de IRp des param`etres.

Si l’estimation ponctuelle est possible sans aucune hypoth`ese de distribution sur les erreurs du mod`ele, grˆace `a la m´ethode des moindres carr´es, il n’en va pas de mˆeme pour l’estimation par intervalle de confiance et pour les tests : dans ce cas, l’hypoth`ese de normalit´e des erreurs (l’hypoth`ese gaussienne) est indispensable. De mani`ere souvent implicite, l’hypoth`ese gaussienne sera faite dans tout ce cours car elle est quasiment partout indispensable.

L’estimation ponctuelle du vecteur des param`etresβ, que ce soit par moindres carr´es ou par maximum de vraisemblance dans le cas gaussien, conduit au r´esultat suivant :

Bˆ= (X0X)−1X0Y.

On appelle valeurs pr´edites les ˆYi, coordonn´ees du vecteur al´eatoire Yˆ =XBˆ=X(X0X)−1X0Y =HY,

15

o`uHest la matrice de projection orthogonale sur le sous-espace vectoriel de IRn engendr´e par les colonnes deX.

On appelle r´esidus les ˆUi, coordonn´ees du vecteur al´eatoire Uˆ=Y −Yˆ =HY,

o`u H = In −H est la matrice de projection orthogonale sur le sous-espace vectoriel de IRn suppl´ementaire orthogonal au pr´ec´edent.

L’estimateur de la variance du mod`ele (σ2), apr`es correction de biais, est donn´ee par : Σˆ2=

Pn i=1i2

n−p = kUˆk2 n−p .

L’estimation par intervalle de confiance d’une fonction lin´eaire des param`etres, c0β = Pp

j=1cjβj,conduit `a l’intervalle

c0βˆ ± t [ˆσ2c0(X0X)−1c]1/2 , o`ut=tn−p(1−α

2) est le quantile d’ordre 1−α

2 d’une loi de Student `an−pdegr`es de libert´e. Le coefficient de s´ecurit´e de cet intervalle est 1−α, autrement dit son risque estα.

Le test d’une hypoth`ese nulle{H0 :C0β = 0}, lin´eaire en β, contre l’alternative oppos´ee, se fait au moyen de la statistique de Fisher (ou Fisher-Snedecor) qui s’´ecrit :

F =N U M qΣˆ2 ,

o`uqest le nombre de contraintes d´efinies parH0(autrement dit, le rang deC, matrice de dimension p×q, avec 1≤q < p) et o`u le num´erateurN U M peut s’´ecrire sous l’une des formes suivantes

N U M=kUˆ0k2− kUˆk2=kUˆ0−Uˆk2=kYˆ0−Yˆk2=kBˆ0−Bˆk2X0X = ˆB0C[C0(X0X)−1C]−1C0B ,ˆ Bˆ0, ˆY0et ˆU0d´esignant respectivement le vecteur des estimateurs, celui des valeurs pr´edites et celui des r´esidus dans le mod`ele sousH0.

2.1 D´ efinitions et notations

2.1.1 Le mod` ele lin´ eaire

Definition 1 On appelle mod`ele lin´eaire un mod`ele statistique qui peut s’´ecrire sous la forme Y =

p

X

j=1

βjXj+U.

Dans la d´efinition ci-dessus, les ´el´ements intervenant ont les caract´eristiques suivantes : – Y est une variable al´eatoire r´eelle (v.a.r.) que l’on observe et que l’on souhaite expliquer,

ou pr´edire (ou les deux `a la fois) ; on l’appelle variable `a expliquer, ou variable r´eponse (parfois aussi variable d´ependante, ou variable endog`ene).

– Chaque variable Xj est une variable r´eelle (´eventuellement ne prenant que les valeurs 0 et 1), non al´eatoire dans le mod`ele de base, ´egalement observ´ee ; l’ensemble des Xj est cens´e expliquerY, en ˆetre la cause (au moins partiellement) ; les variablesXjsont appel´ees variables explicatives, oupr´edicteurs(parfois variables ind´ependantes, ou variables exog`enes).

Pour chaque variable Xj, l’exp´erimentateur est suppos´e choisir diverses valeurs caract´eris-tiques (au moins deux) pour lesquelles il r´ealise une ou plusieurs exp´eriences en notant les valeurs correspondantes deY : il contrˆole donc les variablesXj, pour cette raison appel´ees aussi variables contrˆol´ees; en r´ealit´e, dans la pratique, ce n’est pas toujours exactement le cas.

2.1. D ´EFINITIONS ET NOTATIONS 17 – Lesβj (j= 1, . . . , p) sont des coefficients, desparam`etres, non observ´es ; on devra donc les

estimer au moyen de techniques statistiques appropri´ees.

– U est le terme d’erreur du mod`ele ; c’est une v.a.r. non observ´ee pour laquelle on fait syst´ematiquement les hypoth`eses suivantes :

IE(U) = 0 ; Var(U) =σ2>0

2 est un param`etre inconnu, ´egalement `a estimer). Lorsqu’on r´ep`ete les observations de Y et desXj, on suppose que la variance de U est constante (σ2) ; c’est ce que l’on appelle l’hypoth`ese d’homosc´edasticit´e.

– Les hypoth`eses faites sur U entraˆınent les cons´equences suivantes sur Y : IE(Y) =

p

X

j=1

βjXj ; Var(Y) =σ2.

– L’esp´erance math´ematique de Y s’´ecrit donc comme une combinaison lin´eaire des Xj : la liaison entre les Xj et Y est de nature lin´eaire (lin´eaire en moyenne). C’est la raison pour laquelle ce mod`ele est appel´e le mod`ele lin´eaire.

2.1.2 Le mod` ele lin´ eaire gaussien

C’est un mod`ele lin´eaire dans lequel on fait l’hypoth`ese suppl´ementaire que la v.a.r. U est gaussienne, c’est-`a-dire normale. On pose donc :

U ∼ N(0, σ2), cette hypoth`ese entraˆınant la normalit´e deY.

Si l’on veut, dans un mod`ele lin´eaire, pouvoir construire des intervalles de confiance ou faire des tests concernant les param`etres (lesβj et σ2), cette hypoth`ese gaussienne est indispensable.

Sauf indication contraire, elle sera faite dans toute la suite de ce cours.

2.1.3 Notations

Pour pouvoir faire, au minimum, l’estimation ponctuelle des param`etresβj etσ2, il est indis-pensable de r´epliquer, de mani`eres ind´ependantes, les observations simultan´ees des variablesXjet Y.

Nous supposerons donc par la suite que n observations ind´ependantes sont r´ealis´ees et nous

´ecrirons le mod`ele, pour lai-i`eme observation (i= 1, . . . , n), sous la forme :

Les valeurs observ´ees des variables seront not´ees par des minuscules, de sorte qu’on ´ecrira : yi=

p

X

j=1

βjxji +ui (´egalit´e entre nombres r´eels).

Par ailleurs, on notera Y =

 le vecteur al´eatoire de IRn correspondant `a l’ensemble de l’´echantillon des v.a.r. r´eponses (la notation Y est identique `a celle introduite en 2.1.1 pour une seule v.a.r. r´eponse, mais cela ne devrait pas entraˆıner de confusion puisqu’on travaillera dor´enavant avec un ´echantillon), X = (xji) la matrice r´eelle, n×p, des valeurs contrˆol´ees des pr´edicteurs,β= de IRn contenant les erreurs du mod`ele (mˆeme remarque que ci-dessus).

Matriciellement, le mod`ele lin´eaire s’´ecrit donc Y =Xβ+U, avec, dans le cas gaussien,

U ∼ Nn(0, σ2In) et Y ∼ Nn(Xβ, σ2In), In d´esignant la matrice identit´e d’ordren.

Par la suite, on supposera n > p (le nombre d’observations est au moins ´egal au nombre de param`etres `a estimer), p≥ 1 (il y a au moins une variable explicative dans le mod`ele) et X de rangp(les variablesXj sont lin´eairement ind´ependantes).

Remarque 1 On notera que les v.a.r.Ui sont i.i.d. (ind´ependantes et identiquement distribu´ees) par hypoth`ese, alors que les v.a.r. Yi sont ind´ependantes, de mˆeme variance, normales dans le cas gaussien, mais n’ont pas toutes la mˆeme moyenne (elles ne sont donc pas i.i.d.).

Remarque 2 Dans le mod`ele lin´eaire, et plus particuli`erement dans l’analyse de variance, la matriceXest souvent appel´ee matrice d’incidence.

2.1.4 Trois exemples basiques

Le mod`ele constant, ou mod`ele “blanc”

Il s’´ecrit :

Yi=β+Ui (Y =β1In+U).

Autrement dit, p= 1 etX = 1In : l’unique pr´edicteur est la variable constante et ´egale `a 1. Ce mod`ele n’a pas d’int´erˆet pratique, mais il est utilis´e comme mod`ele de r´ef´erence, celui par rapport auquel on comparera d’autres mod`eles.

Le mod`ele de r´egression lin´eaire simple C’est le mod`ele suivant :

Yi12Xi2+Ui.

Ici,p= 2 etX= (1In X2) : on a rajout´e un “vrai” pr´edicteur quantitatif (X2) `a la constante.

Le mod`ele d’analyse de variance `a un facteur `a deux niveaux Ce mod`ele s’´ecrit :

Yij+Ui,

lorsque la i-i`eme observation de Y est r´ealis´ee au niveau j (j = 1,2) du facteur (la variable explicative est ici qualitative `a deux modalit´es ; dans le contexte du mod`ele lin´eaire, on parle plutˆot defacteur`a deuxniveaux). En fait, chaque niveau du facteur est remplac´e par une variable indicatrice, de sorte quep= 2.

Matriciellement, ce mod`ele peut s’´ecrire

Y =Xβ+U,

Dans la matriceXci-dessus, lesn1premi`eres lignes sont (1 0) s’il y an1 observations r´ealis´ees au niveau 1 du facteur, les n2 suivantes ´etant (0 1) s’il y a n2 observations r´ealis´ees au niveau 2 du facteur (n1+n2=n).