• Aucun résultat trouvé

D`es l’introduction de ce chapitre, nous avons indiqu´e que les dispositifs exp´erimentaux permet-tant de r´epondre `a des situations concr`etes particuli`eres sont extrˆemement nombreux et que nous nous sommes volontairement content´es ici de pr´esenter les plus courants. Nous signalons ci-dessous quelques-uns des autres dispositifs ´egalement courants.

Tout d’abord, de fa¸con analogue `a ce qui a ´et´e d´evelopp´e pour des facteurs `a deux niveaux, on peut consid´erer des plans incomplets, ´equilibr´es et orthogonaux pour plusieurs facteurs `a trois niveaux. Il existe encore des tables permettant de construire les dispositifs exp´erimentaux corres-pondant. Ainsi, la tableL9permet d’´etudier jusqu’`a 3 facteurs `a trois niveaux (et mˆeme 4, si l’on n’estime pasσ2 et qu’on ne fait pas de tests) avec seulement 9 observations. La tableL18 permet d’´etudier jusqu’`a 8 facteurs `a trois niveaux avec 18 observations. La tableL27permet d’´etudier jus-qu’`a 12 facteurs `a trois niveaux (´eventuellement 13), avec 27 observations... De la mˆeme mani`ere, il existe des dispositifs permettant d’´etudier simultan´ement plusieurs facteurs `a deux niveaux et plusieurs facteurs `a trois niveaux.

Un autre dispositif courant dans la pratique est le plan dit en cross-over. Dans sa version la plus simple, ce dispositif consiste `a ´etudier un facteur `a deux niveaux (par exemple, traitement et plac´ebo) en deux p´eriodes. Dans la premi`ere p´eriode, une partie de l’´echantillon consid´er´e re¸coit le traitement, l’autre partie recevant le placebo. Dans la deuxi`eme p´eriode, les rˆoles sont invers´es (autrement dit crois´es, d’o`u le terme de cross-over). Comme dans le cas des blocs, on r´eduit ainsi la variabilit´e r´esiduelle, ce qui permet d’am´eliorer l’efficacit´e du dispositif.

Pour m´emoire, signalons encore d’autre dispositifs : les planssplit plot, ou en parcelles divis´ees, les plans Taguchi, les surfaces de r´eponses... Pour plus de d´etails sur ces dispositifs, on se reportera, par exemple, `a Aza¨ıs & Bardet (2005), `a Droesbekeet al.(1997), `a John (1998) ou `a Saporta (2006).

Chapitre 5

L’analyse de variance multivari´ ee

Le mod`ele lin´eaire gaussien standard a pour objectif de mod´eliser la d´ependance (suppos´ee lin´eaire) d’une variable al´eatoire r´eelle (Y) par rapport soit `a d’autres variables quantitatives contrˆol´ees (cas de la r´egression), soit `a des facteurs (cas de l’analyse de variance), soit `a un m´elange des deux (cas de l’analyse de covariance). Ce mod`ele s’´etend sans difficult´e majeure au cas o`u la r´eponse n’est pas unidimensionnelle, mais multidimensionnelle : la variable al´eatoire r´eelleY est alors remplac´ee par un vecteur al´eatoire.

Dans ce cours, nous avons d´ej`a repris et d´evelopp´e les m´ethodes d’analyse de la variance ; par contre, nous ne sommes revenus ni sur les m´ethodes de r´egression ni sur les m´ethodes d’analyse de la covariance. De la mˆeme mani`ere, dans le cadre du mod`ele lin´eaire gaussien multivari´e, nous d´etaillerons uniquement la g´en´eralisation de l’analyse de variance. Pour la r´egression et l’analyse de covariance, le passage au cas multidimensionnel se fait de la mˆeme fa¸con. En particulier, on trouve les mˆemes tests que ceux pr´esent´es ici.

Concernant la bibliographie, l’ouvrage de r´ef´erence pour ce chapitre est celui de Seber (1984).

On peut ´egalement indiquer l’ouvrage de Anderson (2003) et celui de Rencher (1995).

R´esum´e

Le chapitre 5 est donc consacr´e aux plans factoriels avec r´eponse multidimensionnelle, autre-ment dit `a l’analyse de variance multivari´ee (ou multidimensionnelle), encore appel´ee MANOVA (acronyme pourMultivariate ANalysis Of VAriance). Seuls seront trait´es dans ce chapitre les cas de un facteur et de deux facteurs crois´es. Dans ce contexte, nous n’aborderons pas la g´en´eralisation des intervalles de confiance et nous nous consacrerons seulement `a l’estimation ponctuelle des pa-ram`etres et aux tests d’hypoth`eses.

Pour ce qui est de l’estimation ponctuelle des param`etres, les principes et les r´esultats sont de mˆeme nature que ceux vus dans le cas unidimensionnel. Toutefois, la m´ethode du maximum de vraisemblance se trouve compliqu´ee par le fait que chaque observation est maintenant la r´ealisation d’une loi gaussienne multidimensionnelle, ce qui alourdit l’´ecriture de la vraisemblance et n´ecessite des d´erivations matricielles. Par ailleurs, l’expression des param`etres est maintenant matricielle et non plus vectorielle. Ainsi, si nous notonsDla dimension du vecteur al´eatoire r´eponseY (D≥2), on retrouve l’expression habituelle des estimateurs des param`etres

βˆ= (X0X)−1X0Y,

dans laquelleYest maintenant une matricen×D, de sorte que ˆβ est une matricep×D (nest le nombre total d’observations etpest le nombre de colonnes deX :J dans le cas d’un seul facteur, JK dans le cas de deux facteurs crois´es, etc.).

La loi normale centr´ee unidimensionnelle prise jusqu’`a pr´esent comme mod`ele pour les erreurs avait pour varianceσ2. Cette variance est ici remplac´ee par une matrice de variances-covariances Σ, D×D, pour la loi normale centr´ee, multidimensionnelle d’ordre D, des erreurs. Si on pose Yˆ = Xβˆ(matrice n×D des valeurs pr´edites) et ˆU = Y−Yˆ (matrice n×D des r´esidus), la

67

matriceΣest estim´ee par 1

n−pUˆ0U, o`ˆ u ˆU0Uˆ est distribu´ee selon une loi de Wishart, g´en´eralisation multidimensionnelle de la loi de khi-deux.

Pour ce qui est des tests, le test de Fisher, permettant de tester diff´erentes hypoth`eses nulles en ANOVA unidimensionnelle, est maintenant remplac´e par plusieurs tests (quatre dans SAS) dont les statistiques sont calcul´ees `a partir des valeurs propres des deux matrices rempla¸cant num´erateur et d´enominateur de la statistique de Fisher. Les tests fournis par SAS sont les tests de Wilks, de Lawley-Hotelling, de Pillai et de Roy. Dans les cas simples, ils sont tous les quatre ´equivalents.

Dans les autres cas, les trois premiers sont voisins et tr`es rarement contradictoires. Par contre, le quatri`eme est moins pr´ecis et est d´econseill´e. S’il faut en privil´egier un, nous recommandons plus particuli`erement le test de Wilks.

C’est encore la proc´edure GLM de SAS qui est utilis´ee pour mettre en œuvre la MANOVA.

Dans tout ce chapitre, l’objectif est de mod´eliser un vecteur al´eatoireY de IRD(D∈IN,D≥2) au moyen d’une loi gaussienne sur IRD.

5.1 Ecriture du mod` ´ ele ` a un seul facteur

5.1.1 Les donn´ ees

– On consid`ere ici un unique facteur, encore not´eF, poss´edantJ niveaux (J ≥2), indic´es par j (j= 1, . . . , J).

– Pour chaque niveaujdeF, on r´ealisenjobservations du vecteur al´eatoireY de IRD(nj≥1) ; on pose n=PJ

j=1nj.

– On noteYij le vecteur al´eatoire associ´e `a la i-i`eme observation r´ealis´ee au niveauj de F : Yij ∈IRD.

L’objectif de la MANOVA est d’´etudier l’infuence des niveaux du facteurF sur les valeurs du vecteur r´eponseY. Cette influence va ˆetre ´etudi´ee globalement, dans IRD, d’o`u la n´ecessit´e d’avoir recours `a des techniques multidimensionnelles, diff´erentes de celles vue en ANOVA.

Remarque 41 Paral`ellement `a la MANOVA, il est habituel de faire une ANOVA pour chacune des D composantes du vecteurY (le logiciel SAS le fait automatiquement). C’est un compl´ement int´eressant pour la MANOVA, mais cela ne la remplace pas. En particulier, les tests `a regarder pour le choix d’un mod`ele adapt´e `a un jeu de donn´ees sont les tests multidimensionnels.

5.1.2 Le mod` ele

Ecriture initiale´

Pour chaque exp´erience (i, j) (i-i`eme observation r´ealis´ee au niveauj deF), on ´ecrit le vecteur al´eatoire r´eponseYij de IRD sous la forme :

Yijj+Uij.

Attention, les trois ´el´ements de cette ´ecriture doivent ˆetre vus comme desvecteurs-lignesde IRD, comme pr´ecis´e ci-dessous.

– Le vecteur βj = (βj1· · ·βdj· · ·βjD) est un param`etre `a estimer ; il mod´elise la valeur de la r´eponseY au niveauj deF.

– Le termeUij= (Uij1· · ·UijD) est le vecteur al´eatoire des erreurs. On suppose que lesUij sont i.i.d., de loiND(0D,Σ), o`uΣest une matrice sym´etrique et strictement d´efinie-positive ; on doit ´egalement estimerΣ. On notera queΣne d´epend pas dej, autrement dit on est toujours dans le cadre d’un mod`ele homosc´edastique.

– Les vecteurs al´eatoiresYij sont donc ind´ependants, de loiNDj0,Σ).

5.2. ESTIMATION DES PARAM `ETRES DU MOD `ELE `A UN FACTEUR 69

L’ensemble desnD observations r´ealis´ees peut se mettre sous la forme matricielle suivante : Y=Xβ+U.

– Dans l’´ecriture ci-dessus, X et β sont des matrices r´eelles (non al´eatoires) de dimensions respectives n×J et J×D.

– Comme dans le cas unidimensionnel, les colonnes de la matrice d’incidence Xsont les indi-catricesZj des niveaux du facteurF, de sorte que Xne comporte que des 0 et des 1.

– Les termes Yet U sont des matrices al´eatoires de dimensionn×D. Elles sont gaussiennes et v´erifient :

IE(U) =0n×D ; IE(Y) =Xβ ; Var(U) = Var(Y) =In⊗Σ.

Dans cette derni`ere ´ecriture,In d´esigne la matrice identit´e d’ordrenet ⊗le produit matriciel direct, ou produit de Kronecker. En fait, on a

In⊗Σ=

o`u chacun desn2termes de cette matrice est lui-mˆeme une matrice (un bloc matriciel), de dimension D×D. La matriceIn⊗Σest donc carr´ee d’ordrenD.

Param´etrage centr´e

Comme dans le cas unidimensionnel, ce param´etrage consiste `a d´ecomposer chaque vecteur-ligne βj sous la forme :

Le param`etreµest l’effet (moyen) g´en´eral et le param`etreαj est l’effet principal (ou diff´erentiel) du niveauj deF. Ces deux param`etres sont des vecteurs de IRD et on notera que l’on a encore PJ

j=1αj = 0D. Param´etrage SAS

Pour ce param´etrage, on posem=βJetajj−βJ(de sorte que, encore une fois,aJ = 0D).

Les param`etresmetaj sont ´egalement des vecteurs de IRD.

5.2 Estimation des param` etres du mod` ele ` a un facteur

5.2.1 Vraisemblance et log-vraisemblance

La vraisemblance de l’´echantillon desyij s’´ecrit L(yij, β,Σ) =