• Aucun résultat trouvé

Quelle philosophie suivre ?

Dans le document Le Mod` ele Lin´ eaire Gaussien G´ en´ eral (Page 165-170)

B.5 Quelle philosophie suivre ?

A l’issue de cette ´etude, on peut l´egitimement se poser la question : quelles sommes de carr´es` utiliser ? On se doute que la r´eponse n’est pas univoque et qu’elle est li´ee `a la fois au type de donn´ees dont on dispose et `a la philosophie que l’on souhaite suivre.

Tout d’abord, nous laisserons de cˆot´e les sommes de type IV qui ne concernent que les plans incomplets et d´es´equilibr´es que nous n’avons pas envisag´es ici (encore faut-il signaler que le type IV est parfois critiqu´e dans le contexte des plans incomplets d´es´equilibr´es).

Ensuite, les sommes de type I sont sp´ecifiques des mod`eles dans lesquels il existe un ordre naturel entre les facteurs. Pour des donn´ees de ce type, ce sont bien sˆur ces sommes qu’il faut consid´erer. Dans les autres cas, il n’est pas courant de les utiliser (mˆeme si elles ont de bonnes propri´et´es, comme on l’a signal´e).

Remarque 82 Il convient de ne pas confondre ce qu’on a appel´e ici “ordre” entre les facteurs (on consid`ere que l’un est plus important que l’autre, les interactions ayant n´ecessairement un moindre niveau d’importance) et ce qu’on appelle habituellement facteur hi´erarchis´e(la d´efinition des niveaux du facteur hi´erarchis´e d´epend du niveau de l’autre facteur dans lequel on se trouve ; de tels facteurs sont aussi ordonn´es, mais de fa¸con plus “structurelle”). Dans la proc´edureGLMde SAS, il est possible de faire un traitement sp´ecifique pour des facteurs dont l’un est hi´erarchis´e `a l’autre. C’est d’ailleurs dans ce contexte que les sommes de type I prennent tout leur sens.

Reste donc le choix entre les sommes de type II et de type III pour les cas standards, mais d´es´equilibr´es. Il est `a noter que ce choix ne se pose que dans le cadre des mod`eles avec interactions, les deux types ´etant ´equivalents pour les mod`eles additifs. D’une fa¸con g´en´erale, il est pr´econis´e d’utiliser les sommes de type III de pr´ef´erence `a celles de type II. En particulier, on remarquera que SAS ne fournit par d´efaut que les sommes de type I et de type III.

Terminons cette discussion par la remarque ci-dessous dans laquelle on va pr´eciser un peu plus les choses.

Remarque 83 La discussion sur le choix des sommes de carr´es `a utiliser dans la pratique est l’occasion de revenir sur la pratique des tests relatifs aux diff´erents effets dans un mod`ele complexe comme une ANOVA `a au moins deux facteurs. Consid´erons encore, pour simplifier, une ANOVA

`

a deux facteurs crois´es.

On peut pr´econiser la d´emarche consistant `a tester en premier lieu les interactions, puis `a passer au mod`ele additif si elles ne sont pas significatives. Cette d´emarche, assez naturelle, n’est pas la seule utilis´ee dans la pratique statistique. De plus, elle a le d´efaut suivant : elle conduit, lors des tests des effets principaux de chacun des deux facteurs, `a prendre en compte dans le num´erateur de l’estimateur de la variance (donc dans le d´enominateur de la statistique de Fisher) les sommes de carr´es, certes faibles mais non nulles, relatives aux interactions. Cela peut conduire `a un biais dans la statistique de Fisher, donc dans la d´ecision relative aux effets principaux.

D’o`u une autre d´emarche, tout aussi courante, qui consiste `a tester chaque facteur au sein du mod`ele complet (avec interactions) et qu’on appelle souvent“non pooling”, autrement dit non regroupement (des sommes de carr´es des diff´erents effets dans le num´erateur de l’estimateur de la variance). Dans ce contexte, les sommes de type II ne sont pas justifi´ees (en fait, il n’y a pas de contexte dans lequel elles soient r´eellement justifi´ees).

Dans la pratique, on peut envisager de mener en parall`ele les deux d´emarches ci-dessus. Lors-qu’elles conduisent `a la mˆeme d´ecision, il n’y a pas de probl`eme. En cas de d´ecisions contradictoires, il convient d’ˆetre tr`es prudent et d’´etudier en d´etails les deux mod`eles en pr´esence, en particulier en utilisant les crit`eres de choix de mod`ele (voir l’Annexe D).

En guise de conclusion g´en´erale,nous pr´econisons d’utiliser syst´ematiquement les som-mes de type III. S’il existe un ordre entre les facteurs, notamment dans le cas de facteurs hi´erarchis´es, on devra aussi consid´erer les sommes de type I, voire les privil´egier en cas de contra-diction dans les d´ecisions issues des tests. Si on est en pr´esence d’un plan incomplet et d´es´equilibr´e, on devra consid´erer, en plus des sommes de type III, les sommes de type IV. Enfin, les sommes de type II sont d´econseill´ees dans tous les cas.

Annexe C

Un exercice sur les carr´ es latins

On propose, dans cette annexe, un exercice sur les carr´es latins sous forme de jeu math´ematique.

Le quotidien “Le Monde” publie chaque semaine diff´erents jeux dont un jeu math´ematique intitul´e affaire de logique. Nous reproduisons, `a la page suivante, le probl`eme num´ero 533, paru dans l’´edition dat´ee du 22 mai 2007, ainsi que sa solution parue une semaine plus tard. Ce jeu est, en fait, un exercice int´eressant sur les carr´es latins.

167

Fig.C.1 –Extraits du Monde des 22/05 et 29/05 2007.

Annexe D

Indications sur les crit` eres de choix de mod` ele

Les crit`eres de choix de mod`ele sont assez utilis´es dans la pratique statistique et permettent de choisir entre plusieurs mod`eles concurrents lors de la mod´elisation d’un jeu de donn´ees. Nous pr´esentons ici les quatre principaux.

La litt´erature statistique fournit de nombreux crit`eres de choix de mod`ele. La plupart d’entre eux ont ´et´e d´efinis dans le cadre du mod`ele lin´eaire gaussien et, plus particuli`erement, dans celui de la r´egression lin´eaire. Toutefois, leur champ d’application est souvent plus large. Leur principe g´en´eral est de minimiser une somme de deux termes :

– le premier terme est d’autant plus petit que le mod`ele s’ajuste bien aux donn´ees ; `a la limite, le mod`ele satur´e serait le meilleur au sens de ce seul premier terme (rappelons qu’un mod`ele satur´e comporte autant de param`etres que d’observations et s’ajuste ainsi parfaitement aux donn´ees) ; toutefois, sauf cas particulier, un tel mod`ele n’a aucun int´erˆet pratique ;

– le second terme est fonction du nombre total de param`etres du mod`ele et p´enalise ainsi les mod`eles surajust´es aux donn´ees (comme le mod`ele satur´e) ; on l’appelle le terme de p´enalit´e ;

`

a la limite, c’est au contraire le mod`ele constant qui serait le meilleur au sens de ce seul second crit`ere.

Ces crit`eres proposent donc un ´equilibre entre le surajustement (entraˆınant un faible biais du mod`ele, par rapport aux donn´ees ´etudi´ees, mais une forte variance, par rapport `a son application `a d’autres donn´ees), et la simplicit´e (entraˆınant une faible variance, mais un fort biais). Parmi tous les mod`eles possibles, celui qui minimise le crit`ere choisi est celui qui r´ealise le meilleur ´equilibre entre les deux objectifs ci-dessus.

Le cheminement th´eorique conduisant `a ces crit`eres est en g´en´eral assez complexe et leur formule finale est obtenue apr`es diverses approximations et simplifications (pour plus de d´etails, nous renvoyons `a l’ouvrage de J.M. Aza¨ıs & J.M. Bardet, 2005). Nous donnons ci-dessous les quatre principaux crit`eres sous une forme simplifi´ee, telle qu’on les trouve, par exemple, dans le logiciel SAS.

D.1 Le C

p

de Mallows

Il a ´et´e d´efini dans Mallows (1973), dans le contexte de la r´egression. Il s’applique `a tout mod`ele lin´eaire gaussien.

Pour un jeu de donn´ees de taillen et comportant au totalq variables explicatives (ou r´egres-seurs, ou variables ind´ependantes), le coefficientCp associ´e `a un mod`ele comportant seulement p r´egresseurs parmi lesq(1≤p≤q) est d´efini par :

Cp =SSEp

ˆ

σ2 + 2p−n= (n−q)SSEp

SSE + 2p−n.

Dans ces expressions,SSEd´esigne la somme des carr´es relative aux erreurs dans le mod`ele complet 169

(avec lesq r´egresseurs),SSEp la somme analogue dans la mod`ele avec seulementpr´egresseurs et ˆ

σ2l’estimation de la variance de la loi gaussienne dans le mod`ele complet. On a donc : ˆσ2= SSE n−q. Ainsi, plus on met de r´egresseurs dans le mod`ele, plus son erreur (SSEp) diminue (donc plus diminue le terme d’ajustement aux donn´ees SSEp

ˆ

σ2 ), mais plus le terme de p´enalit´e (2p) augmente.

On notera que le terme −n n’a aucune influence sur le mod`ele choisi et pourrait ˆetre supprim´e.

On notera encore que, dans le mod`ele complet,Cp=Cq=q.

Dans une analyse de variance,pdoit ˆetre remplac´e par le nombre de param`etres ind´ependants du mod`ele consid´er´e (en dehors de la varianceσ2).

Dans le document Le Mod` ele Lin´ eaire Gaussien G´ en´ eral (Page 165-170)