• Aucun résultat trouvé

Le crit`ere B.I.C

Dans le document Le Mod` ele Lin´ eaire Gaussien G´ en´ eral (Page 170-174)

Ici, le crit`ere n’est pas une somme (entre un terme d’ajustement et un terme de p´enalit´e) mais un rapport (entre un terme d’erreur et son degr´e de libert´e). Dans le cadre du mod`ele lin´eaire g´en´eralis´e, la minimisation de la d´eviance relative est un crit`ere tr`es pertinent de choix de mod`ele.

D.3 Le crit` ere A.I.C.

A.I.C. signifieAkaike Information Criterion. Ce crit`ere a ´et´e d´efini dans Akaike (1974), et peut s’´ecrire sous la forme suivante :

AIC =−2 log(L) + 2k.

Dans cette expression, log d´esigne toujours le logarithme n´ep´erien etLla vraisemblance du mod`ele consid´er´e, tandis quekd´esigne le nombre de param`etres ind´ependants dans ce mod`ele.

Plus le mod`ele est complexe, pour bien s’ajuster aux donn´ees, plusLet log(L) sont grands, et donc plus le premier terme est petit ; mais, dans le mˆeme temps, plus le second est grand.

Introduit dans le cadre du mod`ele lin´eaire gaussien, ce crit`ere peut s’appliquer dans un cadre plus g´en´eral (et il en est de mˆeme pour le crit`ere B.I.C.).

D.4 Le crit` ere B.I.C.

B.I.C. signifieBayesian Information Criterion, ce crit`ere ayant ´et´e d´efini dans Schwarz (1978),

`

a partir d’une approche bay´esienne. Il peut s’´ecrire sous la forme suivante : BIC =−2 log(L) +klog(n).

Ici, nd´esigne le nombre d’observations consid´er´ees. On rencontre aussi ce crit`ere sous le nom de SC (Schwarz Criterion).

Remarque 84 On notera qu’on rencontre parfois, dans la litt´erature statistique, d’autres expres-sions pour ces crit`eres. Elles sont, bien sˆur, ´equivalentes lorsqu’on compare diff´erents mod`eles sur le mˆeme jeu de donn´ees (elles conduisent au choix du mˆeme mod`ele). Les expressions donn´ees ci-dessus ont l’avantage d’ˆetre simples `a retenir et d’ˆetre celles figurant dans le logiciel SAS.

Remarque 85 Lorsqu’il s’agit de choisir un mod`ele dans un cadre tr`es g´en´eral (hors du mod`ele lin´eaire gaussien ou du mod`ele lin´eaire g´en´eralis´e), si les deux crit`eres A.I.C. et B.I.C. s´electionnent le mˆeme mod`ele, c’est clairement celui qu’il faut choisir. En cas de contradiction, les choses sont assez d´elicates.

D.4. LE CRIT `ERE B.I.C. 171 Nous recommandons alors d’utiliser la minimisation duCpde Mallows si l’on est dans le mod`ele lin´eaire gaussien et celle de la d´eviance relative si l’on est dans le mod`ele lin´eaire g´en´eralis´e.

Dans un cadre plus g´en´eral, il est tr`es difficile de trancher. Notons toutefois que, d`es que log(n)>2(autrement dit, d`es que n≥8), la p´enalit´e est plus importante dans le crit`ere B.I.C., ce qui conduit `a choisir, selon ce crit`ere, un mod`ele plus parcimonieux qu’avec le crit`ere A.I.C.

Pour cette raison, on peut pr´ef´erer le mod`ele s´electionn´e par le crit`ere A.I.C. dans une optique descriptive (pour la description des donn´ees ´etudi´ees, on privil´egie la minimisation du biais) et celui s´electionn´e par le crit`ere B.I.C. dans une optique pr´evisionnelle (pour la pr´ediction deY sur des donn´ees sur lesquelles elle n’est pas observ´ee, on privil´egie la minimisation de la variance).

Mais, il ne s’agit l`a que d’indications g´en´erales.

Remarque 86 Il convient d’ˆetre prudent dans l’utilisation pratique des crit`eres A.I.C. et B.I.C.

En particulier, dans la proc´edureMIXEDde SAS,Ld´esigne la vraisemblance si l’on utilise le maxi-mum de vraisemblance pour estimer les param`etres et la vraisemblance restreinte si l’on utilise le maximum de cette derni`ere (m´ethode REML). Par ailleurs, toujours dans la proc´edureMIXEDde SAS avec la m´ethode REML, les deux crit`eres ci-dessus sont, en fait, d´efinis de la fa¸con suivante :

AIC =−2 log(REM L) + 2k0,

o`u k0 d´esigne le nombre de param`etres ind´ependants uniquement dans la structure de covariance du mod`ele (cela peut se comprendre, mais peut aussi conduire `a des confusions) ;

BIC =−2 log(REM L) +k0log(m),

o`u m d´esigne le nombre de niveaux du facteur `a effets al´eatoires (ce qui est plus difficile `a com-prendre !).

Enfin, dans les mod`eles pour donn´ees r´ep´et´ees sans facteur `a effets al´eatoire, SAS prend pour nle nombre de sujets (qui n’est pas le nombre total d’observations), ce qui est normal.

Remarque 87 Notons encore que la proc´edureMIXEDde SAS fournit syst´ematiquement un autre crit`ere de choix de mod`ele not´e A.I.C.C. (pourA.I.C. corrected). Nous d´econseillons d’utiliser ce crit`ere dont l’expression (y compris dans la documentation en ligne de SAS) n’est pas tr`es claire.

Remarque 88 En guise de conclusion, signalons que, dans la pratique, les crit`eres pr´esent´es ici sont souvent utilis´es non pas pour choisir un mod`ele parmi tous les mod`eles possibles (ce qui, d’un point de vue num´erique, devient inapplicable d`es que le nombre de variables explicatives est elev´e), mais pour choisir entre deux, trois ou quatre mod`eles concurrents, apr`es s´election au moyen des tests (par exemple, dans une d´emarche de type backward, forward ou stepwise). C’est cet usage, s´electif, des crit`eres de choix de mod`ele que nous pr´econisons.

Annexe E

Tests multidimensionnels pour donn´ ees r´ ep´ et´ ees

L’objet de cette annexe est de d´etailler les tests multidimensionnels r´ealis´es par la proc´edure GLM de SAS dans le traitement de donn´ees r´ep´et´ees. Nous allons illustrer tout ce qui suit au moyen d’un exemple (fictif ) de donn´ees r´ep´et´ees.

E.1 Les donn´ ees

Voici ces donn´ees : 1 10 15 18 24

1 12 14 15 18 1 14 18 20 24 1 13 15 19 21 1 11 13 16 19 2 21 30 42 50 2 24 36 45 56 2 23 27 30 35 2 26 35 38 45 2 29 38 49 57 2 28 38 45 54 3 50 53 57 59 3 51 54 58 60 3 54 58 62 68 3 50 51 54 57 3 53 54 57 63 3 51 54 55 56 3 52 53 56 58

En premi`ere colonne figure un unique facteur, not´eF, `a trois niveaux, not´es 1, 2 et 3. Le facteur F est suppos´e `a effets fixes. Les tests que nous allons d´etailler concernant les effets fixes, nous avons, pour simplifier, consid´er´e un mod`ele `a effets fixes avec un unique facteur. Par contre, certains r´esultats ´etant un peu particuliers si le facteur ne comporte que deux niveaux, nous avons consid´er´e un facteur `a trois niveaux. De plus, nous avons volontairement consid´er´e un plan d´es´equilibr´e, afin d’avoir les r´esultats les plus g´en´eraux possible. Ainsi, les donn´ees comportent respectivement 5, 6 et 7 observations dans les trois niveaux deF, soit un ´echantillon de 18 observations (18 lignes dans le fichier ci-dessus).

Il y a ensuite, dans les quatre colonnes suivantes du fichier, une variable r´eponseY observ´ee `a quatre instants diff´erents (ces variables seront par la suite not´eesY1,Y2,Y3 etY4).

173

E.2 Traitement avec la commande repeated de la proc´ edure

Dans le document Le Mod` ele Lin´ eaire Gaussien G´ en´ eral (Page 170-174)