• Aucun résultat trouvé

Le mod`ele lin´eaire g´en´eralis´e

2.5 Panorama sur le mod`ele linaire

2.5.3 Le mod`ele lin´eaire g´en´eralis´e

Il s’agit d’une extension du mod`ele linaire qui ne sera pas abord´ee dans ce cours. Pour m´emoire, indiquons qu’il s’agit toujours d’expliquer une variableY au moyen de pr´edicteursXj, en utilisant un ´echantillon de taillen, mais qu’il y a g´en´eralisation `a deux niveaux :

– chaque v.a.r.Yi de l’´echantillon est distribu´ee selon une mˆeme loi de lafamille exponentielle (normale, binomiale, Poisson, gamma...) ;

– la relation lin´eaire entre IE(Yi) et les pr´edicteursXj se fait au moyen d’une fonction parti-culi`ereg, monotone et d´erivable, appel´eefonction lien, de la fa¸con suivante :

g[IE(Yi)] =

p

X

i=1

βjXj.

Exemples

– Si l’on prend la loi normale comme loi de la famille exponentielle et la fonction identit´e comme fonction lien, on retrouve le mod`ele lin´eaire gaussien de base : le mod`ele lin´eaire g´en´eralis´e en constitue donc bien une g´en´eralisation.

– Si l’on suppose maintenantYi∼ B(ni, pi), qu’on mod´elise Yi

ni

et qu’on choisit la fonctionlogit comme fonction lien (g(x) = log( x

1−x), x∈]0,1[), on obtient la r´egression logistique : IE(Yi

ni

) =pi ; g(pi) = log( pi

1−pi

) =

p

X

j=1

βjxji.

Chapitre 3

L’analyse de variance univari´ ee

Le chapitre 3 est consacr´e aux plans factoriels. Il s’agit de l’appellation appropri´ee, bien qu’assez peu employ´ee, de l’analyse de variance, appel´ee par les anglo-saxons “ANalysis Of VAriance” et, pour cette raison, bien connue sous l’acronyme d’ANOVA.

L’ANOVA correspond `a un mod`ele lin´eaire gaussien dans lequel toutes les variables explicatives (lesXj) sont qualitatives. Dans ce contexte, elles sont appel´ees facteurs (d’o`u le terme de plans factoriels) et leurs modalit´es sont appel´ees niveaux. Ces niveaux sont suppos´es choisis, fix´es, par l’utilisateur, de sorte que l’on parle souvent defacteurs contrˆol´es. De son cˆot´e, la variable al´eatoire r´eponseY est toujours quantitative et suppos´ee gaussienne.

Seuls seront trait´es dans ce chapitre les cas de l’analyse de variance `a un facteur, `a deux facteurs crois´es et `a trois facteurs crois´es. Dans un dernier paragraphe, nous donnerons quelques indications sur les cas plus g´en´eraux dont certains seront ´etudi´es au chapitre 4.

Les r´ef´erences bibliographiques du chapitre 3 sont les mˆemes que celles du chapitre 2.

R´esum´e

Les probl`emes abord´es dans chacun des paragraphes de ce chapitre seront, `a chaque fois, les trois probl`emes cl´es du mod`ele lin´eaire gaussien : estimation ponctuelle, estimation par intervalle de confiance et tests. Ils seront trait´es dans cet ordre, en particulier parce qu’on a besoin de certaines estimations ponctuelles pour construire un intervalle de confiance et pour faire un test. Mais, dans la pratique, on commence en g´en´eral par faire diff´erents tests pour choisir le mod`ele le plus adapt´e aux donn´ees consid´er´ees, puis on d´etermine les estimations des param`etres dans le mod`ele ainsi choisi.

Les param`etres que l’on va utiliser en ANOVA vont repr´esenter des effets particuliers du mod`ele pris en compte : effet g´en´eral et effets principaux des niveaux du facteur dans un plan `a un seul facteur ; effet g´en´eral, effets principaux des niveaux de chaque facteur et effets d’interactions dans un plan `a deux facteurs... Ces diff´erents effets ne peuvent ˆetre pris en compte si on conserve le param´etrage standard du mod`ele lin´eaire (par exemple, dans un mod`ele `a deux facteurs,Yijk = βjk+Uijk). D’o`u la n´ecessit´e d’utiliser d’autres param´etrages. Il en existe plusieurs et nous en pr´esentons deux dans ce chapitre : le param´etrage dit centr´e, car il fait intervenir des param`etres centr´es, et le param´etrage SAS, utilis´e syst´ematiquement dans le logiciel SAS.

Ainsi, pour un plan `a deux facteurs crois´es, le param´etrage centr´e consiste `a poser : βjk = µ+α1j2kjk. Le param`etreµ repr´esente l’effet g´en´eral, les param`etres α1j et α2k les effets principaux des deux facteurs et les param`etresγjk les effets d’interactions. Les α1j sont centr´es selonj, lesα2k selonk et lesγjkselonj et selonk.

Le param´etrage SAS, tel qu’on le trouve en particulier dans la proc´edure GLM, consiste, de son cˆot´e, `a r´e´ecrire :βjk =m+a1j +a2k +cjk. Les param`etresm, a1j, a2k et cjk repr´esentent les mˆemes notions que celles pr´ecis´ees ci-dessus, mais ils sont d´efinis en se “callant” sur la derni`ere cellule, d’indice (J, K).

27

3.1 Cas d’un seul facteur

Lorsque n´ecessaire, le facteur consid´er´e sera not´eF; cette notation est certes la mˆeme que celle de la statistique du test de Fisher, mais, dans le contexte, il ne devrait pas y avoir de confusion ; de plus, la notation du facteur sera peu utilis´ee. Par ailleurs, le nombre des niveaux deF sera not´e J (J≥2) et l’indice du niveau courant not´ej (j = 1, . . . , J).

Pour chaque niveau j, on r´ealisenj observations ind´ependantes de la v.a.r. (quantitative) `a expliquerY (nj≥1), not´eesyij,i= 1, . . . , nj; on pose enfinn=PJ

j=1nj :nest le nombre total d’observations r´ealis´ees dans l’exp´erience.

Sinj=n0,∀j, j= 1, . . . , J, on dit que le plan est´equilibr´e; sinon, on parle de pland´es´ equili-br´e. Dans un plan ´equilibr´e, n0s’appelle le nombre de r´ep´etitions.

Remarque 9 On a utilis´e ci-dessus le terme de plan. C’est le terme utilis´e dans tout le contexte de l’ANOVA, o`u l’on parle de plan d’exp´eriences 1 ou de plan factoriel, voire, tout simplement, de plan. En fait, ce terme est d’origine industrielle et, dans un tel environnement, on parle ´egalement d’exp´erience planifi´ee, ce qui sous-entend, d’ailleurs, que les niveaux du (ou des) facteurs pris en compte sont totalement contrˆol´es (d’o`u le terme de facteur contrˆol´e).