• Aucun résultat trouvé

(1)TD DE MOD`ELES LIN´EAIRES I - S´erie 6 M´ethodes d’analyse de la variance

N/A
N/A
Protected

Academic year: 2022

Partager "(1)TD DE MOD`ELES LIN´EAIRES I - S´erie 6 M´ethodes d’analyse de la variance"

Copied!
4
0
0

Texte intégral

(1)

TD DE MOD`ELES LIN´EAIRES I - S´erie 6

M´ethodes d’analyse de la variance.

Partie 1

On dispose dek n-´echantillons (Xi1, ..., Xin),i= 1, ..., k, lesn-´echantillons ´etant ind´ependants les uns des autres. Pour l’´echantillon i = 1, ..., k, les variables Xi1, ..., Xin ∼ N(mi, σ2).

On veut tester l’homog´en´eit´e des moyennes :

H0 : m1 =...=mk contre H1 : ∃i, j, mi 6=mj. On utilise les notations suivantes :

- pour la moyenne empirique : ¯X = nk1 Pk i=1

Pn j=1Xij,

- dans l’´echantillon i = 1, ..., k, la moyenne empirique des variables est not´ee ¯Xi. =

1 n

Pn j=1Xij,

- pour la variabilit´e totale de l’´echantillon : (nk−1)S2 =Pk i=1

Pn

j=1(Xij −X)¯ 2. La variabilit´e intra-groupe est Pk

i=1

Pn

j=1(Xij −X¯i.)2 et la variabilit´e inter-groupe est nPk

i=1( ¯Xi.−X)¯ 2.

Question 1. Montrer que la variabilit´e de l’´echantillon s’´ecrit comme la somme des variabilit´es intra et inter-groupes.

Question 2. Consid´erons les vecteurs

X = (X11, ..., X1n, ..., Xk1, ..., Xkn), Y = ( ¯X1., ...,X¯1., ...,X¯k., ...,X¯k.).

Montrer que Y est la projection orthogonale de X sur le sous espace vectoriel E (de IRnk) de dimension k engendr´e par les vecteurs

V1 = (1, ...,1,0, ...,0,0, ...,0), ...

Vk = (0, ...,0,0, ...,0,1, ...,1).

Question 3. Soit la statistique Z = nPk

i=1( ¯Xi.−X)¯ 2 Pk

i=1

Pn

j=1(Xij −X¯i.)2. D´emontrer que sous l’hypoth`eseH0, la v.a. nk−k

k−1 Zsuit une loi de FisherF(k−1, nk−k).

On pensera `a utiliser le th´eor`eme des 3 perpendiculaires et `a conclure avec Cochran.

Question 4. Application num´erique. On a relev´e les scores des ´etudiants de 4 ´ecoles un concours. Comparer les performances des ´ecoles.

(2)

Est-ce que les diff´erences observ´ees sont significatives au risque 5 % ? Comparer deux-`a- deux les ´echantillons.

E1 E2 E3 E4

73 84 69 65

57 95 80 58

95 96 73 82

78 62 62 86

86 80 50 35

61 87 71 52

80 100 84 70

98 74 66 79

64 85 52 43

78 77 73 60

1.= 77,X¯2. = 84,X¯3.= 68,X¯4.= 63.

Partie 2 - Cadre g´en´eral de l’analyse de la variance

Soit X =m+Y o`um ∈RN,m = (m1, . . . , mN) et Y un ´echantillon de N(0, σ2).

Soit E un s.e.v. de RN de dimension k, k ≤ N, tel que m ∈ E. Soit H un sous espace vectoriel de E avecdim(H) =r(≤k).

On veut tester (probl`eme g´en´eral de l’analyse de la variance) : H0 :m ∈H contre H1 : m /∈H.

Question 1. Montrer que la partie 1 est un cas particulier.

Th´eor`eme 1 Soient XE la projection orthogonale de X sur E et XH la projection or- thogonale de X sur H.

– La v.a. Z =

kXE−XHk2 k−r

kX−XEk2 N −k

= N−kk−r kXE −XHk2

kX−XEk2 suit une loi de Fischer d´ecentr´ee F

k−r, N −k,km−mσ2Hk2

o`u mH est la projection orthogonale de m sur H.

– Sous H0, Z ∼F(k−r, N −k).

Corollaire (Test de l’analyse de la variance) Etant donn´e le risque d’erreur de premi`ere esp`eceα, on rejetteH0 au profit deH1 siZ > F(k−r, N−k;α), o`uF(k−r, N −k;α) est le quantile sup´erieur d’ordre α d’une loi de Fisher F(k−r, N −k).

Question 2. D´emontrer le th´eor`eme.

Analyse de la variance `a deux facteurs.

(3)

Le probl`eme qui se pose fr´equemment en agronomie est l’utilisation de certains engrais suivant la nature du terrain. Par exemple 5 engrais A, B, C, D, E peuvent ˆetre utilis´es sur 4 natures de sols 1, 2, 3, 4. On dispose de 4 champs correspondant `a ces 4 compositions respectives. Chaque champs a ´et´e subdivis´e en 5 parcelles ´egales sur lesquelles on a affect´e les engrais A, B, C, D, E (par tirage au sort pour diminuer les erreurs syst´ematiques).

Les rendements en bl´e d´ependent alors de deux facteurs : nature du sol et type d’engrais.

On a observ´e les r´esultats suivants

A B C D E

1 310 353 366 299 367

2 284 293 335 264 314

3 307 306 339 311 377

4 267 308 312 266 342

On veut pouvoir ´etudier si les r´esultats obtenus sont ´equivalents (i.e. si les diff´erences observ´ees sont dues au hasard) o`u si l’influence d’un engrais ou d’une nature de sol est pr´epond´erante. On peut formaliser le probl`eme de la mani`ere suivante.

SoitXij le rendement du sol i muni de l’engrais j. On suppose queXij suit la loiN(mij, σ2) avec mij de la forme

mij =m+αij, avec Pk

i=1αi = 0 et Pn

j=1βj = 0. Ceci revient `a dire que 1kPk

i=1mij = m + βj et

1 n

Pn

j=1mij =m+αi.

Concr`etement. αi et βj traduisent les effets respectifs des deux facteurs i et j sur la moyenne mij de la v.a. Xij.

Probl`emes. Si on veut tester si la nature des sols n’a pas d’influence sur le rendement, on testera l’hypoth`ese H0= ”tous les αi sont nuls” contre H1 = ”les αi ne sont pas tous nuls”, c’est le premier test.

Pour tester l’influence des engrais, on prendra l’hypoth`ese H00= ”tous les βj sont nuls”

contre H10 = ”les βj ne sont pas tous nuls”.

Mod´elisation. On note X = (X11, X12, X13, ..., X21, X22, ..., Xk1, ..., Xkn)0 ∈Rkn et M = (m11, m12, ..., m1n, m21, m22, ..., mk1, ..., mkn)0.

Question 3-a.Expliciter le vecteur des moyennesM, donner la dimension du sous-espace vectoriel d´efini par ce vecteur. D´efinir H et donner sa dimension lorsqu’on teste H0 contre H1.

Pour appliquer le test de l’analyse de la variance pour tester H0 contre H1 il faut donc calculer

||X−XE ||2 et||XE −XH ||2,

i.e. d´eterminer XE etXH. Pour cela, on posera, pour i= 1, . . . , k et j = 1, . . . , n :

(4)

i.= 1 n

n

X

j=1

Xij, X¯.j = 1 k

k

X

i=1

Xij, X¯ = 1 nk

k

X

i=1 n

X

j=1

Xij.

Question 3-b. D´emontrer les ´egalit´es suivantes, pour i= 1, . . . , k etj = 1, . . . , n : (XE)ij = X+¯

i.−X¯

+

.j−X¯

,

et (XH)ij = X+¯

.j−X¯ .

Question 3-c. D´emontrer que Z =

||XE−XH||2 dimE−dimH

||X−XE||2 dimIRN−dimE

= n(n−1)Pk

i=1( ¯Xi.−X)¯ 2 Pk

i=1

Pn

j=1(Xij −X¯i.−X¯.j+ ¯X)2. Question 3-d. Application num´erique.

Question 3-e. Faire la mˆeme chose pour tester H00 contre H10.

Références

Documents relatifs

Calculer l’esp´ erance et la variance de Y..

Le tableau qui suit présente dans la partie gauche une section de la matrice initiale (543 communes dans les Pyrénées-Atlantiques) et, à droite, un tableau récapitulatif par

Dans cette exp´ erience, on utilise vingt sujets r´ epartis en quatre groupes.. R` egle de d´ ecision : d´ etermination des zones d’acceptation et de rejet de H 0. η peut en effet

Les données qui y sont saisies sont celles de l'énoncé 30 de la fiche de TD de Statistiques. Le plan d'expériences utilisé par King est du type S8<A3>*B6. Avec les

En statistique, cette relation est ` a la base des mod` eles dits lin´ eaires, o` u une variable r´ eponse se d´ efinit comme une somme de variables explicatives o` u chacune de

Montrer que l’´ equation diff´ erentielle X 0 = AX est stable si et seulement si toutes les solutions de ce type sont born´ ees sur [0, +∞[.. En d´ eduire une condition n´

MASTER 1 SIDE Pˆ ole Lamartine - ULCO INFORMATIQUE ET MOD` ELES LIN´ EAIRES Novembre 2010 - Contrˆ ole Continu, Semestre 1 Dur´ee de l’´epreuve : 2h00 Documents

[r]