• Aucun résultat trouvé

- Test t de Student - Intervalle de confiance

N/A
N/A
Protected

Academic year: 2022

Partager "- Test t de Student - Intervalle de confiance"

Copied!
11
0
0

Texte intégral

(1)

1

Chapitre 2 Expériences comparatives avec un facteur

• Problématique

• 1 facteur à 2 modalités ( niveaux ) - Test d’hypothèse

- Test t de Student - Intervalle de confiance

• 1 facteur à 3 modalités et plus - Modèle d’analyse de variance

- Décomposition variabilité : ANOVA - Test F de Fisher

- Analyse des résidus

- Comparaisons a posteriori - Nombre de répétitions

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada

Chapitre 2

Exemples de problématique

Exemple 2.1- procédé de gravure chimique (« wet etching ») enlèvement du silicium sur des « wafers » avant métallisation variable de réponse Y : taux d’enlèvement du procédé

comparaison efficacité de 2 solutions (facteur)

données : taux d’enlèvement sur 10 « wafers » chaque solution solution 1 : 9.9 10.6 9.4 10.3 9.3 10.0 9.6 10.3 10.2 10.1 solution 2 : 10.2 10.0 10.6 10.2 10.7 10.7 10.4 10.4 10.5 10.3

différence significative ?

Exemple 2.2 - effet du flux du C2F6 sur l’uniformité gravure « wafer »

variable de réponse Y : uniformité ( % ) tranches (« wafer ») de silicium 1 facteur à 3 modalités: taux du C2F6 - modalités (niveaux) : 125 -160-200

flux Y uniformité

125 2.7 4.6 2.6 3.0 3.2 3.8 160 4.9 4.6 5.0 4.2 3.6 4.2 200 4.6 3.4 2.9 3.5 4.1 5.1

différences significatives ? si oui, lesquelles ?

(2)

3

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada

Chapitre 2

Méthodes d’analyse

Ex 2.1 Test t de Student

cadre pour des expériences de comparaison simple : 1 facteur variant à 2 modalités

utilisé dans tous les plans expérimentaux avec : plusieurs facteurs variant à 2 modalités Ex 2.2 ANOVA ANALYSIS OF VARIANCE

analyse de la variance

- 1 facteur avec k ( 3 et plus ) modalités - aussi avec plusieurs (2 et plus) facteurs - test t ne s’applique pas directement

- méthode d’analyse : ANOVA

- décomposition de la variabilité selon les sources - méthode d’analyse fondamentale employée

dans toutes les expériences industrielles / scientifiques

-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26

U -0.02

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14

GAUSS

-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26

U -0.02

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14

GAUSS

Y ~ N (µ1, σ2 ) Y ~ N(µ2, σ2)

σ σ

µ1 µ2

y1= y1i / n1 moyennes y2= y2i/ n2

S12 =

(y1i y1)2

/

( n1 - 1 ) variances S22 =

(y2iy2)2/( n2 - 1 )

1 facteur à 2 niveaux : test t Student (1 / 6 )

niveau 1 facteur A niveau 2

y11 y12… y1 n1 échantillon y21 y22 … y2 n2 Hypothèse nulle H0:µ1 = µ2

Hyp. alternative H1 :µ1 µ2

σ2 = [ (n1– 1) s12+ (n21) s22 ] / (n1+ n2- 2) estimation erreur expérimentaleσ décision basée sur écart y1 - y2

facteur A affecte t-il la variable de réponse Y ?

Y Y

(3)

5

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada

Chapitre 2

test de comparaison effet du facteur A différence des moyennes

écart type (différences des moyennes )

Statistique t de Student

y1 – y2

σ [ 1/n1 + 1/n2 ] 0.5

loi Student avec df = n1+ n2- 2 degrés de liberté

t =

t =

t « près de zéro » supporte

H0: pas de différence c-à-d facteur n’affecte pas Y t « très différente de zéro » supporte

H1 : le facteur A affecte la moyenne de Y t est un rapport signal / bruit

t distance entre les moyennes en unités d’écart types

1 facteur à 2 niveaux : test t Student (2 / 6 )

procédure objective pour décider si t est « grand »

En 1908, W. S. Gosset ( pseudonyme Student ) obtient la distribution t appelé « Student »

Tables

logiciel statistique

« p-value »

1 facteur à 2 niveaux : test t Student (3 / 6 )

distribution Student

df = 1 df =2 df =30 df >= 30

Student

≈ normale

(4)

7

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada

Chapitre 2

1 facteur à 2 niveaux : test t Student (4 / 6 )

Ex 2.1 : analyse Sol 1 2 y 9.97 10.40 S 0.42 0.23

p -value = risque rejeter faussement l’hypothèse H0

B o ît e à m o u s t a c h e s : t a u x e t c h

M e d ia n 2 5 % - 7 5 % M in - M a x

1 2

t y p e s o lu t io n 9 . 2

9 . 4 9 . 6 9 . 8 1 0 . 0 1 0 . 2 1 0 . 4 1 0 . 6 1 0 . 8

tauxetch

Tests t ; Classmt : type solution (Ex-2.1-gravure.sta) Groupe1: 1 Groupe2: 2

0.0873 3.3354

0.230940 0.421769

10 10

0.01115 - 18

2.8278 10.4000

9.97000 tauxetch

p Ratio F Ecart-

Type Ecart-

Type N

Actifs N

Actifs p

Valeur dl Moyenne t

Moyenne

1 facteur à 2 niveaux : test t Student (5 / 6 ) vérification de la normalité des données

Droite de Henry Catégorisée : taux etch

type solution: 1

9. 2 9.4 9.6 9.8 10.0 10.2 10.4 10.6 10 .8 -2.0

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0

ValeurNormaleThéorique

ty pe solution: 2

9.2 9.4 9. 6 9.8 10 .0 10 .2 10.4 10.6 10 .8

(5)

9

Méthode intervalles de confiance

L

≤ θ ≤

U

avec

P ( L

≤ θ ≤

U ) = 1 -

α

µ1 - µ2 : ( y1 - y2)

±

σ * tdf , 1 – α/2 * ( 1/n1 + 1/n2 ) 0.5 df = n1+ n2- 2

percentile distribution Student

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada

Chapitre 2

1 facteur à 2 niveaux : test t Student (6 / 6 )

Intervalle de confiance à 100(1- α )%

différence entre 2 moyennes

Forme générale : intervalle de confiance pour θ

Ex 2.1 : Intervalle différence de moyenne µ1 - µ2

( - 0.758 à - 0.1015) coefficient confiance de 95%

Exemple 2.3 : optimisation « larger the better »

recherche nouvelle composition de fibres synthétique tissus facteur X : % coton varie entre 15 et 35

réponse Y : force de tension tissu à maximiser 5 modalités de X fixées à: 15 20 25 30 35

exécution : complètement aléatoire / n = 5 répétitions

Données

y

ij tension

X i/j 1 2 3 4 5 moyenne 15 1 7 7 15 11 9 9.8 20 2 12 17 12 18 18 15.4 25 3 14 18 18 19 19 17.6 30 4 19 25 22 19 23 21.6 35 5 7 10 11 15 11 10.8

1 facteur à k niveaux : ANOVA (1/13 )

Boîtes à Moustaches Catég. : Y

Median 25%-75%

Min-Max

15 20 25 30 35

X 6

8 10 12 14 16 18 20 22 24 26

Y

(6)

11

ANOVA : analyse de la variabilité

a niveaux du facteur - a traitements à comparer n répétitions dans un ordre complètement aléatoire nombre total d’essais (observations) : a n

objectif : comparer les traitements (effet de X sur Y) hypothèse nulle = pas de différences

X n’influence pas Y

Tableau des données

niveau i observations yi j moyennes 1 y11 y12 y13 … y1 n y1.

2 y21 y22 y23 …. Y2 n y2

………

i yi1 y12 yi3 …. yi n yi.

……….

a ya1 ya2 ya3 …. ya n ya.

facteur contrôlé

X

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada

Chapitre 2

1 facteur à k niveaux : ANOVA (2/13 )

Modèle de classification simple

Y

ij

= µ + τ

i

+ ε

ij

i = 1, 2,…,a j = 1, 2,..,n

a : nombre de modalité du facteur j : nombre de répétitions

µ : effet général

τ

i

: effet différentiel i-ième traitement

εij

: erreur expérimentale ~ N ( 0 , σ

2

)

autres modélisations

si le facteur X quantitatif : modèle polynomial exemple Y =

β0

+

β1X

+

β2

X

2

+ ε

1 facteur à k niveaux : ANOVA (3/13 )

(7)

13

Décomposition de la variabilité

2 ..

1 1

( )

a n

T ij

i j

SS y y

= =

= ∑∑ −

2 2

.. . .. .

1 1 1 1

2 2

. .. .

1 1 1

( ) [( ) ( )]

( ) ( )

a n a n

ij i ij i

i j i j

a a n

i ij i

i i j

T Treatments E

y y y y y y

n y y y y

SS SS SS

= = = =

= = =

− = − + −

= − + −

= +

∑∑ ∑∑

∑ ∑∑

SS

T

variabilité totale

équation de décomposition

inter variabilité intra variabilité

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada

Chapitre 2

1 facteur à k niveaux : ANOVA (4/13 )

Tableau d’analyse de la variance

distribution de référence pour F0 : distribution F de Fisher avec df1 = a – 1 degrés de liberté au numérateur

et df2 = a(n-1) degrés de liberté au dénominateur Test de H0 : µ1 = µ2 = …. = µa

Rejeter l’hypothèse nulle au seuil α si

F

0

> F

α,a1, (a n1)

1 facteur à k niveaux : ANOVA (5/13 )

Source Somme carrés Deg. lib. Carré moyen F

Traitements SStrait = n

( y i. – y..)2 a – 1 MStrait F0= MS trait/MSE Résiduelle SSE = SST - SS trait a(n-1) MSE

Totale SST=

∑ ∑

(y ij– y ..) 2 an – 1

(8)

15

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada

Chapitre 2

1 facteur à k niveaux : ANOVA (6/13 )

si X1 suit une loi Khi-deux avec df1 ddl X2 suit une loi Khi-deux avec df2 ddl X1 et X2 sont indépendantes alors ( X1 / df1 ) / ( X2 / df2 ) suit une loi F( df1,df2 )

t2df = F ( 1, df ) : carré Student

= Fisher F( df1 = 1, df2 = df )

Distribution F de Fisher

distribution F est employée dans

toutes les analyses de plans d’expériences

Ex. 2.3 : analyse avec STATISTICA

1 facteur à k niveaux : ANOVA (7/13 )

8.060 20

161.200 Erreur

0.000009 14.7568

118.940 4

475.760 X

0.000000 701.6179

5655.040 1

5655.040 ord. origine

p F

Degr. De MC liberté SC

différences significatives

0.0002 0.0092

0.1164 0.9798

35 5

0.0002 0.2102

0.0190 0.00015

30 4

0.0092 0.2102

0.7373 0.0027

25 3

0.1164 0.0190

0.7373 0.0385

20 2

0.9798 0.00015

0.0027 0.0386

15 1

{5}

{4}

{3}

{2}

{1}

X

Test de Tukey:

compare toutes

les paires lesquelles ?

(9)

17

analyse des résidus

important de faire une vérification a posteriori quand on ajuste un modèle statistique

hypothèses de base

- distribution normale ? - variance constante ?

- indépendance observations ? - modèle OK ?

Si hypothèses de base violées - quoi faire ?

- réponse : transformer Y

transformation de Box-Cox Y λ - 2 < λ < 2

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada

Chapitre 2

1 facteur à k niveaux : ANOVA (8/13 )

les plus importantes

Analyse des résidus

1 facteur à k niveaux : ANOVA (9/13)

Residual

Percent

5.0 2.5 0.0 -2.5 -5.0 99 90 50 10 1

Fitted Value

Residual

20.0 17.5 15.0 12.5 10.0 5.0 2.5 0.0 -2.5 -5.0

Residual

Frequency

4 2 0 -2 -4 6.0 4.5 3.0 1.5 0.0

Observation Order

Residual

24 22 20 18 16 14 12 10 8 6 4 2 5.0 2.5 0.0 -2.5 -5.0

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for Y

(10)

19

Modèle de régression si facteur quantitatif

Tracé des Moyennes & Intervalle de Confiance (95.00% ) Y

Y

15 20 25 30 35

X 0

5 10 15 20 25 30

Valeurs

Chapitre 2

1 facteur à k niveaux : ANOVA (10/13 )

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada X

Y

35 30

25 20

15 25

20

15

10

5

S 3.04839

R-Sq 69.4%

R-Sq(adj) 65.0%

Y = 6 2 . 61- 9 . 01 1 x + 0 . 4 81 x ** 2 - 0 . 0 0 7 6 x ** 3

Cas des expériences avec plusieurs facteurs : n entre 2 et 5 est généralement suffisant

consulter l’annexe

1 facteur à k niveaux : ANOVA (11/13)

nombre de répétitions : n = ? n dépend de

alpha (α ) : taux de fausse détection

risque de rejeter une hypothèse vraie beta (β ) : taux de manque de détection

risque d’accepter une hypothèse fausse σ : erreur expérimentale

∆ = λ σ : écart de moyenne à détecter λ = ∆/σ : facteur de proportionnalité

k : nombre de modalités (groupes) à comparer n : nombre de répétitions de chaque sous groupe (modalité)

n = fonction (α , β, σ, λ, k )

(11)

21

Copyright © Génistat Conseils Inc., 2004, Montréal, Canada

Chapitre 2

1 facteur à k niveaux : ANOVA (12/13 )

nombre de répétitions : n = ?

k = 2 n

alpha 0.10 0.05 0.01

beta 0.10 0.05 0.10 0.05 0.10 0.05

λ 0.5 70 88 86 * * *

1.0 18 23 23 27 32 38

1.6 8 10 10 12 14 16

2.0 6 7 7 8 10 11

3.0 3 4 4 5 6 6

* : > 100

k = 3 n

alpha 0.10 0.05 0.01

beta 0.10 0.05 0.10 0.05 0.10 0.05

λ 0.5 85 * * * * *

1.0 22 27 27 32 37 43

1.6 10 12 11 14 16 18

2.0 7 8 8 9 11 12

3.0 4 4 5 5 6 7

* : > 100

1 facteur à k niveaux : ANOVA (13/13 )

nombre de répétitions : n = ?

k = 4 n

alpha 0.10 0.05 0.01

beta 0.10 0.05 0.10 0.05 0.10 0.05

λ 0.5 70 88 86 * * *

1.0 25 30 30 36 40 47

1.6 11 13 13 15 17 20

2.0 7 9 9 10 12 13

3.0 4 5 5 5 6 7

* : > 100

k = 5 n

alpha 0.10 0.05 0.01

beta 0.10 0.05 0.10 0.05 0.10 0.05

λ 0.5 85 * * * * *

1.0 27 33 32 39 43 50

1.6 11 14 14 16 18 21

2.0 8 9 9 11 12 14

3.0 4 5 5 6 7 7

* : > 100

k = 6 , 7, 8 , 9 consulter le site

http://www.cours.polymtl.ca/mth6301

Références

Documents relatifs

On cherche ` a d´ eterminer un intervalle de confiance pour p au niveau de confiance 99% (1% de risque) 1.. Je pense donc que oui.. a) D i est la diff´ erence du nombre de p` eche

Afin de répondre à la question posée dans l'énoncé ci-dessus, mettons en œuvre un test relativement à cette variance.. • La variable aléatoire d’échantillonnage de

Remarque : Le problème qui se pose ici est de nature très différente de celui qui se pose pour l'intervalle de confiance d'une moyenne lorsque l'écart type de la population n'est

paramètre θ à l’aide d’un estimateur sans biais de θ Soit X une v.a.r... Ainsi, une marge d’erreur faible produit un niveau de risque élevé et un niveau de

Dans la suite, on considère l’exemple suivant : une urne contient des boules vertes et des boules rouges dont on ignore le nombre et la proportion.. On effectue un tirage dans

Il s'agit d'une suite de 100 intervalles de confiance au niveau de confiance 0,95, dont chacun a été calculé sur un échantillon de taille 1000 simulé à partir de ce que fut le score

Pour cela, elle souhaite obtenir, à partir d’un échantillon aléatoire, une estimation de la proportion de clients satisfaits au niveau 0,95 avec un intervalle de confiance

Sauf peut-être que Julie ferait mieux de se calmer, faut pas déconner… Johan ne dira rien, car il drague certainement Julie… À vous d’imaginer la suite de l’histoire..