ENFA - Bulletin du GRES n° 2 - mars 1996 page 0
EDITORIAL
Constitution du G.R.E.S. au 1 Mars 1996
ANGELIQUE Françoise LEGTA de NANCY
BURG Pierre LEGTA d’OBERNAI
FAGES Jean ENFA TOULOUSE
FAURE Jean Claude LEGTA de CARCASSONNE
GAUMET Jean Pascal LEGTA LE ROBILLARD
MALEGEANT Jean Yves ENITIAA de NANTES
MELLAN André LEGTA de LA ROCHE SUR FORON
MERCIER Alain ENFA TOULOUSE
PARNAUDEAU Jean Marie LEGTA de VENOURS
PAVY Jacques LEGTA LE ROBILLARD
PRADIN Jean LEGTA de MOULINS
RIOU Alexis LEGTA de QUIMPER
URDAMPILLETA Vincent LEGTA de SURGERES
VARLOT Chantal LEGTA de CHALONS SUR MARNE
Vincent URDAMPILLETA responsable pédagogique Ouf !, un numéro 2 ! Certains augures penchés sur le berceau du n° 1 avaient espéré qu’il n’y aurait point de suite !… Erreur funeste car le n° 3 paraîtra avant la Saint Jean, qu’on se le dise !
L’existence de ce bulletin ne se justifie que s’il devient un outil d’aide et de communication pour tous les collègues qui ont été confrontés à l’enseignement de la Statistique (ou qui le seront un jour).
A propos de communication, il en est une qu’il ne faut pas manquer, il s’agit de répondre au document que la DGER va nous adresser au sujet de la réforme de l’enseignement des mathématiques appliquées au D11 pour les différentes options du BTSA.
Ce projet prend en compte certaines spécificités de nos diverses filières. Il faut encourager cette tentative de renouveau en y participant ; alors répondons tous à la circulaire en donnant nos avis.
Nous avons la chance, avec la Statistique, de pouvoir proposer à nos élèves et étudiants une discipline moderne dont les applications, nombreuses et variées, touchent à tous les aspects de notre vie quotidienne, alors profitons-en !
L’enseignement de la Statistique permet aussi à certains de nos élèves (trop nombreux) laissés sur le bord de la route, une réconciliation avec les mathématiques et surtout… avec nous.
Communication encore, une « Tribune Libre » sera ouverte dès le n° 3, en plus bien sûr du « Courrier des Lecteurs ». Ceci ne manquera pas, nous l’espérons, de provoquer un flot de remarques sur le travail de nos collègues rédacteurs ; alors, n’hésitez pas écrivez nous, écrivez nous !
Communication toujours, tous les collègues qui ont retourné le questionnaire du n° 1 à l’ENFA, ainsi que tous ceux qui participent à des stages de Statistique, DGER ou GRAF, ont reçu une disquette remplie de TD et TP qui peuvent être adaptés et utilisés, pour la plupart, en classe de BTSA. Faites-en bon usage, n’hésitez pas à modifier, à mettre au point, à tester sur les principaux points du programme de D11, D43 e autres D414, à dupliquer et à transmettre cette disquette.
Communication enfin, il semble que des n°1 du bulletin du GRES se soient évaporés dans les dédales de certains LEGTA. Où sont-ils passés ? dans les cuisines ? au CDI ? au cercle des élèves ? à l’exploitation ?… S i c’est le cas dans votre établissement, alors lancez un « Avis de Recherche ».
ENFA - Bulletin du GRES n° 2 - mars 1996 page 2
My name is STUDENT
William Sealy GOSSET est né en 1876 à Canterbury (G.B.).
Il a étudié la chimie et les mathématiques à Oxford.
En 1899, il est employé par les brasseries Guiness à DUBLIN, où il est chargé de mettre au point des techniques de contrôle de fabrication à partir de petits échantillons.
Tout sa vie, il restera au service de Guiness et décédera en 1937 à Londres.
La direction de Guiness s'opposant à la publication des méthodes utilisées et de ses résultats, il choisit le pseudonyme de STUDENT.
Durant l'année 1906-1907, il travaille au Laboratoire de Biométrie de Londres ; ce laboratoire est dirigé par Karl PEARSON.
GOSSET publie en 1907 le résultat sur la convergence de la loi binomiale vers la loi de Poisson, résultat déjà établi par VON BORKIEWITCZ.
GOSSET doit une partie de sa célébrité, en particulier auprès de nos étudiants aux fameuses lois de STUDENT.
Sans entrer dans le détail, on peut définir les variables de STUDENT de différentes façons.
Soit comme quotient de deux variables aléatoires indépendantes :
Soit U et X deux variables aléatoires indépendantes, si la loi de U est la loi N(0;1) et si la loi de X est la loi du χ2 à n degrés de liberté, alors la variable T définie par T U
X n
= est une variable de STUDENT à n degrés de liberté distribuée selon la loi de STUDENT à n degrés de liberté.
Pour une présentation plus détaillée de cette version, voir, par exemple, [1] , [2] ou [3] .
Cette présentation est celle envisagée par GOSSET, la variable aléatoire X étant une somme de carrés de variables aléatoires normales réduites indépendantes. La plupart du temps, les distributions de STUDENT ne sont introduites que lors de l'estimation par intervalles ; c'est le cas de la plupart des ouvrages destinés aux BTS ou au DEUG ; on pourra consulter [ 4 ] ou pour une rédaction plus ancienne [5].
Soit en définissant une variable de STUDENT par sa fonction de densité.
Voir, dans ce bulletin, l'article "Construction d'une table des lois de STUDENT", mais aussi [ 6 ].
GOSSET a établi les tables de fréquence pour chaque valeur de n (pour n variant de 4 à 10) et quelques valeurs de p. Ces résultats furent publiés en 1908 dans
Biométrica "the probable error of the mean". Les tables que l'on trouve le plus souvent dans les ouvrages de statistiques sont dues à R.A. FISHER et F. YATES (1953)
On peut remarquer que les tables établies par GOSSET furent établies, non pas avec les formules connues actuellement (voir, par exemple, l'article de ce bulletin déjà cité), mais en utilisant une formule construite avec des développements limités établie par R.A. FISHER.
Parmi les nombreuses contributions aux statistiques de GOSSET, on peut citer quatre exemples.
GOSSET, ainsi que FISHER et d'autres, ont du noter de façon différente les paramètres théoriques d'une distribution théorique et l'estimation de ces paramètres au vu de l'échantillon. En ce sens, il ont rendu possible la statistique inférentielle.
Lorsque l'on dispose de données provenant d'un échantillon, le problème se pose de décider si certaines de ces données peuvent être considérées comme anormales (trop grande ou trop petite), GOSSET proposa d'utiliser l'étendue pour tester les valeurs anormales.
Il fut un des premiers à étudier la distribution d'échantillonnage du coefficient de corrélation ; dans le cas où ρ = 0, cette distribution est liée aux distributions de STUDENT.
Dans le cas de comparaisons multiples de moyennes, STUDENT fut l'instigateur de la première méthode dite de la P.P.D.S. (plus petite différence significative), méthode qui fut améliorée par R.A. FISHER en 1935.
Références : [1] SAPORTA G.
Probabilités, analyse de données et statistique Technip 1990 p 93 et 94 [2] JAFFARD P.
Initiation aux méthodes de la statistique et du calcul des probabilités Masson 1990 p 101 et 102
[3] Mc GEE V E
Principes de statistiques approche traditionnelle et approche bayésienne Vuibert 1975 p 132 à 137
[4] BAILLARGEON G
Méthodes statistiques Volume 1 SMG 1984 p 286 à 288 [5] SNEDECOR G W et COCHRAN W G
ENFA - Bulletin du GRES n° 2 - mars 1996 page 4
Méthodes statistiques 1971 p 65 et 66 [6] DAGNELIE P
Théorie et méthodes statistiques PA de Gembloux 1973 p 237 et 238
ENSEIGNER c’est aussi cela…..
(suite page 15)
Construction d’une table des lois de Student
Construction d’une table.
Comme la table de la loi normale centrée réduite N(0;1), présentée dans le bulletin n°1 du G.R.E.S, cette table est construite avec le tableur EXCEL (version4 ou 5).
• Avec EXCEL 5 on utilisera la fonction :
LOI.STUDENT.INVERSE(probabilité ; degrés-liberté).
Soit Tν une variable aléatoire qui suit la loi de Student à ν degrés de liberté (ddl) et α une probabilité donnée. La fonction renvoie la valeur t1-α telle que :
prob(Tν > t1-α) = α.
LOI.STUDENT.INVERSE(α ; ν) = t1-α
Avec EXCEL 4, après avoir activé, si ce n’est déjà fait, les fonctions statistiques en suivant la procédure indiquée dans le bulletin n°1, on utilisera la fonction :
TINV(prob ; ddl).
• Remarque : les deux versions d’EXCEL fournissent la valeur t1-α telle que prob(T > t1-α) = α. Elles permettent donc de construire directement une table dans le cas d’une répartition unilatérale à droite de α.
(Pour construction d’une table avec répartition bilatérale de α cf note 3)
Construction de la représentation graphique de la loi de Student à ν degrés de liberté.
• Les tricheurs. S’il s’agit simplement d’illustrer la table précédente, on pourra se contenter de construire la représentation graphique de la loi normale N(0;1) en suivant les indications fournies dans le bulletin n°1. Les lois de Student ayant des représentations graphiques très proches de celle de la loi normale centrée réduite, personne ne verra la supercherie. Pas vu, pas pris, je t’embrouille !
Toutefois en utilisant des outils d’analyse, plus ou moins sophistiqués, on peut obtenir des représentations graphiques plus satisfaisantes.
• Les puristes. Tous ceux qui auraient des scrupules à abuser les profanes, tous ceux qui auraient l’envie un peu folle d’aller voir de plus près la différence entre la courbe de la loi normale N(0;1) et celles des lois de Student, tous ceux- là pourront utiliser la densité de la loi de Student à ν degrés de liberté.
ENFA - Bulletin du GRES n° 2 - mars 1996 page 6
Cette densité fν est définie par : ∀ ∈ = + −
+
t IR f t K t
, ν( ) ν( )
ν
1 ν
2 1
2 où, pour un ν donné, Kν est une constante (cf note 1). On remarque que les densités sont des fonctions paires et donc que leurs courbes représentatives admettent, dans un repère orthogonal, l’axe des ordonnées comme axe de symétrie.
Le tableau suivant donne les constantes associées à quelques valeurs de ν :
ν ddl 1 2 5 10
Kν 1
π
1 2 2
8 3π 5
315 256 10
A vos outils informatiques (calculatrices graphiques, tableur-grapheurs) pour représenter une densité de Student (cf notes 1 et 2).
Représentations graphiques des lois de Student
Les distributions de Student à ν ddl sont représentées par des courbes en cloche symétriques par rapport à l’axe des ordonnées.
Ces courbes sont voisines de la courbe représentant la loi normale centrée (moyenne = 0) réduite (écart-type = 1).
Elles en sont d’autant plus proches que ν est grand. Souvent, pour ν > 30, on considère qu’elles sont confondues avec la courbe représentative de la loi normale centrée réduite.
Soit α un réel tel que 0,5 < α< 1.
On note t1-α le réel positif tel que prob(T>t1-α) = α
* l’aire de la "queue de la distribution"
à droite de t1-α est égale à α.
Remarque : la symétrie des courbes par rapport à l’axe des ordonnées entraine prob(T< − t1-α) = α.
Ce résultat va simplifier la détermination des intervalles de confiances bilatéraux (symétriques en probabilité) et la construction des tests bilatéraux.
prob(T> t)
t
t1-α -t1-α
α α
prob(T≤ t) 0
Note 1 : Fonction gamma.
Calcul des constantes Kν. Excel et la fonction gamma.
• La fonction gamma.
On montre que l’intégrale
∫
0+ ∞e t−t x−1dt est convergente pour tout réel x strictement positif.Définition : La fonction Γ est définie, pour tout réel x strictement positif, par : Γ(x) =
∫
0+ ∞e t−t x−1dt.Propriétés :
n Soit T un réel strictement positif, en intégrant par parties sur [0;T], puis en faisant tendre T vers +∞, on démontre facilement la propriété fondamentale :
pour tout réel x strictement positif Γ(x+1) = xΓ(x) o Γ(1) = Tlim→+ ∞
∫
0Te dt−t = Tlim [→+ ∞(
−e−t T]0)
=Tlim (→+ ∞ 1−e−T) =1p Il résulte de n et o que pour tout naturel n supérieur à 1, on a Γ(n) = (n-1)!
q Pour tout naturel n, on a Γ(2 1) ( ) ( ) ( ) ... Γ( ) 2
2 1
2
2 3
2
2 5
2
1 2
1 2
n+ = n− n− n−
rOn démontre que Γ( )1 2 = π
• Calcul des constantes Kν.
La fonction Γ permet d’exprimer la constante Kν en fonction de ν, on montre que
: Kν
ν
ν ν
= Γ +
Γ Γ
( )
( ) ( ) 1 2 1
2 2
Application : Calcul de K7.
K7 4
7 1
2 7 2
3
7 1
2 5 2
3 2
1 2
1 2
16
5 7
= Γ = =
Γ Γ Γ Γ
( ) ( ) ( )
!
( ) . . . ( ). π
• Excel et la fonction gamma.
Dans EXCEL on trouve la fonction LNGAMMA qui pour tout réel x renvoie le logarithme népérien de Γ(x). On peut donc confier au tableur le soin de calculer les constantes Kν. Pour-ceci on utilise la fonction LNGAMMA composée avec la fonction exponentielle de base e, notée EXP dans EXCEL.
ENFA - Bulletin du GRES n° 2 - mars 1996 page 8
Pour tout t ∈ IRon a f t t
ν
ν ν
ν ν ν
( )
( )
( ) ( )
( )
=
+
+ − + Γ
Γ Γ
1 2 1
2 2
1
2 1
2
Excel fournit tous les outils pour construire la représentation graphique de la loi de Student à ν degrés de liberté. Essayez en donnant a ν une valeur de votre choix, et à la variable t des valeurs comprises entre -3 et +3.
Note 2 : autre solution pour construire, au moyen d’Excel, la courbe de densité d’une loi de student.
• Les bricoleurs. EXCEL 5 propose la fonction :
LOI.STUDENT(x ; degrés_liberté ; uni/bilatéral).
Considérons la loi de Student à ν degrés de liberté, retenons l’option unilatérale (uni/bilatéral = 1), la fonction LOI.STUDENT associe à tout réel positif t la probabilité que la variable de Student Tν dépasse t.
LOI.STUDENT(t;ν;1) = prob(Tν> t)
La fonction de répartition Fν de la variable aléatoire Tν est définie par :
∀t∈IR Fν(t) = prob(Tν≤ t) = 1− prob(Tν > t)
∀t∈IR+ Fν(t) = 1- prob(Tν > t) = 1− LOI.STUDENT(t;ν;1)
La densité fν de la variable aléatoire Tν est la dérivée de sa fonction de répartition Fν.
∀t∈IR+ f (t) limF (t h) F (t) h
ν =h ν + − ν
→0 soit
F (t h) F (t)
h f (t) ( )
lim (h)
h
ν ν
ν ε
ε
+ − = +
=
⎧
⎨⎪
⎩⎪ →
h
0 0
Le rapport F (t h) F (t) h
ν + − ν
fournit une approximation de fν(t) d’autant meilleure que h est proche de 0. En prenant h = 10−5 on obtient des valeurs approchées à moins de 10−6 près. C’est pour cette puissance de 10 que l’on obtient la meilleure approximation. Au delà l’approximation se dégrade rapidement pour devenir impossible à partir de h = 10−8. EXCEL a ses limites ! En remarquant que la densité est paire et positive, on est amené à introduire la fonction
t → LOI.STUDENT( t + 10-5;7;1) - LOI.STUDENT( t ;7;1)
10-5 .
La représentation graphique de cette fonction, que l’on obtient en donnant à la variable t des valeurs comprises entre -3 et +3, est très proche de la courbe de la loi de Student à 7 degrés de liberté.
Note 3 : Construction d’une table de Student avec répartition bilatérale de la probabilité α et intervalles symétri
ques en probabilité.
Les aires des deux queues de la distibution, à gauche et à droite, sont égales et leur somme est égale à α.
Compte tenu de la parité des densités des lois de Student, pour un nombre de ddl ν donné, deux valeurs opposées −t1−α 2 et
t1−α 2 correspondent à α . Elles sont définies par : prob(T > t1−α 2) = α
2
Avec EXCEL 5.0, pour obtenir une table bilatérale on saisira dans la cellule à l’intersection de la ligne contenant ν et de la colonne contenant α la fonction : LOI.STUDENT(α
2 ,ν)
prob α ddl ν
ν . . .
α : : :
. . . LOI.STUDENT(α
2 ,ν)
Remarque : lorsque l’on fournit une table d’une loi de probabilité continue, il est absolument indispensable, de préciser :
- si la probabilité est répartie unilatéralement ou bilatéralement ;
- et dans le cas où elle est répartie bilatéralement, si les intervalles sont symétriques en probabilité.
Une façon simple de le faire est d’accompagner la table d’une représentation graphique de la densité de la loi de probabilité faisant apparaître clairement ce qui est tabulé.
α2 α
2
−t1−α 2 t1−α 2
−t1−α 2
−t1−α 2 T
ENFA - Bulletin du GRES n° 2 - mars 1996 page 10
Application
Dans un élevage bovin-viande, on dispose, pour les 25 dernières campagnes de vêlages, du relevé des masses à la naissance et du sexe des veaux.
Ces résultats concernent environ 3000 veaux. Les masses des veaux mâles et celles des veaux femelles sont supposées distribuées normalement.
1° On tire au hasard un échantillon de 20 veaux mâles : le tableau suivant donne leurs masses à la naissance exprimées en kg.
50 45 35 50 49 45 42 46 42 47 57 52 47 49 30 47 46 54 47 48 11 - Après avoir rappelé les formules de calcul de la moyenne et de la variance d’un échantillon, donner pour l’échantillon tiré, les valeurs de ces deux paramètres statistiques (on pourra utiliser les résultats fournis par une calculatrice).
12 - donner des estimations ponctuelles de la moyenne μm et de la variance σ2mdes masses à la naissance des veaux mâles de l’élevage. Justifier les résultats.
13 - Donner une estimation par intervalle de confiance au niveau 0,95 de la masse moyenne à la naissance des veaux mâles.
2° Le vacher de l’exploitation pense que la masse moyenne des veaux femelles est inférieure à 45 kg. On se propose de tester cette hypothèse. Pour cela on prélève au hasard un échantillon de 20 veaux femelles : le tableau suivant donne leurs masses à la naissance exprimées en kg.
33 46 47 41 43 33 42 45 42 41 39 36 39 45 43 37 45 49 39 47 A partir de cet échantillon, peut-on conclure, au seuil de signification 0,05, que le vacher a raison ?
Eléments de correction :
I. Intervalle de confiance : étude de la variable X égale aux masses à la naissance des veaux mâles :
11 - Moyenne et variance d’échantillon.
x =46 4, kg
s = 5,9 kg s² = 34,34
12 - Estimations ponctuelles de la moyenne et de la variance de la population
x =46 4, kg est une estimation de μm.
s n
n s
2 2
= 1
− soit s2 =36 15, est une estimation de σ2m 13 - Intervalle de confiance de la moyenne.
X suit la loi N(μm, σm) μm et σm2 sont inconnues.
L’échantillon, de taille n=20, est tiré d’une population normale donc la variable T X
S n
X
= − S
−
= −
μ μ
1 19
suit la loi de Student à n-1 = 19 degrés de liberté (cf note 4, remarque 1).
Dans notre exemple T X S
X
= − S
= −
μ μ
19 20
suit la loi de Student à 19 degrés de liberté.
On veut déterminer le réel positif t tel que prob(-t ≤ T ≤ t) = 0,95
Pour ceci on laisse 0,025 de chaque coté à l’extérieur de l’intervalle [-t ; t].
Soit t la valeur de la variable de Student à 19 degrés de liberté telle que prob(T<t) = 0,025.
On lit t dans la table à l’intersection de la ligne 19 et de la colonne 0,025.
Prob α ddl ν
19
0,025
2,093
−2,093 ≤ T ≤ 2,093 ⇔ −2,093 ≤X S
− μm
19
≤ 2,093
⇔ −2,093 ≤μm X S
− 19
≤ 2,093
prob(-t≤T≤t)
=0,950
0,025 0,025
-t t
ENFA - Bulletin du GRES n° 2 - mars 1996 page 12
⇔ −2 093 ≤ − ≤ +
19 2 093
, S , 19
X S
μm
⇔ X S
X S
−2 093 ≤ m ≤ +
19 2 093
, μ , 19
⇔ μm ∈ [X , S ; , ]
X S
−2 093 +
19 2 093
19 Les bornes de l’intervalle [X , S ; , ]
X S
−2 093 +
19 2 093
19 dépendent des deux variables aléatoires X et S. La probabilité pour que μm appartienne à cet intervalle est égale à 0,95. On obtient un intervalle de confiance en donnant à X et S leurs valeurs respectives x et s prises sur l’échantillon tiré.
On a x = 46,4kg et s = 5,9kg, d’où l’intervalle :
[ , , ,
; , , ,
] [ , ; , ] 46 4 2 093 5 9
19 46 4 2 093 5 9
19 43 5 49 3
− + =
[43 5 49 3 est « une estimation par intervalle de confiance, de la moyenne , ; , ] μm de la population, au niveau de confiance 0,95 ».
(cf note 5, Intervalle de confiance aléatoire).
II. Test d’hypothèse : étude de la variable Y égale aux masses à la naissance des veaux femelles.
La population considérée est l’ensemble des veaux femelles de l’élevage.
Moyenne de la population μf, Variance de la population σf
2
Hypothèse:
H H
f f 0 1
45 45 :
: μ μ
=
<
⎧⎨
⎩ ←l’hypothèse alternative est donnée par l’énoncé (test unitlatéral).
Seuil de signification : α = 0,05
Conditions d’application :
• population normalement distribuée : Y suit la loi N(μf , σf)
• variance de la population inconnue.
• échantillon de taille n = 20.
Variable de décision :
T Y
S n
Y S
f f
= −
−
= −
μ μ
1 19
suit la loi de Student à n-1=19 degrés de liberté.(cf note 3, remarque 1).
Détermination de la région critique : Le test est unilatéral à gauche.
Pour un risque unilatéral de 0,05 et un nombre de degrés de liberté de 19 la valeur de t est t0,95 = 1,729.
Test unilatéral à gauche.
La région de rejet de l’hypothèse nulle se trouve à gauche de −t0,95 = −1,729.
Règle de décision :
Soit t la valeur de T correspondant à l’échantillon prélevé : ne pas rejeter H0 si t ≥−1,729
ou
rejeter H0 et accepter H1 si T ≤−1,729 avec un risque de 0,05.
Valeur prise par la variable de décision sur l’échantillon tiré : x =41 6, kg
s = 4,4 kg
,
s=4 6kg
t = 41 6−45 = − 4 4
19 , 3 37
, ,
Décision et conclusion :
-3,37 est inférieure à −1,729 donc on rejette l’hypothèse nulle et on accepte l’hypothèse avancée par le vacher.
Note 4 :
Remarques 1 :
n La variable T dépend uniquement de μ et ne dépend pas de σ². C’est ce qui est remarquable et fait toute son importance. Lorsque une population est normale et de variance inconnue c’est cette variable que l’on utilise pour déterminer une
α = 0,05
t0,95=1,729
−t0,95= −1,729
Rejet de H0 Non-rejet de H0
ENFA - Bulletin du GRES n° 2 - mars 1996 page 14
estimation de la moyenne par intervalle de confiance ou pour construire les tests de conformité ou de comparaison de moyennes.
o Ce résultat est vrai quelle que soit la taille de l’échantillon. Il vaut pour les grands échantillons comme pour les petits. En particulier on peut l’utiliser pour les grands échantillons si l’on dispose d’une table de Student tabulée pour les degrés de liberté élevés (c’est le cas de la table proposée).
Toutefois la loi de Student est convenablement approchée par la loi normale N(0,1) pour un nombre de degrés de liberté ν supérieur à 30. Donc pour les échantillons de taille supérieure à 30, issus de populations normales, on remplace T par la variable normale centrée réduite U X
n
= − μ
σ , et dans celle-ci l’écart-type σ de la population, que l’on ne connait pas, par son estimation ponctuelle s.
Note 5 : Intervalle de confiance aléatoire.
Nous avons montré que :
−2,093 ≤ T ≤ 2,093 ⇔ X S
X S
−2 093 ≤ m ≤ +
19 2 093
, μ , 19
⇔ μm ∈ [X , S ; , ]
X S
−2 093 +
19 2 093
19 or prob(−2,093 ≤ T ≤ 2,093) = 0,95 donc :
prob( X S
X S
−2 093 ≤ m ≤ +
19 2 093
, μ , 19 ) = 0,95
soit prob(μm ∈ [X , S ; , ]
X S
−2 093 +
19 2 093
19 ) = 0,95
La probabilité que μm appartienne l’intervalle [X , S ; , ]
X S
−2 093 +
19 2 093
19 est de 0.95. Or les bornes de cet intervalle dépendent des deux variables aléatoires X et S.
Par définition, [X , S ; , ]
X S
−2 093 +
19 2 093
19 est « l’intervalle de confiance aléatoire, de la moyenne μm de la population, au niveau de confiance 0,95 ».
A partir de notre échantillon, on obtient une observation de l’intervalle de confiance aléatoire en donnant à X et S leurs valeurs respectives x et s prises sur l’échantillon tiré.
L’intervalle [43 5 49 3 ainsi obtenu est « , ; , ] une estimation par intervalle de confiance, de la moyenne μm de la population, au niveau de confiance 0,95 ».
A chaque échantillon tiré correspond une estimation par intervalle de confiance de la moyenne. Ainsi on peut obtenir plusieurs estimations par intervalles de confiance de la moyenne, pour ceci il suffit de tirer au hasard plusieurs échantillons.
• l’intervalle[43 5 49 3 , obtenu à partir de l’échantillon fourni, est tout à , ; , ] fait déterminé, ses bornes sont les deux réels fixes calculés à partir de l’échantillon tiré ;
• la moyenne μm de la population est un réel, lui aussi, tout à fait déterminé, mais en général inconnu.
On ne peut plus invoquer le hasard :
• ou bien μm appartient à l’intervalle [43 5 49 3 et , ; , ] prob(43 5, ≤μm ≤49 3, ) =1 ;
• ou bien μm n’appartient pas à l’intervalle [43 5 49 3 et , ; , ] prob(43 5, ≤μm ≤49 3, ) =0
Si l’on tire au hasard un grand nombre d’échantillons, et si, pour chacun d’eux, on détermine l’intervalle de confiance associé, 95 % environ de ces intervalles contiendront la moyenne.
-=-=-=-=-=-=-=-
(suite et fin page 21)
ENFA - Bulletin du GRES n° 2 - mars 1996 page 16
Test de Student pour comparer deux moyennes
On présente :
tout d’abord 1 - les deux hypothèses Ho et H1.
Ho, dite hypothèse nulle, selon laquelle les deux moyennes des collectifs (populations) I et II sont les mêmes et H1, dite hypothèse alternative, selon laquelle les deux moyennes sont différentes.
H H
I II I II
I II
0 1
0 : ou
:
μ μ μ μ
μ μ
= − =
≠
puis, 2 - le risque de première espèce de ce test bilatéral ("two-tail") ici α=0,05
ensuite vient 3 - le choix de la statistique à étudier
La variable aléatoire à étudier ici est la différence des moyennes X1 −X2, la statistique utilisée dans ce test est :
T X X
SCE SCE
n n n n
X X
= −
+
+ − +
( 1 2)
1 2 1 2
1 2
2
1 1
(voir pages suivantes)
la variable aléatoire T est distribuée selon la loi de Student à n1 +n2 −2 degrés de liberté (ddl), si les conditions de modélisation sont réunies. Rappelons ces conditions:
- Il faut que l’Echantillonnage soit Aléatoire, Simple et Indépendant (EASI).
- Il faut que les variables X et X1 2 soient distribuées selon une loi normale.
- Il faut que les deux collectifs (populations) I et II aient la même variance ("homoscédasticité")
- On se place dans le cas où l’hypothèse nulle Ho est vraie.
ensuite 4 - il faut calculer la valeur t prise par T à partir des échantillons observés et appliquer la règle de décision basée sur le modèle de Student.
Illustration sur un exemple
Nous allons comparer la quantité moyenne en matière protéique de deux fabrications de fromage de chèvre. Nous supposons que la variable X1 (respectivement X2) qui prend pour valeur la quantité en matière protéique, pour un fromage prélevé au hasard dans la premiére fabrication (respectivement la deuxième), est une variable normale. Les variances des fabrications ne sont pas différentes. L’échantillonnage est EASI.
1 - Les Hypothèses sont :
H H
I II I II
I II
0 1
0 : ou
:
μ μ μ μ
μ μ
= − =
≠
2 - le risque α = 0,05 (on étudiera aussi α = 0,01) d’où le 3 - résumé statistique
n1 20 n2 21 ddl 39
Moyenne 48,60 Moyenne 53,40 Numérateur -4,8
SCEX1 107,648 SCEX2 199,214 Dénominateur 0,8764
La valeur de t calculée ici est de -5.48.
4 - les règles de décision sont les suivantes (modèle de Student)
[ ]
t∉ − 2 02. ;+2 02. ⇒ rejet de Ho au risque de 5%
[ ]
t∉ − 2 708. ;+2 708. ⇒ rejet de Ho au risque de 1%
En conclusion puisque t vaut -5.48, nous rejetons Ho de façon "hautement significative". Nous affirmons que les deux fabrications ont des moyennes différentes avec un risque inférieur à 1%
de nous tromper.
Quelles sont les conditions requises pour l’utilisation du modèle de Student lors de ce test ?
Nous rappelons qu’une variable aléatoire T distribuée selon la loi de Student à n degrés de liberté (ddl) est définie comme suit:
T U
= K ν
où U est une variable normale centrée réduite et K une variable aléatoire, indépendante de U, distribuée selon la loi de
χ
² àν
ddl.ENFA - Bulletin du GRES n° 2 - mars 1996 page 18
Montrons que la variable aléatoire T est de cette forme
T X X
SCE SCE
n n n n
X X
= −
+
+ − +
( 1 2)
1 2 1 2
1 2
2
1 1
Si X1et X2 sont des variables distribuées selon les lois normales suivantes,
X1→ N(μ σ1; 1) et X2 →N(μ σ2; 2) , alors X1 et X2 sont distribuées selon les lois
normales
X N( ; n
X N( ;
n
1 1
1 1
2 2
2 2
→
→
μ σ μ σ
)
)
En conséquence, la variable aléatoire différence des deux variables aléatoires indépendantes X1 et X2, c’est à dire X1−X2, est distribuée selon la loi Normale
N(μ μ ; σn σn )
1 2
1 2
2 2
1 2
− +
Rappelons que les variances ne sont additives que si les variables sont indépendantes, ce qui est bien le cas avec deux Echantillons Aléatoires Simples Indépendants provenant de deux populations indépendantes.
D’où la variable aléatoire U, sous l’hypothèse Ho : ( μ1−μ2 =0) :
U X X
n n
= − −
+ ( 1 2)
1 2
1 2 2
2
0
σ σ qui est distribuée selon la loi N(0;1).
Si les variances sont égales (c’est à dire si l’hypothèse d’homocédasticité est vérifiée) alors l’expression devient :
U X X
n n
= −
+ 1
1 1
1 2
1 2
σ.( )
Occupons- nous à présent du dénominateur
On démontre, (théorème de Fisher), que si n variables aléatoires Xi sont indépendantes et suivent toutes la loi normale N(µ,σ), alors la variable aléatoire :
(Xi X)
i
n −
∑
= 2 1σ2 , notée
encore : SCEX
σ2 , est distribuée selon la loi de χ² à n-1 ddl.
D’après ce théorème, les variables aléatoires K SCEX
1
1 2
= 1
σ et K SCEX
2 2
2
= 2
σ sont
distribuées respectivement selon la loi de χ² à n1-1 ddl et la loi de χ² à n2-1 ddl.
Ces variables étant indépendantes, leur somme suit la loi de χ² à (n1-1)+(n2-1) ddl.
K SCEX SCEX
= 1 + 2
1 2
2
σ σ2 suit donc la loi de χ² à n1+n2-2 ddl,
d’où la variable K
SCE SCE
n n
X X
ν
σ σ
=
+ + −
1 2
1 2
2 2
1 2 2 .
Si les variances sont égales (c’est à dire si l’hypothèse d’homocédasticité est vérifiée), alors l’expression devient:
1
2
1 2
1 2
σ
SCE SCE
n n
X + X
+ −
On peut donc écrire le quotient des deux variables aléatoires U et K ν : 1
1 1
1
2
1 2
1 2
1 2
1 2
σ
σ
(X X )
n n
SCE SCE
n n
X X
− + + + −
qui est donc une variable aléatoire suivant la
loi de Student à n1+n2-2 ddl.
En simplifiant par σ, nous reconnaissons notre variable T :
T X X
SCE SCE
n n n n
X X
= −
+
+ − +
( 1 2)
1 2 1 2
1 2
2
1 1
En guise de conclusion
Nous pouvons affirmer que la variable T ainsi construite est distribuée selon la loi de Student à
n1+n2 −1 degrés de liberté et que tout ceci repose sur : - l’hypothèse nulle Ho : μ1 −μ2 =0
- la propriété EASI des échantillons.
- le caractère normal des variables d’origine ("parentes").
- l’indépendance de ces variables l’une par rapport à l’autre.
- l’égalité des variances des deux populations d’origine .
ENFA - Bulletin du GRES n° 2 - mars 1996 page 20
Dans la pratique, il arrive souvent que les conditions nécessaires à l’utilisation du modèle de Student ne soient pas toutes réunies ; dans ce cas, les résultats des analyses sont pour le moins approximatifs...sinon faux! Comme pour le "test de Student par paires" que nous présenterons dans un autre article, nous préférerons utiliser dans ces circonstances un test non - paramétrique...affaire à suivre donc !
… étonnant non ? !
Test de STUDENT et tests non paramétriques
Certaines techniques statistiques jouissent d’une grande notoriété, elles sont souvent utilisées, sans tenir compte des conditions précises qui justifient cette utilisation et qui garantissent la validité des résultats qu’elles permettent d’affirmer. C’est en particulier le cas du test de Student qui est utilisé un peu "à toutes les sauces" et particulièrement pour l’étude de variables qui n’ont pas grand-chose de "normal".
Cette pratique a tendance à se généraliser en analyse sensorielle, en particulier pour étudier les différences entre des produits de type "ancien" et des produits de type "nouveau", ainsi que les modalités de leur évolution.
Dans ce cadre, le test de "Student par paires" est presque toujours celui qui est mis en oeuvre dans les laboratoires et les services "R et D" (Recherche et Développement).
Nous n’avons pas la prétention dans cet article de régler la question de l’utilisation abusive de ce test mais seulement de rappeler qu’il existe d’autres techniques qui ont fait leurs preuves et qui ne nécessitent pas, contrairement aux tests "classiques", d’activité préliminaire de vérification d’hypothèses diverses.
Nous verrons en particulier que les modèles de Student et de Fisher, pour ne parler que des plus célèbres, s’appuient fondamentalement sur la normalité des populations d’origine et sur leur homoscédasticité (c’est à dire le fait que celles-ci ont la même variance).
L’exemple que nous allons vous présenter utilise le test de Student, puis le même problème statistique est traité par une méthode "non-paramétrique", en l’occurence la méthode du "Test signé de Wilcoxon".
Mise en place du Test d’Analyse Sensorielle
Il s’agit de développer un nouveau type de panure de lieu jaune.
Pour ce faire, un jury de douze membres "experts" est constitué au Laboratoire d’Analyse Sensorielle.
Chaque personne attribue une note à l’ancienne et à la nouvelle panure suivant son goût (il est interdit de mettre la même note aux deux produits).
Ces notes sont échelonnées de 1 à 9. Pour atténuer le caractère discret de la sanction, on pousse un curseur et la machine enregistre une valeur décimale prétendument issue d’une distribution continue.
Nous obtenons ainsi une paire de valeurs par expert et ceci douze fois, de façon indépendante.
Cet échantillonnage sera résumé par la valeur t d’une statistique T.
La règle de décision de ce test est simple, il suffit de vérifier que cette valeur t n’appartient pas au segment formé par les deux valeurs de la variable T de Student qui correspondent au risque α choisi.
Dans ce cas, l’hypothèse nulle, celle qui permet d’affirmer que les deux produits ne sont pas différents du point de vue étudié, est rejetée.
ENFA - Bulletin du GRES n° 2 - mars 1996 page 22
Quelle est la technique de réalisation du test de Student par paires ?
1 - On présente tout d’abord les deux hypothèses Ho et H1 :
Ho suivant laquelle la moyenne des différences par paire est nulle et H1 où ce n’est pas le cas.
H H
D D 0 1
0 0 :
: μ μ
=
≠
2 - puis le risque de première espèce
ici α=0,05
3 - ensuite vient le choix de la statistique à étudier.
Les variables aléatoires à étudier ici sont les différences par paire D = X-X’ et la moyenne de ces différences D.
La statistique utilisée dans ce test est : T D S n - 1
= (avecS
D D
n
i i
n
2
2
= 1
−
∑
= ( ))
La variable aléatoire T est distribuée selon la loi de Student à n-1 degrés de liberté (ddl) si les conditions de modélisation sont réunies.
Rappelons ces conditions.
- Il faut que la variable D = (X - X’) soit distribuée selon une loi normale.
- Il faut que l’échantillon soit aléatoire, simple.
- Il faut que l’hypothèse nulle soit vraie.
4 - il faut ensuite calculer la valeur t de T pour cet échantillon apparié et la comparer à celle du modèle.
Application à l’exemple
(les calculs ont été faits sous EXCEL 4 )
Calcul de t pour cet échantillon :
t d
s n
= −
− 0
1
Nous rejetons Ho de façon "hautement significative" car - 4.81 est à l’extérieur du segment [ -3.11 ; +3.11 ]
La différence d’appréciation entre les deux panures est établie statistiquement au risque α = 1%.
Pourquoi le collectif des différences doit-il être distribué normalement si nous utilisons le modèle de Student ?
Une variable aléatoire T set distribuée selon la loi de Student à ν ddl si elle peut s’écrire :
T U
= K ν
où U est une variable normale centrée réduite, K une
variable aléatoire distribuée selon la loi de χ² à ν degrés de liberté, U et K étant indépendantes.
On démontre, que lorsqu’une variable aléatoire D suit la loi normale N(µD,σD), si l’on désigne par S2 la variable aléatoire variance d’échantillon, alors la variable aléatoire nS
D 2
σ 2 suit
la loi de χ² à n-1 ddl. On démontre également que la variable aléatoire D, moyenne d’échantillon, suit la loi normale N(µD ,σD
n ), on montre également que S et D sont indépendantes. On en déduit donc que si D est distribuée selon une loi normale, alors :
X X’ D
Cellou M 4 7 -3
Chambon N 8 9 -1
Chausseray J 5 7 -2
Cottin S 3 7 -4
Durand T 4 5 -1
Etcheverry M 6 5 1
Jeannot F 4 5 -1
Lucquiaud F 3 5 -2
Machefert V 3 5 -2
Morin O 4 8 -4
Mycos C 3 5 -2
Narcos T 3 5 -2
d : Moyenne des différences
- 1,92 s : Ecart-type
des différences
1,32 valeur de t - 4,81 valeur de la table
à 5 % bilatéral
2,20 valeur de la table
à 1 % bilatéral
3,11
ENFA - Bulletin du GRES n° 2 - mars 1996 page 24
D n nS n
D D
D
−
− μ σ
σ
2 2
1
est distribuée selon la loi de Student à n-1 ddl.
Un petit calcul algébrique nous permet de retrouver : Sous l’hypothèse Ho : µD = 0, notre statistique T D
S n - 1
=
En guise de conclusion, nous pouvons affirmer que la variable ainsi construite est distribuée selon la loi de Student à n-1 ddl et que tout ceci repose sur le caractère normal de la variable D qui prend pour valeur la différence par paire, sinon le modèle est APPROXIMATIF, pour ne pas dire faux !
Une approche différente du problème : le test de Wilcoxon
Nous allons à présent, à partir des mêmes hypothèses Ho et H1, mettre en place un test non- paramétrique .
Nous avons choisi celui que Wilcoxon a mis au point vers 1945 et qui est particulièrement bien adapté aux petits échantillons (si l’on utilise dans la règle de décision des tables comme celle de Siegel présentée en Annexe).
Principe et Méthode :
Les observations sont classées par paires. On tient compte du signe des différences par paires (comme dans le test des "Signes") et aussi des rangs de ces différences.
Y(+) désigne la somme des rangs des différences positives Y(- ) désigne la somme des rangs des différences négatives.
Par principe, Y(+) + Y(-) = n(n+1)/2 où n est le nombre de paires.
En moyenne, si les deux échantillons proviennent d'une même population, Y(+) et Y(- ) valent tous deux la moitié de cette valeur soit : n(n+1)/4
Ce sera la base de l'Hypothèse nulle
.Règle de Décision:
L'Hypothèse Nulle est rejetée si la plus petite des valeurs Y est inférieure (ou égale) à la valeur correspondant à n paires, au niveau α, et qui est lue dans la Table de Siegel.
Remarque 1:
Pour des échantillons de "grande" taille comprenant plus de 25 éléments, nous pouvons utiliser une approximation Normale et construire une variable U distribuée selon la loi normale N(O;1).
U est la variable centrée réduite de Y(+) ou de Y(-).
U Y n n
n n n
= − +
+ +
+ ( ) /
( )( )
1 4
1 2 1
24
où n est le nombre de paires non ex-aequo.
Le Test Bilatéral nous conduit alors à adopter la règle suivante :
Si la valeur u calculée est plus grande que 1,96 (pour un risque α de 5%), alors Ho est rejetée de façon "significative"
Remarque 2:
Dans ce test comme dans celui des « signes », il faut éliminer les valeurs "ex-aequo", ce qui réduit d'autant la valeur de n.
Application dans l’exemple du développement de la nouvelle panure Les hypothèses en présence sont les suivantes:
( ) ( )
H Y
H Y
0
1
: ( )
: ( )
Y + Y +
= −
≠ − avec α=5%
Classement
Nombre
Rangs moyens avec signe
D=X-X’ Abso lue
Rangs d’occur ences
Rang D+ D-
1 Chambon N 8 9 -1 1 1 4 2,5 2,5
2 Durand T 4 5 -1 1 1 0 2,5 2,5
3 Etcheverry M 6 5 1 1 1 0 2,5 2,5
4 Jeannot F 4 5 -1 1 1 0 2,5 2,5
5 Chausseray J 5 7 -2 2 5 5 7 7
6 Lucquiaud F 3 5 -2 2 5 0 7 7
7 Machefert V 3 5 -2 2 5 0 7 7
8 Mycos C 3 5 -2 2 5 0 7 7
9 Narcos T 3 5 -2 2 5 0 7 7
10 Cellou M 4 7 -3 3 10 1 10 10
11 Cottin S 3 7 -4 4 11 2 11,5 11,5
12 Morin O 4 8 -4 4 11 0 11,5 11,5
Y(+)= 2,5 et Y(-)=75,5
Remarque :
Nous avons fait la moyenne des rangs pour les cas d’égalité des différences , afin de conserver le total de la somme des rangs. Pour n= 12 nous devons avoir une somme y(+) + y(-) = n(n+1)/2=78
ENFA - Bulletin du GRES n° 2 - mars 1996 page 26
Conclusions du Test :
Les valeurs lues dans la table de Siegel sont, pour la somme maximum, ici Y(+), de 14 (α = 5%) et de 7 (α = 1%) pour n = 12 paires.
Nous sommes loin du compte avec 2,5.
Nous rejetons Ho de façon "hautement significative"
Nous avons mis en évidence une différence d’appréciation très marquée entre ces deux techniques de préparation du produit.
Le résultat obtenu à l’aide du test de Student est confirmé.
En guise de conclusion, et en attendant vos remarques qui ne manqueront pas d’être pertinentes, nous pouvons affirmer que la méthode de Wilcoxon est à recommander lorsque l’on a le moindre doute sur la "normalité" des variables d’origine ou sur la versatilité de certains membres du jury !
Par exemple, amusez-vous à étudier le cas décrit en annexe où Morin O., dans une crise d’humeur, considère que la première est bien meilleure que la seconde, et ceci contre l’avis presque unanime ! (solution au prochain numéro)
Si vous réussissez à automatiser ces deux tests, afin de faire apparaître simultanément les deux résultats, vous verrez cependant, que presque toujours, la variable T de Student se comporte remarquablement bien !
Références bibliographiques:
Théories et Méthodes Statistiques (t2) Dagnélie P.A. de Gembloux Comprendre la Statistique MJ Moroney Marabout
Statistiques Dictionnaire Encyclopédique Yadolah Dodge Dunod
Annexe
1 Table de Siegel ( 1956) (test bilatéral)
n paires 5% 1%
7 2 -
8 4 0 9 6 2 10 8 3 11 11 5 12 14 7 13 17 10 14 21 13 15 25 16 16 30 20 17 35 23 18 40 28 19 46 32 20 52 38 21 59 43 22 66 49 23 73 55 24 81 61 25 89 68
Il existe des tables plus récentes (allant jusqu’à n = 50 ) celles de D.B. Owen (1962) et Harter (1970) entre autres.
2 La "trahison de O. Morin"
Jeannot F 8,5 9,0
Durand T 8,5 9,0
Narcos T 8,5 9,0
Cellou M 8,5 9,0
Machefert V 8,5 9,0 Etcheverry M 8,0 9,0
Cottin S 8,0 9,0
Lucquiaud F 8,0 9,0
Chambon N 8,0 9,0
Chausseray J 8,0 9,0
Mycos C 8,0 9,0
Morin O 9,0 5,0
ENFA - Bulletin du GRES n° 2 - mars 1996 page 29 Contact : Conf [email protected]
EXERCICES CORRIGES
Ces exercices portent sur les RISQUES α et β à l’occasion de tests statistiques.
EXERCICE 1
On procède à un test de comparaison de moyennes, calculer les risques α et β dans les conditions suivantes :
Ho : µ = 117g.
H1 : µ = 120g.
Règle de décision : Si la moyenne de l’échantillon est supérieure à 119g on rejette Ho et on accepte H1.
L’écart-type de la fabrication vaut σ = 5g.
La taille de l’échantillon est n = 25.
_________________________________
Posons les hypothèses: Ho : "μ = 117" opposée à H1 : "μ = 120"
Modèle: σ est connu, la V.A. U = X n
− μ
σ suit la loi N (0 , 1).
α = μ > = > −
= > =
prob =117 X 119 prob U 119 117 prob U 5
25
2 0 0228
( ) ( ) ( ) ,
Le risque de refuser H0 alors que H0 est vraie est d' environ 2,3%.
b ) β = probμ=120 X <119 = prob U < 119−120 = prob U < − = 5
25
1 0 1587
( ) ( ) ( ) ,
Le risque d' accepter H0 alors que H0 est fausse est d' environ 16 %.
Remarque : La puissance du test est donc de 1-0,16 soit 84%.
EXERCICE 2
A partir d’un échantillon de n = 12 plaquettes prises au hasard (EAS) dans une fabrication d’écart-type σ = 1g, on décide que si la moyenne de l’échantillon est comprise entre 249g et 251g, alors celle de la fabrication est µ = 250g.
Dans ces conditions, quelle est la probabilité de décider que la moyenne est de 250g alors qu’elle est en réalité de 252g pour la fabrication en question ?
On pose Ho : "μ = 250" opposée à H1 : "μ = 252"
Modèle: σ est connu, la V.A. U = X n
− μ
σ suit la loi N (0 , 1).
[ ]
β β
= μ < < = − < < −
= − < < − =
prob = X prob U
prob U
252 249 251 249 252
1 12
251 252 1 12
10 39 3 46 0 0003
( )
( , , ) ,
Le risque de décider que la moyenne est de 250g alors qu'elle est de 252g est de 0,03%.
La puissance du test est donc de 99,97%. Test très puissant ! EXERCICE 3
Deux machines automatiques sont utilisées pour couper à une longueur donnée des tiges métalliques.
Il apparaît que la machine B produit des tiges plus longues que la machine A, 60 cm en moyenne pour B au lieu de 53 cm en moyenne pour A.
Déterminer le seuil de décision Y qui permettra de distinguer les pièces de A de celles de B à partir d’un échantillonnage portant sur 12 pièces.
Les écart-types des productions sont connus et sont les mêmes pour les deux machines soit σ = 2cm.
Nous savons par ailleurs que les risques de première et deuxième espèce sont égaux : α = β.
___________________________
On peut poser les hypothèses Ho : "μ = 53" (les tiges viennent de A) opposée à H1 : "μ = 60" (les tiges viennent de B)
Les écarts types des productions sont connus, le modèle normal, utilisé précédemment, reste valable.
On cherche à déterminer le réel a tel que si x < a, on acceptera H0
si x > a, on acceptera H1