Organisation materielle
UV PY213B
Presentation du cours 2000/2001
Cours magistral: 13 heures
mardi 11h30 - 12h30 - Amphi 3
Travaux diriges: seances de deux heures
lundi 13h45 a 15h45 - A222
lundi 16h a 18h - A221
lundi 16h a 18h - A212
mercredi 13h45-15h45 - A326
mercredi 16h a 18h - B213
Contr^ole des connaissances : (contr^ole continu)
Examen de 3 heures en janvier
N. Gueguen. Manuel de Statistiques pour Psy-
chologues, Dunod
B. Cadet Methodes statistiques en psychologie.
P.U. de Caen
G. Mialaret. Statistiques appliquees aux sciences
humaines. PUF
B. Beauls. Statistiques appliquees a la psycho-
logie. Tome 1. LEXIFAC Breal
M. Reuchlin. Precis de Statistiques. PUF Coll.
Le Psychologue.
Colin, Lavoie, Delisle. Initiation aux methodes
quantitatives en Sc. Humaines CDR. No 310-LAV
V2098/A
2
Pourquoi faut-il etudier les statistiques?
Statistiques descriptives: resumer, donner une vue
synthetique d'un ensemble de donnees
Statistiques \mathematiques": distributions theoriques
Correlation lineaire, Test du , apercu sur les autres
tests.
Transparents du CM et polycopies de TD 1998/99 sur
internet (au format .pdf lisible par Acrobat Reader) :
http://geai.univ-brest.fr/enseignements/py213b.html
Les statistiques sont-elles utiles au psychologue?
Les statistiques, il y a des calculatrices et des logiciels
pour faire cela?
Collecte des donnees
Sur qui?
A propos de quoi?
Nature d'une variable statistique Population
Individu statistique, unite statistique, sujet
Attribut, caractere, variable statistique
Modalites d'une variable: exhaustives - exclusives
Champ ou domaine de variation
Variables nominales { echelle nominale
Variables ordinales { echelle ordinale
Variables numeriques discretes ou continues
Echelles d'intervalles, echelles de rapports
N
N N N
k k k
1 2
1 1 1
2 2 2
1 1 1
2 2 2
1 2 1 1
s s s
X Y
X Y
s x y
s x y
s x y
a n f
a n f
a n f
N
a ;a n f
donnees
Tableau protocole :
tableau d'eectifs Individus: , , ...,
Variables etudiees: , , ...
... ... ...
Recensement ou tri a plat:
Modalites Eectifs Frequences
... ...
1 (ou 100%)
Variable regroupee en classes:
Classes Eectifs Frequences
[ [
n
1
j
l
j l
i i i ij
k k k k l
1 2
1 11 12 1 1
2 21 22
1 2
1 2
1 gence
X Y b b b b
a n n n n
a n n
a n n n
a n n n
N N
... ...
...
...
...
...
...
...
Variables nominales
Mod. E. Freq. %
Bleus 2811 0,41 41%
Gris 3132 0,46 46%
Bruns 857 0,13 13%
Total 6800 1 100%
Diagrammes a bandes
Methode de construction: construire un tableau de
proportionnalite
Modalites Bleu Gris Bruns
Freq. 0,41 0,46 0,13
Angle 74 83 23
On a demande a 240 sujets s'ils fermaient a clef la
porte de leur appartement.
Jam. Parf. Souv. T. souv. Tjrs
E. 25 55 35 50 75
Variable numerique regroupee en classes : histo-
gramme.
tion; graduation reguliere sur l'axe des abscisses.
Exemple: nombre de garcons dans des familles de 5
enfants
Mod. 0 1 2 3 4 5
E. 5 18 32 29 14 2
Un histogramme est forme de rectangles adjacents:
{ dont la base est proportionnelle a l'amplitude de la
classe
{ dont l'aire est proportionnelle a l'eectif de la classe
;
;
;
;
;
[155 166[ 8 11 0.73
[166 170[ 9 4 2.25
[170 172[ 7 2 3.5
[172 176[ 9 4 2.25
[176 190] 7 14 0,5
c
c
c X
N
x
n x
X x
F x
n x
N
F
x
F x
n x
N quelconque
strictement inferieure Denitions
Eectif cumule croissant
Frequence cumulee croissante :
Fonction de repartition :
une variable statistique numerique
Population d'eectif total .
d'une valeur numerique
: nombre d'individus ( ) pour lesquels la
variable est a .
( ) =
( )
fonction numerique
telle que, pour tout ,
( ) =
( )
x F x
< x F x :
< x F x :
< x F x :
< x F x :
< x F x :
x > F x
Exemple: nombre de garcons dans des familles de 5
enfants
Mod. 0 1 2 3 4 5
E. 5 18 32 29 14 2
E. Cum. 0 5 23 55 84 98 100
Freq. Cum. 0 5% 23% 55% 84% 98% 100%
Si 0 ( ) = 0
Si 0 1 ( ) = 0 05
Si 1 2 ( ) = 0 23
Si 2 3 ( ) = 0 55
Si 3 4 ( ) = 0 84
Si 4 5 ( ) = 0 98
Si 5 ( ) = 1
c
;
;
;
;
;
x n x F x
d'equirepartition des eectifs a l'interieur d'une classe.
Classes Eect.
[155 166[ 8
[166 170[ 9
[170 172[ 7
[172 176[ 9
[176 190] 7
Total 40
( ) ( )
155 0 0
166 8 20%
170 17 40.25%
172 24 60%
176 33 80.25%
190 40 100%
N
N
N+1
2 Mode, classe modale
Mediane
classes par valeurs croissantes de la
variable
Mode d'une serie statistique (nominale, ordinale ou
numerique): modalite correspondant a l'eectif le plus
eleve.
N.B. Une serie statistique peut admettre plusieurs modes.
Classe modale d'une serie statistique regroupee en
classes: classe qui a la plus forte densite.
N.B.: c'est la classe correspondant au rectangle de
hauteur maximale dans l'histogramme.
Variable ordinale ou numerique.
Les individus sont
. La mediane est la valeur du caractere ob-
servee sur l'individu \median", a savoir:
{ Si est impair, la mediane est la modalite observee
sur l'individu de rang
{ Si est pair et si le caractere est numerique, la
X
X X
0
0
0 +1
+1
+1
+1
+1
=1
=1 =1
Moyenne arithmetique
interpolation lineaire
i
i
i
i
i
i
i i
i i
i
i
N
i
i
k
i
i i
k
i
i i
Md a a a
: F
F F
a ;a
F F
a a
x
N
N
n a f a
{ La mediane est l'abscisse du point du diagramme
cumulatif correspondant a la frequence cumulee 50%.
{ La mediane peut ^etre calculee par :
= + ( )
0 5
ou [ ] est la classe contenant l'individu median et
, designent les frequences cumulees des valeurs
et .
Caractere numerique.
{ Calcul a partir d'un tableau protocole
=
{ Calcul a partir d'un tableau d'eectifs
= 1
=
+1 i i
i
i
i
i i n a
;
c
a a
n c
;
;
;
;
;
Mod. Eect.
0 5 0
1 18 18
2 32 64
3 29 87
4 14 56
5 2 10
Total 100 235
= 2 35
{ Cas d'une variable repartie en classes
On considere que la masse de chaque classe est concentree
au centre =
+
2
de la classe.
Exemple:
Classes Eect. Centres
[155 166[ 8 160,5 1284
[166 170[ 9 168 1512
[170 172[ 7 171 1197
[172 176[ 9 174 1566
[176 190[ 7 183 1281
0 1 2
1 2
1 2
1
2
3
1 3
n
max n
min n
max min Etendue
Quartiles x ;x ;:::;x
x Max x ;x ;:::;x
x Min x ;x ;:::;x
e x x
M
Q
M
Q M
Q
M
F Q : F M : F Q :
F
: valeurs observees d'une variable statis-
tique numerique.
= ( )
= ( )
L'etendue de la variable est:
=
Soit une serie statistique numerique de mediane .
Premier quartile : mediane de la serie des observa-
tions strictement inferieures a .
Deuxieme quartile : mediane de la serie complete.
Troisieme quartile : mediane de la serie des obser-
vations strictement superieures a .
Cas d'une variable continue:
( ) = 0 25 ; ( ) = 0 5 ; ( ) = 0 75
est la fonction de repartition
X
X X
3 1
=1 Ecart moyen
0
j 0 j
j 0 j j 0 j
m
N
i
i
m
k
i i
k
i i Iq Q Q
E
x
N
E
N
n a f a
bo^te a moustaches.
=
Representation graphique permettant de visualiser l'etendue
et les quartiles:
Generalisation: deciles, centiles...
{ A partir d'un tableau protocole
=
{ A partir d'un tableau d'eectifs
= 1
=
0
0 0
p
0 X
X X
X
X
! Calcul pratique
=1
2
=1
2
=1
2
=1 2
2 N
i
i
k
i
i i
k
i
i i
N
i
i
k V
x
N
V
N
n a f a
V
V
x
N
Denition: La variance est la moyenne des carres des
ecarts a la moyenne.
{ A partir d'un tableau protocole
=
( )
{ A partir d'un tableau d'eectifs
= 1
( ) = ( )
L'ecart type est donne par: = .
\Moyenne des carres moins carre de la moyenne"
=
1
2
2
2 0
i i i
i
i i i
i n a n a
: V : : : :
n c n c
;
;
;
;
;
Organisation des calculs
Cas d'une variable repartie en classes: utiliser les centres
de classes.
Unites, eet d'un changement d'origine ou d'unites.
{ Cas d'une variable discrete
Mod. Eect.
0 5 0 0
1 18 18 18
2 32 64 128
3 29 87 261
4 14 56 224
5 2 10 50
Total 100 235 681
= 2 35 ; = 6 81 2 35 = 1 29 ; = 1 13
{ Cas d'une variable repartie en classes
Classes Eect. Centres
[155 166[ 8 160.5 1 284 206 082
[166 170[ 9 168 1 512 254 016
[170 172[ 7 171 1 197 204 687
[172 176[ 9 174 1 566 272 484
[176 190] 7 183 1 281 234 423
40 6 840 1 171 692
nombre
variabilite individuelle
Etudier une serie experimentale, pour quoi faire?
Hasard, aleatoire, variabilite individuelle { Resumer les observations
{ Situer un individu par rapport a son groupe
Ex.: test spatial. Mais se pose alors le probleme de la
representativite de ce groupe...
{ Comment utiliser les resultats d'une etude experimentale
pour enoncer des lois generales?
{ Un physicien qui recherche la valeur d'une grandeur
physique, recherche un .
Exemple: resistivite du cuivre. Si un morceau de
metal n'a pas cette resistivite, ce n'est pas du cuivre...
{ En biologie, en psychologie, les resultats obtenus
prennent en compte une plus ou
moins importante.
Exemple: le QI moyen de la population humaine est
100. Un ^etre vivant a un QI de 95. Que peut-on en
conclure?
Autre aspect: recherche d'une information dans un
bruit de fond.
Formalisation de l'eet du hasard: probabilites.
Les lois theoriques permettent, dans certaines situa-
tions pratiques de justier des conclusions telles que :
{ le hasard sut seul a expliquer la variabilite
{ le hasard ne sut pas comme explication; il y a
\autre chose".
Deux situations-types de l'eet du hasard:
{ Variabilite due a des eets nombreux, de faible am-
plitude, additifs: loi normale
{ Caractere de type dichotomique: succes/echec. Nombre
de succes sur N individus tires au hasard: loi binomiale.
2 k
n
k
n
2 2 2
0
0
n n ::: n
k
n n
k k
C C
n
k n k
p
p p p
X
X
factorielle
nombre de combinaisons de
elements pris a Combinaisons
Epreuve et loi de Bernouilli
Loi binomiale : exemple introductif
! (lire ) designe: 1 2
Le nombre de manieres de choisir elements parmi
elements est appele
.
Il est note . On a: =
!
! ( )!
.
Variable statistique a 2 modalites: 1, 0 ou succes/echec
: frequence de la modalite \succes"
Caracteristiques: = , = (1 )
Un QCM: 3 questions et 4 reponses dont une seule
correcte par question.
Population tres nombreuse.
Variable : nombre de reponses correctes donnees
par le sujet.
Si les sujets repondent au hasard, quelle est la frequence
de = 2?
0
2
0
0 k
k
n
k n k
n
X
n
p
n
k
f b n;p;k C p p
np np p
Caracteristiques
loi binomiale de
parametres n et p
Soit un nombre entier.
La variable , \nombre de succes observes lorsqu'on
repete fois, de facon independante, une experience
de Bernouilli de parametre " suit une
.
{ ses modalites sont 0, 1, ...,
{ la frequence de la modalite est donnee par:
= ( ) = (1 )
= ; = (1 )
0
01
1
0
f y f x
F
y F x
a;b F b F a
P a X < b
F a ;a X < a
P X < a
b; X b
P X b F b
Qu'est-ce qu'une variable theorique continue?
Pourquoi des lois theoriques continues?
Comment est denie une loi theorique continue? { Variables \naturellement" continues (ex. taille)
{ Variables regroupees en classes
{ Approximation de lois discretes.
Loi d'une variable observee : histogramme, fonction
de repartition.
Pour une loi theorique continue:
{ densite ; courbe = ( )
{ Fonction de repartition ;
courbe cumulative = ( )
Frequence de la classe [ [: ( ) ( )
Notee aussi: ( ).
( ) : frequence de la classe ] [ ou
Notee aussi: ( )
De m^eme, pour la classe notee [ + [ ou ,
( ) = 1 ( ).
2
01 1
p 0
Z
;
f x
x Probleme:
nombreux, additifs,
independants, du m^eme ordre de grandeur.
Loi normale centree reduite
Une loi theorique approchant bien les
distributions experimentales dans lesquelles la disper-
sion de la variable resulte d'eets
Situation type: planche de Galton
Vocabulaire:
centree : = 0 reduite: = 1
Une variable suit la loi normale centree reduite si ses
caracteristiques sont les suivantes :
Ensemble des modalites: ] + [
Densite:
( ) = 1
2
exp
2
Fonction de repartition
Utilisation de cette loi: tables numeriques
Exemples:
0
X
Z
Z
X
Loi normale { cas general
Une variable statistique de moyenne et d'ecart-
type suit la loi (est distribuee selon la loi) normale
de parametres et si la variable denie par :
=
suit une loi normale centree reduite.
p 0
0
0
correction de conti-
nuite
k
k : ;k :
n p
np np p
n ; np ; n p
n p :
P X :
P : X < : :
F X :
F X < : : Regle
Passage du discret au continu:
A la modalite de la loi binomiale, on fait correspondre
la classe [ 0 5 + 0 5[.
En pratique, on peut remplacer la loi binomiale de
parametres et par la loi normale de parametres
= et = (1 ) lorsque:
30 15 (1 ) 15
Exemple: loi binomiale telle que = 30 et = 0 5
( = 12) = 0 0806.
(11 5
~
12 5) = 0 0800
( 12) = 0 1808.
(
~
12 5) = 0 1807
2
Question posee : independantes
dependantes
Outil:
Question posee: correlation
Outil:
Etude simultanee de deux variables nominales :
Etude de la liaison entre deux variables numeriques Jusqu'a present: etudes portant sur une seule variable.
Analyse croisee de deux variables (par ex. question-
naire d'enqu^ete)
{ Loisir prefere et sexe
{ Opinion sur l'immigration et sensibilite politique
les deux variables sont-elles
ou ?
analyse d'un tableau de contingence a l'aide
d'un test du .
{ Population d'etudiants. Variables: note de fevrier
et note de juin. Lien eventuel?
{ Population de sujets : lien entre taille et poids
Y a-t-il un lien, une entre
les deux variables?
etude de la correlation lineaire entre les deux
variables
2
0 2
2
n t
n t
t ij ij
ij ij
ij Test du
2
Exemple: preferences des publics masculin et feminin.
Eectifs observes
H F Total
Comedie 90 75 165
Drame 50 45 95
Varietes 160 80 240
Total 300 200 500
Go^uts dependants du sexe?
Eectifs attendus (ou theoriques) si independance :
Dans chaque case : eectif =
total ligne total colonne
total general
H F
Comedie 99 66
Drame 57 38
Varietes 144 96
Calcul de la \distance" du
Mod.
( )
H.C. 90 99 0.82
X
2
0
1 1
11
1 1
11 2
2
2
2
2
2
2 Test du
Resume
:
:
n
n n
N n
l c
t
t
n n
n
n t
c
obs
ij
i j
ij
ij
i j
ij ij
total ligne total colonne
total general Si seul le hasard est en cause,
loi du a 2 ddl.
Si seul le hasard est en cause,
valeur critique { 500 personnes: echantillon
{ 2 sources de variation: eet du sexe, hasard
{ la distance suit une
{ On se xe un seuil de 5% (par exemple)
{ on a seulement 5% de
chances d'observer un superieur a la
= 5 991.
{ Or on a observe : = 8 64.
{ Conclusion: dierence de go^uts selon le sexe.
Tableau de contingence : eectifs observes
Totaux par ligne: par colonne :
Total general: ou
lignes et colonnes
Eectifs theoriques: tableau ( ) avec :
= =
Distance du :
( )
0 0
2
2 2
2 2
2 2
Remarques
c
obs
c
obs
c
obs
c
l c
<
>
{ Hypothese: le hasard est seul en cause. Les variables
sont independantes.
{ On xe un seuil (5%, 1%, ...)
{ Lecture de la table: valeur critique pour le seuil
et ( 1)( 1) ddl
{ Intervalles d'acceptation et de rejet
{ Comparaison de et de
{ Conclusion:
{ Si , independance acceptee
{ Si , independance rejetee ;
les variables dependent l'une de l'autre.
{ Condition sur les eectifs theoriques minimaux
{ Correction de Yates
Distributions du
0 0
0 X
X
!
1 1 1
2 2 2
=1
=1 i
i i
n
i
i i
n
i
i i s
x y
X Y
s x y
s x y
X Y
Cov X ;Y
n
x x y y
Cov X ;Y
n
x y x y
Cov X ;Y Nuage de points
Covariance des variables et
Coecient de correlation de Bravais Pearson Exemple:
{ Sujets: etudiants
{ Variables: note de fevrier , note de juin
{ Y a-t-il un lien entre ces deux notes?
Donnees :
... ... ...
( ) = 1
( )( )
ou
( ) = 1
=
( )
2
0
X
n
X
X
X
n
X X
n
n n X
X
p
F n
F p F
p p
n
distribution d'echantillonnage Exemple
Distribution d'echantillonnage
Theoreme de la limite centree
Cas d'une proportion
: echantillon - uctuations d'echantillonnage
Population des individus
Caractere , moyenne , ecart type
Population des echantillons de taille .
Variable : moyenne observee sur un echantillon.
Distribution de : .
La variable , moyenne observee sur un echantillon de
taille , a pour parametres:
Moy( )= ; Var( )=
Si est assez grand ( 30), est approximative-
ment distribuee selon une loi normale.
: variable dichotomique, modalites 0 et 1
Frequence de la modalite 1 :
frequence observee sur un echantillon de taille
Moy( ) = ; Var( )=
(1 )
0
2 2 2
obs
obs
c X
n
X
s
X
s
n
n
s
Estimation ponctuelle de la moyenne
Estimation ponctuelle de la variance et de l'ecart
type
Variable sur une population nombreuse
Moyenne , ecart type inconnus
On a tire un echantillon:
{ Taille
{ Moyenne observee sur l'echantillon:
{ Ecart type de l'echantillon: .
^ =
Variance corrigee, denie par:
^ = =
1
2
2
2 obs
c
c
X
n
X
s : s :
s : s
conance
Exemple
Raisonner sur une observation
Raisonner sur la distribution d'echantillonnage :
intervalle de conance
Probleme: obtenir une armation du type: est
comprise entre ... et ...
En fait, plut^ot: avec 95% de degre de conance, j'es-
time que est comprise entre ... et ...
Test sur une population. Score .
et inconnus
Echantillon:
= 49
= 25
= 5 94; = 35 26
Estimation ponctuelle de :
= 49
48
35 26 = 36 ; = 6
0
0
0
0
p
p
0 0
obs obs
obs
obs
obs
c
obs
c
Conclusion
Remarques et complements Z
X
S
X SZ
Z X
: Z :
X Z : :
X Z : :
: :
X
s
n
z X
s
n z
z
P z Z z
n <
= ; = +
Avec 95% de degre de conance, on estime que la
valeur associee a verie:
1 96 1 96
Calcul des valeurs extr^emes pour :
Pour = 25 et = 1 96, = 26 68
Pour = 25 et = 1 96, = 23 32
Avec un degre de conance de 95%, on estime que :
23 32 26 68
{ Si on veut donner une formule generale:
+
ou est determine par:
( ) = 1
{ Normalite de la distribution parente
{ Petits echantillons: on procede autrement si 30.
{ Il existe une methode analogue dans le cas des pro-
2
0
1
2
2 obs
c
0
0
Probleme
X
n
X
s : s :
H
H >
Z
X
E
E
s
n
Z X
On reprend l'exemple precedent :
Test sur une population. Score
et inconnus
Echantillon:
= 49
= 25
= 5 94; = 35 26
: Peut-on armer presque s^urement que,
sur la population tout entiere, la moyenne est superieure
a 20?
Hypothese nulle : = 20
Hypothese alternative : 20
Seuil choisi: 1% par exemple
Statistique de test:
=
20
avec =
= 7
6
( 20)
Distribution de la statistique de test: loi normale