• Aucun résultat trouvé

Statistiques et Informatique Appliquees a la Sociologie UV SOC23A1 Presentation du cours 2001/2002

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques et Informatique Appliquees a la Sociologie UV SOC23A1 Presentation du cours 2001/2002"

Copied!
34
0
0

Texte intégral

(1)

Organisation materielle

a la Sociologie

UV SOC23A1

Presentation du cours 2001/2002

Cours magistral: 7 ou 8 heures

mercredi 13h45-14h45 - A222

Travaux diriges de statistiques: 1 h par quinzaine

{ mardi 8h15 a 9h15 - sem A - Gr. 1 - A221

{ mardi 8h15 a 9h15 - sem B - Gr. 2 - A221

Travaux diriges d'informatique: 2 h par quinzaine. Ef-

fectif max.: 20

{ mercredi 8h15-10h15 - sem A - A203

{ mercredi 8h15-10h15 - sem B - A203

{ mercredi 13h45-15h55 - sem A - A203

{ mercredi 13h45-15h55 - sem B - A203

{ vendredi 8h15-10h15 - sem A - A203

Contr^ole des connaissances : (contr^ole continu)

(2)

Bloss et Grosseti, Introduction aux methodes sta-

tistiques en sociologie, PUF, Coll. Le Sociologue

G. Mialaret. Statistiques appliquees aux sciences

humaines. PUF

Colin, Lavoie, Delisle. Initiation aux methodes

quantitatives en Sc. Humaines CDR. No 310-LAV

V2098/A

P. Rateau, Methode et statistique experimentales

en sciences humaines, Ellipses

(3)

http://geai.univ-brest.fr/~carpenti/

Pourquoi faut-il etudier les statistiques? ment consacre aux statistiques.

Statistiques descriptives: resumer, donner une vue

synthetique d'un ensemble de donnees : representations

graphiques, parametres de position et de dispersion

Statistiques \mathematiques": notion de distribution

theorique.

Documents fournis :

Transparents du CM et polycopies de TD

Egalement accessibles sur Internet (dans le courant du

semestre) (au format .pdf lisible par Acrobat Reader) :

Les statistiques sont-elles utiles au sociologue?

Les statistiques, il y a des calculatrices et des logiciels

pour faire cela. Oui, mais ...

(4)

Collecte des donnees

Sur qui?

A propos de quoi?

Nature d'une variable statistique Population

Individu statistique, unite statistique, sujet

Attribut, caractere, variable statistique

Modalites d'une variable: exhaustives - exclusives

Champ ou domaine de variation

Variables nominales { echelle nominale

Variables ordinales { echelle ordinale

Variables numeriques discretes ou continues

Echelles d'intervalles, echelles de rapports

(5)

N

N N

k k k

i

i 1 2

1 1

2 2

1 1 1

2 2 2

1 2 1 1

2 3 2 2

s s s

X Y

X Y

x y

x y

N x y

a n f

a n f

a n f

N

f

a

a ;a n f

a ;a n f

donnees

Tableau protocole :

tableau d'eectifs Individus: , , ...,

Variables etudiees: , , ...

Variable Variable

Individu 1

Individu 2

... ... ...

Individu

Recensement ou tri a plat:

Modalites Eectifs Frequences

Modalite

Modalite

... ...

Modalite

1 (ou 100%)

Frequences :

=

eectif de la modalite

eectif total

Variable regroupee en classes:

Classes Eectifs Frequences

[ [

[ [

(6)

0

1

28

: :

: Ecart absolu

Ecart relatif

Coecient multiplicateur

Taux de variation annuel moyen

Exemple: etude d'une m^eme variable a deux moments

dierents.

CSP 1962 1990 Ec. abs. Ec. rel. Coe.

Agriculteurs 11 38 27 245 % 3.45

Sal. agricoles 1 5 4 400 % 5

Patrons 37 75 38 103 % 2.03

... ... ... ... ... ...

Total 197 894 697 354 % 4.54

entre deux eectifs d'une m^eme moda-

lite.

ou taux de variation:

Ecart relatif =

Eectif 1990 Eectif 1962

Eectif 1962

: 1 + Ecart relatif

entre 1962 et 1990:

Coe. moyen = 3 45 = 1 045

Taux moyen = 4 5%

(7)

1 n

j l

j

l

i i i ij

k k k k l

1 2

1 11 12 1

1

2 21 22

1 2

1 2

1

X Y b b b b

a n n n n

a n n

a n n n

a n n n

N N

bleau de contingence

Exemple

... ...

...

...

...

...

...

...

Hommes Femmes Total

Comedie 90 150 240

Drame 50 90 140

Varietes 160 160 320

300 400 700

Deux (voire trois) manieres de calculer des frequences :

Par ligne

Hommes Femmes Total

Comedie 37.5% 62.5% 100%

Drame 35.7% 64.3% 100%

Varietes 50% 50% 100%

42.8% 57.2% 100%

Par colonne

Hommes Femmes Total

Comedie 30% 37.5% 34.3%

(8)

Variables nominales

Mod. E. Freq. %

Bleus 2811 0,41 41%

Gris 3132 0,46 46%

Bruns 857 0,13 13%

Total 6800 1 100%

Diagrammes a bandes

(9)

Methode de construction: construire un tableau de

proportionnalite

Modalites Bleu Gris Bruns

Freq. 0,41 0,46 0,13

Angle 74 83 23

(10)

On a demande a 240 sujets s'ils fermaient a clef la

porte de leur appartement.

Jam. Parf. Souv. T. souv. Tjrs

E. 25 55 35 50 75

(11)

Variable numerique regroupee en classes : histo-

gramme.

tion; graduation reguliere sur l'axe des abscisses.

Exemple: nombre de garcons dans des familles de 5

enfants

Mod. 0 1 2 3 4 5

E. 5 18 32 29 14 2

Un histogramme est forme de rectangles adjacents:

{ dont la base est proportionnelle a l'amplitude de la

classe

{ dont l'aire est proportionnelle a l'eectif de la classe

(12)

;

;

;

;

;

;

;

Classe E.

[155 160[ 1

[160 165[ 6

[165 170[ 10

[170 175[ 14

[175 180[ 6

[180 185[ 2

[185 190[ 1

Hauteur des rectangles: eectifs des classes

(13)

;

;

;

;

;

densite =

eectif

amplitude

Hauteur des rectangles: densites des classes

Classe E. Amplitude Densite

[155 166[ 8 11 0.73

[166 170[ 9 4 2.25

[170 172[ 7 2 3.5

[172 176[ 9 4 2.25

[176 190] 7 14 0.5

(14)

Exemple: pyramide des ^ages graphique

(15)

N

N

N

N N

+1

2

2 2

Mode, classe modale

Mediane

classes par valeurs croissantes de la

variable

Mode d'une serie statistique (nominale, ordinale ou

numerique): modalite correspondant a l'eectif le plus

eleve.

N.B. Une serie statistique peut admettre plusieurs modes.

Classe modale d'une serie statistique regroupee en

classes: classe qui a la plus forte densite.

N.B.: c'est la classe correspondant au rectangle de

hauteur maximale dans l'histogramme.

Variable ordinale ou numerique.

Les individus sont

. La mediane est la valeur du caractere ob-

servee sur l'individu \median", a savoir:

{ Si est impair, la mediane est la modalite observee

sur l'individu de rang

{ Si est pair et si le caractere est numerique, la

mediane est la moyenne des modalites observees sur

les individus de rangs et + 1.

(16)

X

X X

=1

=1 =1

x

N

N

n a f a

N

i

i

k

i

i i

k

i

i i Caractere numerique.

{ Calcul a partir d'un tableau protocole

=

{ Calcul a partir d'un tableau d'eectifs

= 1

=

(17)

+1 i i

i

i

i

i i n a

;

c

a a

n c

;

;

;

;

; Exemple:

Mod. Eect.

0 5 0

1 18 18

2 32 64

3 29 87

4 14 56

5 2 10

Total 100 235

= 2 35

{ Cas d'une variable repartie en classes

On considere que la masse de chaque classe est concentree

au centre =

+

2

de la classe.

Exemple:

Classes Eect. Centres

[155 166[ 8 160,5 1284

[166 170[ 9 168 1512

[170 172[ 7 171 1197

[172 176[ 9 174 1566

[176 190[ 7 183 1281

40 6840

6840

(18)

0 1 2

1 2

1 2

1

2

3 n

max n

min n

max min Etendue

Quartiles

Caracteristiques de dispersion

x ;x ;:::;x

x Max x ;x ;:::;x

x Min x ;x ;:::;x

e x x

M

Q

M

Q M

Q

M

: valeurs observees d'une variable statis-

tique numerique.

= ( )

= ( )

L'etendue de la variable est:

=

Soit une serie statistique numerique de mediane .

Premier quartile : mediane de la serie des observa-

tions strictement inferieures a .

Deuxieme quartile : mediane de la serie complete.

Troisieme quartile : mediane de la serie des obser-

vations strictement superieures a .

(19)

X

X X

0

0

0 0

p N

i

i

k

i

i i

k

i

i i

3 1

=1

2

=1

2

=1

2 Iq Q Q

V

x

N

V

N

n a f a

V

Variance et ecart type L'ecart interquartile

bo^te a moustaches.

est deni par:

=

Representation graphique permettant de visualiser l'etendue

et les quartiles:

Generalisation: deciles, centiles...

Denition: La variance est la moyenne des carres des

ecarts a la moyenne.

{ A partir d'un tableau protocole

=

( )

{ A partir d'un tableau d'eectifs

= 1

( ) = ( )

L'ecart type est donne par: = .

(20)

0

0

0 X

X

!

=1 2

2

=1

2 2

2

2 N

i

i

k

i

i

i

i i i

i V

x

N

V

N

n a

n a n a

: V : : : :

Calcul pratique

Remarques

Organisation des calculs

\Moyenne des carres moins carre de la moyenne"

=

= 1

Cas d'une variable repartie en classes: utiliser les centres

de classes.

Unites, eet d'un changement d'origine ou d'unites.

{ Cas d'une variable discrete

Mod. Eect.

0 5 0 0

1 18 18 18

2 32 64 128

3 29 87 261

4 14 56 224

5 2 10 50

Total 100 235 681

= 2 35 ; = 6 81 2 35 = 1 29 ; = 1 13

(21)

2

2

0 0

p

i i i

i

n c n c

;

;

;

;

;

V : :

: ;

{ Cas d'une variable repartie en classes

Classes Eect. Centres

[155 166[ 8 160.5 1 284 206 082

[166 170[ 9 168 1 512 254 016

[170 172[ 7 171 1 197 204 687

[172 176[ 9 174 1 566 272 484

[176 190] 7 183 1 281 234 423

40 6 840 1 171 692

= 171

=

1171692

40

171 = 29292 3 29241 = 51 3

= 51 3 = 7 16 cm

(22)

Analyses bivari´ ees - Introduction

Jusqu’` a pr´ esent : ´ etudes portant sur une seule variable.

Etude simultan´ ee de deux variables nominales : Analyse crois´ ee de deux variables (par ex. question- naire d’enquˆ ete)

– Loisir pr´ ef´ er´ e et sexe

– Opinion sur l’immigration et sensibilit´ e politique

Question pos´ ee : les deux variables sont-elles ind´ ependantes ou d´ ependantes ?

Outil : analyse d’un tableau de contingence ` a l’aide d’un test du χ 2 .

Etude de la liaison entre deux variables num´ eriques – Population d’´ etudiants. Variables : note de f´ evrier et note de juin. Lien ´ eventuel ?

– Population de sujets : lien entre taille et poids

Question pos´ ee : Y a-t-il un lien, une corr´ elation entre les deux variables ?

Outil : ´ etude de la corr´ elation lin´ eaire entre les deux variables

1

(23)

Corr´ elation lin´ eaire

Donn´ ees : deux variables num´ eriques d´ efinies sur la mˆ eme population

X Y

s 1 x 1 y 1

s 2 x 2 y 2

. . . . . . . . .

Nuage de points : points (x i , y i )

(24)

Covariance des variables X et Y

Cov(X, Y ) = 1 n

n

X

i=1

(x i − x)(y i − y) ou

Cov(X, Y ) = 1 n

n

X

i=1

x i y i

!

− x y

Coefficient de corr´ elation de Bravais Pearson

r = Cov(X, Y ) σ(X )σ(Y ) Remarques

– Formules analogues avec corr´ elation, ´ ecarts types, . . .corrig´ es

– Il existe des relations non lin´ eaires – Corr´ elation n’est pas causalit´ e

3

(25)

R´ egression lin´ eaire

Rˆ ole “explicatif” de l’une des variables par rapport ` a l’autre. Les variations de Y peuvent-elles (au moins en partie) ˆ etre expliqu´ ees par celles de X ? Peuvent-elles ˆ etre pr´ edites par celles de X ?

Mod` ele permettant d’estimer Y connaissant X Droite de r´ egression de Y par rapport ` a X :

La droite de r´ egression de Y par rapport ` a X a pour

´ equation :

y = ax + b avec :

a = Cov(X, Y )

σ 2 (X ) ; b = y − ax

(26)

Comparaison des valeurs observ´ ees et des valeurs es- tim´ ees

Valeurs estim´ ees : y b i = ax i + b Erreur (ou r´ esidu) : e i = y i − y ˆ i On montre que :

σ 2 (Y ) = σ 2 ( ˆ Y ) + σ 2 (E ) avec :

σ 2 (E )

σ 2 (Y ) = 1 − r 2 ; σ 2 ( ˆ Y )

σ 2 (Y ) = r 2

σ 2 ( ˆ Y ) : variance expliqu´ ee (par la variation de X, par le mod` ele)

σ 2 (E ) : variance perdue ou r´ esiduelle

r 2 : part de la variance de Y qui est expliqu´ ee par la variance de X . Coefficient de d´ etermination

5

(27)

Exemple : r = 0.86

r 2 = 0.75 ; 1 − r 2 = 0.25 ; p

1 − r 2 = 0.5.

• La part de la variance de Y expliqu´ ee par la variation de X est de 75%.

• L’´ ecart type des r´ esidus est la moiti´ e de l’´ ecart type

de Y .

(28)

Etude de la liaison entre deux caract` eres qualitatifs

Exemple : pr´ ef´ erences des publics masculin et f´ eminin.

Effectifs observ´ es

H F Total

Com´ edie 90 75 165

Drame 50 45 95

Vari´ et´ es 160 80 240

Total 300 200 500

Goˆ uts d´ ependants du sexe ?

Exemple : 240 500 = 48%. 48% des personnes interrog´ ees pr´ ef` erent les vari´ et´ es. Si les deux variables ´ etaient par- faitement ind´ ependantes, on devrait retrouver :

– 48% des hommes, c’est-` a-dire 144 hommes pr´ ef´ erant les vari´ et´ es

– 48% des femmes, c’est-` a-dire 96 femmes pr´ ef´ erant les vari´ et´ es.

Effectifs attendus (ou th´ eoriques) si ind´ ependance : Dans chaque case : effectif = total ligne × total colonne

total g´ en´ eral

H F

Com´ edie 99 66

Drame 57 38

Vari´ et´ es 144 96

7

(29)

Probl` eme : ´ evaluer la distance entre les deux tableaux ? Calcul de la “distance” du χ 2 d´ efinie par :

χ 2 obs = X

i,j

(n ij − t ij ) 2 t ij

Calcul pratique :

Mod. n ij t ij (n ij − t ij ) 2 t ij

H.C. 90 99 0.82

H.D . . . 0.86

H.V. 1.78

F.C. 1.23

F.D. 1.29

F.V. 2.67

8.64

Quelle interp´ etation peut-on donner de χ 2 obs ? – Coefficient de contingence de Pearson :

C = s

χ 2 χ 2 + N – Coefficient Phi de Cram´ er :

Φ c = s

χ 2 N (k − 1)

o` u N est l’effectif total et k le minimum des deux

valeurs nombre de lignes, nombre de colonnes.

(30)

Test du χ 2

– 500 personnes : ´ echantillon

– 2 sources de variation : effet du sexe, hasard

– Si seul le hasard est en cause, la distance suit une loi du χ 2 ` a 2 ddl.

– On se fixe un seuil de 5% (par exemple)

– Si seul le hasard est en cause, on a seulement 5% de chances d’observer un χ 2 sup´ erieur ` a la valeur critique χ 2 c = 5.991.

– Or on a observ´ e : χ 2 obs = 8.64.

– Conclusion : diff´ erence de goˆ uts selon le sexe.

R´ esum´ e

Tableau de contingence : effectifs observ´ es n ij Totaux par ligne : n par colonne : n ·j

Total g´ en´ eral : N ou n ··

l lignes et c colonnes

Effectifs th´ eoriques : tableau (t ij ) avec : t ij = n n ·j

n ·· = total ligne × total colonne total g´ en´ eral

Distance du χ 2 :

χ 2 obs = X

i,j

(n ij − t ij ) 2 t ij

9

(31)

Test proprement dit : – Hypoth` eses :

H 0 : Les variables sont ind´ ependantes.

H 1 : Les variables sont d´ ependantes.

– On fixe un seuil α (5%, 1%, . . .)

– Lecture de la table : valeur critique χ 2 crit pour le seuil α et (l − 1)(c − 1) ddl

– Intervalles d’acceptation et de rejet – Comparaison de χ 2 obs et de χ 2 crit

– Conclusion :

– Si χ 2 obs < χ 2 crit , ind´ ependance accept´ ee – Si χ 2 obs > χ 2 crit , ind´ ependance rejet´ ee ; les variables d´ ependent l’une de l’autre.

Remarques

– Condition sur les effectifs th´ eoriques minimaux ; re- groupement ´ eventuel des modalit´ es

– Correction de Yates (tableau 2 × 2) χ 2 corr = X

i,j

(|n ij − t ij | − 0.5) 2

t ij

(32)

Distributions du χ 2

11

(33)

Une autre utilisation du χ 2 : ad´ equation

`

a une loi th´ eorique

Confronter un tableau d’effectifs ”th´ eoriques” ` a un tableau d’effectifs observ´ es.

Exemple : Etude de Durkheim sur le suicide selon la saison (entre 1835 et 1843).

Pour un ´ echantillon de 1000 suicides : Print. Et´ e Autom. Hiver Total

283 306 210 201 1000

Fr´ equences et effectifs th´ eoriques :

Print. Et´ e Autom. Hiver Total

25% 25% 25 % 25 % 100%

250 250 250 250 1000

Contributions au χ 2 :

Print. Et´ e Autom. Hiver χ 2

Obs. 283 306 210 201

Th´ eo. 250 250 250 250

Ctri 4.356 12.544 6.40 9.604 32.904

(34)

Test proprement dit :

H 0 : Le tableau de fr´ equences th´ eoriques correspond aux fr´ equences dans la population

H 1 : Les fr´ equences dans la population sont diff´ erentes de celles du tableau de fr´ equences th´ eoriques

Statistique de test : χ 2 ` a 3 ddl.

Pourquoi 3 ? : 4 observations. Total th´ eorique (1000) calcul´ e ` a partir des observations. 4 − 1 = 3.

Seuil : 1%. Valeur critique : χ 2 crit = 11.35 R` egle de d´ ecision :

– Si χ 2 obs ≤ 11.345, on accepte H 0 .

– Si χ 2 obs > 11.345, on refuse H 0 et on accepte H 1 . Conclusion :

Ici, χ 2 obs = 32.9. On accepte donc H 1 . Autrement dit, le taux de suicides varie avec la saison.

13

Références

Documents relatifs

3) Sur votre copie, tracer la courbe des fréquences cumulées croissante qui représente cette série. Pour compenser l’inflation, tous les salaires sont augmentés de 2 %..

Effets secondaires d’un m´ edicament sur les performances de conduite Un chercheur est charg´ e d’investiguer les effets sur la performance de conduite de deux nouvelles drogues

Etude de la liaison entre deux variables num eriques Jusqu' a pr esent : etudes portant sur une seule variable. Analyse crois ee de deux variables (par

a) Comme pr ec edemment, on fait l'hyp oth ese que les enfants choisissent au hasard.. D'autre part, pour une variable normale centr ee r eduite, pour. L' ecart type de la

4) Les scores que les officiers de police se sont attribu´ es sont-ils significativement plus faibles de ceux qui leur ont ´ et´ e attribu´ es par le groupe des ´ etudiants ? R´

L’ensemble des questions est pos´ e ` a tous les sujets et on note, pour chaque groupe de questions, le nombre de r´ eactions correctes du sujet aux ´ ev´ enements de circulation

Au vu de ces donn´ ees, peut-on affirmer que l’´ evaluation positive de l’endogroupe est meilleure lorsque l’identification au groupe est ´ elev´ ee que lorsqu’elle est basse

Un plan factoriel est un plan dans lequel chaque mo- dalit´ e d’un facteur est combin´ ee avec chaque combi- naison de modalit´ es des autres facteurs.. Plan en carr´