x = (x 1 , ..., x n ) et x = (y 1 , ..., y n ) . Montrer que r ∈ [−1, 1]. A quelle(s)

(1)

TD 1

5 avril 2011

1 Consommation alimentaire de diérentes

catégories socio-professionnelles

Le jeu de données traité dans ce paragraphe n'a qu'un but pédagogique, vula

petite tailledu tableau,et n'a donc aucune prétention sociologique.L'étude

concerne lesconsommationsannuelles en 1972, expriméesen francs, de 8 denrées

alimentaires(les variables),les individusétant 8catégories socio-professionnelles

(CSP). Les données sont donc des moyennespar CSP.

PAO PAA VIO VIA POT LEC RAI PLP

AGRI 167 1 163 23 41 8 6 6

SAAG 162 2 141 12 40 12 4 15

PRIN 119 6 69 56 39 5 13 41

CSUP 87 11 63 111 27 3 18 39

CMOY 103 5 68 77 32 4 11 30

EMPL 111 4 72 66 34 6 10 28

OUVR 130 3 76 52 43 7 7 16

INAC 138 7 117 74 53 8 12 20

Tab. 1 Consommations annuelles par CSP. Source : Saporta G. Probabilités,

analyse des données et statistique,Technip 1990

Avec lesabréviations suivantes :

PAO : pain ordinaire

PAA : autre pain

VIO :vin ordinaire

VIA: autre vin

POT : pomme de terre

LEC : légumessecs

RAI : raisin de table

(2)

AGRI : exploitants agricoles

SAAG : salariés agricoles

PRIN : professions indépendantes

CSUP : cadressupérieurs

CMOY :cadres moyens

EMPL : employés

OUVR :ouvriers

INAC : inactifs

1. Les données

a. Qui sontles individus? Quellessont lesvariables?

b. Créer un objetnommé z,de typedata.frame, qui contientles données du

tableau ci-dessus. En particulier,le nom des variables etle nom des individus

seront renseignés en utilisantlesabréviations décrites ci-dessus.

2. Etude univariée des données

a. Calculerlamoyenne etl'écart-type de chacune des variables. Quelleest la

denrée alimentairela plus consommée? Lamoins consommée?

b. Utiliserla fonctionboxplot an de visualiser la répartitiondes diérentes

variables.Commenter les résultatsobtenus.

3. Matrice de corrélation : dénition et interprétation

a. Rappeler comment est déni le coecient de corrélation empirique

r

^entre ^deux

variables

x = (x 1 , ..., x n )

^et

x = (y 1 , ..., y n )

^. ^Montrer ^que

r ∈ [−1, 1]

^. ^A ^quelle(s)

condition(s) at'on

r = 1

^? ^A ^quelle(s) condition(s) a t'on

r = −1

^?

b. Donner un exemple de variablesaléatoires

X

^et

Y

^qui ^ne ^sont ^pas

indépendantes etvérient

cov(X, Y ) = 0

^. ^Comment interpréter un coecient de corrélation empirique proche de

0

^?

4. Etude de la matrice de corrélation

a. Calculerlamatrice de corrélation, quisera notéeS dans lasuite. Cette matrice

est-elle symétrique etdénie positive? Discuter.

b. Identier deux groupesde variables quisont tels que

La corrélationentre deux variables qui sont dans le même groupesoit positive

La corrélationentre deux variables qui ne sont pas dans lemême groupesoit

négative.

Interpréter lesrésultats obtenus : commentpeut-on résumer schématiquement

l'informationcontenue dans le jeu de données?

c. Taperla commande

> image(z=S[,seq(8,1,-1)],z lim= c(-1 ,1), col = gray((0 :32)/32))

Interpréter.

(3)

correspondentaupremier groupeidentié àla questionb. etlesdernières variables

au deuxièmegroupeet recommencer la questionc..

e. Taper lacommande suivante:

> plot(z)

Discuter les graphiques obtenus. La relationentre les variables vous semble-t-elle

être linéaire? Est-ilpertinent de résumer la relationentre les variables àl'aide de

la matricede corrélation?

2 Pays de l'OCDE

Les données considérées dans ce paragraphesont issues de l'observatoirede

l'OCDE. Pour chaque pays membre, et pour chacune des années 75,77, 79et 81,

on connaîtlesvaleurs prises par lesvariablessuivantes, qui sont toutesdes taux:

natal :taux brut de natalité

chomage :taux de chômage

a_prim : pourcentage d'actifs dans lesecteur primaire

a_sec :pourcentage d'actifs dans lesecteur secondaire

pib : produit intérieurbrut (par habitant)

fbcf : formation brutede capitalxe (par habitant)

in : hausse des prix

recc :recettes courantes (parhabitant)

minf : mortalitéinfantile

prot :consommationde protéines animales(par habitant)

nrj : consommationd'énergie (par habitant)

Les données sont disponiblesdans le chierocde.dat à l'adresse

http ://pagesperso.univ-brest.fr/

∼

ailliot/L3EURIA.html

La première colonnedu chier est une abréviation du nom du pays. La seconde

colonne correspond à l'année.Ensuite, lesdiérentes colonnes correspondent aux

variablesdécritesci-dessus (dans lemême ordre).

1. Les données

Créer un objet de type data.frame qui contient lesdonnées du tableau ci-dessus.

Le nom des variablessera renseigné en utilisant lesabréviations décrites ci-dessus.

Le nom des individus sera obtenu en concaténant lesdeux premières colonnes du

chier ocde.dat avec lacommande paste. Par exemple,l'individu "Allemagneen

77" sera codé par "AL_77". Enn, lesdeux premières colonnes du chier (nomdu

pays et année)seront déclarés comme facteur,avec comme nomspays etan,

respectivement.

2. Etude univariée des données

a. Calculerlamoyenne etl'écart-type de chacune des variables.

(4)

variablesuit une loinormale? On commencerapas estimerlesparamètres d'une loi

normale en utilisantlaméthode du maximum de vraisemblance à l'aidede la

fonction tdistrib du package MASS et ontracerala densité correspondantesur la

même gure quel'histogramme. On réaliseraensuite un test statistique adaptévu

dans le cours de statistique.

c.Calculer lamoyenne etl'écart-type de lavariablenatal sur lesdiérentes années

pour chacun des pays (on pourra utiliser lafonction tapply). Quel est lepays avec

le tauxde natalitémoyen le plus fort? lemoins fort?

d. Calculerlamoyenneet l'écarttypede la variablenatal sur lesdiérents pays au

cours des années75 puis 77,79et81.Visualiserla répartitionde cette variable lors

des 4années considérées avec le fonction boxplot. Le tauxde natalité est il en

baisse ou en augmentation entre 75 et81? Ladiérence est-ellesignicative? On

répondra à l'aidedes tests adaptésvus dans le cours de statistique.

3. Etude de la matrice de corrélation

a. Calculerlamatrice de corrélation S.

b. Visualiser lamatricede corrélation avec la fonction image.

c. Peut-on identier des groupes de variable commepour lepremier jeu de

données? Sioui, renumérotez lesvariables par groupe etvisualiser l'eet de la

renumérotation sur la matricede corrélation avec lafonction image.

d. Réaliser des nuages de pointsan de visualiser larelationentre lesdiérentes

variables.Discuter lesgraphiques obtenus. Larelation entre lesvariablesvous

semble-t-elleêtre linéaire?

4. Tests statistiques

Peut-ondétecter une relationsignicativeentre la variable chomageet lesautres

variables? On répondra à l'aide des tests adaptés vusdans le cours de statistique.