TD 1
5 avril 2011
1 Consommation alimentaire de diérentes
catégories socio-professionnelles
Le jeu de données traité dans ce paragraphe n'a qu'un but pédagogique, vula
petite tailledu tableau,et n'a donc aucune prétention sociologique.L'étude
concerne lesconsommationsannuelles en 1972, expriméesen francs, de 8 denrées
alimentaires(les variables),les individusétant 8catégories socio-professionnelles
(CSP). Les données sont donc des moyennespar CSP.
PAO PAA VIO VIA POT LEC RAI PLP
AGRI 167 1 163 23 41 8 6 6
SAAG 162 2 141 12 40 12 4 15
PRIN 119 6 69 56 39 5 13 41
CSUP 87 11 63 111 27 3 18 39
CMOY 103 5 68 77 32 4 11 30
EMPL 111 4 72 66 34 6 10 28
OUVR 130 3 76 52 43 7 7 16
INAC 138 7 117 74 53 8 12 20
Tab. 1 Consommations annuelles par CSP. Source : Saporta G. Probabilités,
analyse des données et statistique,Technip 1990
Avec lesabréviations suivantes :
PAO : pain ordinaire
PAA : autre pain
VIO :vin ordinaire
VIA: autre vin
POT : pomme de terre
LEC : légumessecs
RAI : raisin de table
AGRI : exploitants agricoles
SAAG : salariés agricoles
PRIN : professions indépendantes
CSUP : cadressupérieurs
CMOY :cadres moyens
EMPL : employés
OUVR :ouvriers
INAC : inactifs
1. Les données
a. Qui sontles individus? Quellessont lesvariables?
b. Créer un objetnommé z,de typedata.frame, qui contientles données du
tableau ci-dessus. En particulier,le nom des variables etle nom des individus
seront renseignés en utilisantlesabréviations décrites ci-dessus.
2. Etude univariée des données
a. Calculerlamoyenne etl'écart-type de chacune des variables. Quelleest la
denrée alimentairela plus consommée? Lamoins consommée?
b. Utiliserla fonctionboxplot an de visualiser la répartitiondes diérentes
variables.Commenter les résultatsobtenus.
3. Matrice de corrélation : dénition et interprétation
a. Rappeler comment est déni le coecient de corrélation empirique
r
entre deuxvariables
x = (x 1 , ..., x n ) et x = (y 1 , ..., y n ) . Montrer que r ∈ [−1, 1]
. A quelle(s)
r ∈ [−1, 1]
. A quelle(s)condition(s) at'on
r = 1
? A quelle(s) condition(s) a t'onr = −1
?b. Donner un exemple de variablesaléatoires
X
etY
qui ne sont pasindépendantes etvérient
cov(X, Y ) = 0
. Comment interpréter un coecient de corrélation empirique proche de0
?4. Etude de la matrice de corrélation
a. Calculerlamatrice de corrélation, quisera notéeS dans lasuite. Cette matrice
est-elle symétrique etdénie positive? Discuter.
b. Identier deux groupesde variables quisont tels que
La corrélationentre deux variables qui sont dans le même groupesoit positive
La corrélationentre deux variables qui ne sont pas dans lemême groupesoit
négative.
Interpréter lesrésultats obtenus : commentpeut-on résumer schématiquement
l'informationcontenue dans le jeu de données?
c. Taperla commande
> image(z=S[,seq(8,1,-1)],z lim= c(-1 ,1), col = gray((0 :32)/32))
Interpréter.
correspondentaupremier groupeidentié àla questionb. etlesdernières variables
au deuxièmegroupeet recommencer la questionc..
e. Taper lacommande suivante:
> plot(z)
Discuter les graphiques obtenus. La relationentre les variables vous semble-t-elle
être linéaire? Est-ilpertinent de résumer la relationentre les variables àl'aide de
la matricede corrélation?
2 Pays de l'OCDE
Les données considérées dans ce paragraphesont issues de l'observatoirede
l'OCDE. Pour chaque pays membre, et pour chacune des années 75,77, 79et 81,
on connaîtlesvaleurs prises par lesvariablessuivantes, qui sont toutesdes taux:
natal :taux brut de natalité
chomage :taux de chômage
a_prim : pourcentage d'actifs dans lesecteur primaire
a_sec :pourcentage d'actifs dans lesecteur secondaire
pib : produit intérieurbrut (par habitant)
fbcf : formation brutede capitalxe (par habitant)
in : hausse des prix
recc :recettes courantes (parhabitant)
minf : mortalitéinfantile
prot :consommationde protéines animales(par habitant)
nrj : consommationd'énergie (par habitant)
Les données sont disponiblesdans le chierocde.dat à l'adresse
http ://pagesperso.univ-brest.fr/
∼
ailliot/L3EURIA.htmlLa première colonnedu chier est une abréviation du nom du pays. La seconde
colonne correspond à l'année.Ensuite, lesdiérentes colonnes correspondent aux
variablesdécritesci-dessus (dans lemême ordre).
1. Les données
Créer un objet de type data.frame qui contient lesdonnées du tableau ci-dessus.
Le nom des variablessera renseigné en utilisant lesabréviations décrites ci-dessus.
Le nom des individus sera obtenu en concaténant lesdeux premières colonnes du
chier ocde.dat avec lacommande paste. Par exemple,l'individu "Allemagneen
77" sera codé par "AL_77". Enn, lesdeux premières colonnes du chier (nomdu
pays et année)seront déclarés comme facteur,avec comme nomspays etan,
respectivement.
2. Etude univariée des données
a. Calculerlamoyenne etl'écart-type de chacune des variables.
variablesuit une loinormale? On commencerapas estimerlesparamètres d'une loi
normale en utilisantlaméthode du maximum de vraisemblance à l'aidede la
fonction tdistrib du package MASS et ontracerala densité correspondantesur la
même gure quel'histogramme. On réaliseraensuite un test statistique adaptévu
dans le cours de statistique.
c.Calculer lamoyenne etl'écart-type de lavariablenatal sur lesdiérentes années
pour chacun des pays (on pourra utiliser lafonction tapply). Quel est lepays avec
le tauxde natalitémoyen le plus fort? lemoins fort?
d. Calculerlamoyenneet l'écarttypede la variablenatal sur lesdiérents pays au
cours des années75 puis 77,79et81.Visualiserla répartitionde cette variable lors
des 4années considérées avec le fonction boxplot. Le tauxde natalité est il en
baisse ou en augmentation entre 75 et81? Ladiérence est-ellesignicative? On
répondra à l'aidedes tests adaptésvus dans le cours de statistique.
3. Etude de la matrice de corrélation
a. Calculerlamatrice de corrélation S.
b. Visualiser lamatricede corrélation avec la fonction image.
c. Peut-on identier des groupes de variable commepour lepremier jeu de
données? Sioui, renumérotez lesvariables par groupe etvisualiser l'eet de la
renumérotation sur la matricede corrélation avec lafonction image.
d. Réaliser des nuages de pointsan de visualiser larelationentre lesdiérentes
variables.Discuter lesgraphiques obtenus. Larelation entre lesvariablesvous
semble-t-elleêtre linéaire?
4. Tests statistiques
Peut-ondétecter une relationsignicativeentre la variable chomageet lesautres
variables? On répondra à l'aide des tests adaptés vusdans le cours de statistique.