Variables quantitatives - Moyenne et Variane empiriques
Tran Viet Chi,hi.tranmath.univ-lille1.fr,bureau316(bâtimentM3).
1 Une introdution au logiiel SAS
1.1 Aquisition de données - Librairies
1.1.1 Saisiede données
1. Danslafenêtre"SAS :ProgramEditor" entrerleprogrammesuivant:
data tp;/*réation d'une table*/
input numero taille poids sexe $ sexeode;
/*le dollar indique que la variable le préédant est qualitative*/
ards;
1 174 65 m 1
2 169 56 f 2
3 166 48 f 2
4 181 80 m 1
5 168 53 f 2
6 176 76 m 1
7 190 77 m 1
8 159 70 f 2
9 162 60 f 2
10 164 51 f 2
11 160 73 f 2
run;
2. Pouraherlesdonnéesentrer: pro print; run;
3. PourexéuterleprogrammefaitesRun>SubmitouF3.
4. Latableaétéréedansunrépertoiredetravail(librairie)appeléwork.Reherher-laavel'explora-
teurdeSASet l'ouvrir.
5. Lenomdesvariablesnepeutpasontenird'espaeetont8aratèresmaximum.Pouravoirdesnoms
pluspréis,onutilisedeslabels:
pro print data=tp label;
label taille="taille de l'élève" poids="poids de l'élève";
run;
Lelabeldelapremièreligneindiquequelaproéduredoitremplaerertainsnomsdevariablesparleurs
labelssieux-isontpréisés.Leseondlabelindiqueleslabelsàutiliser.Ilestpossibledepréiserlesla-
belslorsdel'étapedata(eslabelssontalorspermanents)oudelamêmefaçondansd'autresproédures.
6. Dans la table tp, la variable sexeode donne le sexe de l'individu ave le ode 1=masulin et
2=féminin.Pourfaireapparaîtreesmotsàlaplaede1et2,nousutilisonsunePROC FORMAT:
pro format;
value sexeodage 1='masulin' 2='feminin';
run;
pro print data=tp;
run;
7. Nouspouvonsfairedemêmepouraher'masulin'et'feminin'àlaplaedemetfpourlavariable
sexe.Commeil s'agitd'un aratère,nousutilisonsettefoislasyntaxesuivante:
pro format;
value $ bsexeodage m='masulin' f='feminin';
run;
pro print data=tp;
format sexe $bsexeodage.;
run;
8. Onsouhaite plaernos table dansun autrerépertoirehemin (parexempleC:/Dos/TD).On peut
réerunenouvellelibrairieavelaommande:
libname malib 'hemin';
Si nousreprenonslaquestion1enremplaçanttpparmalib.tp,nousréonslatabledans lerépertoire
malib.
1.1.2 Importationde données
1. Importerlesdonnéesduhier ozone.xlsen entrantlesommandessuivantes(remplaermalibet
heminparequ'ilfaut):
pro import out= malib.ozone
datafile= "D:\Douments and Settings\Chi\Mes douments\TISD\Donnees\ozone2.xls"
DBMS=EXCEL REPLACE;
SHEET="tp1$";
GETNAMES=YES;
MIXED=YES;
SCANTEXT=YES;
USEDATE=YES;
SCANTIME=YES;
run;
2. Refaire lamanipulation enutilisantFile>Import Data.
1.2 Manipulation des données
1. Entrer pro ontents data=malib.ozone; run;
2. Opérationsélémentairessurlesvariablesnumériques:
data malib.nombres;
input x y;
ards;
5 5
2 -3
4.5 10
3.2 1
2 0
run;
data malib.alul;
set malib.nombres;
a=x+y; b=x-y; =x*y; d=x**y; e=min(x,y); f=max(x,y);
g=x/y; h=abs(y); i=exp(x); j=int(x); k=log(y);
l=log10(x); m=sign(y); n=sqrt(x);
run;
3. Onpeutfairedesboulesavel'instrutiondo..to..by..end:
do i=1 to 100 by 1;
x=rand('binomial', 0.4, 20);
y=1+x;
z=x;
x=x-1;
output malib.ompt;
end;
run;
Ouvrirlatable,remarquerqu'ilyaunordredanslesopérations.Remplaerlaloibinmialepard'autres
lois(voirl'aidesurrandpourobtenirlesloisdisponibles).
4. Pourgénérerdeuxsuitesaléatoiresoù
X 1 , · · · X n sontdesvariablesaléatoiresiid uniformessur[0, 1]
et
Y 0 = 0
,Y k = Y k − 1 + X k − 1,onproèdedelafaçonsuivante:
data malib.marhealeat;
retain x y (1 0);
do i=1 to 10 by 1;
y=y+x;
x=rand('uniform');
output malib.marhealeat;
end;
run;
5. On reprend latable malib.tp rééeàla Setion 1.1.1.Pour trier ette table suivant lestailles des
individus,entrer:
pro sort data=malib.tp;
by taille;
run;
6. Trierlatable malib.tpparsexe etutiliserlapro printavelaommandeby sexepouravoirla
listedesgarçons etlalistedeslles.
7. Pourgarderdesvariablesavekeep,
data malib.tp2;
set malib.tp;
keep numero taille poids sexeode;
run;
8. Poursupprimerdesvariablesavedrop,
data malib.tp3;
set malib.tp;
drop taille poids;
run;
9. Pourreonstituerlatabletpàpartirdetp2ettp3:
data malib.tp4;
merge malib.tp2 malib.tp3;
by numero;
run;
La ligne by numero; assure que les tableaux sont bien regroupés en joignant les lignes orrespondant
à une même valeurde la variable numeroqui nous sert ii d'identiant. Ilest néessaire que les deux
tableauxsoienttriéspréalablementsuivantnumero.
10. Onveutajouterlestroisinformationssuivantes (inomplètes)àlatablemalib.tp:
data malib.tab1;
input numero sexeode;
ards;
12 1
13 1
14 2
run;
data malib.tp5;
set malib.tp malib.tab1;
run;
11. Taper:
data malib.tp5;
set malib.tp;
where sexeode=1;
run;
quirevientaumêmeque:
data malib.tp6;
set malib.tp;
if sexe='f' then delete;
run;
12. Onpeutséparerunetableendeux:
data malib.garons malib.filles;
set malib.tp;
if sexeode=1 then output malib.garons;
if sexeode=2 then output malib.filles;
run;
quirevientaumêmeque:
data malib.garons2 malib.filles2;
set malib.tp;
selet(sexeode);
when(1) output malib.garons2;
otherwise output malib.filles2;
end;
run;
2 Etude d'une variable quantitative ave le logiiel SAS
Exerie 1(Maximumd'ozone)
Nousnousintéressonsàlasériedespisd'ozonequi setrouvedans latable ozone.xls(variablemaxO3
orrespondantaumaximumd'ozonepourhaquejourdelatable).
1. Importerettebase sousSAS.Combien ya-t-ild'observations?Créerunevariabletquiorrespond
aunumérodel'observationenutilisantune étapedataavelaommandet=_n_.
2. Traerl'évolutionauoursdutempsdelavariablemaxO3àl'aidedelaPROC GPLOT.
pro gplot data=malib.ozone;
plot maxO3*t;
symbol i=join;
run;
3. Traerl'histogrammedelavariablemaxO3avelaPROC GCHART:
pro ghart data=malib.ozone;
vbar maxO3;
run;
4. LaPROC MEANSpermet d'obtenirlesstatistiqueslesplusourantes.
pro means data=malib.ozone;
var maxO3;
run;
moyennededesobservationsmaxO3?leurvariane?leuréart-type?leminimum?lemaximum?l'éten-
due? le oeient de variation? le oeient d'asymétrie? le oeient d'aplatissement? Donner la
médiane,lesentiles,lesvaleursextrêmes.
6. En utilisant l'option plotdans la PROC UNIVARIATE, obtenirles diagrammes suivants : steam and
leaf, boxplot. Obtenir un histogramme et superposer les densités de lois théoriques qui vous semblent
pertinentespourmodéliserladistributiondemaxO3.FaireunQQ-plotavelaloiquivoussemblelaplus
adaptée.
7. FairedemêmeuneanalysestatistiquedelavariableT12(températureàmidi).
8. Traerle nuagedespointsd'absisses T12et d'ordonnéesmaxO3avelaPROC GPLOT.Queelavous
inspire-t-il?UtiliserlaPROC CORRpourpréiserela.
9. Résumerlesinformationsobtenuesàlaquestion4enquelquesphrasesdestinéesàunnon-statistiien.
Exerie 2(Deshommes etdes femmes)
Les données du hier salaires.xls fournissent le salaire, le sexe, la atégorie soio-professionnelle
(CSP)etlenombredejoursd'absenepourhaquesalariéd'uneentreprise.
Partie A Nombre de joursd'absene
1. Importere hiersousSAS.
2. EnutilisantlaPROC GCHARTavel'optionbyoulass,faitesunhistogrammeparsexepourlavariable
nombredejours d'absene.
3. Nousnousintéressonsaunombredejoursd'absene.ObtenirenutilisantlaPROC MEANSavel'option
byoulass,obtenirlesmoyenneset éart-typepourleshommes, pourlesfemmes etpourl'ensemble.
Combienya-t-ild'hommes,defemmes?Réupéreresstatistiquesdansunetabledesortieavel'option
output.Comparerlesmoyennesparsexe.Queelavousinspire-t-il?
3. Apartirdesdonnéespréédentes, alulerlavarianeinteretlavarianeintra.Conlusion?
Partie B Salaires
1. Donnerlesmoyenneset leséart-typedessalairesparsexe.Traerunhistogramme dessalairespar
sexe.
2. Faireunedéompositiondelavarianepourétudierlesdisparitésdesalairesentre leshommeset les
femmes.Conlusion?
3. Donnerlasommedetouslessalaireset lenombretotaldesalariés.
4. On s'intéressemaintenant aux inégalités de répartition des salaires (pour l'ensemble des salariés).
TraerlaourbedeLorentzetalulerl'indiedeGini. Pourela:
lasserlessalariésparsalairesroissants.
alulerunevariableorrespondantauxsalairesumulés.
assoieràhaqueindividulapart
P 2 quereprésentelamassesalarialedel'ensembledespersonnes
gagnantmoins queluiparrapportàlamassesalarialetotale.
réerunevariable
P 1assoiantàhaqueindividulaproportiondesalariésgagnantmoinsquelui.
traerlaourbedeLorentz:
P 2 enfontiondeP 1.Superposerlapremièrebissetrie.Commenter.
alulerl'indiedeGiniquiestégalà2foisl'aireentrelaourbedeLorentzetlapremièrebissetrie.
Pourela,onapproheral'aireendéomposantlasurfaesouslaourbeentrapèzes.Commenter
lerésultat.
Partie CDonnées groupées
1. Créerundéoupagedessalairessuivantlesquartiles:
demanderàSASlesquartilesdelavariablesalaire.
onréeune variableauxiliaire
groupe
qui vaut1sil'individugagnemoins que11450,2s'il gagneentre 11450et 15650,3s'il gagneentre 15650et 39 150et 4sinon. A votreavis,d'où viennent
es valeurs?
table malib.sortie dans laquelle les observations sont les diérents groupesde salaires et ave
pourhaundeesgroupesl'eetif, lamoyenneet lavarianedessalairesdansegroupe.
2. Onsupposequ'onnedisposemaintenantplusquedesdonnéesrésuméesdemalib.sortie.Retrouver
lamoyenneet lavariane.
3. Supposonsqu'onnedisposeplusquedunombred'employésparlasse.Donneruneapproximationde
lamoyenneet delavariane.
3 Partie ave R : Moyenne et variane empiriques
Exerie 3(Simulations)
Nousnous proposons d'illustrerpardessimulationsquelquesfaitsimplessurla moyenneet lavariane
empiriques.
1. Simuler un éhantillon de
n = 1000
variables aléatoires iidX 1 , · · · X n suivant une loi normale
N (m = 2, σ 2 = 121)
.
1.1. Traerl'histogrammedesobservationset superposerladensitéapprohée.Dessinerunboxplot des
observations.
1.2. Caluler la moyenne empirique et la variane empirique orrigée. Quelles sont l'espérane et la
varianedelaloi exponentielle étudiée? Rappeler laloidesgrandsnombreset expliquerlesproximités
observées.
2. Réaliserleprogrammesuivant:
simuler
N = 300
éhantillonsden = 1000
variablesaléatoiresiidX 1 , · · · X n suivantlaloiN (m = 2, σ 2 = 121)
.
pourl'éhantillon
i ∈ [[1, N]]
, alulerla moyenneempiriqueX ¯ n ( i ), l'éart-type orrigés ( n i ), lasta-
tistique
ζ n ( i ) = √ n( ¯ X n ( i ) − 2)/σ
et la statistiqueξ n ( i ) = √ n( ¯ X n ( i ) − 2)/s ( n i ). Nous avons don N
réalisationsiid deesvariablesaléatoiresorrespondantàdestiragesd'éhantillonsdiérents.Ces
valeursserontonservéesdansuntableaude4olonneset
N = 300
lignes.2.2. Traerl'histogrammedes
X ¯ n (1) , · · · X ¯ n ( N )etluisuperposersadensitéapprohée.Fairedemêmepour
les
s (1) n , · · · s ( n N ),pourlesζ n (1) , · · · ζ n ( N ) etpourlesξ (1) n , · · · ξ n ( N ).
ξ (1) n , · · · ξ n ( N ).
2.3. VérierparlesQQ-plots adéquatsque:
laloidelamoyenneempiriqueest
N (m, σ 2 /n)
,la loide lavarianeempirique orrigée est
Γ((n − 1)/2, 1/2)
, enoreappeléeχ 2 (n − 1)
(iter unefaçond'obtenirerésultat),
laloides
ζ n estune loinormaleN (0, 1)
(d'oùvientei?),
la loi des
ξ n est une loi de Student à n − 1
degrés de liberté (faire aussi le QQ-plot ave la loi
normale