• Aucun résultat trouvé

X 1 , · · · X n sontdesvariablesaléatoiresiid uniformessur[0, 1]

N/A
N/A
Protected

Academic year: 2023

Partager "X 1 , · · · X n sontdesvariablesaléatoiresiid uniformessur[0, 1] "

Copied!
6
0
0

Texte intégral

(1)

Variables quantitatives - Moyenne et Variane empiriques

Tran Viet Chi,hi.tranmath.univ-lille1.fr,bureau316(bâtimentM3).

1 Une introdution au logiiel SAS

1.1 Aquisition de données - Librairies

1.1.1 Saisiede données

1. Danslafenêtre"SAS :ProgramEditor" entrerleprogrammesuivant:

data tp;/*réation d'une table*/

input numero taille poids sexe $ sexeode;

/*le dollar indique que la variable le préédant est qualitative*/

ards;

1 174 65 m 1

2 169 56 f 2

3 166 48 f 2

4 181 80 m 1

5 168 53 f 2

6 176 76 m 1

7 190 77 m 1

8 159 70 f 2

9 162 60 f 2

10 164 51 f 2

11 160 73 f 2

run;

2. Pouraherlesdonnéesentrer: pro print; run;

3. PourexéuterleprogrammefaitesRun>SubmitouF3.

4. Latableaétéréedansunrépertoiredetravail(librairie)appeléwork.Reherher-laavel'explora-

teurdeSASet l'ouvrir.

5. Lenomdesvariablesnepeutpasontenird'espaeetont8aratèresmaximum.Pouravoirdesnoms

pluspréis,onutilisedeslabels:

pro print data=tp label;

label taille="taille de l'élève" poids="poids de l'élève";

run;

Lelabeldelapremièreligneindiquequelaproéduredoitremplaerertainsnomsdevariablesparleurs

labelssieux-isontpréisés.Leseondlabelindiqueleslabelsàutiliser.Ilestpossibledepréiserlesla-

belslorsdel'étapedata(eslabelssontalorspermanents)oudelamêmefaçondansd'autresproédures.

6. Dans la table tp, la variable sexeode donne le sexe de l'individu ave le ode 1=masulin et

2=féminin.Pourfaireapparaîtreesmotsàlaplaede1et2,nousutilisonsunePROC FORMAT:

pro format;

value sexeodage 1='masulin' 2='feminin';

run;

pro print data=tp;

(2)

run;

7. Nouspouvonsfairedemêmepouraher'masulin'et'feminin'àlaplaedemetfpourlavariable

sexe.Commeil s'agitd'un aratère,nousutilisonsettefoislasyntaxesuivante:

pro format;

value $ bsexeodage m='masulin' f='feminin';

run;

pro print data=tp;

format sexe $bsexeodage.;

run;

8. Onsouhaite plaernos table dansun autrerépertoirehemin (parexempleC:/Dos/TD).On peut

réerunenouvellelibrairieavelaommande:

libname malib 'hemin';

Si nousreprenonslaquestion1enremplaçanttpparmalib.tp,nousréonslatabledans lerépertoire

malib.

1.1.2 Importationde données

1. Importerlesdonnéesduhier ozone.xlsen entrantlesommandessuivantes(remplaermalibet

heminparequ'ilfaut):

pro import out= malib.ozone

datafile= "D:\Douments and Settings\Chi\Mes douments\TISD\Donnees\ozone2.xls"

DBMS=EXCEL REPLACE;

SHEET="tp1$";

GETNAMES=YES;

MIXED=YES;

SCANTEXT=YES;

USEDATE=YES;

SCANTIME=YES;

run;

2. Refaire lamanipulation enutilisantFile>Import Data.

1.2 Manipulation des données

1. Entrer pro ontents data=malib.ozone; run;

2. Opérationsélémentairessurlesvariablesnumériques:

data malib.nombres;

input x y;

ards;

5 5

2 -3

4.5 10

3.2 1

2 0

run;

data malib.alul;

set malib.nombres;

a=x+y; b=x-y; =x*y; d=x**y; e=min(x,y); f=max(x,y);

g=x/y; h=abs(y); i=exp(x); j=int(x); k=log(y);

l=log10(x); m=sign(y); n=sqrt(x);

run;

3. Onpeutfairedesboulesavel'instrutiondo..to..by..end:

(3)

do i=1 to 100 by 1;

x=rand('binomial', 0.4, 20);

y=1+x;

z=x;

x=x-1;

output malib.ompt;

end;

run;

Ouvrirlatable,remarquerqu'ilyaunordredanslesopérations.Remplaerlaloibinmialepard'autres

lois(voirl'aidesurrandpourobtenirlesloisdisponibles).

4. Pourgénérerdeuxsuitesaléatoiresoù

X 1 , · · · X n

sontdesvariablesaléatoiresiid uniformessur

[0, 1]

et

Y 0 = 0

,

Y k = Y k 1 + X k 1

,onproèdedelafaçonsuivante:

data malib.marhealeat;

retain x y (1 0);

do i=1 to 10 by 1;

y=y+x;

x=rand('uniform');

output malib.marhealeat;

end;

run;

5. On reprend latable malib.tp rééeàla Setion 1.1.1.Pour trier ette table suivant lestailles des

individus,entrer:

pro sort data=malib.tp;

by taille;

run;

6. Trierlatable malib.tpparsexe etutiliserlapro printavelaommandeby sexepouravoirla

listedesgarçons etlalistedeslles.

7. Pourgarderdesvariablesavekeep,

data malib.tp2;

set malib.tp;

keep numero taille poids sexeode;

run;

8. Poursupprimerdesvariablesavedrop,

data malib.tp3;

set malib.tp;

drop taille poids;

run;

9. Pourreonstituerlatabletpàpartirdetp2ettp3:

data malib.tp4;

merge malib.tp2 malib.tp3;

by numero;

run;

La ligne by numero; assure que les tableaux sont bien regroupés en joignant les lignes orrespondant

à une même valeurde la variable numeroqui nous sert ii d'identiant. Ilest néessaire que les deux

tableauxsoienttriéspréalablementsuivantnumero.

10. Onveutajouterlestroisinformationssuivantes (inomplètes)àlatablemalib.tp:

data malib.tab1;

input numero sexeode;

ards;

12 1

13 1

14 2

run;

(4)

data malib.tp5;

set malib.tp malib.tab1;

run;

11. Taper:

data malib.tp5;

set malib.tp;

where sexeode=1;

run;

quirevientaumêmeque:

data malib.tp6;

set malib.tp;

if sexe='f' then delete;

run;

12. Onpeutséparerunetableendeux:

data malib.garons malib.filles;

set malib.tp;

if sexeode=1 then output malib.garons;

if sexeode=2 then output malib.filles;

run;

quirevientaumêmeque:

data malib.garons2 malib.filles2;

set malib.tp;

selet(sexeode);

when(1) output malib.garons2;

otherwise output malib.filles2;

end;

run;

2 Etude d'une variable quantitative ave le logiiel SAS

Exerie 1(Maximumd'ozone)

Nousnousintéressonsàlasériedespisd'ozonequi setrouvedans latable ozone.xls(variablemaxO3

orrespondantaumaximumd'ozonepourhaquejourdelatable).

1. Importerettebase sousSAS.Combien ya-t-ild'observations?Créerunevariabletquiorrespond

aunumérodel'observationenutilisantune étapedataavelaommandet=_n_.

2. Traerl'évolutionauoursdutempsdelavariablemaxO3àl'aidedelaPROC GPLOT.

pro gplot data=malib.ozone;

plot maxO3*t;

symbol i=join;

run;

3. Traerl'histogrammedelavariablemaxO3avelaPROC GCHART:

pro ghart data=malib.ozone;

vbar maxO3;

run;

4. LaPROC MEANSpermet d'obtenirlesstatistiqueslesplusourantes.

pro means data=malib.ozone;

var maxO3;

run;

(5)

moyennededesobservationsmaxO3?leurvariane?leuréart-type?leminimum?lemaximum?l'éten-

due? le oeient de variation? le oeient d'asymétrie? le oeient d'aplatissement? Donner la

médiane,lesentiles,lesvaleursextrêmes.

6. En utilisant l'option plotdans la PROC UNIVARIATE, obtenirles diagrammes suivants : steam and

leaf, boxplot. Obtenir un histogramme et superposer les densités de lois théoriques qui vous semblent

pertinentespourmodéliserladistributiondemaxO3.FaireunQQ-plotavelaloiquivoussemblelaplus

adaptée.

7. FairedemêmeuneanalysestatistiquedelavariableT12(températureàmidi).

8. Traerle nuagedespointsd'absisses T12et d'ordonnéesmaxO3avelaPROC GPLOT.Queelavous

inspire-t-il?UtiliserlaPROC CORRpourpréiserela.

9. Résumerlesinformationsobtenuesàlaquestion4enquelquesphrasesdestinéesàunnon-statistiien.

Exerie 2(Deshommes etdes femmes)

Les données du hier salaires.xls fournissent le salaire, le sexe, la atégorie soio-professionnelle

(CSP)etlenombredejoursd'absenepourhaquesalariéd'uneentreprise.

Partie A Nombre de joursd'absene

1. Importere hiersousSAS.

2. EnutilisantlaPROC GCHARTavel'optionbyoulass,faitesunhistogrammeparsexepourlavariable

nombredejours d'absene.

3. Nousnousintéressonsaunombredejoursd'absene.ObtenirenutilisantlaPROC MEANSavel'option

byoulass,obtenirlesmoyenneset éart-typepourleshommes, pourlesfemmes etpourl'ensemble.

Combienya-t-ild'hommes,defemmes?Réupéreresstatistiquesdansunetabledesortieavel'option

output.Comparerlesmoyennesparsexe.Queelavousinspire-t-il?

3. Apartirdesdonnéespréédentes, alulerlavarianeinteretlavarianeintra.Conlusion?

Partie B Salaires

1. Donnerlesmoyenneset leséart-typedessalairesparsexe.Traerunhistogramme dessalairespar

sexe.

2. Faireunedéompositiondelavarianepourétudierlesdisparitésdesalairesentre leshommeset les

femmes.Conlusion?

3. Donnerlasommedetouslessalaireset lenombretotaldesalariés.

4. On s'intéressemaintenant aux inégalités de répartition des salaires (pour l'ensemble des salariés).

TraerlaourbedeLorentzetalulerl'indiedeGini. Pourela:

lasserlessalariésparsalairesroissants.

alulerunevariableorrespondantauxsalairesumulés.

assoieràhaqueindividulapart

P 2

quereprésentelamassesalarialedel'ensembledespersonnes

gagnantmoins queluiparrapportàlamassesalarialetotale.

réerunevariable

P 1

assoiantàhaqueindividulaproportiondesalariésgagnantmoinsquelui.

traerlaourbedeLorentz:

P 2

enfontionde

P 1

.Superposerlapremièrebissetrie.Commenter.

alulerl'indiedeGiniquiestégalà2foisl'aireentrelaourbedeLorentzetlapremièrebissetrie.

Pourela,onapproheral'aireendéomposantlasurfaesouslaourbeentrapèzes.Commenter

lerésultat.

Partie CDonnées groupées

1. Créerundéoupagedessalairessuivantlesquartiles:

demanderàSASlesquartilesdelavariablesalaire.

onréeune variableauxiliaire

groupe

qui vaut1sil'individugagnemoins que11450,2s'il gagne

entre 11450et 15650,3s'il gagneentre 15650et 39 150et 4sinon. A votreavis,d'où viennent

es valeurs?

(6)

table malib.sortie dans laquelle les observations sont les diérents groupesde salaires et ave

pourhaundeesgroupesl'eetif, lamoyenneet lavarianedessalairesdansegroupe.

2. Onsupposequ'onnedisposemaintenantplusquedesdonnéesrésuméesdemalib.sortie.Retrouver

lamoyenneet lavariane.

3. Supposonsqu'onnedisposeplusquedunombred'employésparlasse.Donneruneapproximationde

lamoyenneet delavariane.

3 Partie ave R : Moyenne et variane empiriques

Exerie 3(Simulations)

Nousnous proposons d'illustrerpardessimulationsquelquesfaitsimplessurla moyenneet lavariane

empiriques.

1. Simuler un éhantillon de

n = 1000

variables aléatoires iid

X 1 , · · · X n

suivant une loi normale

N (m = 2, σ 2 = 121)

.

1.1. Traerl'histogrammedesobservationset superposerladensitéapprohée.Dessinerunboxplot des

observations.

1.2. Caluler la moyenne empirique et la variane empirique orrigée. Quelles sont l'espérane et la

varianedelaloi exponentielle étudiée? Rappeler laloidesgrandsnombreset expliquerlesproximités

observées.

2. Réaliserleprogrammesuivant:

simuler

N = 300

éhantillonsde

n = 1000

variablesaléatoiresiid

X 1 , · · · X n

suivantlaloi

N (m = 2, σ 2 = 121)

.

pourl'éhantillon

i ∈ [[1, N]]

, alulerla moyenneempirique

X ¯ n ( i )

, l'éart-type orrigé

s ( n i )

, lasta-

tistique

ζ n ( i ) = √ n( ¯ X n ( i ) − 2)/σ

et la statistique

ξ n ( i ) = √ n( ¯ X n ( i ) − 2)/s ( n i )

. Nous avons don

N

réalisationsiid deesvariablesaléatoiresorrespondantàdestiragesd'éhantillonsdiérents.Ces

valeursserontonservéesdansuntableaude4olonneset

N = 300

lignes.

2.2. Traerl'histogrammedes

X ¯ n (1) , · · · X ¯ n ( N )

etluisuperposersadensitéapprohée.Fairedemêmepour

les

s (1) n , · · · s ( n N )

,pourles

ζ n (1) , · · · ζ n ( N )

etpourles

ξ (1) n , · · · ξ n ( N )

.

2.3. VérierparlesQQ-plots adéquatsque:

laloidelamoyenneempiriqueest

N (m, σ 2 /n)

,

la loide lavarianeempirique orrigée est

Γ((n − 1)/2, 1/2)

, enoreappelée

χ 2 (n − 1)

(iter une

façond'obtenirerésultat),

laloides

ζ n

estune loinormale

N (0, 1)

(d'oùvientei?),

la loi des

ξ n

est une loi de Student à

n − 1

degrés de liberté (faire aussi le QQ-plot ave la loi

normale

N (0, 1)

.

Références

Documents relatifs

Traer le graphe de f et vérier que f est bien une densité de

[r]

[r]

Cet exercice a été traité en cours comme application de la notion de suite adjacente.. On peut conclure par le théorème d'encadrement car p

Montrer qu'une fonction somme d'une fonction croissante et d'une fonction dé- croissante est à variations bornées.. On suppose que V f ([a, b]) contient un

Il s'agit de former une liste d'intervalles et de décrire le comportement de la suite lorsque x 0 est dans chacun des intervalles listés.. Former le tableau de variation de f µ

Montrer que les points M 1 et M 2 varient sur un même cercle dont on précisera le centre et le rayon.. Etudier la dérivabilité de f à droite en 0 et interpréter graphiquement

que la série temporelle est une réalisation d'un processus stationnaire.. Etude des composantes non-stationnaires avec