• Aucun résultat trouvé

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP

N/A
N/A
Protected

Academic year: 2022

Partager "Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP"

Copied!
10
0
0

Texte intégral

(1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP

IMPORTATION, PRÉPARATION DES DONNÉES,

RAPPORTS ET MISE EN FORME

(2)

Objectifs de la séance

1.  Présenter  un  exemple  de  théma3que  qui  pourrait  être  traitée  dans  le  cadre  du  travail  que   l’on  vous  demande  de  réaliser  à  la  fin  de  ce  cours.    

2.   Aborder  les  aspects  techniques  qui  précédent  la  mise  en  œuvre  des  méthodes  d’analyses  

vues  au  cours  théorique  :  la  phase  de  prépara3on  des  données  dans  le  logiciel  SAS.      

(3)

Exemple de thématique

◦ 

Variables  d’intérêt  :  l’importance  que  l’individu  accorde  au  fait  de  vivre  dans  un  pays  démocra3que  

(IMPLVDM)  et  la  manière  dont  il  évalue  le  fonc3onnement  de  la  démocra3e  dans  son  pays  (DMCNTOV).    

◦ 

Explica4ves  socio-­‐démographiques  :    

◦  La  région  du  pays  (REGION)  –  On  se  limite  à  un  seul  pays,  dans  ce  cas,  la  Belgique.    

◦  Le  genre  du  répondant  (GNDR)  

◦  Son  âge  (AGEA)    

◦  Son  niveau  d’éduca3on  (EISCED)    

◦  Son  statut  occupa3onnel  (MNACTIC)    

◦  Son  niveau  d’aisance  –  financière  –  (HINCFEL)    

◦ 

Explica4ves  «  théma4ques  »  :  

◦  Son  intérêt  pour  la  poli3que  (POLINTR)  

◦  Le  fait  qu’il  appar3enne  ou  non  à  une  minorité  ethnique  (BLGETMG)  

◦  Sa  posi3on  sur  l’échelle  gauche-­‐droite  (LRSCALE)  

◦  La  place  qu’il  es3me  occuper  dans  la  société  (PLINSOC)  

(4)

Critères pour le choix des variables

INTÉRÊT  «  SOCIOLOGIQUE  »  !!!  

ADÉQUATION  PAR  RAPPORT  AUX  MÉTHODES    

o Choisir  une  ou  deux  variable(s)  d’intérêt  (rela3ves  à  une  même  théma3que)  présentant  suffisamment  

de  niveaux  (par  exemple  :  échelle  de  Likert  de  0  à  10).    

o Travailler  sur  un  seul  pays  (au  choix)  –  et  faire  éventuellement  des  comparaisons  inter-­‐régionales    

o Prendre  un  nombre  suffisant  de  variables  explica3ves  (pour  la  sélec3on  des  modèles)  

o Ne  pas  sélec3onner  uniquement  des  explica3ves  socio-­‐démographiques  (intérêt  sociologique  limité)  

mais  cibler  aussi  des  variables  liées  à  la  théma3que  suscep3bles  d’apporter  un  éclairage  intéressant.  

o Avoir  au  moins  une  variable  con3nue  (l’âge  dans  l’ESS  est  l’une  des  seules  disponibles)    

(5)

Phase de préparation des données:

Exercice à réaliser

1.  Télécharger  la  base  de  données  ESS2012  depuis  le  site  de  l’ESS  et  l’importer  dans  SAS     2.  Le  nouveau  data  set  doit  contenir  uniquement  :    

◦  Les  réponses  des  1869  Belges  

◦  Les  variables  DMCNTOV  (variable  d’intérêt),  REGION,  EISCED,  HINCFEL,  AGEA  (explica3ves  socio-­‐démo),  POLINTR,   PLINSOC,  BLGETMG  (explica3ves  théma3ques)  

3.  Assigner  si  nécessaire  des  labels  aux  variables  et  des  formats  aux  valeurs  afin  d’aider  à  l’interpréta3on  des   sor3es.    

4.  Réaliser  un  premier  rapport  en  format  pdf  reprenant  la  table  des  fréquences  des  8  variables  retenues  avec   des  3tres  explicites  et  certains  critères  de  mise  en  forme  (style,  format,  pas  de  date,  etc.).    

5.  Créer  de  nouvelles  variables  (versions  recodées  des  variables  ini3ales)  et  définir  leurs  labels.    

6.  Réaliser  un  second  rapport  en  format  pdf  présentant  les  tables  de  con3ngence  pour  chaque  croisement  2  à  2   entre  les  variables  explica3ves  (recodées  ou  formatées)  et  la  variable  réponse  (binarisée).    Interpréter  les   premières  tendances.    

7.  Créer  un  nouveau  data  set  SAS  reprenant  les  fréquences  absolues  de  la  variable  réponse  en  fonc3on  du   niveau  d’éduca3on  et  l’imprimer  dans  la  fenêtre  de  sor3e.    

(6)

Instructions « Data step »

DATA  output-­‐SAS-­‐data-­‐set;    

           LENGTH  new-­‐variable(s)  $  length;    

           SET  input-­‐SAS-­‐data-­‐set;    

           WHERE  where-­‐expression;      /*  Sélec3on  des  observa3ons  */    

           KEEP  variable-­‐list  ;        /*  Sélec3on  des  variables  */    

           IF  expression  THEN  statement  ;    

           ELSE  IF  expression  THEN  statement  ;    /*  Créa3on  des  nouvelles  variables  */  

           LABEL  variable  =  ‘label’    

     variable  =  ‘label’    

     variable  =  ‘label’;    

           FORMAT  variable(s)  format;  

RUN;          

(7)

Procédures

PROC  CONTENTS  DATA  =  SAS-­‐data-­‐set  <varnum>;      

/*  varnum  =  op3on  de  procédure  pour  lister  les  variables  dans  l’ordre  où  elles  apparaissent  dans  le   data  set  plutôt  que  par  ordre  alphabé3que  (par  défaut)  */  

RUN;      

   

PROC  PRINT  DATA  =  SAS-­‐data-­‐set;    

                     VAR  variable(s);    

RUN;    

   

PROC  FORMAT;                  /*Défini3on  de  formats  (!  Avant  l’assigna3on  dans  le  code  !)  */  

                     VALUE    format-­‐name    range1  =  ‘label’  

                         range2  =  ‘label’  

     ….  ;    

                     VALUE    format-­‐name    range1  =  ‘label’          /*  NB  :  Le  nom  du  format  commence  par  un  $  pour  les  valeurs  caractères*/  

                         range2  =  ‘label’  

     ….  ;    

RUN;

   

(8)

Procédures (suite)

       PROC  FREQ  DATA  =  SAS-­‐data-­‐set  <  op3on(s)  >  ;          

       TABLES  variable(s)  </op3on(s)>;      /*one-­‐way  frequency  table  */  

RUN;  

 

PROC  FREQ  DATA  =  SAS-­‐data-­‐set  <  op3on(s)  >;    

 TABLES  variable1*variable2  </op3on(s)>;      /*  two  way  frequency  table  */  

RUN;                                          rows                columns      

PROC  FREQ  Op3ons  :    

-­‐  NLEVELS  (affiche  un  résumé  du  nombre  de  niveaux  pour  chaque  variable  listée  dans  TABLES)   -­‐  ORDER  =  DATA|FORMATTED|FREQ|INTERNAL  

 TABLES  Statement  Op3ons  :     -­‐  NOPERCENT,  NOROW,  NOCOL   -­‐  OUT  =  SAS-­‐data-­‐set    

(9)

Instructions globales

§     Assigner  une  librairie  :      

 LIBNAME    libref  ‘chemin  du  folder’;    

/*libref  :  max  8  caractères,  commence  par  une  le~re  ou  un  underscore*/

 

Ensuite,  pour  stocker  les  datasets  dans  la  librairie  permanente  :  les  appeler  par  «  libref.filename  »  

§   Diriger  les  sor3es  vers  une  fichier  pdf    

 ODS  pdf  file  =  ‘chemin\nom_du_fichier.pdf’  <  style  =  journal  >  ;      SAS  code  to  generate  a  report(s)  

 ODS  pdf  close;      

§     TITLEn  ‘text’;      

§     OPTIONS  nodate  nonumber  center  …  ;        

  !!!  Caractéris3ques  des  instruc3ons  globales  :  elles  restent  d’applica3on  jusqu’à  ce  qu’elles  soient   modifiées,  supprimées  ou  que  l’on  me~e  fin  à  la  session  SAS.    

 

(10)

Structure du programme SAS ESS6e02_1_F1.sas

§   

LIBNAME  LIBRARY  ‘chemin  vers  le  dossier  des<né  à  stocker  les  formats’;    

§ 

 LIBNAME  OUT  ‘chemin  vers  le  dossier  des<né  à  stocker  la  base  de  donnée’;    

§ 

 PROC  FORMAT  LIBRARY=LIBRARY  ;    /*Défini3on  de  formats  stockés  dans  la  librairie  permanente  LIBRARY  */  

                     VALUE    format-­‐name    range1  =  ‘label’  

                         range2  =  ‘label’  

     ….  ;          RUN;    

§   DATA  OUT.  ESS6e02_1_F1;    

       INFILE  ‘chemin  vers  le  fichier  txt\ESS6e02_1_F1.txt’;  

       INPUT  variables-­‐names  <$>  column_start-­‐column_stop;    

       FORMAT  variable(s)  format;  

 /*Assigna3on  des  formats  de  manière  permanente*/  

               LABEL  variable  =  ‘label’    

     variable  =  ‘label’    

     …  ;    

               IF  variable  =  value  THEN  variable  =  value  ;    /*Modifica3on  des  valeurs  pour  les  NSP  REFUS  MISSING*/  

     RUN;              

Références

Documents relatifs

En rapport avec cette thématique, vous choisirez une à deux variables réponses qualitatives ( : il faut impérativement une ordinale parmi elles) et une dizaine d’explicatives ( :

- Si les deux explicatives ont un effet significatif, on conserve ce modèle pour interpréter les paramètres; sinon, on reteste l’effet de chaque explicative séparément

• Tous les intervalles pour les RC ne contenant pas 1 et étant &gt; 1, on en déduit que la cote de succès est d’autant plus grande que le niveau d’éducation est faible (rappel

 Modèle d’indépendance : le nombre de personnes attendues en moyenne dans la cellule (i,j) ne dépend que des marges de la table de contingence :

Conclusion : pour une niveau d’intérêt pour la politique donné, les Wallons et les Flamands se distinguent systématiquement par rapport au choix de la catégorie « très

NB : les paramètres s’interprètent indépendamment de i, ce qui simplifie considérablement l’interprétation des effets si cette hypothèse est raisonnable

(interaction avec la position sociale + l’intérêt politique).. Pour une catégorie donnée du niveau d’éducation et de la région :. Very Difficult Vs Coping on

-30-39 vs.. Dans une cat´egorie d’ˆ age donn´ee, la cote du chˆ omage tend ` a ˆetre plus ´ elev´ee chez les femmes que chez les hommes... On peut donc mesurer ce lien ´eventuel