TP2 SAS :
Data management et qqs proc
I. Procédures de manipulation de données
1) Créer une librairie sur votre espace personnel SAS.
2) Importer sous SAS le fichier dose_patients.csv qui se trouve dans /courses/df5abed5ba27fe300/TP2/
3) Calculer les statistiques descriptives de chaque marqueur, pour chaque statut patient, à l’aide de la PROC MEANS.
4) Importer le fichier info_patient.txt, qui contient des informations sur les patients de l’hôpital.
5) Rassembler les informations des 2 tables SAS dans une même table nommée all_results, à l’aide de l’instruction merge dans une étape data. Stocker la table créée dans la librairie.
I. Afficher les informations des patients pour lesquels aucun résultat (aucune dose) n’est disponible
II. Afficher les identifiants des patients pour lesquels un résultat (une dose) est disponible mais aucune information patient n’est renseignée.
III. Garder uniquement les observations pour lesquelles les informations patients et les doses sont renseignées
6) Faire de même mais en utilisant la Procédure PROC SQL. Quelles sont les avantages de la proc SQL par rapport à l’instruction merge ?
II. Procédures de traitement statistique et graphiques
7) A l’aide de la PROC FREQ,
I. Afficher le nombre et le pourcentage de patients femmes et hommes dans l’étude. Supprimer de l’affichage les pourcentages en ligne et colonne.
II. Faire un tableau de contingence des variables statut en fonction de la variable fumeur
III. Réaliser le test du Khi 2 d’indépendances des variables statut et fumeur.
Utiliser pour cela l’option chisq. Quel est le résultat ? Quelle est la pvalue associée ?
8) Utiliser pour cela la PROC GPLOT pour faire un nuage de points de la variable dose en fonction du statut malade ou non malade, pour chaque biomarqueur.
Choisir une couleur en fonction de la variable fumeur.
Utiliser les instructions symbol avant la proc pour définir l’affichage des observations (couleurs, forme…)
9) Utiliser la PROC BOXPLOT pour faire une boite à moustache de la variable dose en fonction du statut malade ou non malade, pour chaque biomarqueur. Tester l’effet de l’option boxstyle = schematicid.
10) Utiliser la PROC GCHART pour afficher un « camembert » représentant la proportion homme / femme dans le jeu de données. Ajouter le statut malade non malade à l’aide de couleur.
11) Avec la PROC UNIVARIATE,
I. tracer les histogrammes pour chaque biomarqueur de la variable dose pour les 2 catégories (malade / non malades).
II. Réaliser le test de normalité de la variable dose pour chaque biomarqueur et chaque catégorie.
III. Faites de même en supprimant la valeur atypique pour la catégorie non malade.
12) Utiliser pour cela la PROC TTEST pour effectuer un test de comparaison des moyennes des doses observées pour les patients malades et non malades pour chaque biomarqueur.
I. Quels sont les prérequis pour effectuer le test de student ?
II. Peut-on mettre en évidence une différence significative entre les malades et non malade ?