• Aucun résultat trouvé

CLASSIFICATION SOUS SAS

N/A
N/A
Protected

Academic year: 2022

Partager "CLASSIFICATION SOUS SAS"

Copied!
4
0
0

Texte intégral

(1)

CLASSIFICATION SOUS SAS

1) Méthodes de classifications automatiques Syntaxe :

PROC FASTCLUS DATA= A OUT= B OUTSTAT= C MEAN=D MAXITER= CONVERGENCE=

DELETE= CLUSTER= DRIFT MAXC= /RADIUS=

VAR liste des variables quantitatives étudiées ;

ID nom de la variable comportant le nom des individus ; WEIGH T variable ;

RUN ;

On doit spécifier soit l’option MAXC= ou RADIUS= option ou les deux.

N.B. souligné = facultatif

FASTCLUS signifie FAST CLUSTERING ( = classification rapide )

A = Nom donné à la table SAS contenant les données

B = Nom de la table SAS, créée automatiquement par SAS contenant, entre autre, la variable CLUSTER(les assignements de classes) et la variable DISTANCE (distance séparant l’individu du centre de la classe)

C =Nom de la table contenant un résumé de l’analyse (classes,...).

D= Nom de la table contenant les moyennes dans les classes et d’autres statistiques pour chaque classe : FREQ_ : effectif de la classe ; _RMSSTD_ : inertie intra-classe ; _NEAR_ : no de la classe la + proche ; _GAP_ : distance entre le centre et l’autre centre le + proche ; _RADIUS_ : distance max entre 1 individu et son centre ; X, Y :

coordonnées du centre de la classe

DELETE=n supprime les centres avec ≤ n individus rattachés (pour éviter d’avoir pour centre un « outlier »)

MAXC=n spécifie le nombre maximum de classes toléré, égal à 100 par défaut.

MAXITER=n spécifie le nombre maximum d’itérations toléré pour recalculer les centres.

(2)

converge=0.02 : les itérations s’arrêtent quand plus aucun centre ne se déplace d’une distance > 0.02

DRIFT : pour remplacer la méthode des centres mobiles par celle des k-means (convergence plus rapide)

RADIUS=d : spécifie la distance minimale entre 2 centres initiaux (= 0 par défaut) REPLACE=none : accélère la phase de sélection des centres initiaux en empêchant les

substitutions des centres les plus proches (choisir alors « radius » assez grand) –mieux vaut laisser l’option par défaut « replace=full »

2) Méthodes de classifications hiérarchiques Syntaxe :

PROC CLUSTER DATA=A METHOD=methode utilisée OUTTREE=D SIMPLE STD RSQ CCC PSEUDO;

VAR liste des variables quantitatives étudiées ; ID nomid;

WEIGH T variable ;

PROC TREE DATA= D NCL=nombre de classes voulues OUT=C(rename=(_NAME_=nomid) RUN;

nomid=nom de la variable comportant le nom des individus A= table de données

D= table stockant les info nécéssaires pour réaliser le dendogramme C=table de stockage des numeros de classes

STD : Standardisation des variables

SIMPLE : statistiques simples sur les données

RSQ : édition du R-squared et semi-partial R-squared CCC : édition du CCC

PSEUDO : édition du pseudo-F

METHOD= méthode d’agregation utilisée. Il y a 11 méthodes, dont : - AVERAGE, average linkage

(3)

- CENTROID :méthode des centroide - COMPLETE : complete linkage - - SINGLE : single linkage - WARD : méthode de ward

3) Visualisation sur les plans factoriels

Syntaxe :

PROC SORT DATA= K; BY nomid ; PROC SORT DATA= C; BY nomid ; RUN ; DATA E ; MERGE K C ; BY nomid ; RUN ; PROC PRINT DATA=E ;

ID nomid ;

VAR prin1 prin2….cluster;

RUN;

DATA L; SET K;

xsys=”2”;ysys=”2”;X=prin1;Y=prin2;FUNCTION=”label”;TEXT=nomad;POSITION=2;SIZE=1;

PROC GPLOT DATA=E;

PLOT prin2*prin1=cluster/annotate=L;

Run;

OUT= B OUTSTAT= C MEAN=D MAXITER= CONVERGENCE= DELETE= CLUSTER=

DRIFT MAXC= /RADIUS=

VAR liste des variables quantitatives étudiées ;

ID nom de la variable comportant le nom des individus ; WEIGH T variable ;

RUN ;

(4)

K=table de sortie de l’ACP

Références

Documents relatifs

 1-Maitrise insuffisante  2-Maîtrise fragile  3-Maîtrise satisfaisante  4-Très bonne maîtrise -Expliquer sa démarche ou son raisonnement, comprendre les

Faire les séries sur feuilles et les glisser dans la pochette au fur et

Vrai ou faux ? Si c’est faux, corrige la proposition. a) Les composantes de vecteurs opposés

Place l’angle de 220° dans le cercle trigonométrique ci-dessous et représente ensuite en trois couleurs différentes sin 220° ; cos 220° et tan 220°.. Laisse apparaître

Colorie ou hachure, pour t’aider, l’aire concernée et écris l’intégrale ou les.. intégrales que tu devrais résoudre pour

c· est ainsi que nous pensons faire aussi pour les écoles de villes pour lesquelles la commission harmonise les expériences en cours dont elle consignera les

NOM : classe : TP Mini alarme avec automate programmable Millenium M3 XD10 1) Charger le fichier mini-alarme.pm3 avec le logiciel Millenium 3.. 2) Quelle est la référence de

– repérer sur le schéma de 2 couleurs différentes le contact de l'interrupteur à clé et le fin de course anti-vandalisme. Bac Pro SEN – Veynes – TD étude des