• Aucun résultat trouvé

TP DE DATA MINING 0 : UTILISATION DE SPSS CLEMENTINE

N/A
N/A
Protected

Academic year: 2022

Partager "TP DE DATA MINING 0 : UTILISATION DE SPSS CLEMENTINE"

Copied!
7
0
0

Texte intégral

(1)

TP DE DATA MINING

0 : UTILISATION DE SPSS CLEMENTINE

EPF – 4/ 5ème année - Option Ingénierie d’Affaires et de Projets - Finance Bertrand LIAUDET

Utilisation de SPSS - Clementine 1

Aide et didacticiel ...1

Vocabulaire de base : nœud, flux, résultats et projet ...2

L’espace de travail Clémentine...2

L’espace de travail des flux ...2

La palette des nœuds de Clémentine...3

Le gestionnaire des flux...7

Le gestionnaire des projets...7

UTILISATION DE SPSS - CLEMENTINE

Clementine est un logiciel de data mining. Il comporte deux parties :

• Une partie d’analyse et de manipulation des données « classiques »

• Une partie de modélisation propre au data mining

La partie d’analyse et de manipulation des données reprend les notions de base de l’algèbre relationnelle (SQL).

La partie de modélisation propre au data mining utilise les algorithmes spécifiques du data mining.

Aide et didacticiel

Aide / Rubriques d’aide -> Accès à l’aide :

Aide contextuelle : Cliquez sur le bouton Aide ou sur l'icône correspondante dans la plupart des boîtes de dialogue pour accéder à la rubrique d'aide propre aux commandes de cette boîte de dialogue.

Aide Qu'est-ce que c'est ? : Pour accéder à l'aide générale sur les noeuds et les éléments de la barre d'outils, sélectionnez « Qu'est-ce que c'est ? » dans le menu Aide de Clementine. Le curseur se transforme en point d'interrogation : vous pouvez l'utiliser pour cliquer sur n'importe quel élément de l'espace de travail de flux ou des palettes. Une fenêtre d'aide apparaît : elle contient des informations sur l'élément sélectionné.

Aide / Didacticiel

(2)

Suivre les étapes du didacticiel

Vocabulaire de base : nœud, flux, résultats et projet

Nœud : un nœud est un élément d’un flux. C’est une étape d’un traitement complet qu’on appelle « flux ». Un nœud isolé ne produit pas de résultats. C’est la connexion de plusieurs nœuds qui peut produire des résultats. La version de Clementine qu’on utilise propose 60 nœuds répartis dans 6 catégories (Sources, Opérations sur les lignes, Opérations sur les champs, Graphiques, Modélisation, Sortie).

Flux : un flux est un ensemble de nœuds produisant des résultats. Il faut au moins deux nœuds pour fabriquer un flux : un nœud d’entrée (choix du fichier de données) et un nœud de sortie (choix d’une méthode d’affichage ou d’un modèle).

Un flux contient un et un seul nœud de sortie. Il peut contenir plusieurs nœuds d’entrée. Il peut se diviser en plusieurs branches, mais se termine toujours par un seul nœud de sortie.

Résulats : sorties et modèle : les flux produisent quatre types de résultats : des tableaux, des graphiques, des statistiques et des modèles. Tableaux, graphiques et statistiques sont appelées : « sorties ».

Projet (processus) : un projet est un ensemble de flux répartis dans les étapes du processus CRISP-DM.

L’espace de travail Clémentine

L’espace de travail Clémentine se divise en 4 parties :

• L’espace de travail des flux : pour fabriquer les flux.

• La palette des nœuds : pour choisir les nœuds.

• Le gestionnaire des flux : pour gérer les flux en tant que fichiers.

• Le gestionnaire des projets : pour gérer les projets en tant que fichiers.

L’espace de travail des flux

Dans l’espace de travail des flux, on peut :

• Déposer les nœuds de la palette des nœuds.

• Paramétrer les nœuds.

• Connecter les nœuds.

• Exécuter un nœud de sortie.

L’espace de travail des flux contient un ou plusieurs flux (autant que de nœuds de sortie).

(3)

La palette des nœuds de Clémentine

Dans la « palette de nœuds », zone horizontale en bas de la fenêtre de Clémentine, le logiciel propose toutes les opérations possibles regroupées logiquement :

• Sources

• Opérations sur les lignes

• Opérations sur les champs

• Graphiques

• Modélisation

• Sortie

Dans ces opérations, on va retrouver la logique de l’algèbre relationnelle :

Select : choix des attributs, attributs calculés, élimination des doublons, fonctions de groupe

From : choix des tables, produit cartésien

Where : choix des lignes et jointure

Order by : tris

Group by : regroupements

Union, Minus, Intersection : opérations ensemblistes

Sources

Les outils SGBD, Délimité, Fixe, SPSS, SAS permettent de choisir un fichier de données sur lequel se feront les opérations de data mining.

Le fichier de données ne sera pas modifié par les opérations du data mining.

Pour travailler à partir d’un fichier enregistré en format texte, on utilise l’outil « Délimité ».

8 opérations sur les lignes

6 opérations sur les lignes Clémentine et leurs équivalents SQL :

Clémentine SQL

Sélectionner Where

Agréger Group by

Trier Order by

Distinguer Distinct

Fusionner Jointure

Ajouter Union

(4)

2 opérations sur les lignes spécifiques au data mining :

Opération Explications

Échantillonner Permet de produire un échantillon à partir d’un ensemble de départ.

Équilibrer Permet de modifier la répartition des valeurs d’une variable.

10 opérations sur les champs (sur les colonnes)

3 opérations sur les champs Clémentine et leurs équivalents SQL :

Clémentine SQL Explications

Re-trier Select Permet de définir l’ordre d’affichage des colonnes.

Filtrer Select Permet de choisir les colonnes et de les renommer.

Calculer Select Permet de générer de nouveaux champs et des champs calculés.

7 opérations sur les champs spécifiques au data mining

Opération Explications

Typer Permet de modifier le type des champs. Double-clique du champ possible.

Remplacer / Recoder Permet de modifier les valeurs des variables d’un champ selon certains critères.

Discrétiser Permet de générer une variable catégorielle à partir d’une autre variable. Plusieurs types de catégories sont possibles : par effectifs (quantiles), par intervalles, etc.).

Partitionner Permet de définir l’organisation du jeu de données en jeux d’apprentissage, de test et éventuellement de validation. Cette organisation est utile pour la modélisation.

Binariser Permet de générer une variable booléenne à partir d’une valeur d’une autre variable (par exemple : origine = ‘Europe’ devient une variable booléenne).

Historiser

7 graphiques

7 opérations graphiques proposées par Clémentine :

(5)

Nuage 2 ou 3 variables, plus une superposition.

Proportion 1 var. non numérique + superposition.

Histogramme 1 var. numérique + superposition.

Résumé Statistique d’une variable pour les valeurs d’une autre variable (par exemple : moyenne des puissances par années).

Courbe Idem nuage, en tirant un trait entre les points.

Relation Effectif des co-occurrences entre valeurs catégorielles.

Évaluation Comparaison graphique des modèles prédictifs.

5 modélisations

5 opérations de modélisation proposées par Clémentine en version d’évaluation :

Clémentine Arbre C & RT K-means

GRI (règles d’asso) ACP / Facteur Régression

14 sorties

14 opérations de sortie proposées par Clémentine qu’on peut regrouper en 4 genres :

• 4 opérations d’observation des données :

Table Affichage du tableau de départ.

Matrice Pour deux variables catégorielles, matrice des occurrences ou calcul statistique pour une troisième variable (exemple : poids moyen par année et par cm3).

Audit données Synthèse statistique et graphique.

Statistiques Statistiques et corrélations.

Qualité Analyse la qualité initiale des données

• 2 opérations de rapport :

Analyse Crée un rapport comparant l’exactitude des modèles prédictifs

Rapport Edition d’un rapport écrit.

(6)

• 1 opération « technique interne» :

V. Globales Permet de définir des calculs statistiques (moyenne, minimum, etc.) en variables globales qui pourront ensuite être utilisées dans des formules de filtre.

• 6 outils d’exportation des données :

Excel Fichier plat SGBD Export SPSS Export SAS Commande SPSS

(7)

Le gestionnaire des flux

Flux

L’espace de travail des flux correspond à un flux du gestionnaire des flux. On peut le sauvegarder. Les flux peuvent être rangés dans un projet.

Sorties

Tous les résultats de type « Sorties » (résultats de type tableaux, statistiques ou graphiques) se retrouvent dans l’onglet « Sorties ». Ils peuvent être sauvegardés. Ils peuvent être rangés dans un projet.

Modèles

Tous les résultats de type « modèle » se retrouvent dans l’onglet « Modèles ». Ils peuvent être sauvegardés. Ils peuvent être rangés dans un projet.

Le gestionnaire des projets

CRISP – DM

Chaque étape du CRISP – DM est un dossier dans lequel on peut ranger les éléments du projet : les flux, les super-nœuds, les sorties et les modèles.

On peut enregistrer le projet avec tous ses fichiers.

Classes

L’onglet « Classes » organise les éléments du projet par catégorie (et non plus par étapes comme dans le CRISP – DM) : flux, super-nœuds, modèles, sorties (tableaux, graphiques, etc.).

Références

Documents relatifs

Si l'on en croit Jesse Fox, auteur principal d'une étude et professeur assistante en communication à l'Université de l'Ohio, les hommes qui publient beaucoup de selfies sur

Les élèves ne disposant pour l’instant que d’informations qualitatives sur l’énergie potentielle et l’énergie cinétique d’un système, le but de

marge brute – remise – prix d’achat net – prix de vente hors taxe – coût d’achat prix de vente toute taxe comprise – prix d’achat net – frais d’achat – prix

MouseListener en Java, mais que l'on ne souhaite pas implémenter de comportement pour toutes les méthodes, on peut dériver la classe MouseAdapter.. Celle-ci fournit en effet un

On décompose le volume du liquide en rotation en couronnes cylindriques de rayon r, d’épaisseur dr et de hauteur z(r). Exprimer le volume dV d’une telle couronne. En supposant que

Le démarrage d’un moteur asynchrone ne peut avoir lieu que si le couple moteur est à chaque instant supérieur au couple résistant de la machine à entrainer.. (Le couple

Elle est d’autant plus importante que la masse de la charge est grande et s’oppose à la mise en mouvement. Elle est caractérisée par le moment d’inertie J, qui s’exprime en

Ils sont ensuite émis sans vitesse par la source S, puis accélérés par un champ électrostatique uniforme qui règne entre S et P tel que.. U sp