• Aucun résultat trouvé

4.2 Le logiciel SYR

4.2.1 Le module de construction et de manipulation de

TabSyr

TabSyr permet la construction de fichiers de donn´ees symboliques `a partir de

donn´ees classiques. Cet outil est capable de fusionner des fichiers h´et´erog`enes (par leurs sources, formats, volumes et leurs types de donn´ees), en un tableau de donn´ees symboliques.

) *( ClustSyr Classification des concepts ) *( NetSyr ACP, réseaux et visualisation :

- Corrélation de tous types de données symboliques mixés

dans une même analyse -Nombre de concepts de faible à

important (jusqu’à plusieurs milliers) TabSyr Création et visualisation des données symboliques ) * " " # ' + ,*# # - # & ' ./ ) * . .0+ 1 ) *( concepts StatSyr Statistiques descriptives et visualisation détaillée des classes/concepts

- par type de variables -Faibles nombres de concepts

(quelques dizaines)

données symboliques

2 & " " # 3 &

# *

) * 3 & .45

FIGURE1.7 – Diff´erents modules du logiciel Syr.

TabSyr accepte en entr´ee un ou plusieurs fichiers de donn´ees (au format .csv, .txt,

etc.), o `u chaque ligne correspond `a un individu et les colonnes sont les variables descriptives des individus. En sortie, TabSyr renvoie un fichier symbolique au format sp´ecifique ”.syr”. Ces fichiers peuvent ˆetre ensuite import´es par l’ensemble des modules du logiciel SYR (ClustSyr, StatSyr et NetSyr). Ainsi, le r´esultat de TabSyr constitue l’entr´ee de l’ensemble des modules du logiciel SYR.

En plus de la cr´eation des donn´ees symboliques, TabSyr permet la visualisation graphique et la manipulation de la matrice de donn´ees symboliques. La figure 1.8 repr´esente la visualisation d’un fichier symbolique d´ecrivant les esp`eces d’oiseaux. Elle montre la structure d’un fichier .syr o `u chaque ligne d´ecrit une des classes et chaque colonne repr´esente la description d’une variable symbolique.

Ce module int`egre plusieurs m´ethodes de tri pour les variables intervalles et histogrammes. Il offre la possibilit´e de masquer ou de supprimer des variables ou des classes d’individus, l’ordonnancement des lignes et des colonnes, une m´ethode de scoring symbolique permettant de trier les variables de la plus discriminante `a la moins discriminante des classes, etc. Toutes ces m´ethodes sont de nouvelles m´ethodes

+ , - % ' & 6 0 7 " 6 8 * 7 3 " & 6 0 7 ' 9 " & '' # 9 " # "( " " 9 & 3 & "# "( " " & 6 0 7 ' "( " " . " + " + ' '- . % * ' & 6 7 " 6 : 7 9 " " " '' #

FIGURE1.8 – Exemple de tableau de donn´ees symboliques visualis´e dans TABSYR. Une matrice de donn´ees symboliques peut contenir dans chaque case : un histogramme, un intervalle, une valeur continue ou nominale.

statistiques, sur des donn´ees agr´eg´ees et fusionn´ees, d´evelopp´ees par Syrokko [5].

Cr´eation et visualisation d’un fichier Symbolique `a partir d’un fichier classique en

utilisantTabSyr

Afin de construire un fichier symbolique `a partir d’un fichier classique, en utilisant

TabSyr, il faut disposer du fichier des donn´ees classiques initiales et d’un fichier

”pattern”contenant la description du fichier symbolique (voir figure 1.9).

Chaque ligne du fichier pattern repr´esente la description d’une variable du fichier symbolique. Elle doit avoir la forme suivante :

Nom variable : num´ero colonne : type avec :

• Nom variable : repr´esente le nom de la variable symbolique

• Num´ero colonne : repr´esente le num´ero de la colonne de la variable classique dans le ficher initial.

• Type : le type de la variable dans le fichier symbolique. Qui peut ˆetre :

– c: pour d´esigner la classe des individus.

– h: pour les variables histogrammes

– i: pour les variables intervalles

– q: pour les variables quantitatives (continues)

– n: pour les variables qualitatives (nominales)

Exemple illustratif

Soient les donn´ees d´ecrivant des joueurs de football repr´esent´ees par le tableau 1.3. Afin d’obtenir le fichier ”.syr” d´ecrivant les ´equipes, nous commenc¸ons par la construction du fichier pattern. La partie (a) de la figure 1.10 pr´esente ce fichier. Ensuite, nous introduisons le pattern et le fichier de donn´ees initiales `a TabSyr. Enfin, nous obtenant le fichier ”.syr” d´ecrivant les ´equipes de football. La partie (b) de la figure 1.10 pr´esente le tableau symbolique qui d´ecrit les ´equipes de football. La visualisation graphique de ce fichier est repr´esent´ee par la partie la figure 1.11.

Manipulation d’un fichier symbolique avecTabSyr

En plus de la cr´eation de fichier symbolique `a partir d’un fichier classique, TabSyr permet de traiter les fichiers symboliques. Ce traitement peut se faire `a travers le tri et la suppression des variables descriptives existantes ou en ajoutant d’autres variables descriptives issues d’autres fichiers.

La partie (a) de la figure 1.12 repr´esente le r´esultat du tri des variables descriptives des ´equipes de football de la moins discriminante `a la plus discriminante. Nous remarquons que ”Taille” est la variable qui permet de diff´erencier le plus les deux ´equipes.

La partie (a) de la figure 1.12 illustre l’exemple de suppression de la variable explicative ”Nationalit´e” `a partir du fichier d´ecrivant les ´equipes de football.

(a) Fichier pattern.

(b) Fichier symbolique d´ecrivant les ´equipes de football.

FIGURE1.10 – Utilisation de TabSyr pour la cr´eation du fichier symbolique d´ecrivant

les ´equipes de football.

FIGURE1.11 – Visualisation graphique du fichier symbolique des ´equipes de football.

L’ajout de variables descriptives se fait en fusionnant deux fichiers symboliques. En reprenant l’exemple des ´equipes de football, consid´erons que nous avons un autre fichier classique d´ecrivant les supporters des ´equipes (voir tableau 1.5). Afin d’ajouter les informations des supporters de chaque ´equipe, nous construisons le fichier pattern d´ecrivant les ´equipes en utilisant les informations de la table des supporters. Ensuite, nous ajoutons le r´esultat de la conversion du ficher des supporters en donn´ees symbolique au premier fichier d´ecrivant les ´equipes issu de la table des joueurs. Le fichier pattern ainsi que la visualisation du fichier issue de la fusion sont repr´esent´es dans la figure 1.13.

(a) Visualisation du r´esultat du tri des variables descriptives par ordre croissant de discrimination.

(b) Suppression de la variable descriptive ”Nationalit´e” en utilisant TabSyr.

FIGURE 1.12 – Exemples de traitements effectu´es en utilisant TabSyr sur le fichier symbolique d´ecrivant les ´equipes de football.

Nom ´Equipe Age Genre

Louis Ferrer Real Madrid 20 M

Francesca Rodriguez FC Barcelone 30 F

Maria Costa FC Barcelone 24 F

Antonio Hernandez FC Barcelone 45 M

Rafael Nadal Real Madrid 28 M

Isabella Ferrer Real Madrid 50 F

Tableau 1.5 – Table des supporters des ´equipes de football.