4.2 Le logiciel SYR
4.2.1 Le module de construction et de manipulation de
TabSyr
TabSyr permet la construction de fichiers de donn´ees symboliques `a partir de
donn´ees classiques. Cet outil est capable de fusionner des fichiers h´et´erog`enes (par leurs sources, formats, volumes et leurs types de donn´ees), en un tableau de donn´ees symboliques.
) *( ClustSyr Classification des concepts ) *( NetSyr ACP, réseaux et visualisation :
- Corrélation de tous types de données symboliques mixés
dans une même analyse -Nombre de concepts de faible à
important (jusqu’à plusieurs milliers) TabSyr Création et visualisation des données symboliques ) * " " # ' + ,*# # - # & ' ./ ) * . .0+ 1 ) *( concepts StatSyr Statistiques descriptives et visualisation détaillée des classes/concepts
- par type de variables -Faibles nombres de concepts
(quelques dizaines)
données symboliques
2 & " " # 3 &
# *
) * 3 & .45
FIGURE1.7 – Diff´erents modules du logiciel Syr.
TabSyr accepte en entr´ee un ou plusieurs fichiers de donn´ees (au format .csv, .txt,
etc.), o `u chaque ligne correspond `a un individu et les colonnes sont les variables descriptives des individus. En sortie, TabSyr renvoie un fichier symbolique au format sp´ecifique ”.syr”. Ces fichiers peuvent ˆetre ensuite import´es par l’ensemble des modules du logiciel SYR (ClustSyr, StatSyr et NetSyr). Ainsi, le r´esultat de TabSyr constitue l’entr´ee de l’ensemble des modules du logiciel SYR.
En plus de la cr´eation des donn´ees symboliques, TabSyr permet la visualisation graphique et la manipulation de la matrice de donn´ees symboliques. La figure 1.8 repr´esente la visualisation d’un fichier symbolique d´ecrivant les esp`eces d’oiseaux. Elle montre la structure d’un fichier .syr o `u chaque ligne d´ecrit une des classes et chaque colonne repr´esente la description d’une variable symbolique.
Ce module int`egre plusieurs m´ethodes de tri pour les variables intervalles et histogrammes. Il offre la possibilit´e de masquer ou de supprimer des variables ou des classes d’individus, l’ordonnancement des lignes et des colonnes, une m´ethode de scoring symbolique permettant de trier les variables de la plus discriminante `a la moins discriminante des classes, etc. Toutes ces m´ethodes sont de nouvelles m´ethodes
+ , - % ' & 6 0 7 " 6 8 * 7 3 " & 6 0 7 ' 9 " & '' # 9 " # "( " " 9 & 3 & "# "( " " & 6 0 7 ' "( " " . " + " + ' '- . % * ' & 6 7 " 6 : 7 9 " " " '' #
FIGURE1.8 – Exemple de tableau de donn´ees symboliques visualis´e dans TABSYR. Une matrice de donn´ees symboliques peut contenir dans chaque case : un histogramme, un intervalle, une valeur continue ou nominale.
statistiques, sur des donn´ees agr´eg´ees et fusionn´ees, d´evelopp´ees par Syrokko [5].
Cr´eation et visualisation d’un fichier Symbolique `a partir d’un fichier classique en
utilisantTabSyr
Afin de construire un fichier symbolique `a partir d’un fichier classique, en utilisant
TabSyr, il faut disposer du fichier des donn´ees classiques initiales et d’un fichier
”pattern”contenant la description du fichier symbolique (voir figure 1.9).
Chaque ligne du fichier pattern repr´esente la description d’une variable du fichier symbolique. Elle doit avoir la forme suivante :
Nom variable : num´ero colonne : type avec :
• Nom variable : repr´esente le nom de la variable symbolique
• Num´ero colonne : repr´esente le num´ero de la colonne de la variable classique dans le ficher initial.
• Type : le type de la variable dans le fichier symbolique. Qui peut ˆetre :
– c: pour d´esigner la classe des individus.
– h: pour les variables histogrammes
– i: pour les variables intervalles
– q: pour les variables quantitatives (continues)
– n: pour les variables qualitatives (nominales)
Exemple illustratif
Soient les donn´ees d´ecrivant des joueurs de football repr´esent´ees par le tableau 1.3. Afin d’obtenir le fichier ”.syr” d´ecrivant les ´equipes, nous commenc¸ons par la construction du fichier pattern. La partie (a) de la figure 1.10 pr´esente ce fichier. Ensuite, nous introduisons le pattern et le fichier de donn´ees initiales `a TabSyr. Enfin, nous obtenant le fichier ”.syr” d´ecrivant les ´equipes de football. La partie (b) de la figure 1.10 pr´esente le tableau symbolique qui d´ecrit les ´equipes de football. La visualisation graphique de ce fichier est repr´esent´ee par la partie la figure 1.11.
Manipulation d’un fichier symbolique avecTabSyr
En plus de la cr´eation de fichier symbolique `a partir d’un fichier classique, TabSyr permet de traiter les fichiers symboliques. Ce traitement peut se faire `a travers le tri et la suppression des variables descriptives existantes ou en ajoutant d’autres variables descriptives issues d’autres fichiers.
La partie (a) de la figure 1.12 repr´esente le r´esultat du tri des variables descriptives des ´equipes de football de la moins discriminante `a la plus discriminante. Nous remarquons que ”Taille” est la variable qui permet de diff´erencier le plus les deux ´equipes.
La partie (a) de la figure 1.12 illustre l’exemple de suppression de la variable explicative ”Nationalit´e” `a partir du fichier d´ecrivant les ´equipes de football.
(a) Fichier pattern.
(b) Fichier symbolique d´ecrivant les ´equipes de football.
FIGURE1.10 – Utilisation de TabSyr pour la cr´eation du fichier symbolique d´ecrivant
les ´equipes de football.
FIGURE1.11 – Visualisation graphique du fichier symbolique des ´equipes de football.
L’ajout de variables descriptives se fait en fusionnant deux fichiers symboliques. En reprenant l’exemple des ´equipes de football, consid´erons que nous avons un autre fichier classique d´ecrivant les supporters des ´equipes (voir tableau 1.5). Afin d’ajouter les informations des supporters de chaque ´equipe, nous construisons le fichier pattern d´ecrivant les ´equipes en utilisant les informations de la table des supporters. Ensuite, nous ajoutons le r´esultat de la conversion du ficher des supporters en donn´ees symbolique au premier fichier d´ecrivant les ´equipes issu de la table des joueurs. Le fichier pattern ainsi que la visualisation du fichier issue de la fusion sont repr´esent´es dans la figure 1.13.
(a) Visualisation du r´esultat du tri des variables descriptives par ordre croissant de discrimination.
(b) Suppression de la variable descriptive ”Nationalit´e” en utilisant TabSyr.
FIGURE 1.12 – Exemples de traitements effectu´es en utilisant TabSyr sur le fichier symbolique d´ecrivant les ´equipes de football.
Nom ´Equipe Age Genre
Louis Ferrer Real Madrid 20 M
Francesca Rodriguez FC Barcelone 30 F
Maria Costa FC Barcelone 24 F
Antonio Hernandez FC Barcelone 45 M
Rafael Nadal Real Madrid 28 M
Isabella Ferrer Real Madrid 50 F
Tableau 1.5 – Table des supporters des ´equipes de football.