• Aucun résultat trouvé

Fouille de données par programmation visuelle structurée avec KD-Ariane

N/A
N/A
Protected

Academic year: 2021

Partager "Fouille de données par programmation visuelle structurée avec KD-Ariane"

Copied!
5
0
0

Texte intégral

(1)

HAL Id: hal-01134203

https://hal.archives-ouvertes.fr/hal-01134203

Submitted on 2 Apr 2015

HAL

is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire

HAL, est

destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Fouille de données par programmation visuelle structurée avec KD-Ariane

Régis Clouard, François Rioult

To cite this version:

Régis Clouard, François Rioult. Fouille de données par programmation visuelle structurée avec KD-

Ariane. 14e journées Francophones Extraction et Gestion des connaissances (EGC), 2014, Rennes,

France. pp.601-604. �hal-01134203�

(2)

avec KD-Ariane

Régis Clouard, François Rioult

GREYC CNRS UMR6072 - ENSICaen - Université de Caen Basse-Normandie regis.clouard@ensicaen.fr, francois.rioult@unicaen.fr

https://forge.greyc.fr/projects/kdariane

1 Introduction

La programmation visuelle de composants de haut niveau permet d’améliorer le dévelop- pement des chaînes de traitement. C’est pourquoi les plate-formes libres pour l’analyse de données (Weka1,RapidMiner2,Knime3) proposent des environnements de développement visuel. Pour autant, il y est difficile d’ajouter ses propres réalisations, par exemple des bi- naires compilés, car ces plate-formes requièrent l’utilisation d’une API dédiée, imposant par exemple un format spécifique pour la manipulation des données. Les possibilités de program- mation structurée y sont également limitées : ces plate-formes sont conçues pour enrober leurs propres composants de base pour l’apprentissage automatique.

Nous présentons ici la plate-formeKD-Ariane, un déploiement d’outils pour la fouille de données dans l’environnement de programmation visuelleAriane. Ce déploiement facilite la conception de chaînes structurées de traitements pour l’extraction de connaissance dans les données (Clouard (2009)).

KD-Ariane est simple à prendre en main et possède un fort potentiel pédagogique. Les composants graphiques exécutent simplement des commandes système, rendant aisé l’interfa- çage avec les librairies disponibles. La puissance réside dans les possibilités de programmation structurée offertes par les boucles, les macro-composants et leur partage avec d’autres utilisa- teurs sous forme de routines. Enfin, les chaînes développées avecKD-Arianesont exportables en scriptsshellouperl.

Ariane: c’est une plate-forme de programmation visuelle, initialement conçue pour valoriser les opérateurs de traitement d’image de la librairiePandore(Pandore (2013)). Nous illustrons ici son potentiel dans la réalisation de chaînes de traitement pour l’extraction de connaissances dans les bases de données.

Le principe est celui de la programmation visuelle : des composants sont assemblés pour réaliser la chaîne de traitements. Ces traitements sont réalisés sur des fichiers de données, afin de produire d’autres données, ou des résultats sous forme de chaîne de caractère ou de valeur numérique.

1. http://www.cs.waikato.ac.nz/ml/weka/index.html 2. http://rapidminer.com/

3. http://www.knime.org/

(3)

Fouille visuelle avecKD-Ariane

2 Les composants d’Ariane

Un composant est représenté par une boîte colorée, constituée de plots de liaison, de para- mètres et de résultats. Sur la figure 1, une chaîne élémentaire de traitement est représentée. Les fichiers d’entrée figurent sur la gauche et contiennent les données suivantes :

Fichiersample.sup 1 3

1 4 1 6

Fichiersample.bin 1 3 5

2 3 5 1 4 6 2 3 6 1 4 7 1 3 5 2 3 6 2 4 7

Cette chaîne élémentaire mesure le support (i.ele nombre d’occurrences) de chaque motif du fichiersample.supdans les données desample.bin. Elle ne conserve que les motifs fréquents, dont le support est supérieur à la constanteminsup, ici fixée à 2.

FIG. 1 –Anatomie d’un opérateur.

Le composantsupporteffectue cette tâche en réalisant un appel au système : – exécuter le binairesupport

– avec les paramètres du composant (symbolisés par l’utilisation de$pdans la propriété Binary) ;

– indiquer au binaire les entrées (sympbolisées par$i) ;

– rediriger le résultat vers le fichier de sortie (symbolisé par$o).

3 Programmation visuelle structurée

Le point fort d’Arianeest de proposer des mécanismes puissants pour itérer les traitements.

Arianedispose ainsi d’opérateurs pour réaliser :

– un test d’alternative, qui oriente au choix vers deux traitements ; – une bouclefor;

(4)

– une bouclewhile.

Ces opérateurs permettent de réaliser des chaînes complexes et structurées, en sortant du traditionnel cadre de la programmation par flots où les traitements sont simplement enchaî- nés sur les données, sans possibilité d’orientation alternative ni de répétition. On dispose ainsi d’une approche plus microscopique pour la programmation, ce qui permet d’envisager aussi bien la réalisation d’algorithmes complets, par exemple d’extraction de motifs, que le dévelop- pement de chaînes de validation croisée, fondées sur des itérations.

Les développements effectués à l’aide d’Arianesont facilement réutilisables grâce à : – la conception de macro opérateurs ;

– l’enregistrement de ces macros dans une hiérarchie de routines ;

– l’exportation, le partage et la mutualisation de ces routines entre les utilisateurs.

4 Un exemple de réalisation

La figure 2 illustre ces concepts avec une chaîne mesurant la complexité de l’extraction des motifs fréquents. Pour cela, on souhaite chronométrer cette extraction dans une base de données classique de l’UCI, pour un seuil de support minimum allant de 1 à 50, et compter le nombre de motifs obtenu.

Nous utilisons donc une boucle for (cf. la partie supérieur de la figure 2), qui itère un traitement paramétré pour des valeurs de support minimum de 1 à 50. Cette boucle prend en entrée les données de benchmark (fichierzoo.bin) ainsi qu’un accumulateur destiné à recueillir les résultats de chaque itération. Cet accumulateur consiste en un fichier vide, créé à l’aide de la commandeecho -n.

Le traitement à l’intérieur de la bouclefor, sur la partie inférieure de la figure, consiste à recueillir la date d’exécution, extraire les motifs puis mesurer le temps écoulé depuis le recueil de date et enfin compter le nombre de lignes produites. Un simpleechoassemble ces résultats et l’ajoute à l’accumulateur. Le résultat est visualisé à l’aide d’un scriptGnuPlot.

Références

Clouard, R. (2009).Pour une ingénierie des connaissances pour le développement d’applica- tions de traitement d’images. Habilitation à diriger des recherches, Université Caen Basse- Normandie, Caen, France.

Pandore (2013). Pandore : A library of image processing operators (Version 6.6). [Software].

Greyc Laboratory. https ://clouard.users.greyc.fr/Pandore. [accessed July 2013].

Summary

This article is introducing theKD-Arianeplatform, a deployment of tools for knowledge discovery processes in the visual environmentAriane. This deployment makes it easier to build structured streams of treatments for discovering knowledge in databases.

(5)

Fouille visuelle avecKD-Ariane

FIG. 2 –Chaîne structurée pour mesurer la complexité de l’extraction des motifs fréquents

Références

Documents relatifs

Les étapes 1 (indexation) et 3 (moteur de recherche) ont fait l’objet de beaucoup d’attention de la part des chercheurs qui prennent de plus en plus en compte des

Le tabac est un facteur prédictif indépendant de fibrose sévère au cours de la cirrhose

Larguer les structures du premier ´ etage permet de diminuer la masse et ` a pouss´ ee ´ egale d’augmenter l’acc´ el´ eration, tout

Les éléments de réponse vont servir à résoudre des problèmes de recherche d’information, de classification, de recommandation, et d’ingénierie des connaissances (représentation

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

thérapeutique. De plus, une bonne partie du programme thérapeutique est exécutée par le patient lui-même et devient sa responsabilité. De façon schématique, on peut dire que

Dans le domaine de la statistique, la mise en commun de code source pour le traitement de données a été largement initiée depuis plusieurs dizaines d’années : des bibliothèques

Ensuite, nous avons appliqué notre visualisation aux différentes bases de données réelles présentées dans la table I avec, pour toutes les bases (sauf CONSO), un