• Aucun résultat trouvé

Partie I – Etat de l’art

1. L’Extraction de Connaissances à partir de Données

1.2. Aperçu sur le processus d’ECD

1.2.3. Analyse de quelques outils libres d’ECD

Dans cette section nous présentons une analyse comparative de 4 outils libres pour l’ECD : KNIME, R, RapidMiner et Weka. Le choix de ces outils est basé sur le fait qu’ils sont disponibles en open source et qu’ils sont les plus utilisés par la communauté selon le dernier sondage de KDnuggets5. Une recherche Google confirme également que ces 4 outils sont populaires (principalement en raison de leur longue histoire de développement et de mise à niveau).

1.2.3.1. Weka

Weka (Waikato Environment for Knowledge Analysis)6 est un espace de travail composé d’une collection d’algorithmes de data mining et d’outils de prétraitement et de visualisation (Witten et al., 2011), développé entièrement en Java à l'université de Waikato, Nouvelle-Zélande, et disponible sous la licence publique générale GNU (GPL). Weka dispose d'une interface graphique qui guide l’utilisateur à travers les différentes tâches d'exploration de données. Les algorithmes peuvent être appliqués directement à partir de cette interface graphique, comme ils peuvent être appelés comme API à partir d’un programme Java.

Weka contient des outils de prétraitement (surtout des filtres de transformation de données), un ensemble de méthodes pour réaliser les tâches standards de fouille de données

5. http://www.kdnuggets.com/polls/2011/tools-analytics-data-mining.html.

Question du sondage : “Which data mining/analytic tools you used in the past 12 months for a real project?”. 6. http://www.cs.waikato.ac.nz/ml/weka/

Chapitre 1 – Le processus d’ECD 21

(classification, régression, clustering, extraction de règles d'association, et sélection d'attributs), et des outils de visualisation des données d’entrée et des patterns extraits.

1.2.3.2. R-project

R (R Project for Statistical Computing)7 est un langage et un environnement logiciel libre permettant d'effectuer des calculs statistiques et d’en créer des graphiques. R est semblable au langage S et son environnement créé aux Laboratoires Bell par John Chambers et ses collègues (Becker et Chambers, 1984). R peut être considéré comme une autre implémentation de S. Il existe des différences importantes, mais beaucoup de code écrit pour S s'exécute sans modification sous R.

Malgré que l'on associe souvent R aux statisticiens, il convient en réalité très bien pour la fouille de données. En effet, R offre une grande variété de méthodes statistiques et de fouille de données : modélisation linéaire et non linéaire, tests statistiques, analyse de séries chronologiques, classification, clustering, analyse de dépendances, et techniques de visualisation graphique.

Parmi les atouts majeurs de R, on cite son extensibilité par des packages et programmes développés par la communauté, et la facilité avec laquelle on peut créer des graphiques bien conçus contenant des symboles mathématiques et des formules si besoin. Seul inconvénient, il fonctionne à l'aide d'un interpréteur de commandes, ce qui nécessite un peu de pratique pour en tirer véritablement parti.

1.2.3.3. RapidMiner

RapidMiner8, successeur du logiciel YALE (Yet Another Learning Environment) (Mierswa et al., 2006), est incontestablement le leader des outils open source pour la fouille de données et l’analyse prédictive depuis 2010 (selon le sondage annuel réalisé par KDnuggets). RapidMiner dispose de plus que 1000 méthodes et techniques pour : la fouille de données (classification, clustering, associations …), l’analyse prédictive, l’ETL, le reporting, la génération de tableaux de bord, la visualisation, l’évaluation et le déploiement. En particulier il intègre tous les algorithmes et techniques d’ECD disponible sous Weka et R.

RapidMiner dispose d'une interface graphique permettant de concevoir des analyses d'ECD sous forme de pipelines (appelée aussi arbre d’opérateurs). En plus de l'aspect visuel du

7. http://www.r-project.org/

Chapitre 1 – Le processus d’ECD 22

processus, un fichier XML est généré décrivant les étapes et opérateurs appliqués aux données. Les algorithmes de RapidMiner peuvent également être exécutés à partir de la ligne de commande ou à partir d’un programme comme API externe.

RapidMiner est développé en Java et distribué en open source sous licence GNU AGPL.

1.2.3.4. KNIME

Knime (Konstanz Information Miner)9 est une plateforme open source d'intégration de données, de prétraitement, d'analyse et d'exploration de données, développé en Java à l'université de Konstanz. Il intègre différents composants pour l’ECD et dispose d’une interface graphique permettant de concevoir des processus d’ECD sous forme de pipeline. Une des clés de succès de l’outil Knime est son approche modulaire de conception et gestion d’un plan d’exécution, qui consiste à documenter et enregistrer le processus d'analyse dans l'ordre où il a été conçu et mis en œuvre, tout en veillant à ce que les résultats intermédiaires sont toujours disponibles.

Knime offre aussi quelques fonctionnalités de reporting. Il intègre tous les modules d'analyse de Weka et permet de générer des scripts en langage R.

1.2.3.5. Analyse comparative

Pour chacun des quatre outils présentés ci-dessus, nous avons construit un processus d’ECD en utilisant le fameux jeu de données "iris" (Fisher, 1936), puis nous avons analysé l’ergonomie de l’outil, ses algorithmes, ainsi que les facilités offertes à l’utilisateur au cours des différentes étapes du processus d’ECD.

Les résultats du dernier sondage de KDnuggets révèlent que RapidMiner est l'outil d’ECD le plus utilisé par la communauté (27,7%) suivi de R (23,3%), Knime et Weka sont moins utilisés avec un pourcentage de 12,1% et 11,8%, respectivement.

La figure suivante résume le résultat de notre analyse comparative. Les outils sont comparés à base de 7 attributs : ergonomie, compréhension du domaine d’application, compréhension des données, prétraitement, fouille de données (modélisation), évaluation et documentation. Les notes sont attribuées sur une échelle de 0 à 10 en fonction des algorithmes et techniques de l’outil et des facilités offertes à l’utilisateur pour le choix et le paramétrage des opérateurs.

Chapitre 1 – Le processus d’ECD 23

Figure 1.3. Comparaison de 4 outils libre d’ECD

Comme le montre la figure 1.3, on peut conclure que l'attention de la plupart des développeurs d’outils d’ECD est centrée sur la mise en œuvre d'algorithmes pour la préparation des données, la modélisation et de l'évaluation. L'utilisateur d’ECD n’est pas bien assisté pendant les premières étapes du processus (en particulier la compréhension du domaine d’application et la définition de la tâche d’ECD). Les outils présentés supposent que l'utilisateur a déjà recueilli toutes les données nécessaires, et tout ce qu'il a à faire c’est de paramétrer et exécuter des méthodes de data mining, sans aucune assistance et sans tirer profits d’expériences précédentes réussies d’ECD.

1.3. Modèles de processus, langages et standards pour