• Aucun résultat trouvé

Partie I – Etat de l’art

1. L’Extraction de Connaissances à partir de Données

1.4. Assistance des utilisateurs en ECD

1.4.3. Construction collaborative de plans d’exécution : le projet e-LICO

Le projet e-LICO17 (e-Laboratory for Interdisciplinary Collaborative Research in Data Mining and Data-Intensive Science) du programme EU-FP718 est un projet ayant pour objectif le développement d’une plateforme qui permet d’assister des utilisateurs « non experts » en ECD pour concevoir et appliquer des processus d’analyse de données complexes (plus précisément des données scientifiques massives, hétérogènes, et de grande dimensionnalité). Méthodologiquement, le système proposé dans le cadre de ce projet (appelé e-lab) se base sur trois bases de connaissances et des algorithmes de construction et de classement systématique de plans d’exécution (appelés aussi workflows). La première base se présente comme une

15. http://www.oasis-open.org/committees/uddi-spec 16. http://www.w3.org/TR/wsdl20-primer/

17. http://www.e-lico.eu/

Chapitre 1 – Le processus d’ECD 41

ontologie des techniques de fouille de données (DM Ontology) interrogée lors du choix et optimisation des méthodes d’ECD (Hilario et al., 2011). La deuxième base (DM KBase) contient des plans d’exécution générés et classés automatiquement à partir des spécifications de la tâche d’analyse et des données analysées (Kietz et al., 2010). La troisième base contient des annotations des expériences réussies de fouille de données (DM Experiements Repository). Ces annotations concernent à la fois les données, les modèles et les plans d’exécution.

Conceptuellement le système e-LICO est architecturé en 3 niveaux (figure 1.15) :

Figure 1.15. Architecture et spécifications générales du système e-LICO

Le niveau e-Science offre une infrastructure de services ouverts pour aider les chercheurs à

collaborer, former des communautés, apprendre les uns des autres et partager leurs expériences sous forme de workflows et de modèles résultats.

Le niveau Data Mining constitue le cœur du système e-LICO. Il est composé d’un ensemble

d’outils à base de connaissances permettant d’assister les utilisateurs dans la construction ou la réutilisation de processus d’ECD valides. Ce niveau se base essentiellement sur les idées développées dans le prototype IDA.

Le niveau Application offre des interfaces graphiques et des outils spécifiques en fonction du

domaine d’application. Dans ce niveau l’utilisateur spécifie particulièrement les sources de données et les sources de connaissances du domaine analysé (principalement des ontologies de domaine).

Chapitre 1 – Le processus d’ECD 42

Notons enfin que quelques outils du projet e-LICO sont intégrés comme plugins dans l’outil RapidMiner19.

1.4.4. Analyse comparative

Dans cette section nous allons comparer les différentes approches présentées ci-dessus selon plusieurs critères : (1) le type d’assistance proposée aux utilisateurs du processus d’ECD, (2) les objectifs de chaque approche, (3) les étapes du processus d’ECD concernées, (4) les entrées sorties du système vis-à-vis de ses utilisateurs, (5) les algorithmes, heuristiques ou techniques proposés ou utilisés dans chaque approche (surtout pour le choix des méthodes d’ECD et la comparaison entre plans d’exécution), (6) le support du partage et réutilisation des connaissances (sur le processus d’ECD et les modèles qui en résultent), (7) l’intégration des connaissances du domaine analysé (noté I. CD analysé) et du domaine de l’analyste (noté I. CD analyste) sous forme d’ontologie, de métadonnées ou de modèles conceptuels, (8) et enfin la prise en compte de l’aspect multi-analyses et des points de vue des analystes.

Nous constatons que :

 La plupart des approches mise beaucoup sur l’automatisation de la construction de plans d’exécution valides et leur partage/réutilisation, soit à l’aide d’algorithmes de planification et de composition soit d’une manière collaborative. Certes, ces approches réussissent à énumérer des plans d’exécution valides au moins de point de vue syntaxique. Mais le nombre de processus générés est généralement grand que l’utilisateur du système se trouve dans l’embarras du choix du meilleur plan d’exécution qui satisfait ses objectifs.

 Le processus d’ECD est considéré dans ses trois grandes étapes (prétraitement, fouille de données et post-traitement), mais aucune approche n’implémente le modèle de référence CRISP-DM à six étapes avec la nature itérative et interactive du processus.

 Seule l’approche de Behja et al. supporte l’aspect multi-analyse et propose d’annoter et de garder la trace des décisions faites par les différents analystes en termes de leurs points de vue.

Tableau 2. Analyse comparative de différentes approches d’assistance des utilisateurs du processus d’ECD

Critères Mining Mart IDA KDDVM de vue du processus d’ECD Annotation orientée points e-LICO

Type d’assistance

Réutilisation des meilleures pratiques de prétraitement de données.

Automatiser la construction de plans d’exécution valides.

Automatiser la construction de plans d’exécution valides.

Faciliter la réutilisabilité et l’adaptabilité du processus en termes de points de vue et vues.

Automatiser la construction de plans d’exécution valides.

Objectifs

- Annotation de la chaine des opérations de prétraitement selon un méta-modèle.

- Les modèles de cas

opérationnels sont publiés en vue de leur adaptation/réutilisation.

- Enumération systématique de plans d’exécution valides - Classement automatique de ces plans d’exécution selon des critères d’exécution.

- Description des processus d’ECD sous forme de services web.

- Guider l’utilisateur dans le choix et la composition des méthodes d’ECD afin de concevoir un plan d’exécution valide.

- Faciliter l’analyse et

l’utilisation du processus d’ECD en termes de points de vue - Définition de format de métadonnées pour annoter le processus.

- Plateforme objet qui supporte des analyses multi-vues.

- Développement d’un environnement de conception collaborative de plans d’exécution (workflows) d’analyse de données scientifiques complexes. Etapes d’ECD concernées Prétraitement Prétraitement Fouille de données Post- traitement Prétraitement Fouille de données Post-traitement Prétraitement Fouille de données Post-traitement Prétraitement Fouille de données Post- traitement Entrées du système

Le modèle conceptuel de la base de données à analyser

Spécifications des données à analyser et de la tâche d’analyse

Données à analyser Tâche de l’analyste

Données à analyser

Métadonnées (types d’attributs pour le point de vue)

Sources de données et sources de connaissances de domaine

Résultats du

système Exécution de cas similaires

Ensemble de plans d’exécution valides classés

Ensemble de plans d’exécution valides possibles sous forme de services réutilisables

Processus d’ECD et métadonnées des vues générées.

Ensemble de plans d’exécution valides classés

Algorithmes/ Heuristiques

Raisonnement à partir de cas (CBR)

AI planning techniques : pour le choix des méthodes d’ECD et le classement des plans d’exécution

Algorithm Matching : pour la

composition d’algorithmes -

AI planning techniques : pour le choix des méthodes d’ECD et le classement des plans d’exécution

Réutilisation Oui (processus et modèles) Non Oui (processus et modèles) Oui (processus et modèles) Oui (processus, modèles et connaissances)

I. CD analyste Non Oui (DM Ontology) Oui (KDDONTO) Oui (OntoECD) Oui (DM Ontology et KBase)

I. CD analysé Oui Non Non Oui Oui

Multi-analyses

Chapitre 2 – Représentations multi-points de vue 44