HAL Id: hal-01414117
https://hal.inria.fr/hal-01414117
Preprint submitted on 12 Dec 2016
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Maîtriser la complexité des systèmes: apport de la fouille de données
Jean-François Mari, Amedeo Napoli
To cite this version:
Jean-François Mari, Amedeo Napoli. Maîtriser la complexité des systèmes: apport de la fouille de données. 2016. �hal-01414117�
Maîtriser la complexité des systèmes:
apport de la fouille de données
Equipe Orpailleur
LORIA (CNRS INRIA Nancy Grand-Est Université de Lorraine) B.P. 239, 54506 Vandoeuvre les Nancy, France
http://orpailleur.loria.fr/
Comité de l'Administration Régionale (CAR) Châlons en Champagne, 23 novembre 2016
Apport de l'Intelligence Articielle en fouille de données
Nettoyer les données
diminuer le bruit de mesure
cerner la variabilité dûe aux processus vivants parmodélisation stochastique
Agréger et classer les données : élémentaire: binaires,nombres
ou complexes : ensembles,séquences, relations
Décrire les ressemblances / diérences entre familles (les classes) Visualiser: les résultats agrègés (la photo de famille !)
Les formes découvertes peuvent être interprétées comme des unités de connaissance pour un univers à explorer.
Orpailleur Team KDD at INria NGE/LORIA ACAL-CAR 23/11/2016 2 / 9
Nature des données d'utilisation du territoire
Données temporelles car elles sont issues d'un calendrier de travail lié aux saisons
Données spatialescar elles sont issues de territoires mis en valeur par les agriculteurs ;
Données hétérogènes à diérentes échelles
Enjeux : rendre visibles ces données par des moyens numériques Permettre leur réutilisation
Rendre ces données inter-opérables Développer des nouveaux services
Dynamiques territoriales dans le bassin du Yar (
analyse sur 12 ans à partir d'images satellite à l'aide du logiciel ARPENTAge)region 1 : forêts et zones pérennes
region 2 : urbain
region 3 : disparition des prairies
region 4 : maintien des prairies
region 5 : sans dynamique
Orpailleur Team KDD at INria NGE/LORIA ACAL-CAR 23/11/2016 4 / 9
Disparition des prairies dans le bassin du Yar : bassin à
algues vertes
Knowledge Discovery in Databases (KDD)
KDDis applied to large volumes of complex data for discovering patternswhich can besignicant andreusable.
KDD is based onthree main steps: data preparation,data mining, and interpretation of the discovered units.
KDD isiterativeandinteractive, i.e. it can bereplayed and it is guided by ananalyst.
Data
Prepared data
Discovered patterns
Interpreted patterns Selection and preparation
Data mining
Interpretation / Evaluation
Orpailleur Team KDD at INria NGE/LORIA ACAL-CAR 23/11/2016 6 / 9
Research tracks in the Orpailleur Team
Knowledge Discovery:
pattern mining, FCA and extensions, association rules, mining big data, visualization
mining complex data: sequences, trees, graphs, linked open data text mining, information retrieval, recommendation
preferencesin KD: skylines, skycubes, aggregation measures privacyandreputationin KD
KD in Life sciences:
data integration, mining complex data in biology and pharmacology Knowledge engineering:
knowledge mining, ontology engineering Inductive Logic Programming
decision making, dimensionality reduction
vulnerability management: detection and representation
Towards Exploratory Knowledge Discovery
Knowledge Discovery and Knowledge Engineering are complementary.
Use adeclarative approach for problem solving: i.e. describe the problem and the solver will take care of the solution.
Dene interactive mechanisms to identify seeds for pattern space exploration consistent w.r.t. domain knowledge (interaction, constraints, dimensionality reduction).
Propose mechanisms to explore the neighborhood of the seeds until initial constraints are satised by query reformulation (redescription).
Address threshold issues w.r.t. analyst queries thanks to the skyline analysis of the pattern space (preferences).
An Ordinal Approach to EKD: Small is Beautiful. . .
Classication is apolymorphic process,
and a good candidate for bridging discoveryandrepresentation of patterns.
Partial Orders and their properties can be used forrevisiting classication:
Discoveryof classes for understanding data.
Organizationof classes into a partial order.
Representation and Reasoning: instantiation, class denition, information retrieval. . .
Formal Concept Analysis can play some of these roles. . .