Fouille de Données Structurées - Fouille de Données Multi-Tables

1.2 Fouille de Données Multi-Tables

1.2.2 Fouille de Données Structurées

Les objets réels présentent souvent une structure composée de sous entités ou de sous parties qui diffèrent d’un objet à un autre et qui possèdent chacune sa description intrinsèque. La structure globale des objets est définie par les relations qui peuvent exister entre les entités qui les composent. Un ensemble prédéfini d’attributs ne peut pas représenter cette variabilité en structure, d’où le besoin d’autres représentations.

Exemple 1.2. Dans le problème de classiﬁcation des clients de l’Exemple 1.1, sou-vent, on dispose non seulement des informations concernant les clients (telle que l’âge, les revenus, etc. ce qui correspond dans le formalisme attribut-valeur aux variables décrivant les clients), mais encore des historiques d’achats eﬀectués, des produits commandés dans chaque achat. Outre l’objet Client, d’autres entités : Com-mandes et Produits, viennent s’y ajouter et chacune des ces entités possède ses propres descriptions. Dans le cas où le problème est de prédire si le client est in-téressé par certains produits, les propriétés des achats et des produits commandés précédemment par ce même client peuvent potentiellement être très informatives.

Les clients s’intéressent généralement à des produits de même nature, dans le même ordre de prix, etc. Ces propriétés des achats et des produits peuvent être très perti-nentes pour prédire la classe d’un client. Cependant, un vecteur de variables de taille ﬁxe modélisant un client ne suﬃt pas pour décrire les informations de ses achats.

1.2.2.1 Représentations des données structurées

Trois représentations équivalentes existent dans la littérature pour représenter les données structurées. Sur la base de ces représentations, les méthodes de Fouille de Données Structurées peuvent être classées en trois catégories :

La Fouille de Graphe [Cook et Holder, 2000, Washio et Motoda, 2003]. Les don-nées sont représentées sous la forme de graphes. Chaque objet est un graphe conceptuel. Les sommets du graphe représentent les entités ainsi que leurs at-tributs. Les relations entre ces entités correspondent aux arcs (orientés ou non orientés). Ce formalisme est plutôt adapté aux méthodes d’analyse descriptive tels que le clustering de graphes et la recherche des motifs fréquents.

La Programmation Logique Inductive[Džeroski, 1996,Lavrač et Džeroski, 1994].

La base de données est constituée d’une collection de faits exprimés sous la forme de prédicats logiques de premier ordre. Ces prédicats décrivent les entités ainsi que les relations entre elles.

La Fouille de Données Multi-Tables [Džeroski, 2003]. Les données sont conte-nues dans une base de données relationnelle. Les tables représentent les entités.

Les relations entre ces entités sont déﬁnies grâce aux contraintes de clés étran-gères.

Exemple 1.3. Les Figures 1.2 et 1.3 ainsi que Listing 1.1 illustrent comment on peut représenter les données du problème de classiﬁcation des clients avec ces trois formalismes équivalents. Les clients sont décrits de façon complète à l’aide des entités ou concepts : Client et Commande.

Parmi ces trois représentations, le formalisme relationnel oﬀre la représentation la plus compacte. En PLI et en Fouille de Graphes, on a besoin d’un prédicat logique (en PLI) et d’un nœud (en Fouille de Graphe) pour représenter chaque valeur d’un attribut donné. La plupart des applications réelles disposent de données stockées à leur état brut dans des bases de données relationnelles. Cependant, les approches PLI et par Fouille de Graphes transforment les données relationnelles vers leurs formalismes respectifs avant de pouvoir les traiter. Dans ce manuscrit, nous nous intéressons aux méthodes d’apprentissage supervisé qui travaillent directement sur la représentation relationnelle multi-tables.

Définition 1.1. La Fouille de Données Multi-Tables (en anglais Multi-Relational Data Mining,MRDM) est une famille de méthodes de fouille de données qui traitent de l’extraction de connaissances à partir de bases de données relationnelles contenant plusieurs tables.

Dans la communauté ECD, le terme « relationnel » a été utilisé pour qualifier cer-tains paradigmes d’apprentissage qui diffèrent de la problématique à laquelle nous nous intéressons dans ce mémoire. Pour lever toute ambigüité, ces terminologies ne devraient pas se confondre avec la définition que nous avons fournie pour la Fouille de Données Multi-Tables :

Fouille de Données Relationnelles (en anglais Relational Data Mining, RDM).

Ce terme est devenu populaire dans la communauté de la programmation logique, surtout avec l’apparition du livre de [Džeroski et Lavrač, 2001]. Il s’agit des techniques PLI classiques. Leur qualiﬁcation de « relationnel » provient de la prise en compte des données relationnelles en les transformant sous la forme de prédicats logiques.

Apprentissage Relationnel(en anglaisRelational Learning,RL). C’est un concept plus général que la PLI et la Fouille de Données Relationnelles. Il s’intéresse à l’apprentissage à partir de données présentant une structure complexe (des graphes ou des réseaux) où les objets sont en relation les uns aux autres par des relations sémantiques ou de similarité.

1.2.2.2 Problèmes d’Apprentissage en Fouille de Données Structurées

Plusieurs problèmes d’apprentissage ont été envisagés dans le cadre de la Fouille de Données Structurées. Certaines représentations sont mieux adaptées à un problème

Figure 1.2: Représentation en Fouille de Graphes

Client ( CL01 ’ ,25 , ’H ’ , ’ Mr ’ ,40 , ’ C o m m e r ç a n t ’ ,... , ’ p o s i t i v e ’) . a _ c o m m a n d é ( ’ CL01 ’ , ’ C01CL01 ’) .

a _ c o m m a n d é ( ’ CL01 ’ , ’ C02CL01 ’) . a _ c o m m a n d é ( ’ CL01 ’ , ’ C03CL01 ’) . a _ c o m m a n d é ( ’ CL01 ’ , ’ C04CL01 ’) .

C o m m a n d e ( ’ C01CL01 ’ ,150 ,10 , Chèque , R e t r a i t _ m a g a s i n ) . C o m m a n d e ( ’ C02CL01 ’ ,85 ,5.9 , CB , C o l i s _ p o s t e ) .

...

Client ( CL02 ’ ,28 , ’H ’ , ’ Mr ’ ,25 , ’ I n g é n i e u r ’ ,... , ’ n é g a t i v e ’) . a _ c o m m a n d é ( CL02 ’ , C01CL02 ) .

a _ c o m m a n d é ( CL02 ’ , C02CL02 ) . a _ c o m m a n d é ( CL02 ’ , C03CL02 ) .

C o m m a n d e ( ’ C01CL02 ’ ,50 ,8.5 , ’ Chèque ’ , ’ R e t r a i t _ m a g a s i n ’) . ...

Client ( CL03 ,31 , ’F ’ , ’ Mme ’ ,36 , ’ Cadre ’ ,... , ’ neutre ’) . ...

Listing 1.1: Représentation en Programmation Logique Inductive

Figure 1.3: Représentation en Fouille de Données Multi-Tables

plutôt qu’à un autre. Nous présentons ici, sans prétention d’exhaustivité, quelques applications étudiées dans le cadre de la fouille de données structurées et dont les données se présentent sous la forme de bases de données relationnelles multi-tables : Règles d’Association RelationnellesetMotifs Relationnels Fréquents:

L’ob-jectif est de trouver des motifs fréquent qui portent sur plusieurs tables sans eﬀectuer une jointure. Les systèmes les plus connus comme Warmr [De Raedt et Dehaspe, 1997] et Farmer [Nijssen et Kok, 2001] sont basés sur les méthodes PLI pour extraire les motifs. D’autres approches opèrent directement sur la représentation relationnelle [Jen et al., 2009].

Classification Collective(en anglais Collective Classiﬁcation) : Prédiction simulta-née de la classe de plusieurs objets étant donnés leurs attributs et les relations entre ces objets [Sen et al., 2008]. Le problème est par exemple de prédire le thème d’un ensemble de pages Web en se basant à la fois sur les propriétés de chaque page et des liens hypertextes les reliant.

Prédiction de liens(en anglais Link Prediction) : Prédire si deux objets sont reliés et quel est le type de cette relation en utilisant leurs attributs ainsi que leurs relations à d’autres objets [Taskar et al., 2003]. Les données d’apprentissage se présentent sous la forme d’un graphe où chaque nœud (individu) est décrit par un ensemble d’attributs. Un problème typique est de prédire par exemple si deux individus sont reliés par un lien particulier dans un réseau social.

Clustering Relationnel et Clustering basé sur les liens (en anglais Link ba-sed Clustering) [Zhang et al., 2010] : Regroupement d’objets similaires où la

similarité entre deux objets est déterminée non seulement en se basant sur leurs propriétés mais encore en se basant sur celles des objets et entités re-liés. Par exemple, deux utilisateurs sont similaires s’ils visitent des pages Web similaires.

Classification de Données Multi-Tables: Les données se présentent sous la forme d’une base de données en étoile¹ composée de plusieurs tables : une table cible centrale contenant les individus qu’on cherche à classer en relation avec d’autres tables. Ces tables secondaires décrivent des entités reliées avec l’objet cible avec des relations un-à-plusieurs, par exemple, des clients et les produits commandés, des patients et les résultats d’analyses médicales, des utilisateurs et leurs logs d’usage, etc.

Apprentissage Multi-InstancesetApprentissage Multi-Parties(introduit for-mellement par [Dietterichet al., 1997]) : Le problème consiste à apprendre un concept à partir d’individus qui sont représentés par des ensembles d’instances chacune décrivant l’objet dans sa totalité ou de façon partielle [Zucker et Che-valeyre, 1998]. Chaque instance est décrite par un vecteur attributs-valeurs.

Un exemple d’apprentissage est alors représenté par un « sac » d’instances. Les classes ne sont pas connues pour chaque instance individuellement, mais plu-tôt pour les « sacs » d’instances. Ces deux problèmes peuvent être vus comme un cas particulier de la classiﬁcation multi-tables. Les données peuvent être représentées de manière équivalente sous la forme d’une base de données à deux tables : une table cible contenant les individus, en relation un-à-plusieurs avec une seconde table décrivant les sous instances ou les sous parties.

Dans ce manuscrit, nous nous intéressons au problème supervisé de la classiﬁcation de données multi-tables. Dans la sous-section 1.2.3, nous décrivons plus formelle-ment cette problématique et nous déﬁnissons les termes et les notations que nous utiliserons dans le reste du mémoire.

Dans le document Préparation non paramétrique des données pour la fouille de données multi-tables (Page 18-22)