• Aucun résultat trouvé

Nous présentons dans ce premier chapitre le contexte de nos travaux, celui de la Fouille de Données Multi-Tables. Dans une première section, nous situons d’abord ce nouveau paradigme par rapport au cadre classique de fouille de données attribut-valeur. Ensuite, nous nous positionnons relativement aux différents problèmes étu-diés dans le cadre multi-tables afin de préciser notre problématique d’apprentissage.

Nous formalisons le problème comme un problème de classification et nous intro-duisons les différentes terminologies et notations que nous utilisons par la suite.

Dans la section 1.3, nous reportons sans prétention d’exhaustivité quelques travaux proposés dans la littérature notamment en matière d’apprentissage supervisé et de pré-traitement de données multi-tables.

1.2 Fouille de Données Multi-Tables

Il est bien connu depuis les débuts de l’Intelligence Artificielle que la représentation est une question clé pour faciliter la résolution d’un problème [Newell et Simon, 1972, Korf, 1980,Amarel, 1983]. En particulier, en apprentissage supervisé, un compromis doit être fait entre, d’une part, le choix du formalisme utilisé pour représenter les exemples d’apprentissage et d’autre part, la complexité de l’algorithme [Neri et Saitta, 1994a, Neri et Saitta, 1994b].

1.2.1 Format Attribut-Valeur

Le formalisme classique en fouille de données est le formalisme propositionnel d’où le nom fouille de données propositionnelle (en anglais Propositional Data Mining).

Typiquement, dans ce formalisme, lesindividus sont représentés par un nombre fixe de variables, appelées encore caractéristiques ou attributs. Les individus sont alors vus comme un ensemble de paires attribut-valeur représentées sous la forme d’un vecteur de valeurs de taille fixe. Ces valeurs peuvent être de différentes natures : numériques ou catégorielles. L’ensemble de tous les individus correspond dans le formalisme des bases de données relationnelles à une table ou relation. Les lignes ou enregistrements correspondent aux individus. et les colonnes correspondent aux variables. Dans le contexte de l’apprentissage supervisé on cherche à prédire la valeur d’une variable particulière qu’on appelleVariable Cible ou Classe.

Exemple 1.1. Prenons par exemple un problème CRM (Customer Relationship Management) où l’objectif est d’identifier les clients susceptibles de s’intéresser à un certain produit ou service, ce qui revient à un problème de classification de clients.

La variable cible correspond à l’attribut CLASSE qui dénote si le client est intéressé par un produit particulier. Dans le format à-plat classique, les données se présentent, comme dans la Figure 1.1, sous la forme d’un tableau où chaque client correspond

à une ligne. Les variables décrivant ces clients ainsi que la cible sont données en colonnes.

Figure 1.1: Représentation à plat

À des fins didactiques, le problème de l’Exemple 1.1 sera utilisé dans le reste de ce manuscrit pour illustrer la problématique ainsi que l’approche proposée.

Le paradigme propositionnel a plusieurs avantages, ce qui explique sa popularité.

– Tous les individus sont décrits par les mêmes variables. Chaque variable appa-rait une seule fois dans cette description et possède une seule valeur. Il arrive qu’un individu puisse avoir une valeur non-renseignée pour une variable particu-lière. Des extensions existent pour faire de l’apprentissage dans le cas de données manquantes ou incomplètes.

– Les individus peuvent être vus comme des points dans un espace en dimension finie. Des mesures de distance sont facilement définies pour quantifier des simila-rités entre individus. Des méthodes de type k-plus-proches-voisins peuvent alors être employées [Fix et Hodges, 1951].

– Sur cet espace d’individus, des méthodes d’estimation de densité peuvent être employées pour aider à découvrir des régions intéressantes.

– Les valeurs des variables sont complémentaires : c’est-à-dire, une condition sur la valeur d’une variable divise les individus en deux sous-groupes disjoints. La méthode populaire des Arbres de Décision exploite cette propriété en utilisant des opérations simples (=,Ó=,≤et≥) [Quinlan, 1986].

Le paradigme propositionnel a été largement utilisé dans les méthodes d’apprentis-sage classiques grâce à la structure tabulaire simple qu’il propose. Cependant, ce formalisme se heurte en réalité à plusieurs limites à cause de son pouvoir d’expres-sivité. Les objets du monde réel présentent souvent de façon naturelle une structure interne difficile à exprimer sous la forme d’une représentation attribut-valeur. Les approches de fouille de données opérant sur cette représentation à plat ne permettent pas de prendre en compte les structures complexes que peuvent prendre les données.

Nous utilisons le terme Fouille de Données Structurées (Structured Data Mining)

pour faire référence à la classe de techniques qui supportent l’analyse des objets structurés.

1.2.2 Fouille de Données Structurées

Les objets réels présentent souvent une structure composée de sous entités ou de sous parties qui diffèrent d’un objet à un autre et qui possèdent chacune sa description intrinsèque. La structure globale des objets est définie par les relations qui peuvent exister entre les entités qui les composent. Un ensemble prédéfini d’attributs ne peut pas représenter cette variabilité en structure, d’où le besoin d’autres représentations.

Exemple 1.2. Dans le problème de classification des clients de l’Exemple 1.1, sou-vent, on dispose non seulement des informations concernant les clients (telle que l’âge, les revenus, etc. ce qui correspond dans le formalisme attribut-valeur aux variables décrivant les clients), mais encore des historiques d’achats effectués, des produits commandés dans chaque achat. Outre l’objet Client, d’autres entités : Com-mandes et Produits, viennent s’y ajouter et chacune des ces entités possède ses propres descriptions. Dans le cas où le problème est de prédire si le client est in-téressé par certains produits, les propriétés des achats et des produits commandés précédemment par ce même client peuvent potentiellement être très informatives.

Les clients s’intéressent généralement à des produits de même nature, dans le même ordre de prix, etc. Ces propriétés des achats et des produits peuvent être très perti-nentes pour prédire la classe d’un client. Cependant, un vecteur de variables de taille fixe modélisant un client ne suffit pas pour décrire les informations de ses achats.

1.2.2.1 Représentations des données structurées

Trois représentations équivalentes existent dans la littérature pour représenter les données structurées. Sur la base de ces représentations, les méthodes de Fouille de Données Structurées peuvent être classées en trois catégories :

La Fouille de Graphe [Cook et Holder, 2000, Washio et Motoda, 2003]. Les don-nées sont représentées sous la forme de graphes. Chaque objet est un graphe conceptuel. Les sommets du graphe représentent les entités ainsi que leurs at-tributs. Les relations entre ces entités correspondent aux arcs (orientés ou non orientés). Ce formalisme est plutôt adapté aux méthodes d’analyse descriptive tels que le clustering de graphes et la recherche des motifs fréquents.

La Programmation Logique Inductive[Džeroski, 1996,Lavrač et Džeroski, 1994].

La base de données est constituée d’une collection de faits exprimés sous la forme de prédicats logiques de premier ordre. Ces prédicats décrivent les entités ainsi que les relations entre elles.

La Fouille de Données Multi-Tables [Džeroski, 2003]. Les données sont conte-nues dans une base de données relationnelle. Les tables représentent les entités.

Les relations entre ces entités sont définies grâce aux contraintes de clés étran-gères.

Exemple 1.3. Les Figures 1.2 et 1.3 ainsi que Listing 1.1 illustrent comment on peut représenter les données du problème de classification des clients avec ces trois formalismes équivalents. Les clients sont décrits de façon complète à l’aide des entités ou concepts : Client et Commande.

Parmi ces trois représentations, le formalisme relationnel offre la représentation la plus compacte. En PLI et en Fouille de Graphes, on a besoin d’un prédicat logique (en PLI) et d’un nœud (en Fouille de Graphe) pour représenter chaque valeur d’un attribut donné. La plupart des applications réelles disposent de données stockées à leur état brut dans des bases de données relationnelles. Cependant, les approches PLI et par Fouille de Graphes transforment les données relationnelles vers leurs formalismes respectifs avant de pouvoir les traiter. Dans ce manuscrit, nous nous intéressons aux méthodes d’apprentissage supervisé qui travaillent directement sur la représentation relationnelle multi-tables.

Définition 1.1. La Fouille de Données Multi-Tables (en anglais Multi-Relational Data Mining,MRDM) est une famille de méthodes de fouille de données qui traitent de l’extraction de connaissances à partir de bases de données relationnelles contenant plusieurs tables.

Dans la communauté ECD, le terme « relationnel » a été utilisé pour qualifier cer-tains paradigmes d’apprentissage qui diffèrent de la problématique à laquelle nous nous intéressons dans ce mémoire. Pour lever toute ambigüité, ces terminologies ne devraient pas se confondre avec la définition que nous avons fournie pour la Fouille de Données Multi-Tables :

Fouille de Données Relationnelles (en anglais Relational Data Mining, RDM).

Ce terme est devenu populaire dans la communauté de la programmation logique, surtout avec l’apparition du livre de [Džeroski et Lavrač, 2001]. Il s’agit des techniques PLI classiques. Leur qualification de « relationnel » provient de la prise en compte des données relationnelles en les transformant sous la forme de prédicats logiques.

Apprentissage Relationnel(en anglaisRelational Learning,RL). C’est un concept plus général que la PLI et la Fouille de Données Relationnelles. Il s’intéresse à l’apprentissage à partir de données présentant une structure complexe (des graphes ou des réseaux) où les objets sont en relation les uns aux autres par des relations sémantiques ou de similarité.

1.2.2.2 Problèmes d’Apprentissage en Fouille de Données Structurées

Plusieurs problèmes d’apprentissage ont été envisagés dans le cadre de la Fouille de Données Structurées. Certaines représentations sont mieux adaptées à un problème

Figure 1.2: Représentation en Fouille de Graphes

Client ( CL01 ’ ,25 , ’H ’ , ’ Mr ’ ,40 , ’ C o m m e r ç a n t ’ ,... , ’ p o s i t i v e ’) . a _ c o m m a n d é ( ’ CL01 ’ , ’ C01CL01 ’) .

a _ c o m m a n d é ( ’ CL01 ’ , ’ C02CL01 ’) . a _ c o m m a n d é ( ’ CL01 ’ , ’ C03CL01 ’) . a _ c o m m a n d é ( ’ CL01 ’ , ’ C04CL01 ’) .

C o m m a n d e ( ’ C01CL01 ’ ,150 ,10 , Chèque , R e t r a i t _ m a g a s i n ) . C o m m a n d e ( ’ C02CL01 ’ ,85 ,5.9 , CB , C o l i s _ p o s t e ) .

...

Client ( CL02 ’ ,28 , ’H ’ , ’ Mr ’ ,25 , ’ I n g é n i e u r ’ ,... , ’ n é g a t i v e ’) . a _ c o m m a n d é ( CL02 ’ , C01CL02 ) .

a _ c o m m a n d é ( CL02 ’ , C02CL02 ) . a _ c o m m a n d é ( CL02 ’ , C03CL02 ) .

C o m m a n d e ( ’ C01CL02 ’ ,50 ,8.5 , ’ Chèque ’ , ’ R e t r a i t _ m a g a s i n ’) . ...

Client ( CL03 ,31 , ’F ’ , ’ Mme ’ ,36 , ’ Cadre ’ ,... , ’ neutre ’) . ...

Listing 1.1: Représentation en Programmation Logique Inductive

Figure 1.3: Représentation en Fouille de Données Multi-Tables

plutôt qu’à un autre. Nous présentons ici, sans prétention d’exhaustivité, quelques applications étudiées dans le cadre de la fouille de données structurées et dont les données se présentent sous la forme de bases de données relationnelles multi-tables : Règles d’Association RelationnellesetMotifs Relationnels Fréquents:

L’ob-jectif est de trouver des motifs fréquent qui portent sur plusieurs tables sans effectuer une jointure. Les systèmes les plus connus comme Warmr [De Raedt et Dehaspe, 1997] et Farmer [Nijssen et Kok, 2001] sont basés sur les méthodes PLI pour extraire les motifs. D’autres approches opèrent directement sur la représentation relationnelle [Jen et al., 2009].

Classification Collective(en anglais Collective Classification) : Prédiction simulta-née de la classe de plusieurs objets étant donnés leurs attributs et les relations entre ces objets [Sen et al., 2008]. Le problème est par exemple de prédire le thème d’un ensemble de pages Web en se basant à la fois sur les propriétés de chaque page et des liens hypertextes les reliant.

Prédiction de liens(en anglais Link Prediction) : Prédire si deux objets sont reliés et quel est le type de cette relation en utilisant leurs attributs ainsi que leurs relations à d’autres objets [Taskar et al., 2003]. Les données d’apprentissage se présentent sous la forme d’un graphe où chaque nœud (individu) est décrit par un ensemble d’attributs. Un problème typique est de prédire par exemple si deux individus sont reliés par un lien particulier dans un réseau social.

Clustering Relationnel et Clustering basé sur les liens (en anglais Link ba-sed Clustering) [Zhang et al., 2010] : Regroupement d’objets similaires où la

similarité entre deux objets est déterminée non seulement en se basant sur leurs propriétés mais encore en se basant sur celles des objets et entités re-liés. Par exemple, deux utilisateurs sont similaires s’ils visitent des pages Web similaires.

Classification de Données Multi-Tables: Les données se présentent sous la forme d’une base de données en étoile1 composée de plusieurs tables : une table cible centrale contenant les individus qu’on cherche à classer en relation avec d’autres tables. Ces tables secondaires décrivent des entités reliées avec l’objet cible avec des relations un-à-plusieurs, par exemple, des clients et les produits commandés, des patients et les résultats d’analyses médicales, des utilisateurs et leurs logs d’usage, etc.

Apprentissage Multi-InstancesetApprentissage Multi-Parties(introduit for-mellement par [Dietterichet al., 1997]) : Le problème consiste à apprendre un concept à partir d’individus qui sont représentés par des ensembles d’instances chacune décrivant l’objet dans sa totalité ou de façon partielle [Zucker et Che-valeyre, 1998]. Chaque instance est décrite par un vecteur attributs-valeurs.

Un exemple d’apprentissage est alors représenté par un « sac » d’instances. Les classes ne sont pas connues pour chaque instance individuellement, mais plu-tôt pour les « sacs » d’instances. Ces deux problèmes peuvent être vus comme un cas particulier de la classification multi-tables. Les données peuvent être représentées de manière équivalente sous la forme d’une base de données à deux tables : une table cible contenant les individus, en relation un-à-plusieurs avec une seconde table décrivant les sous instances ou les sous parties.

Dans ce manuscrit, nous nous intéressons au problème supervisé de la classification de données multi-tables. Dans la sous-section 1.2.3, nous décrivons plus formelle-ment cette problématique et nous définissons les termes et les notations que nous utiliserons dans le reste du mémoire.

1.2.3 Formalisation du problème et Terminologie

L’avantage majeur du formalisme relationnel [Date, 1990] est qu’il est capable de représenter intuitivement et de façon élégante la complexité des données du monde réel. Nous utiliserons ici ce formalisme pour définir notre problème d’apprentissage.

1.2.3.1 Formalisme relationnel

Une base de données relationnelle [Date, 1990] est composée d’un ensemble detables T = {T1, T2,· · · , Tn}. Les colonnes dans une table représentent les attributs et les

1. Ce schéma est à ne pas confondre avec le schéma en étoile usuel dans les entrepôts de données (Data Warehouse) où la table centrale est la table de fait qui décrit une relation plusieurs-à-un entre les tables dedimension [Kimball et Ross, 2011].

lignes les enregistrements. Chaque table peut avoir au moins une ou plusieurs va-riables declé primairequi identifient d’une façon unique un enregistrement. Le reste des variables sont soit des variablesdescriptives soit des variables de clés étrangères qui permettent de faire des associations entre les tables. La nature de ces relations est caractérisée par la multiplicité. Elle détermine si plusieurs enregistrements dans une table sont en relation avec un ou plusieurs enregistrements dans l’autre table.

L’ensemble des variables descriptives d’une tableT est notéA(T). Pour dire qu’une variable descriptive A est une variable de la table T, nous utilisons la notation T.A. Nous considérons deux types de variables descriptives à savoir, les variables catégorielles etnumériques. Une variable descriptive estcatégorielle (ou qualitative, nominale) si les valeurs qu’elle peut prendre sont nominales. Elle est numérique (ou continue, quantitative) si ses valeurs sont numériques ou continues. Notons par dom(A) l’ensemble de valeurs que peut prendre une variableA.

1.2.3.2 Problème d’apprentissage

Même si le modèle de données consiste en plusieurs tables, l’analyse dans le contexte de la fouille de données multi-tables se focalise sur un seul type d’objets ou d’in-dividus contenus dans une seule table du schéma relationnel. Nous appelons cette table, table cible (« target table » comme dans [Knobbe et al., 1999a], « primary table » dans [Crestana-Jensen et Soparkar, 2000], et « master relation » dans [Wro-bel, 1997]). Les autres tables décrivent d’autres concepts reliés de façon directe ou indirecte à la table cible.

Définition 1.2. Un individu, comme dans le cas classique de l’apprentissage est l’unité statistique sur laquelle est centrée l’analyse. Chaque individu s’identifie dans notre contexte relationnel à un enregistrement de la table cible.

Bien qu’ils soient identifiés dans la table cible, les individus sont décrits de façon complète en suivant les relations de clés étrangères avec les tables secondaires. Cette description est constituée non seulement des variables descriptives de la table cible mais également de celles des autres tables du schéma relationnel. Afin de simplifier le problème, nous nous limitonsdans ce manuscrit au premier niveau de relation avec la table cible, c’est-à-dire les tables en relation directe avec celle-ci afin de limi-ter la complexité de représentation. Par ailleurs, nous nous intéressons en particulier aux tables en relationun-à-plusieurs avec la table cible. Chaque enregistrement cible se relie à un ensemble d’enregistrements dans ces tables. Nous les appellerons, les tables secondaires. Par analogie au cas attribut-valeur classique dans lequel un indi-vidu (une ligne dans le tableau de données) est décrit par un ensemble de variables explicatives, dans le cas multi-tables, un individu est décrit par :

– des variables explicatives de la table cible.

– une variable à prédire ou classe (si on considère un problème d’apprentissage supervisé). Il s’agit d’une variable particulière de la table cible. Elle est catégorielle

dans un problème de classification et numérique dans le cas de la régression. Nous appelons cette variable, la variable cible.

– des variables explicatives des tables secondaires. Nous les appelonsvariables secon-daires. Ces variables constituent la nouveauté par rapport au contexte attribut-valeur classique dans lequel les données se réduisent à une seul tableau, qui cor-respond dans notre cas à la table cible.

L’apprentissage attribut-valeur classique peut être vu comme un cas particulier de la fouille de données multi-tables où on dispose uniquement des variables de la table cible. La difficulté dans le contexte multi-tables provient de la prise en compte des variables secondaires. En effet, un individu possède pour une variable secondaire, une liste de valeurs (éventuellement vide) dont la taille est variable, et ceci, en raison des relationsun-à-plusieurs entre la table cible et les tables secondaires.

Dans cette thèse, nous nous intéressons en particulier au problème de classification dans lequel la variable à expliquer est catégorielle (par opposition à la régression où la variable à prédire est à valeurs réelles). Comme dans le cadre classique de l’apprentissage supervisé, l’objectif est de prédire la valeur d’une variable cible ca-tégorielle Y. Le défi majeur de l’apprentissage supervisé multi-tables par rapport au cas propositionnel classique est de pouvoir exploiter l’information prédictive des variables secondaires aussi bien que celle des variables explicatives de la table cible.

Exemple 1.4. Si on reprend l’Exemple 1.1, le problème consiste à identifier les clients susceptibles de s’intéresser à un certain produit ou service, ce qui revient à un problème de classification de clients. La variable cible correspond à l’attribut APPÉTENCE qui dénote si le client a déjà commandé un produit particulier. La Figure 1.4 illustre un schéma relationnel typique auquel nous nous intéressons : une table cible CLIENT en relation un-à-plusieurs avec des tables secondaires (COM-MANDE, SERVICE). Notons que nous avons gardé uniquement les tables secon-daires en relation directe avec la table cible. La Figure 1.5 décrit une représentation en extension de ces données (comme on peut les voir dans une base de données rela-tionnelle) afin de mettre en évidence les différentes notions d’individus, de variable cible, table secondaire, variable secondaire, etc. Dans ce problème de classification, prédire si un client pourrait être intéressé par un produit ne dépend pas uniquement des informations sur ce client. Les données concernant les autres produits qu’il a commandés peuvent potentiellement être très informatives. Des attributs comme le type, le prix du produit peuvent présenter des corrélations avec la variable cible ce qui est très utile pour prédire la valeur de celle-ci.

1.2.4 Enjeux de la Fouille de données Multi-Tables

Divers enjeux liés à la Fouille de données Multi-Tables existent. Les algorithmes classiques de fouille de données opérant sur un tableau attribut-valeur ne peuvent pas prendre en compte les variables secondaires. Les données multi-tables violent

Divers enjeux liés à la Fouille de données Multi-Tables existent. Les algorithmes classiques de fouille de données opérant sur un tableau attribut-valeur ne peuvent pas prendre en compte les variables secondaires. Les données multi-tables violent