Préparation non paramétrique des données pour la fouille de données multi-tables

(1)

HAL Id: tel-00854142

https://tel.archives-ouvertes.fr/tel-00854142

Submitted on 27 Nov 2014

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub-

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non,

Dhafer Lahbib

To cite this version:

Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multi-tables.

Autre. Université de Cergy Pontoise, 2012. Français. �NNT : 2012CERG0616�. �tel-00854142�

(2)

Pr´ eparation non param´ etrique des donn´ ees pour la fouille de donn´ ees

multi-tables

TH` ESE

présentée et soutenue publiquement le 6 décembre 2012 pour l’obtention du

Doctorat en Sciences de l’universit´ e de Cergy-Pontoise

(sp´ecialit´e STIC)

par

Dhafer LAHBIB

Composition du jury

Rapporteurs : Nicolas LACHICHE MCF HDR Université Louis Pasteur Bruno CRÉMILLEUX Professeur Université de Caen Examinateurs : Christel VRAIN Professeur Université d’Orléans

Karine ZEITOUNI Professeur Université de Versailles Saint-Quentin-en-Yvelines Directeur de thèse : Dominique LAURENT Professeur Université de Cergy-Pontoise Co-Encadrant : Marc BOULLÉ Docteur Orange Labs, Lannion

(3)

(4)

(5)

Introduction Générale 1

Contexte Industriel . . . 2

Objectifs . . . 4

Contributions . . . 6

Organisation du document . . . 6

1 État de l’art 9 1.1 Introduction . . . 10

1.2 Fouille de Données Multi-Tables . . . 10

1.2.1 Format Attribut-Valeur . . . 10

1.2.2 Fouille de Données Structurées . . . 12

1.2.3 Formalisation du problème et Terminologie . . . 16

1.2.4 Enjeux de la Fouille de données Multi-Tables . . . 18

1.3 Travaux Majeurs . . . 22

1.3.1 Programmation Logique Inductive . . . 22

1.3.2 Apprentissage Logique Probabiliste . . . 25

1.3.3 Modèles Probabilistes . . . 26

1.3.4 Arbres de Décision Relationnels . . . 27

1.3.5 Approches à base de distance . . . 29

1.3.6 Méthodes à noyaux . . . 31

1.3.7 Pré-traitement . . . 33

1.4 Conclusion . . . 35

2 Principe de l’Approche : Cas d’une Variable Secondaire Binaire 37 2.1 Introduction . . . 38

2.2 Approche . . . 38

2.3 Critère d’évaluation . . . 41

2.3.1 Distributiona priori des modèles . . . 42

2.3.2 Vraisemblance des modèles . . . 44

2.3.3 Critère . . . 45

2.4 Optimisation de la Grille Bivariée . . . 46

2.4.1 Heuristique gloutonne . . . 46

2.4.2 Complexité . . . 47

2.5 Extension du Bayésien naïf . . . 48

2.5.1 Estimation de la Probabilité Conditionnelle Univariée . . . 48

2.5.2 Bayésien Naïf Sélectif . . . 49

(6)

2.6 Expérimentations . . . 50

2.6.1 Protocole . . . 50

2.6.2 Données artiﬁcielles . . . 50

2.6.3 Base de données Stulong . . . 53

3 Extension aux Variables Secondaires Catégorielles et Numériques 57 3.1 Introduction . . . 58

3.2 Variable catégorielle avec peu de valeurs . . . 58

3.2.1 Approche . . . 59

3.2.2 Critère . . . 60

3.2.3 Algorithme d’optimisation . . . 62

3.3 Variable catégorielle avec groupement de valeurs . . . 62

3.3.1 Critère . . . 64

3.3.2 Optimisation . . . 67

3.4 Variable Secondaire Numérique . . . 68

3.4.1 Approche . . . 69

3.4.2 Critère . . . 71

3.4.3 Algorithme d’optimisation . . . 74

3.5 Expérimentations . . . 77

3.5.1 Jeux de données . . . 78

3.5.2 Résultats . . . 81

3.5.3 Données synthétiques . . . 82

3.5.4 Données Réelles . . . 83

4 Pré-traitement multivarié des variables secondaires 85 4.1 Introduction . . . 86

4.2 Motivation . . . 86

4.3 Approche . . . 88

4.4 Évaluation d’itemsets de variables secondaires . . . 90

4.4.1 Coût de construction d’un itemset . . . 90

4.4.2 Évaluation de la variable secondaire associée à l’itemset . . . . 95

4.4.3 Critère d’évaluation global . . . 96

4.5 Induction d’itemsets de variables secondaires . . . 97

5 Bilan et perspectives 101

(7)

Les progrès réalisés dans les technologies d’acquisition, de stockage et de distributions des données ont entraîné une croissance rapide de la taille des bases de données disponibles. En effet, la quantité de données est estimée doubler presque chaque an- née, d’où l’intérêt croissant de valoriser ces données. Par conséquent, un des plus grands défis auxquels sont confrontées plusieurs organisations et entreprises est de savoir comment transformer leur volume de données qui ne cesse d’augmenter en des connaissances utiles et exploitables. Les travaux qui ont abordé cette problématique relèvent de domaines très variés tels que les statistiques, l’intelligence artificielle, l’apprentissage automatique, les bases de données. . . Ces travaux ont donné lieu à un nouveau domaine de recherche très actif connu sous le terme de Fouille de Données.

La Fouille de Données (en anglais, Data Mining) est généralement mentionnée dans un cadre plus large, celui de l’Extraction de Connaissances à partir de Données ECD (en anglais, Knowledge Discovery in Databases KDD). Elle se rapporte au processus d’extraction d’informations originales auparavant inconnues, et potentiellement exploitables dans les bases de données [Usama M. Fayyad et al., 1996]. Elle propose d’utiliser un ensemble de techniques et algorithmes qui ont pour objet la découverte de motifs et des connaissances à partir de grandes quantités de données [Berry et Gordon S. Linoﬀ, 2011].

La plupart des algorithmes de fouille de données disponibles aujourd’hui sont ba- sés sur une représentation sous forme d’un tableau attribut-valeur, où les instances de données sont représentées par des vecteurs d’attribut-valeur de taille ﬁxe et qui sont supposées être identiquement et indépendamment distribués (hypothèse i.i.d).

L’utilisation de ces algorithmes se limite alors aux bases de données stockées sous ce format « à plat ». Cependant, dans des applications réelles, les données sont beaucoup plus riches en structure et se présentent souvent stockées dans des bases de données relationnelles composées de plusieurs tables. Afin de pouvoir utiliser les algorithmes classiques de fouille de données, l’analyste de données doit alors projeter cette représentation relationnelle initiale vers une représentation simplifiée mono- table attribut-valeur, ce qui est une tâche coûteuse en temps et critique pour la qualité des résultats. En effet, cette mise à plat passe par la construction d’agré- gats afin de résumer l’information contenue dans les différentes tables nécessitant ainsi une grande expertise et connaissance du domaine. Par ailleurs, l’opération d’agrégation va non seulement engendrer une perte d’information par rapport à la représentation initiale naturellement compacte mais elle risque également d’intro-

(8)

duire des biais statistiques, notamment à cause des dépendances qui peuvent exister entre les variables nouvellement créées. Aﬁn de résoudre ces problèmes un nouveau paradigme de fouille de données a été proposé dans la littérature : la Fouille de Données Multi-Tables.

La Fouille de Données Multi-Tables FDMT (en anglais Multi-Relational Data Mi- ning) a été déﬁnie par [Džeroski, 2003] comme l’extraction de connaissances et de motifs à partir d’une base de données relationnelle. Contrairement aux approches mono-table classique, la FDMT a pour objectif d’apprendre des connaissances en se basant sur des données stockées sur plusieurs tables. Notre travail se situe dans ce cadre particulier. Il est motivé par les besoins métiers ainsi que les données disponibles dans le contexte industriel dans lequel se situe cette thèse.

Contexte Industriel

La Fouille de données chez Orange couvre des domaines d’application très divers tels que le marketing, le web mining, la caractérisation du traﬁc réseau. . . Les données disponibles se présentent souvent dans l’état brut dans des datastores (banques de données). Ces datastores possèdent une structure très complexe composée de nombreuses tables et leur volume peut atteindre quelques dizaines de Téraoctets dans le domaine du marketing client par exemple. Dans des domaines applicatifs parti- culiers, à partir de ces données, des entrepôts de données (Data Warehouse) sont construits pour des besoins métiers spéciﬁques. Le schéma typique de ces entrepôts de données est un schéma en étoile où chaque individu (l’unité statistique) du domaine applicatif est stocké au moyen d’une table cible (principale) et de plusieurs tables secondaires en relation un-à-plusieurs. Par exemple, un client est caractérisé par les services auxquels il a souscrit, par l’historique de ses détails de communication et par l’ensemble de ses interactions avec les services après-vente d’Orange. Ces données présentent plusieurs caractéristiques :

– La structure est intrinsèquement composée de plusieurs tables d’une base de don- nées relationnelle, d’où l’intérêt de la fouille de données multi-tables pour valoriser ces données.

– Grande volumétrie : le nombre d’instances est de l’ordre de10⁵ dans la table cible en apprentissage, et de 10⁶ à 10⁸ en déploiement. Dans les tables secondaires, chaque individu est relié à des centaines voire des milliers d’enregistrements.

– Diﬀérents types de variables : numériques, catégorielles (avec un nombre de valeurs très grand).

– Données bruitées, éventuellement incomplètes.

– Distribution de la variable cible (dans le cas d’un problème de classiﬁcation) souvent fortement déséquilibrée, etc.

Nous citons ci-dessous deux exemples qui illustrent des contextes applicatifs diﬀé- rents étudiés au sein d’Orange.

(9)

Le CRM a pour objectif de permettre à l’entreprise de mieux comprendre ses clients pour adapter et personnaliser ses produits ou ses services. Les données sont stockées dans des bases de données relationnelles. Les informations permettent de dresser un proﬁl précis et complet des clients. Pour cela, typiquement, les données sont centrées sur une table principale : la table Client qui est en relation un-à-plusieurs avec destables secondaires. Chacune de ces tables comporte des informations précises concernant les clients :

– la liste des produits commandés,

– la liste des services auxquels ils ont souscrit, – la liste des détails de communication,

– etc.

Exemple 0.2. Le ciblage comportemental (en anglais, Behavioral Targeting BT).

Le BT est une technique de publicité qui consiste à personnaliser les contenus pro- motionnels, en fonction de la navigation des internautes et de l’identiﬁcation de leurs centres d’intérêt. Les données comportementales recueillies pour le ciblage publici- taire sont intrinsèquement structurées sur plusieurs entités :

– les utilisateurs, identiﬁés par des cookies, – la liste de leurs sessions de navigation,

– la liste des pages Web visitées lors de chaque session, – etc.

La façon la plus intuitive de représenter ces informations (généralement stockées dans des logs d’usage) serait un schéma relationnel centré sur une table Utilisateur.

Au sein d’Orange, le traitement des données multi-tables est actuellement réalisé dans le cadre du projet PAC (Plate-forme d’Analyse Client). C’est un projet mené dans les Orange Labs qui a pour objet l’industrialisation du processus Data Mining pour les très grandes bases de données relationnelles. Ce processus se décompose en deux étapes :

1. La première étape consiste à effectuer une mise à plat du modèle relationnel afin d’avoir une représentation classique mono-table, attribut×valeur. Ceci est réalisé en construisant de nouvelles variables à partir d’une bibliothèque de règles de calcul prédéfinies (moyenne, écart type, tendance, etc.). Ces nouvelles variables constituent des agrégations plus ou moins complexes des variables qui se trouvent dans les tables secondaires. Par exemple, une requête « moyenne des durées d’appel sur téléphone fixe par mois (12 mois), jour de la semaine (7 jours) et type d’appel (local, national, international) » permet de construire 252 = 12×7×3 variables.

2. La deuxième étape consiste à utiliser des techniques d’apprentissage perfor- mantes aﬁn d’exploiter cette représentation (techniques implémentées dans l’outil Khiops [Boullé, 2007a]).

(10)

L’opération de mise à plat eﬀectuée dans PAC est une tâche coûteuse en temps pour l’analyste, et qui nécessite une grande expertise métier. L’espace de représentation généré est de très grande taille : de l’ordre de10⁷ instances avec10⁴ variables. Notre objectif dans le cadre de cette thèse est d’utiliser directement la représentation multi-tables aﬁn d’éviter la mise à plat. Ce choix est motivé par les observations suivantes :

– La représentation relationnelle augmente considérablement l’expressivité du formalisme des individus à analyser. Ceci permet de simpliﬁer ou même de se passer de la tâche de recherche d’une bonne représentation faisant appel à l’analyste de données,

– Ce formalisme oﬀre la possibilité d’ouverture vers de nouvelles méthodes statistiques, ce qui permettrait une amélioration potentielle des résultats.

Pour ce faire, il serait nécessaire d’automatiser le processus de recherche d’une repré- sentation eﬃcace pour des données structurées sous forme d’un modèle relationnel, en privilégiant les méthodes non paramétriques. L’objectif, par la suite, est de conce- voir des algorithmes permettant le passage à l’échelle, sur de grandes volumétries.

Objectifs

Après avoir montré l’intérêt de la fouille de données multi-tables dans le cadre gé- néral de l’extraction de connaissance à partir des données ainsi que dans le contexte industriel dans lequel se situe cette thèse, nous précisons les objectifs auxquels nous nous intéressons dans notre contribution.

Apprentissage supervisé multi-tables Dans le contexte de la fouille de données, on se réfère à deux problématiques distinctes. La première consiste à déterminer la classe, parmi un ensemble préalablement ﬁxé, à laquelle appartient une donnée ou un exemple. Il s’agit d’entraîner un processus sur des données dont l’appartenance à une classe est déterminée (généralement, il s’agit de la valeur de l’un des attributs) pour engendrer un modèle. Ce modèle sera par la suite utilisé, soit pour la compré- hension des classes, soit pour laclassification de nouvelles données dont la classe est inconnue. La seconde activité, appeléeclustering en anglais, consiste à regrouper les données en des sous-ensembles cohérents, selon leur ressemblance. L’apprentissage dans la première catégorie de méthode est dit supervisé. Dans la seconde il est dit non supervisé [Michalski, 1993].

Notre travail se situe dans le cadre supervisé. Lorsque les données sont relationnelles, un individu à classer correspond à un seul enregistrement d’une table cible en relation un-à-plusieurs avec des tables secondaires. La classe ou la variable à expliquer n’est autre qu’un attribut particulier de la table cible. La nouveauté par rapport au cas mono-table classique est de considérer les variables explicatives qui se trouvent dans les tables secondaires pour décrire ou prédire la classe. La diﬃculté provient

(11)

mais plutôt un ensemble de valeurs par variable secondaire. Notre objectif est de qualifier et d’exploiter le pouvoir prédictif de ce genre de variable pour une tâche de classification. Ce problème est intrinsèquement difficile. Nous procédons alors à une simplification de celui-ci en proposant un prétraitement des variables secondaires afin d’obtenir une représentation qui permet de mieux les prendre en compte.

Prétraitement des variables secondaires La phase de prétraitement de données constitue une phase importante dans le processus global de data mining. Elle vise à rechercher une représentation des données informative aﬁn d’améliorer la qualité des résultats de la fouille. Typiquement cette phase comporte des opérations de nettoyage (suppression de bruit, de valeurs aberrantes, etc), réduction des données (sélection d’instances, de variables explicatives pertinentes), et de transformation des données (discrétisation des variables numériques, construction de nouvelles variables, etc.). Dans le contexte de la fouille de données relationnelle, nous nous intéressons en particulier au problème de préparation des variables secondaires, à savoir, la discrétisation dans le cas numérique et le partitionnement en groupes de valeurs dans le cas catégoriel. Nous cherchons également à évaluer l’informativité d’une variable secondaire pour exploiter sa contribution dans la prédiction de la classe.

Cette évaluation permet en outre de définir un critère de sélection de variable de type filtre [Guyon et Elisseeff, 2003] ou encore elle peut servir de préparation pour des classifieurs comme le Bayésien Naïf ou les arbres de décision.

Aﬁn de résoudre ces deux problématiques, nous nous sommes ﬁxés certains critères de qualité qui sont imposés par le contexte dans lequel se situe notre travail : Efficacité. Nous nous intéressons à des bases de données avec une grande volumé-

trie. Cette contrainte s’exprime à diﬀérents niveaux : nombre d’individus dans la table cible, nombre d’enregistrements dans les tables secondaires, nombre de variables secondaires. . . Les algorithmes que nous proposons doivent prendre en compte cette contrainte.

Paramétrage. Nous privilégions les approches sans paramètre aﬁn de réduire au maximum l’intervention humaine dans le processus de prétraitement.

Généricité. Il est préférable que l’approche soit générique, dans la mesure où elle est applicable dans des contextes diﬀérents. Cette généricité peut s’exprimer sur plusieurs axes : la taille de la base de données (petite, grande), le domaine d’application (marketing, biologie, web. . .), le type de variables explicatives (numérique, catégorielle), la distribution de la variable cible (équilibrée ou pas), existence de bruit. . .

Interprétabilité. L’avantage des modèles interprétables est qu’ils permettent une meilleure compréhension des données, ce qui facilite l’exploitation des résultats d’analyse.

(12)

Contributions

Nous présentons dans ce manuscrit une nouvelle approche de prétraitement de variables dans le cadre de la classiﬁcation de données multi-tables. Il s’agit d’une extension de l’approche de préparation de variables MODL (proposée dans le cas de données monotables classiques [Boullé, 2011]) aux variables explicatives situées dans destables secondaires (tables en relationun-à-plusieurs avec la table cible).

Notre méthode consiste à proposer une famille de modèles non paramétriques pour l’estimation de la densité de probabilité conditionnelle des variables secondaires.

Cette estimation permet de prendre en compte ce genre de variables dans un classifieur de type Bayésien Naïf dans le contexte multi-tables. Elle permet également de proposer un critère de sélection de variables secondaires de type filtre comme pour la représentation attribut-valeur classique [Guyon et Elisseeff, 2003]. L’approche re- pose sur un prétraitement des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Nous proposons, dans un premier lieu, d’effectuer ce partitionnement de façon univariée, c’est-à-dire, de considérer une seule variable secondaire à la fois. Dans un second lieu, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre ce genre de variables.

L’originalité de la méthode se situe dans le changement de représentation effectué grâce au partitionnement des variables secondaires. Chaque variable est projetée vers la table cible en créant un vecteur d’effectifs par partie secondaire (intervalle ou groupe) résumant l’information contenue dans la variable considérée. Ces attributs d’effectifs sont conjointement partitionnés à l’aide de modèles en grille de données afin d’obtenir une meilleure séparation des valeurs de la classe.

La modélisation suit une démarche de sélection de modèles se basant sur une approche Bayésienne. Cette démarche permet de déﬁnir un critère d’évaluation pour chaque type de variable. Des algorithmes combinatoires sont alors introduits pour optimiser eﬃcacement ce critère et obtenir le meilleur modèle.

Organisation du document

Dans le chapitre 1, nous dressons un panorama des principales méthodes de fouille de données multi-tables de l’état de l’art. Nous formalisons le problème comme un problème de classiﬁcation supervisée en introduisant les diﬀérents termes utilisés par la suite. En précisant les enjeux auxquels est confrontée la fouille de données multi-tables, une attention particulière est portée à l’étape de prétraitement des données.

Dans les chapitres suivants, nous présentons notre approche de fouille de données multi-tables de façon didactique. Nous abordons le problème comme un problème de

(13)

Dans le chapitre 2, nous considérons le cas le plus simple d’une variable secondaire, celui d’une seule variable binaire. Notre approche est décrite en détail dans ce cas en introduisant le critère d’évaluation ainsi que les modèles en grille de données permettant d’estimer la densité de probabilité conditionnelle pour ce genre de variables.

Nous décrivons également l’extension du classiﬁeur Bayésien Naïf au cas multi-tables se basant sur cette estimation.

Dans le chapitre 3, le cas d’une variable secondaire binaire est étendu progres- sivement aux cas catégoriel et numérique. Nous proposons un critère permettant d’évaluer le partitionnement d’une variable secondaire par groupement de valeurs si celle-ci est catégorielle et par discrétisation si elle est numérique. Nous introduisons par ailleurs quelques algorithmes aﬁn d’optimiser ce critère.

Dans le chapitre 4, nous généralisons notre approche au cas multivarié. Nous proposons un critère d’évaluation d’itemsets de variables secondaires construit par discré- tisation des variables numériques et par groupement de valeurs dans le cas catégoriel.

Enﬁn, dans le chapitre 5, nous dressons un bilan de notre méthode et de ce qui reste à eﬀectuer, notamment en matière d’algorithmes d’optimisation.

(14)

(15)

Sommaire

1.1 Introduction . . . 10

1.2 Fouille de Données Multi-Tables . . . 10

1.2.1 Format Attribut-Valeur . . . 10

1.2.2 Fouille de Données Structurées . . . 12

1.2.3 Formalisation du problème et Terminologie . . . 16

1.2.4 Enjeux de la Fouille de données Multi-Tables . . . 18

1.3 Travaux Majeurs . . . 22

1.3.1 Programmation Logique Inductive . . . 22

1.3.2 Apprentissage Logique Probabiliste . . . 25

1.3.3 Modèles Probabilistes . . . 26

1.3.4 Arbres de Décision Relationnels . . . 27

1.3.5 Approches à base de distance . . . 29

1.3.6 Méthodes à noyaux . . . 31

1.3.7 Pré-traitement . . . 33

1.4 Conclusion . . . 35

(16)

1.1 Introduction

Nous présentons dans ce premier chapitre le contexte de nos travaux, celui de la Fouille de Données Multi-Tables. Dans une première section, nous situons d’abord ce nouveau paradigme par rapport au cadre classique de fouille de données attribut- valeur. Ensuite, nous nous positionnons relativement aux diﬀérents problèmes étu- diés dans le cadre multi-tables aﬁn de préciser notre problématique d’apprentissage.

Nous formalisons le problème comme un problème de classiﬁcation et nous introduisons les diﬀérentes terminologies et notations que nous utilisons par la suite.

Dans la section 1.3, nous reportons sans prétention d’exhaustivité quelques travaux proposés dans la littérature notamment en matière d’apprentissage supervisé et de pré-traitement de données multi-tables.

1.2 Fouille de Données Multi-Tables

Il est bien connu depuis les débuts de l’Intelligence Artiﬁcielle que la représentation est une question clé pour faciliter la résolution d’un problème [Newell et Simon, 1972, Korf, 1980,Amarel, 1983]. En particulier, en apprentissage supervisé, un compromis doit être fait entre, d’une part, le choix du formalisme utilisé pour représenter les exemples d’apprentissage et d’autre part, la complexité de l’algorithme [Neri et Saitta, 1994a, Neri et Saitta, 1994b].

1.2.1 Format Attribut-Valeur

Le formalisme classique en fouille de données est le formalisme propositionnel d’où le nom fouille de données propositionnelle (en anglais Propositional Data Mining).

Typiquement, dans ce formalisme, lesindividus sont représentés par un nombre fixe de variables, appelées encore caractéristiques ou attributs. Les individus sont alors vus comme un ensemble de paires attribut-valeur représentées sous la forme d’un vecteur de valeurs de taille fixe. Ces valeurs peuvent être de différentes natures : numériques ou catégorielles. L’ensemble de tous les individus correspond dans le formalisme des bases de données relationnelles à une table ou relation. Les lignes ou enregistrements correspondent aux individus. et les colonnes correspondent aux variables. Dans le contexte de l’apprentissage supervisé on cherche à prédire la valeur d’une variable particulière qu’on appelleVariable Cible ou Classe.

Exemple 1.1. Prenons par exemple un problème CRM (Customer Relationship Management) où l’objectif est d’identiﬁer les clients susceptibles de s’intéresser à un certain produit ou service, ce qui revient à un problème de classiﬁcation de clients.

La variable cible correspond à l’attribut CLASSE qui dénote si le client est intéressé par un produit particulier. Dans le format à-plat classique, les données se présentent, comme dans la Figure 1.1, sous la forme d’un tableau où chaque client correspond

(17)

à une ligne. Les variables décrivant ces clients ainsi que la cible sont données en colonnes.

Figure 1.1: Représentation à plat

À des ﬁns didactiques, le problème de l’Exemple 1.1 sera utilisé dans le reste de ce manuscrit pour illustrer la problématique ainsi que l’approche proposée.

Le paradigme propositionnel a plusieurs avantages, ce qui explique sa popularité.

– Tous les individus sont décrits par les mêmes variables. Chaque variable appa- rait une seule fois dans cette description et possède une seule valeur. Il arrive qu’un individu puisse avoir une valeur non-renseignée pour une variable particu- lière. Des extensions existent pour faire de l’apprentissage dans le cas de données manquantes ou incomplètes.

– Les individus peuvent être vus comme des points dans un espace en dimension finie. Des mesures de distance sont facilement définies pour quantifier des simila- rités entre individus. Des méthodes de type k-plus-proches-voisins peuvent alors être employées [Fix et Hodges, 1951].

– Sur cet espace d’individus, des méthodes d’estimation de densité peuvent être employées pour aider à découvrir des régions intéressantes.

– Les valeurs des variables sont complémentaires : c’est-à-dire, une condition sur la valeur d’une variable divise les individus en deux sous-groupes disjoints. La méthode populaire des Arbres de Décision exploite cette propriété en utilisant des opérations simples (=,Ó=,≤et≥) [Quinlan, 1986].

Le paradigme propositionnel a été largement utilisé dans les méthodes d’apprentissage classiques grâce à la structure tabulaire simple qu’il propose. Cependant, ce formalisme se heurte en réalité à plusieurs limites à cause de son pouvoir d’expres- sivité. Les objets du monde réel présentent souvent de façon naturelle une structure interne diﬃcile à exprimer sous la forme d’une représentation attribut-valeur. Les approches de fouille de données opérant sur cette représentation à plat ne permettent pas de prendre en compte les structures complexes que peuvent prendre les données.

Nous utilisons le terme Fouille de Données Structurées (Structured Data Mining)

(18)

pour faire référence à la classe de techniques qui supportent l’analyse des objets structurés.

1.2.2 Fouille de Données Structurées

Les objets réels présentent souvent une structure composée de sous entités ou de sous parties qui diffèrent d’un objet à un autre et qui possèdent chacune sa description intrinsèque. La structure globale des objets est définie par les relations qui peuvent exister entre les entités qui les composent. Un ensemble prédéfini d’attributs ne peut pas représenter cette variabilité en structure, d’où le besoin d’autres représentations.

Exemple 1.2. Dans le problème de classiﬁcation des clients de l’Exemple 1.1, souvent, on dispose non seulement des informations concernant les clients (telle que l’âge, les revenus, etc. ce qui correspond dans le formalisme attribut-valeur aux variables décrivant les clients), mais encore des historiques d’achats eﬀectués, des produits commandés dans chaque achat. Outre l’objet Client, d’autres entités : Com- mandes et Produits, viennent s’y ajouter et chacune des ces entités possède ses propres descriptions. Dans le cas où le problème est de prédire si le client est in- téressé par certains produits, les propriétés des achats et des produits commandés précédemment par ce même client peuvent potentiellement être très informatives.

Les clients s’intéressent généralement à des produits de même nature, dans le même ordre de prix, etc. Ces propriétés des achats et des produits peuvent être très pertinentes pour prédire la classe d’un client. Cependant, un vecteur de variables de taille ﬁxe modélisant un client ne suﬃt pas pour décrire les informations de ses achats.

1.2.2.1 Représentations des données structurées

Trois représentations équivalentes existent dans la littérature pour représenter les données structurées. Sur la base de ces représentations, les méthodes de Fouille de Données Structurées peuvent être classées en trois catégories :

La Fouille de Graphe [Cook et Holder, 2000, Washio et Motoda, 2003]. Les don- nées sont représentées sous la forme de graphes. Chaque objet est un graphe conceptuel. Les sommets du graphe représentent les entités ainsi que leurs attributs. Les relations entre ces entités correspondent aux arcs (orientés ou non orientés). Ce formalisme est plutôt adapté aux méthodes d’analyse descriptive tels que le clustering de graphes et la recherche des motifs fréquents.

La Programmation Logique Inductive[Džeroski, 1996,Lavrač et Džeroski, 1994].

La base de données est constituée d’une collection de faits exprimés sous la forme de prédicats logiques de premier ordre. Ces prédicats décrivent les entités ainsi que les relations entre elles.

La Fouille de Données Multi-Tables [Džeroski, 2003]. Les données sont conte- nues dans une base de données relationnelle. Les tables représentent les entités.

(19)

Les relations entre ces entités sont déﬁnies grâce aux contraintes de clés étran- gères.

Exemple 1.3. Les Figures 1.2 et 1.3 ainsi que Listing 1.1 illustrent comment on peut représenter les données du problème de classiﬁcation des clients avec ces trois formalismes équivalents. Les clients sont décrits de façon complète à l’aide des entités ou concepts : Client et Commande.

Parmi ces trois représentations, le formalisme relationnel oﬀre la représentation la plus compacte. En PLI et en Fouille de Graphes, on a besoin d’un prédicat logique (en PLI) et d’un nœud (en Fouille de Graphe) pour représenter chaque valeur d’un attribut donné. La plupart des applications réelles disposent de données stockées à leur état brut dans des bases de données relationnelles. Cependant, les approches PLI et par Fouille de Graphes transforment les données relationnelles vers leurs formalismes respectifs avant de pouvoir les traiter. Dans ce manuscrit, nous nous intéressons aux méthodes d’apprentissage supervisé qui travaillent directement sur la représentation relationnelle multi-tables.

Définition 1.1. La Fouille de Données Multi-Tables (en anglais Multi-Relational Data Mining,MRDM) est une famille de méthodes de fouille de données qui traitent de l’extraction de connaissances à partir de bases de données relationnelles contenant plusieurs tables.

Dans la communauté ECD, le terme « relationnel » a été utilisé pour qualifier certains paradigmes d’apprentissage qui diffèrent de la problématique à laquelle nous nous intéressons dans ce mémoire. Pour lever toute ambigüité, ces terminologies ne devraient pas se confondre avec la définition que nous avons fournie pour la Fouille de Données Multi-Tables :

Fouille de Données Relationnelles (en anglais Relational Data Mining, RDM).

Ce terme est devenu populaire dans la communauté de la programmation logique, surtout avec l’apparition du livre de [Džeroski et Lavrač, 2001]. Il s’agit des techniques PLI classiques. Leur qualiﬁcation de « relationnel » provient de la prise en compte des données relationnelles en les transformant sous la forme de prédicats logiques.

Apprentissage Relationnel(en anglaisRelational Learning,RL). C’est un concept plus général que la PLI et la Fouille de Données Relationnelles. Il s’intéresse à l’apprentissage à partir de données présentant une structure complexe (des graphes ou des réseaux) où les objets sont en relation les uns aux autres par des relations sémantiques ou de similarité.

1.2.2.2 Problèmes d’Apprentissage en Fouille de Données Structurées

Plusieurs problèmes d’apprentissage ont été envisagés dans le cadre de la Fouille de Données Structurées. Certaines représentations sont mieux adaptées à un problème

(20)

Figure 1.2: Représentation en Fouille de Graphes

Client ( CL01 ’ ,25 , ’H ’ , ’ Mr ’ ,40 , ’ C o m m e r ç a n t ’ ,... , ’ p o s i t i v e ’) . a _ c o m m a n d é ( ’ CL01 ’ , ’ C01CL01 ’) .

a _ c o m m a n d é ( ’ CL01 ’ , ’ C02CL01 ’) . a _ c o m m a n d é ( ’ CL01 ’ , ’ C03CL01 ’) . a _ c o m m a n d é ( ’ CL01 ’ , ’ C04CL01 ’) .

C o m m a n d e ( ’ C01CL01 ’ ,150 ,10 , Chèque , R e t r a i t _ m a g a s i n ) . C o m m a n d e ( ’ C02CL01 ’ ,85 ,5.9 , CB , C o l i s _ p o s t e ) .

...

Client ( CL02 ’ ,28 , ’H ’ , ’ Mr ’ ,25 , ’ I n g é n i e u r ’ ,... , ’ n é g a t i v e ’) . a _ c o m m a n d é ( CL02 ’ , C01CL02 ) .

a _ c o m m a n d é ( CL02 ’ , C02CL02 ) . a _ c o m m a n d é ( CL02 ’ , C03CL02 ) .

C o m m a n d e ( ’ C01CL02 ’ ,50 ,8.5 , ’ Chèque ’ , ’ R e t r a i t _ m a g a s i n ’) . ...

Client ( CL03 ,31 , ’F ’ , ’ Mme ’ ,36 , ’ Cadre ’ ,... , ’ neutre ’) . ...

Listing 1.1: Représentation en Programmation Logique Inductive

(21)

Figure 1.3: Représentation en Fouille de Données Multi-Tables

plutôt qu’à un autre. Nous présentons ici, sans prétention d’exhaustivité, quelques applications étudiées dans le cadre de la fouille de données structurées et dont les données se présentent sous la forme de bases de données relationnelles multi-tables : Règles d’Association RelationnellesetMotifs Relationnels Fréquents: L’ob-

jectif est de trouver des motifs fréquent qui portent sur plusieurs tables sans eﬀectuer une jointure. Les systèmes les plus connus comme Warmr [De Raedt et Dehaspe, 1997] et Farmer [Nijssen et Kok, 2001] sont basés sur les méthodes PLI pour extraire les motifs. D’autres approches opèrent directement sur la représentation relationnelle [Jen et al., 2009].

Classification Collective(en anglais Collective Classiﬁcation) : Prédiction simulta- née de la classe de plusieurs objets étant donnés leurs attributs et les relations entre ces objets [Sen et al., 2008]. Le problème est par exemple de prédire le thème d’un ensemble de pages Web en se basant à la fois sur les propriétés de chaque page et des liens hypertextes les reliant.

Prédiction de liens(en anglais Link Prediction) : Prédire si deux objets sont reliés et quel est le type de cette relation en utilisant leurs attributs ainsi que leurs relations à d’autres objets [Taskar et al., 2003]. Les données d’apprentissage se présentent sous la forme d’un graphe où chaque nœud (individu) est décrit par un ensemble d’attributs. Un problème typique est de prédire par exemple si deux individus sont reliés par un lien particulier dans un réseau social.

Clustering Relationnel et Clustering basé sur les liens (en anglais Link ba- sed Clustering) [Zhang et al., 2010] : Regroupement d’objets similaires où la

(22)

similarité entre deux objets est déterminée non seulement en se basant sur leurs propriétés mais encore en se basant sur celles des objets et entités re- liés. Par exemple, deux utilisateurs sont similaires s’ils visitent des pages Web similaires.

Classification de Données Multi-Tables: Les données se présentent sous la forme d’une base de données en étoile¹ composée de plusieurs tables : une table cible centrale contenant les individus qu’on cherche à classer en relation avec d’autres tables. Ces tables secondaires décrivent des entités reliées avec l’objet cible avec des relations un-à-plusieurs, par exemple, des clients et les produits commandés, des patients et les résultats d’analyses médicales, des utilisateurs et leurs logs d’usage, etc.

Apprentissage Multi-InstancesetApprentissage Multi-Parties(introduit formellement par [Dietterichet al., 1997]) : Le problème consiste à apprendre un concept à partir d’individus qui sont représentés par des ensembles d’instances chacune décrivant l’objet dans sa totalité ou de façon partielle [Zucker et Che- valeyre, 1998]. Chaque instance est décrite par un vecteur attributs-valeurs.

Un exemple d’apprentissage est alors représenté par un « sac » d’instances. Les classes ne sont pas connues pour chaque instance individuellement, mais plu- tôt pour les « sacs » d’instances. Ces deux problèmes peuvent être vus comme un cas particulier de la classiﬁcation multi-tables. Les données peuvent être représentées de manière équivalente sous la forme d’une base de données à deux tables : une table cible contenant les individus, en relation un-à-plusieurs avec une seconde table décrivant les sous instances ou les sous parties.

Dans ce manuscrit, nous nous intéressons au problème supervisé de la classiﬁcation de données multi-tables. Dans la sous-section 1.2.3, nous décrivons plus formellement cette problématique et nous déﬁnissons les termes et les notations que nous utiliserons dans le reste du mémoire.

1.2.3 Formalisation du problème et Terminologie

L’avantage majeur du formalisme relationnel [Date, 1990] est qu’il est capable de représenter intuitivement et de façon élégante la complexité des données du monde réel. Nous utiliserons ici ce formalisme pour déﬁnir notre problème d’apprentissage.

1.2.3.1 Formalisme relationnel

Une base de données relationnelle [Date, 1990] est composée d’un ensemble detables T = {T₁, T₂,· · · , T_n}. Les colonnes dans une table représentent les attributs et les

1. Ce schéma est à ne pas confondre avec le schéma en étoile usuel dans les entrepôts de données (Data Warehouse) où la table centrale est la table de fait qui décrit une relation plusieurs-à-un entre les tables dedimension [Kimball et Ross, 2011].

(23)

lignes les enregistrements. Chaque table peut avoir au moins une ou plusieurs va- riables declé primairequi identiﬁent d’une façon unique un enregistrement. Le reste des variables sont soit des variablesdescriptives soit des variables de clés étrangères qui permettent de faire des associations entre les tables. La nature de ces relations est caractérisée par la multiplicité. Elle détermine si plusieurs enregistrements dans une table sont en relation avec un ou plusieurs enregistrements dans l’autre table.

L’ensemble des variables descriptives d’une tableT est notéA(T). Pour dire qu’une variable descriptive A est une variable de la table T, nous utilisons la notation T.A. Nous considérons deux types de variables descriptives à savoir, les variables catégorielles etnumériques. Une variable descriptive estcatégorielle (ou qualitative, nominale) si les valeurs qu’elle peut prendre sont nominales. Elle est numérique (ou continue, quantitative) si ses valeurs sont numériques ou continues. Notons par dom(A) l’ensemble de valeurs que peut prendre une variableA.

1.2.3.2 Problème d’apprentissage

Même si le modèle de données consiste en plusieurs tables, l’analyse dans le contexte de la fouille de données multi-tables se focalise sur un seul type d’objets ou d’individus contenus dans une seule table du schéma relationnel. Nous appelons cette table, table cible (« target table » comme dans [Knobbe et al., 1999a], « primary table » dans [Crestana-Jensen et Soparkar, 2000], et « master relation » dans [Wro- bel, 1997]). Les autres tables décrivent d’autres concepts reliés de façon directe ou indirecte à la table cible.

Définition 1.2. Un individu, comme dans le cas classique de l’apprentissage est l’unité statistique sur laquelle est centrée l’analyse. Chaque individu s’identiﬁe dans notre contexte relationnel à un enregistrement de la table cible.

Bien qu’ils soient identifiés dans la table cible, les individus sont décrits de façon complète en suivant les relations de clés étrangères avec les tables secondaires. Cette description est constituée non seulement des variables descriptives de la table cible mais également de celles des autres tables du schéma relationnel. Afin de simplifier le problème, nous nous limitonsdans ce manuscrit au premier niveau de relation avec la table cible, c’est-à-dire les tables en relation directe avec celle-ci afin de limi- ter la complexité de représentation. Par ailleurs, nous nous intéressons en particulier aux tables en relationun-à-plusieurs avec la table cible. Chaque enregistrement cible se relie à un ensemble d’enregistrements dans ces tables. Nous les appellerons, les tables secondaires. Par analogie au cas attribut-valeur classique dans lequel un indi- vidu (une ligne dans le tableau de données) est décrit par un ensemble de variables explicatives, dans le cas multi-tables, un individu est décrit par :

– des variables explicatives de la table cible.

– une variable à prédire ou classe (si on considère un problème d’apprentissage supervisé). Il s’agit d’une variable particulière de la table cible. Elle est catégorielle

(24)

dans un problème de classiﬁcation et numérique dans le cas de la régression. Nous appelons cette variable, la variable cible.

– des variables explicatives des tables secondaires. Nous les appelonsvariables secon- daires. Ces variables constituent la nouveauté par rapport au contexte attribut- valeur classique dans lequel les données se réduisent à une seul tableau, qui correspond dans notre cas à la table cible.

L’apprentissage attribut-valeur classique peut être vu comme un cas particulier de la fouille de données multi-tables où on dispose uniquement des variables de la table cible. La diﬃculté dans le contexte multi-tables provient de la prise en compte des variables secondaires. En eﬀet, un individu possède pour une variable secondaire, une liste de valeurs (éventuellement vide) dont la taille est variable, et ceci, en raison des relationsun-à-plusieurs entre la table cible et les tables secondaires.

Dans cette thèse, nous nous intéressons en particulier au problème de classification dans lequel la variable à expliquer est catégorielle (par opposition à la régression où la variable à prédire est à valeurs réelles). Comme dans le cadre classique de l’apprentissage supervisé, l’objectif est de prédire la valeur d’une variable cible ca- tégorielle Y. Le déﬁ majeur de l’apprentissage supervisé multi-tables par rapport au cas propositionnel classique est de pouvoir exploiter l’information prédictive des variables secondaires aussi bien que celle des variables explicatives de la table cible.

Exemple 1.4. Si on reprend l’Exemple 1.1, le problème consiste à identifier les clients susceptibles de s’intéresser à un certain produit ou service, ce qui revient à un problème de classification de clients. La variable cible correspond à l’attribut APPÉTENCE qui dénote si le client a déjà commandé un produit particulier. La Figure 1.4 illustre un schéma relationnel typique auquel nous nous intéressons : une table cible CLIENT en relation un-à-plusieurs avec des tables secondaires (COM- MANDE, SERVICE). Notons que nous avons gardé uniquement les tables secondaires en relation directe avec la table cible. La Figure 1.5 décrit une représentation en extension de ces données (comme on peut les voir dans une base de données relationnelle) afin de mettre en évidence les différentes notions d’individus, de variable cible, table secondaire, variable secondaire, etc. Dans ce problème de classification, prédire si un client pourrait être intéressé par un produit ne dépend pas uniquement des informations sur ce client. Les données concernant les autres produits qu’il a commandés peuvent potentiellement être très informatives. Des attributs comme le type, le prix du produit peuvent présenter des corrélations avec la variable cible ce qui est très utile pour prédire la valeur de celle-ci.

1.2.4 Enjeux de la Fouille de données Multi-Tables

Divers enjeux liés à la Fouille de données Multi-Tables existent. Les algorithmes classiques de fouille de données opérant sur un tableau attribut-valeur ne peuvent pas prendre en compte les variables secondaires. Les données multi-tables violent deux hypothèses majeures des algorithmes de classiﬁcation classiques.

(25)

COMMANDE ID_COMMANDE ID_CLIENT PRIX POIDS

MODE_PAIEMENT MODE_LIVRAISON ...

CLIENT ID_CLIENT AGE SEXE CIVILITE REVENUS PROFESSION ...

APPETENCE SERVICE

ID_SERVICE ID_CLIENT PRIX

MODE_PAIEMENT ...

1 n

Table cible Tables secondaires

Variable cible Variables

secondaires

Figure 1.4: Schéma relationnel typique pour un problème de fouille de données multi-tables

1. D’une part, ces derniers supposent que les individus possèdent une structure

«homogène», notamment, une seule valeur par attribut et ceci pour un nombre fixe de variables. Cependant, dans le cas multi-tables, pour une variable secondaire, un individu peut avoir une liste de valeurs (éventuellement vide) dont la taille est variable. Les individus ne peuvent pas être vus comme des points dans un espace en dimension finie. Il n’est pas donc évident de définir de bonnes mesures de distance ou encore des hyperplans séparant des points qui appartiennent à deux classes différentes. Par ailleurs, des sous-groupes d’individus complémentaires ne peuvent pas être obtenus en prenant simplement des valeurs complémentaires pour une variable secondaire, puisqu’un individu ne possède pas une seule valeur pour ce genre de variables².

2. D’autre part, les données relationnelles ne sont pas i.i.d (Indépendamment Identiquement Distribuées), notamment les variables secondaires [Zhou et al., 2009]. En eﬀet, les lignes d’une table secondaire reliées à un même individu ne peuvent être mutuellement indépendantes. Les traitements sur les variables secondaires doivent alors prendre en compte cette propriété et faire le lien avec les enregistrements de la table cible.

Pour remédier à ces problèmes, une solution qui semblerait adéquate consiste à transformer la base de données multi-tables en un seul tableau sur lequel un algorithme d’apprentissage classique pourrait être utilisé. Il y a deux façons pour transformer une base de données multi-tables en une seule relation. La première consiste à construire une relation universelle par jointure de la table cible avec les tables secondaires. La seconde résume l’information des variables secondaires en créant des agrégats dans la table cible.

2. Cette propriété est exploitée dans le cas classique par les arbres de décision [Quinlan, 1986]

(26)

Figure 1.5: Problème de classiﬁcation dans une base de données CRM 1.2.4.1 Création d’une relation universelle

La première solution consiste à créer une table universelle par jointure de toutes les tables pour en former une seule. Dans la pratique, une telle approche pose plusieurs problèmes. La jointure engendre une redondance des données, ce qui entraîne une augmentation considérable de leur taille. La relation universelle qui en résulte peut être extrêmement grande et se heurte à de nombreuses diﬃcultés pratiques pour la manipuler. Pour certains problèmes, l’algorithme d’apprentissage devient beaucoup moins eﬃcace que si on garde la représentation relationnelle initiale [De Raedt, 1998]. Par ailleurs, les données dans leur format relationnel initial sont souvent normalisées³. Leur mise à plat par simple jointure entraîne à la fois des disparitions ainsi que des duplications de lignes dans la table cible. Ainsi, non seulement on perd la représentation compacte initiale, mais aussi, on risque d’introduire des biais statistiques [Getoor, 2001].

Exemple 1.5. Les clients n’ayant pas passé de commandes voient leurs lignes corres- pondantes disparaitre dans la table jointure ce qui fausse les résultats. Par ailleurs, ceux ayant eﬀectué plusieurs achats apparaissent plusieurs fois dans cette table. Par exemple, dans la Figure 1.6, le client identiﬁé par « CL03 » n’apparaît plus dans

3. Nous voulons dire par « normalisation » ici, les formes normales au sens relationnel (première, deuxième et troisième forme normale).

(27)

Figure 1.6: Anomalies dues à la mise plat par la jointure

la table jointure. Parallèlement, 3 lignes correspondent au client « CL01 ». Dans la table jointure, une ligne correspond à une commande et non plus à un client. Cepen- dant, au départ, l’analyse se focalise sur les clients et non pas sur les commandes.

Comme illustré dans l’Exemple 1.5, les anomalies causées par la jointure, notamment la duplication de lignes, engendrent la perte de la notion d’unité statistique de départ. Toute analyse qui se base sur ce tableau mis à plat résultant sera erronée.

Cependant, certains travaux se sont basés sur cette représentation dans le cadre de la fouille de données multi-tables. [Chelghoum et Zeitouni, 2004] appliquent un algorithme mono-table classique sur la table jointure (dans le cadre de données spatiales relationnelles). [Cristofor, 2002] en extrait des règles d’association. [Hu et al., 2008] se basent la mesure du Gain d’Information classique pour la sélection des variables secondaires.

1.2.4.2 Agrégation

Une autre façon de transformer une base de données relationnelle en une seule table sur laquelle un algorithme d’apprentissage peut être utilisé est la création de nouveaux attributs dans la table cible qui résument ou agrègent les informations issues des autres tables (cf. Figure 1.7). Cette opération a été connue sous le terme depro- positionalisation[Krameret al., 2001]. Bien que cette approche soit facile à mettre en œuvre et puisse atteindre de meilleures performances que les algorithmes de fouille de données multi-tables de type PLI, il ne serait pas facile de trouver les agrégats appropriés. La plupart des méthodes de propositionalisation existantes génèrent les nouveaux attributs agrégats à partir d’un ensemble prédéﬁni de fonctions d’agréga- tion. Le choix et la déﬁnition de ces agrégations nécessite une grande expertise et compréhension du domaine. Une autre façon de traiter ce problème est de laisser l’algorithme lui-même découvrir de bons attributs (feature construction) ou encore élargir l’espace de recherche des hypothèses en introduisant des tests sur plusieurs attributs à la fois [Blockeel, 1998]. Les opérateurs d’agrégation utilisés dans les sys- tèmes relationnels existants (comme sum, count, max, min, avg, mode, . . .) sont

(28)

Figure 1.7: Propositionalisation

typiquement des résumés simples de la distribution des attributs des tables secondaires. Ces opérateurs peuvent être adéquats pour certaines variables secondaires, mais peu informatifs pour d’autres. Par ailleurs, ils ne prennent pas en compte la valeur de la classe ce qui rend leur pouvoir prédictif diﬃcile à évaluer. De plus, les nouvelles variables ainsi créées peuvent présenter des corrélations entre elles. Par conséquent, non seulement on perd la représentation initiale naturellement compacte mais encore, on risque d’introduire des biais statistiques et de l’information nuisible à la prédiction.

1.3 Travaux Majeurs

Cette section présente les principales méthodes de fouille de données relationnelles proposées dans la littérature.

1.3.1 Programmation Logique Inductive

Dans la Programmation Logique Inductive PLI, les données ainsi que les modèles sont représentés en utilisant une représentation logique sous la forme de prédicats logiques de premier ordre [Lloyd, 1987]. La PLI a été le précurseur des approches de fouille de données relationnelles. C’est également le domaine de recherche le plus actif dans ce contexte. Ceci est dû à la prise en compte directe des données relationnelles par la PLI. Un prédicat dans la programmation logique n’est autre qu’une relation dans une base de données relationnelle et les arguments d’un prédicat correspondent aux attributs d’une relation [Das, 1992,Ramakrishnan et Ullman, 1995].

Les associations entre les tables sont également décrites à l’aide de prédicats logiques.

L’objectif de la PLI est d’inférer un ensemble d’hypothèses sous la forme de programmes logiques à partir d’exemples composant l’ensemble d’apprentissage [Lavrač et Džeroski, 1994]. Ces hypothèses constituant des règles de classification peuvent être utilisées comme un classifieur. Un problème PLI peut être défini formellement comme suit :

Définition 1.3. Étant donné :

(29)

– Un ensemble d’exemples d’apprentissage E,

– Un ensemble de connaissances a priori B (Background theory),

– Un biais de langage L qui déﬁnit des restrictions sur les hypothèses autorisées.

L’objectif est de trouver une hypothèse H ⊂ L qui explique les exemples E en respectant les connaissances a priori B.

Plusieurs systèmes PLI ont été proposés dans la littérature : Rdt [Kietz et Wro- bel, 1992], Progol [Muggleton, 1995], Foil [Quinlan et Cameron-Jones, 1993]

Srt [Kramer, 1996], Fors[Karalic et Bratko, 1997]. Claudien, Icl etTilde [De Raedt et al., 2001]. Certains systèmes assurent de bons taux de classiﬁcation lors- qu’ils sont appliqués à des données relationnelles [Yin, 2007]. Ces approches PLI ont été populaires grâce à leur expressivité. Les hypothèses inférées sont explicitement exprimées sous forme symbolique. Les connaissances extraites sous forme de règles de classiﬁcation peuvent être facilement interprétées par l’utilisateur. Par ailleurs, il est facile d’introduire des connaissances a priori complexes sur les données.

Malgré la popularité des méthodes PLI, leur utilisation dans la fouille de données relationnelles a été limitée en raison de l’existence de différents moteurs PLI en termes de spécification d’entrée [Knobbe et al., 2000], du biais de langage qu’ils utilisent et du peu d’attention qu’ils donnent à la théorie relationnelle de la base de données. En effet, la plupart de ces approches ne peuvent pas interagir directement avec la base de données relationnelle. Typiquement, les données doivent être transformées sous la forme de faits Prolog avant la phase d’apprentissage. Ce trans- fert (du format relationnel à une base de fait Prolog ou Datalog) réduit l’efficacité des systèmes PLI [Page et Srinivasan, 2003]. Pour cela, des efforts ont été réali- sés pour mapper les systèmes PLI à une base de données multi-tables [Blockeel et De Raedt, 1996, Knobbe et al., 2000, Moal et al., 2000, Lindner et Morik, 1995].

Ces travaux exploitent la relation entre la logique de premier ordre et la base de données relationnelle (un prédicat correspond à une relation). Les clauses logiques sont traduites en des requêtes SQL qui sont envoyées à la base de données pour être évaluées [Lindner et Morik, 1995, Blockeel et De Raedt, 1996]. Pour prendre en compte le formalisme logique et unifier les spécifications d’entrée des différents moteurs PLI, [Knobbeet al., 2000] proposent d’utiliser le langage UML (Unified Mo- deling Language) comme un langage de spécification commun à plusieurs systèmes PLI. L’idée est de remplacer le formalisme logique qui spécifie le biais de langage par un langage facile à intégrer dans ces systèmes. Les résultats de ces tentatives pour coupler les algorithmes PLI avec les systèmes de gestion des bases de données (SGBD) demeurent en quelque sorte « décevants » [Blockeel et Sebag, 2003]. En effet, les requêtes nécessaires pour évaluer les hypothèses considérées sont souvent complexes, ce qui alourdit considérablement le processus d’apprentissage.

[Giordanaet al., 2000] ont montré la présence du phénomène detransition de phase dans les problèmes PLI : les exemples les plus diﬃciles à apprendre se concentrent dans une région étroite de l’espace d’hypothèses (appelée transition de phase) [Gior- dana et al., 2000, Giordana et Saitta, 2000]. Dans cette région, la complexité du

(30)

test de couverture (savoir si un exemple est couvert par une hypothèse) est expo- nentielle, ce qui peut jeter un certain doute sur le passage à l’échelle et les capa- cités pratiques de la PLI. Les systèmes PLI sont moins efficaces que les approches Attribut-Valeur en temps et en espace [Yin, 2007,Blockeelet al., 1999]. Par ailleurs, l’espace d’hypothèses considéré est plus large et le test de couverture est beaucoup plus complexe. La complexité augmente avec le nombre de relations dans la base de données ainsi que le nombre d’enregistrements dans chaque table : dans les don- nées Attribut-Valeur, un exemple correspond à une seule ligne alors que dans une base de données relationnelle, un individu est relié à un ensemble d’enregistrements contenus dans plusieurs tables. Les systèmes PLI ont besoin de résoudre des re- quêtes complexes sur la jointure de plusieurs tables pour évaluer si une hypothèse couvre un exemple [Blockeel et Sebag, 2003]. Certains travaux ont tenté d’améliorer l’efficacité et la capacité de passage à l’échelle des méthodes PLI [Aronis et Pro- vost, 1997,Blockeelet al., 1999,Blockeel et al., 2002,Yin, 2007]. Cependant, dans la pratique, la plupart des systèmes PLI demeurent inefficaces avec les données réelles qui présentent généralement une structure relationnelle riche ainsi qu’une grande volumétrie [Page et Srinivasan, 2003].

La plupart des systèmes PLI considèrent les attributs numériques comme nominaux.

Par conséquent, de tels systèmes sont incapables d’exploiter l’ordre linéaire des valeurs continues si celles-ci sont traitées comme des valeurs nominales. Pour cela, certains travaux effectuent en amont de la phase d’apprentissage une discrétisation des attributs numériques. Il a été démontré que cette discrétisation améliore non seulement l’efficacité mais aussi la performance des systèmes PLI [Blockeel et De Raedt, 1997]. Afin de prendre en compte les variables secondaires numériques (variables en un-à-plusieurs cf. sous-section 1.2.3), [Blockeel et De Raedt, 1997] ont proposé une simple modification de la procédure de discrétisation de [Fayyad et Irani, 1993].

La première modiﬁcation consiste à déﬁnir un nombre maximal d’intervalles au lieu du principe de longueur de description minimale (MDL pour Minimum Description Length en anglais) comme critère d’arrêt. Une deuxième adaptation concerne la prise en compte des relations un-à-plusieurs. Étant donné qu’un individu peut avoir plusieurs valeurs pour une variable secondaire, ces valeurs sont pondérées et la somme des poids est utilisée au lieu du nombre d’exemples dans les endroits appropriés de la formules de Fayyad et Irani.

Outre ces problèmes, l’inconvénient majeur des approches PLI classiques est qu’elles sont déterministes. Tandis que les données du monde réel sont bruitées et incertaines, les algorithmes PLI n’étaient pas conçus pour prendre en compte l’incertitude et le bruit dans les données. Aﬁn de surmonter cette limitation, plusieurs travaux ont été proposés pour étendre les méthodes PLI et les combiner avec la théorie des probabilités. Ce domaine de recherche est connu sous le nom dePLI probabiliste (en anglais, Probabilistic Inductive Logic Programming) [De Raedt et Kersting, 2004], ouApprentissage Logique Probabiliste (Probabilistic Logical Learning) [De Raedt et Kersting, 2003] ou encore Apprentissage Relationnel Statistique [Getoor et Taskar, 2007] (Statistical Relational Learning SRL).

(31)

1.3.2 Apprentissage Logique Probabiliste

L’Apprentissage Logique Probabiliste est un domaine de recherche qui se situe à l’intersection de l’apprentissage automatique, de la Programmation Logique et de la théorie des probabilités [De Raedt et Kersting, 2003,De Raedt et Kersting, 2004]. Il regroupe des techniques permettant de réaliser de l’apprentissage statistique et de l’inférence sur des données relationnelles (représentées au format logique). Dans ce contexte, deux courants existent dans la littérature :

La première famille de techniques part des approches statistiques classiques (ap- plicables au format attribut-valeur) et les étend en utilisant le formalisme logique.

Plusieurs systèmes combinant la logique de premier ordre avec un réseau Bayésien⁴ ont été proposés [Poole, 1993,Glesner et Koller, 1995,Jaeger, 1997,Ngo et Haddawy, 1997]. Ces systèmes apparaissent sous différentes nominations : Relational Baye- sian Networks [Jaeger, 1997], Probabilistic Logic Programs [Ngo et Haddawy, 1997], ou encore Bayesian Logic Programs [Kersting et De Raedt, 2000, Kersting et al., 2000]. Bien qu’ils aient des fondements et des philosophies différents, ils partagent un noyau commun composé d’un réseau Bayésien dont les nœuds sont représentés par des programmes logiques (qui correspondent aux différentes relations de la base de données) [Kersting et De Raedt, 2000, Kersting et al., 2000]. La partie quanti- tative est représentée comme pour un réseau Bayésien classique par des tables de probabilités conditionnelles qui modélisent les dépendances entre ces relations. Des règles de combinaison utilisant des fonctions d’agrégation prédéfinies (min, max,. . .) peuvent être définies sur chaque nœud pour prendre en compte les relations un- à-plusieurs entre les différentes tables [Jaeger, 1997]. Des extensions similaires ont été proposées en combinant d’autres méthodes d’apprentissage statistique avec le formalisme logique. Les programmes logiques stochastiques [Muggleton, 1996, Cus- sens, 1999, Muggleton, 2000] (Stochastic Logic Programs) sont une généralisation des grammaires stochastiques non contextuelles [Lari et Young, 1990] et des réseaux de Markov [Cussens, 1999]. De même, les réseaux de Markov logiques (Markov Lo- gic Networks) [Richardson et Domingos, 2006] généralisent les champs de Markov aléatoires (Markov Random Fields). Il est à noter que peu de comparaisons pro- fondes entre les modèles d’Apprentissage Logique Probabiliste ont été réalisées dans la littérature. Une étude comparant les Bayesian Logic Programs et les Markov Logic Networks peut être trouvée dans [Saitta et Vrain, 2008]. Cette comparaison concerne en particulier deux aspects, à savoir, les capacités de représentation et la méthode d’inférence utilisée.

Parallèlement, au lieu de partir des méthodes statistiques, la deuxième famille d’apprentissage logique probabiliste essaye d’étendre les méthodes PLI avec une dimension probabiliste. Cette extension s’eﬀectue sur deux niveaux : (i) les faits sont an- notés par des probabilités, et (ii) la relation de couverture devient probabiliste [De

4. Un réseau Bayésien est une représentation compacte des distributions de probabilité jointes d’un ensemble bien déterminé de variables. Il est représenté par un graphe acyclique, un nœud par variable, et les distributions de probabilités conditionnelles associées [Jensen et Nielsen, 2007].

(32)

Raedt et Kersting, 2004]. Le système PRISM (PRogramming In Statistical Mo- deling) de [Sato et Kameya, 1997] s’inscrit dans cette perspective. Il déﬁnit un langage de programmation destiné à la modélisation à la fois symbolique et statistique d’objets complexes, où une distribution de probabilité est attachée à des faits logiques. [De Raedtet al., 2007] ont proposé une extension du langage Prolog, ProbLog (Probabilistic Prolog), aﬁn de résoudre des requêtes probabilistes.

Le point fort des modèles logiques probabilistes est leur capacité à gérer l’incertitude. Cependant, ils héritent des mêmes limites que la logique propositionnelle lorsqu’ils sont appliqués à des données relationnelles. En eﬀet, en combinant l’apprentissage statistique et la PLI, on risque également de combiner la complexité des cadres sous-jacents. En pratique, les deux composantes logiques et probabilistes doivent être apprises à partir des données. La construction de tels modèles nécessite l’énumération explicite de plusieurs états (comme pour les réseaux Bayésiens), ce qui n’est pas toujours réalisable en pratique : le nombre de ces états augmente très rapidement en fonction du nombre d’instanciations possibles des entités et de leurs relations dans la base de données [De Raedt et Kersting, 2007]. Outre ce problème d’eﬃcacité, la plupart des approches existantes ne permettent pas de prendre en compte les variables continues (à l’exception de quelques travaux [Xuet al., 2009]).

1.3.3 Modèles Probabilistes

La plupart des approches probabilistes existantes représentent des extensions des modèles graphiques classiques aux données relationnelles. Les réseaux de Markov relationnels (Relational Markov Networks RMN) proposés par [Taskar et Abbeel, 2002, Taskar et al., 2003, Taskar et al., 2007] étendent les modèles par graphes non orientés (également connus sous le nom de Markov Random Fields ou encore Markov Networks [Pearl et Shafer, 1988]). [Friedmanet al., 1999,Getoor, 2001,Taskaret al., 2001] ont proposé les modèles relationnels probabilistes (Probabilistic Relational ModelsPRM) pour étendre des réseaux Bayésiens attribut-valeur classiques à une structure relationnelle plus riche.

Le point commun entre ces deux approches est de permettre aux propriétés d’une entité (attributs d’une table) de dépendre de façon probabiliste de celles des autres entités. Cependant, les PRM sont des modèles génératifs qui se basent sur un graphe orienté alors que les RMN construisent des graphes non orientés qui sont mieux adaptés à l’apprentissage discriminant et permettent de modéliser les dépendances cycliques. Comme les modèles graphiques classiques, les RMN et les PRM possèdent deux composantes : la structure du réseau et les paramètres qui lui sont associés. La structure du graphe dans les RMN se base sur la structure relationnelle de la base de données et l’estimation des paramètres utilise la méthode du gradient conjugué en combinaison avec une inférence probabiliste approximative. Pour les PRM, la complexité de l’apprentissage de la structure (un réseau Bayésien) est au moins aussi diﬃcile que celle des réseaux Bayésiens classiques. Pour que la complexité des calculs