Résumé étendu - Summaries in French and in Hungarian

Summaries in French and in Hungarian

8.1 Résumé étendu

8.1.1 Introduction

L'extraction de connaissances dans les bases de données

Le processus d'extraction de connaissances dans les bases de données a pour objectif d'extraire, à partir de grandes bases de données, des unités d'information pouvant être interprétées en tant que connaissances réutilisables. Ce processus repose sur trois étapes principales : la sélection et la préparation des données, la fouille de données et, nalement, l'interprétation des unités extraites.

L'extraction de connaissances dans les bases de données peut être vue de manière similaire à l'orpaillage : les pépites d'or recherchées sont dans ce cas les unités de connaissances et la rivière la base de données considérée. D'importants volumes de données en particulier de documents sont disponibles sans information a priori concernant leur usage. Une question fondamentale est de savoir si ces données contiennent quelque chose d'intéressant et de trouver des méthodes pour extraire ces éléments d'intérêt. L'extraction des connaissances dans les bases de données notée dans la suite ecbd consiste à traiter d'importants volumes de données dans le but d'en extraire des unités de connaissances non triviales, potentiellement utiles, signicatives et réutilisables. De façon générale, le processus d'ecbd est itératif et interactif. Il est contrôlé par un expert des données, appelé l'analyste, dont le rôle est de guider le processus d'extraction, sur la base de ses objectifs et de ses connaissances du domaine. L'analyste sélectionne et interprète un sous-ensemble des unités extraites pour construire des modèles qui seront dans la suite con-sidérés comme des unités de connaissances auxquelles est associée un degré de plausibilité. Le processus d'ecbd repose sur trois étapes principales : (i) préparation : les sources de données sont préparées pour être traitées, (ii) fouille : elles sont alors fouillées et, (iii) interprétation : nalement, les unités d'information extraites sont interprétées pour devenir des unités de con-naissances. Ces unités sont représentées dans un formalisme de représentation des connaissances, an d'être utilisées au sein d'un système à base de connaissances. L'ecbd peut aussi être vue comme un processus permettant de passer des données aux informations, puis aux connaissances (voir la Figure 8.1), en considérant les dénitions suivantes [SAA+99, Wil02] :

Données. Les données sont les signaux non interprétés qui atteignent nos sens à chaque minute. Une lumière rouge, verte ou orange à un carrefour est un exemple de donnée. Les ordinateurs sont emplis de données : signaux codant des chaînes de caractères, des nombres, des caractères

Données (données brutes, bases de données) ↓ Compréhension du domaine

↓ Sélection de données (fenêtrage) Données sélectionnées

↓ Nettoyage des données / Transformation des données ↓ Préparation de l'ensemble des données

Données préparées

↓ Processus de fouille de données (découverte de motifs) ↓ Méthodes numériques et symboliques d'ECBD

Motifs extraits

↓ Post-traitement des motifs extraits ↓ Interprétation / Évaluation

Unités de connaissances (pour des systèmes à base de connaissances)

Figure 8.1: La boucle d'ecbd : des données brutes aux unités de connaissance. L'objectif du processus d'ecbd est de sélectionner, de préparer et d'extraire des unités de connaissances depuis diérents sources, puis de représenter les unités de connaissances dans des structures appropriées. ou d'autres symboles qui sont traités en grande quantité, de façon mécanique et transparente. Informations. Les informations sont des données associées à un sens. Pour un conducteur de voiture, la lumière rouge (le feux rouge) n'est pas seulement un signal d'une certaine couleur, mais aussi une indication signiant qu'il doit s'arrêter. Par contre, un daltonien n'attachera probablement pas le même sens à une lumière rouge.

Connaissances. Les connaissances sont constituées de l'ensemble des données et des informa-tions qu'une personne peut utiliser dans le but de réaliser certaines tâches et de créer de nouvelles informations. Les connaissances montrent une aptitude de génération, du fait qu'une des fonc-tions principales des connaissances est de produire de nouvelles connaissances.

Le processus d'ecbd est réalisé au sein d'un système d'ecbd qui se compose des éléments suivants : les bases de données, les modules de fouilles de données (symboliques et numériques) et les interfaces pour l'interaction avec le système, par exemple l'édition et la visualisation. De plus, le système d'ecbd peut tirer parti des connaissances du domaines, intégrées au sein d'une ontologie du domaine des données. Fermant la boucle, les unités de connaissances extraites par le système d'ecbd doivent être représentées dans un formalisme de représentation des connaissances adéquat et ainsi être intégrées au sein d'une ontologie an d'être réutilisées pour la résolution de problèmes dans des domaines tels que l'agronomie, la biologie, la chimie, la médecine, etc.

Il existe plusieurs livres permettant de mieux comprendre les principes de l'ecbd et l'utilisation des méthodes d'ecbd, comme par exemple [FPSSU96, MBK98] et plus récemment [HK01, HMS01, Dun03], ainsi que [WF00] qui est associé au système Weka45.

8.1. Résumé étendu 129 La fouille de données, étape centrale de l'ECBD

La fouille de données est l'étape centrale du processus d'ecbd. Le processus d'ecbd est constitué de plusieurs éléments : la sélection des données, le pré-traitement des données, leur éventuelle transformation, la mise en ÷uvre de la fouille pour extraire des motifs et des relations, et enn, l'interprétation et l'examen des structures découvertes.

Les progrès concernant l'acquisition numérique de données et les technologies de stockage ont conduit à la création d'énormes bases de données. En conséquence, un intérêt croissant est apparu concernant la possibilité d'extraire des informations, qui pourrait être utiles. La discipline liée à cette tâche est connue sous le nom de fouille de données. Hand et al. dénissent la fouille de données, dans [HMS01], de la façon suivante : la fouille de données est l'analyse de grandes ensembles de données, an d'y trouver des relations non suspectées et de résumer les données d'une nouvelle façon qui soit à la fois compréhensible et utile.

La fouille de données est typiquement appliquée à des données qui ont été collectées dans un autre but que celui de la fouille. Cela signie que les objectifs de la fouille ne jouent pas de rôle dans la stratégie de collection de ces données. Pour cette raison, la fouille de données est souvent désignée comme une analyse secondaire de données.

La dénition mentionne aussi que l'ensemble de données examiné en fouille de données est souvent grand. Quand d'importants volumes de données doivent être pris en compte, de nouveaux problèmes apparaissent. Certains de ces problèmes sont liés à des considérations fondamentales telles que le choix de la stratégie de gestion des données, la façon d'analyser les données en un temps raisonnable ou la façon de ltrer le bruit des données. Souvent, les données ne comprennent qu'une partie de la population, l'objectif pouvant être de généraliser à la population à partir de l'extrait. Par exemple, il peut être intéressant de prédire la façon la plus probable dont les futurs clients réaliseront leurs achats. Parfois, il peut être utile de résumer ou de compresser un important volume de données de façon à ce que le résultat soit plus compréhensible, sans notion de généralisation. Cela peut être le cas, par exemple, si l'on dispose des données d'un recensement complet pour un pays particulier ou une base de données enregistrant les détails de millions de transactions commerciales.

La fouille de données ne doit pas être vue comme un simple exercice réalisé une seule fois. D'énormes collections de données peuvent être analysées et examinées selon un nombre illimité de manières. Au l du temps, de nouveaux types de structures ou de motifs peuvent attirer l'attention et devenir intéressants à rechercher dans les données.

La fouille de données a, pour de bonnes raisons, beaucoup attiré l'attention : c'est une nou-velle technologie, dédiée à de nouveaux problèmes, amenant potentiellement à des découvertes, utiles autant à des applications commerciales qu'à la recherche scientique [HMS01].

Méthodes pour l'ECBD

Un exemple introductif. Tout d'abord, examinons ce que l'on peut attendre d'une appli-cation des méthodes de fouilles de données. Considérons un tableau binaire Mij, aussi appelé contexte formel, où les lignes représentent des clients et les colonnes les produits achetés par les clients (voir la Table 8.1) : Mij = 1 quand un client i a acheté un produit j. Dans le cas d'applications réelles, ce type de tableau peut contenir plusieurs milliers de colonnes et des millions de lignes. . . A partir de ce contexte formel, les unités suivantes peuvent être extraites :

Clients/Produits chips moutarde saucisse boissons bière C₁ 1 0 0 0 1 C₂ 1 1 1 1 1 C₃ 1 0 1 0 0 C₄ 0 0 1 0 1 C₅ 0 1 1 1 1 C₆ 1 1 1 0 1 C₇ 1 0 1 1 1 C₈ 1 1 1 0 0 C₉ 1 0 0 1 0 C₁₀ 0 1 1 0 1

Table 8.1: Un exemple de matrice binaire représentant des transactions entre des clients (C) et des produits (P).

• L'ensemble X = {biere, saucisse, moutarde} apparaît avec une fréquence φ(X) = 4, c'est-à-dire que quatre individus sur dix ont acheté ces produits en même temps. De la même façon, l'ensemble Y = {biere, saucisse} apparaît avec une fréquence φ(Y) = 6. L'ensemble X (respectivement Y) peut être interprété par le fait que 40% (respectivement 60%) des clients achètent les produits de l'ensemble X (respectivement de Y).

• De plus, la règle R = {biere, saucisse → moutarde} peut être extraite des ensembles Xet Y (Y → X \ Y, où X \ Y correspond à l'ensemble X auquel est retiré Y), avec un indice de conance de 0.66 (66.6%), indiquant que si un client achète de la biere et des saucisses, la probabilité que ce même client achète de la moutarde est de 0.66 (parmi 6 clients achetant de la bière et des saucisses, 4 clients achètent aussi de la moutarde).

Du point de vue de l'analyste, les ensembles X et Y, ainsi que la règle R, peuvent être interprétés et validés comme des unités de connaissances extraites des données.

Méthodes de fouille de données. Le processus d'extraction est fondé sur des méthodes de fouille de données produisant des unités de connaissances à partir des données considérées. Les méthodes de fouille de données peuvent être soit symboliques soit numériques :

• Les méthodes symboliques incluent principalement : la classication par arbres de déci-sion, la classication par treillis, la recherche de motifs fréquents et l'extraction de règles d'association, les méthodes d'apprentissage, comme l'induction, l'apprentissage à partir d'instances, et les méthodes utilisant la recherche d'information. . .

• Les méthodes numériques incluent principalement : les statistiques et l'analyse de données, les modèles de Markov cachés d'ordres 1 et 2 (conçus initialement pour la reconnaissance de formes), les réseaux bayésiens, les réseaux de neurones, les algorithmes génétiques. . . Ces méthodes sont dépendantes des domaines de recherche en lien avec le processus d'ecbd [Man97] :

• Statistiques et analyse de données : le but est similaire, mais le processus d'ecbd nécessite dans la plupart des cas la combinaison de diérentes méthodes, symboliques ou numériques, et des connaissances du domaine pour l'interprétation des unités extraites.

8.1. Résumé étendu 131 • Gestion de bases de données : les techniques de gestion de bases de données peuvent être utiles pour aider à résoudre les problèmes liés à la fouille de données, en utilisant par exemple des requêtes pour préparer les données à fouiller.

• Apprentissage : les méthodes d'apprentissage sont au centre du processus d'ecbd, même si les quantités de données impliquées, ainsi que les objectifs, c'est-à-dire l'utilisation des résultats pour la résolution de problèmes ou la prise de décisions, sont diérents.

• Représentation des connaissances et raisonnement : le processus de fouille de données peut être guidé par un modèle une ontologie du domaine pour l'interprétation et la résolution de problèmes.

Le processus d'ecbd peut être considéré comme une sorte de processus d'apprentissage supervisé considérant qu'un analyste contrôle et guide le processus d'ecbd. L'analyste peut s'appuyer sur ses propres connaissances, ainsi que sur des ontologies du domaine, pour produire une interprétation des résultats et les valider. De cette façon, les résultats du processus d'ecbd peuvent être réutilisés pour enrichir les ontologies existantes, montrant ainsi que la représentation des connaissances et l'ecbd sont deux tâches complémentaires : pas de fouille de données sans connaissances du domaine !

Vue globale de la thèse

Le sujet principal de cette thèse est l'extraction de connaissances dans les bases de données (ecbd). Plus précisément, nous avons étudié deux des plus importantes tâches d'ECBD actuelles, qui sont l'extraction de motifs et la génération de règles d'association. Tout au long de notre travail, notre objectif a été de trouver des règles d'associations intéressantes selon plusieurs points de vue : dans un but de fouille ecace, pour réduire au minimum l'ensemble des règles extraites et pour trouver des unités de connaissances intelligibles (et facilement interprétables). Pour atteindre ce but, nous avons développé et adapté des algorithmes spéciques.

Les contributions principales de cette thèse sont : (1) nous avons développé et adapté des algorithmes pour trouver les règles d'association minimales non redondantes ; (2) nous avons déni une nouvelle base pour les règles d'associations appelée règles fermées ; (3) nous avons étudié un champ de l'ecbd important mais relativement peu étudié, à savoir l'extraction des motifs rares et des règles d'association rares ; (4) nous avons regroupé nos algorithmes et une collection d'autres algorithmes ainsi que d'autres opérations auxiliaires d'ecbd dans une boîte à outil logicielle appelée Coron.

Nous présentons maintenant un résumé un peu plus détaillé des points forts de la thèse. Motifs fréquents. Dans le Chapitre 3 nous présentons deux algorithmes spéciquement adap-tés pour extraire des règles d'association minimales non-redondantes (MN R). Cet ensemble de règles est obtenu sans perte d'information, et représente de manière informative toutes les rè-gles d'association valides. Notre premier algorithme, Zart, est une extension de Pascal qui est probablement l'algorithme le plus ecace de recherche des motifs fréquents par niveau. En plus des capacités de Pascal, Zart est capable d'identier l'ensemble des motifs fermés fréquents et de leurs associer leurs générateurs. Nous montrons que ces données supplémentaires fournies par Zart sont essentielles pour l'extraction de règles MN R. Dans notre second algorithme, Eclat-Z, nous allons plus loin et montrons comment généraliser l'idée de Zart pour n'importe quel algorithme d'extraction des motifs fréquents. Il est ainsi possible d'étendre n'importe quel

algorithme d'extraction des motifs fréquents an de rajouter le support de l'extraction des règles

MN R.

Dans ce même chapitre nous proposons une extension simple de Charm, appelé Charm-MFI. Charm-MFI ltre les motifs fréquents maximaux parmi les motifs fréquents fermés. Cet algorithme a été utilisé pour étudier la frontière entre fréquents et non fréquents.

Règles d'association fréquentes. Le Chapitre 4 présente diérents ensembles de règles d'association fréquentes, les règles valides et la famille des règles minimales non-redondantes. Nous introduisons aussi une nouvelle base, les règles fermées, qui se positionne entre les deux ensembles de règles d'association mentionnés précédemment, comblant l'écart entre ces deux en-sembles. L'ensemble des règles fermées est une représentation concise de toutes les règles valides, pour lequel il y seulement besoin de calculer les motifs fermés fréquents. Les règles fermées semblent être une bonne alternative à l'ensemble des règles valides.

Dans la littérature, la plupart des algorithmes se concentrent seulement sur les valeurs de support et de conance des règles. Nous montrons comment calculer d'autres indices statistiques qui recquièrent, en plus, la valeur du support pour la partie droite des règles. Dans notre travail, pour la représentation condensée des motifs fermés, nous utilisons des motifs fermés fréquents qui sont stockés dans une structure de données de type trie. Dériver le support des deux parties des règles nécessite un nombre important d'opérations sur le trie. Pour pallier ce problème, nous proposons un mécanisme de cache utilisant une table de hachage, qui se montre une solution ecace. L'utilisation d'un cache est avantageuse même si d'autres mesures d'intérêt ne sont pas requises et ainsi les techniques de cache peuvent aussi être incorporées dans les autres algorithmes. Motifs rares et règles d'association rares. Le Chapitre 5 est un des chapitres les plus ori-ginaux de cette thèse. Dans ce chapitre, nous nous intéressons aux problèmes de l'extraction des motifs rares et de la génération de règles d'associations rares. Dans la littérature, ces problèmes n'ont jusqu'alors pas été étudiés en détail, bien que les motifs rares puissent contenir des infor-mations importantes dans la même mesure que les motifs fréquents. En particulier, l'application aux diagnostics médicaux nous paraît un champ d'application particulièrement adapté.

Dans le Chapitre 5.1 nous présentons une méthode permettant de trouver tous les motifs rares. Pour ce faire, nous utilisons l'algorithme classique Apriori. Apriori est connu pour trouver l'ensemble des motifs fréquents, mais il trouve également un ensemble spécial des motifs rares : les motifs rares minimaux (MRM). Une légère modication d'Apriori, que nous appelons Apriori-Rare, permet ainsi de conserver l'ensemble des MRM. Nous montrons ensuite comment reconstruire l'ensemble de tous les motifs rares à partir des MRM tout en évitant les motifs de support 0.

Dans le Chapitre 5.3 nous allons plus loin en montrant comment générer des règles d'asso-ciation rares valides. Notre travail est motivé par la question ouverte de longue date visant à construire un algorithme ecace pour la découverte de règles à support faible et conance élevée. An de trouver de telles règles en utilisant des algorithmes conventionnels de recherche des motifs fréquents comme Apriori, le support minimal doit être xé à un seuil très faible, ce qui augmente de manière drastique le temps d'exécution de l'algorithme. De plus, lorsque le support minimal est xé très bas, Apriori produit un grand nombre des motifs fréquents. Ce problème est également connue sous le nom de problème des motifs rares. Pour résoudre ce problème bien connu, nous proposons une solution. Avec notre méthode nous pouvons extraire un ensemble des règles d'associations rares exactes (nous appelons de telles règles règles MRG exactes). Nous montrons également comment extraire des règles MRG approximatives ; néanmoins leur intérêt

8.1. Résumé étendu 133 parait limité. De ce fait, nous nous concentrons plutôt sur les règles rares exactes. De plus, de telles règles sont non-redondantes car l'antécédent est minimal et le conséquent maximal, impliquant ainsi que parmi les règles de support et conance identiques, celles-ci contiennent le plus d'information.

La boîte à outils Coron. Les algorithmes présentés dans cette thèse ont été implémentés et regroupés dans une plate-forme logicielle uniée appelée Coron. Coron est une boîte à outils de fouille de données indépendante du domaine et de l'architecture utilisés. Non seulement Coron incorpore une riche collection d'algorithmes de fouille de données mais Coron permet également un grand nombre d'opérations auxiliaires. À notre connaissance, aucun autre logiciel n'a été conçu spéciquement pour l'extraction de motifs et la génération de règles d'association. Coron fournit également un support pour la préparation, le ltrage des données ainsi que pour l'interprétation des unités de connaissances extraites.

La plupart des expériences avec Coron ont été réalisées sur de véritables bases de données biomédicales appelées la cohorte Stanislas. Durant ces expériences, nous avons réalisé qu'il nous était nécessaire d'avoir (1) une méthodologie pour la fouille et (2) un outil permettant de l'implanter. Le Chapitre 6 présente notre méthodologie globale de fouille de données, pouvant être généralisée à n'importe quel ensemble des données. Cette méthodologie peut être utilisée pour les recherches des motifs aussi bien fréquents que rares.

A la n du Chapitre 6, en plus de la cohorte Stanislas, nous présentons trois autres projets ayant utilisé Coron avec succès.

Organisation de la thèse

Dans le Chapitre 2, nous commençons par présenter l'état de l'art. Nous nous focalisons principalement sur les méthodes d'ecbd symboliques s'appuyant sur l'opération de classication, la recherche de motifs fréquents et l'extraction de règles d'association. Nous montrons comment l'ensemble du processus, des données brutes aux unités de connaissances, est fondé sur le principe sous-jacent de classication.

Dans le document Symbolic Data Mining Methods with the Coron Platform (Page 144-176)