• Aucun résultat trouvé

Méthode d'apprentissage supervisée par regroupement d'attributs : la mé-

Dans le cadre de cette thèse, nous proposons une méthode d'apprentissage supervisée qui se base d'une part sur la génération de règles oues et qui utilise d'autre part le concept des ensembles d'apprentissage articiel. Notre méthode relève des méthodes d'ensemble qui décomposent les attributs d'entrée en des sous-groupes d'attributs. Elle traite chaque

sous-groupe par un système d'apprentissage supervisé à base de règles oues. Comme la méthode SIFCO [Soua et al., 2013], notre méthode se compose de trois grandes phases (voir Fig. 27) : la phase de regroupement d'attributs, la phase d'apprentissage et la phase de classication. La phase de regroupement d'attributs est une phase de pré-traitement des données durant laquelle les données qui seront traitées ensemble sont déterminées. La phase d'apprentissage consiste à générer les règles oues ; une base de règles locale est construite pour chaque sous-ensemble de données et les diérentes bases locales sont réunies pour former la base de règles globale. Finalement, durant la phase de classication, la base de règles oues générée précédemment est utilisée par un moteur d'inférence pour décider de la classe à attribuer à une nouvelle observation.

Notre contribution réside au niveau de la phase de regroupement d'attributs (la pre-mière phase) ; nous proposons une nouvelle méthode de regroupement d'attributs basée sur le concept des Règles d'Association. Notre idée consiste à utiliser le concept de gé-nération des itemsets fréquents an de déterminer des associations intéressantes entre les attributs numériques. Nous expliquons, ci-dessous, les étapes générales de chaque phase de notre méthode SIFRA. Une description détaillée de la nouvelle méthode de regroupement d'attributs est fournie dans la section 3.3.

3.2.1 Phase de regroupement d'attributs

Généralement, les algorithmes de génération des itemsets fréquents sont utilisés pour déterminer les associations intéressantes entre des variables binaires. Dans le cas où des données numériques sont utilisées, une discrétisation des variables numériques en des inter-valles est d'abord requise, puis les associations entre ces interinter-valles sont détectées à l'aide d'un algorithme de génération des itemsets fréquents. Cependant, le but de notre tra-vail est de détecter les associations entre les attributs numériques et non pas entre leurs intervalles. Pour cela, nous nous sommes inspirés des travaux de [Agrawal et al., 1999] où l'algorithme CLIQUE a été proposé. L'algorithme CLIQUE cherche les attributs qui forment ensemble un sous-espace pertinent pour le Clustering de données, et ce en ana-lysant les unités denses qui y sont contenues. Pour cela, les attributs numériques sont partitionnés en des intervalles de longueur égale et une procédure basée sur la technique de l'algorithme Apriori est utilisée pour déterminer toutes les unités denses en passant d'un sous-espace de taille k à un sous-espace de taille k + 1, et ce en utilisant la propriété d'anti-monotonie d'Apriori. Ensuite, la couverture du sous-espace (qui correspond à la somme des densités des diérentes unités détectées) est calculée. Les sous-espaces qui possèdent une couverture importante sont gardés et considérés comme des sous-espaces intéressants pour le Clustering.

Nous utilisons la même idée de détection des régions denses dans des sous-espaces d'attributs et de sommation de leurs densités ; nous adoptons cette idée dans le cadre des problèmes d'apprentissage supervisé à base de règles oues pour former les groupes d'attributs liés.

Figur e 27  Étap es de la métho de SIFRA

Figure 28  Subspace Clustering : deux clusters détectés dans le sous-espace consti-tué par les attributs X et Y, aucun cluster détecté dans le sous-espace consticonsti-tué par

les attributs Y et Z

En eet, les groupes d'attributs qui vont être associés dans un classieur apparaîtrons dans la prémisse d'une même règle oue. La gure 28 présente un exemple de sous-espace

{X, Y } détecté par la méthode Subspace Clustering en comparaison avec un sous-espace

sans aucun cluster pour les attributs Y et Z. Nous pensons que les règles oues qui sont construites en utilisant le groupe d'attributs {X, Y } peuvent être plus ecaces et intéressantes que celles générées avec le groupe d'attributs {Y, Z} puisque les données re-présentées dans le premier sous-espace partagent des caractéristiques similaires et peuvent aider à la prédiction de nouveaux objets.

En se basant sur les travaux de [Agrawal et al., 1999], nous proposons d'utiliser le concept des Règles d'Association et plus précisément de la génération des itemsets fré-quents pour détecter la co-occurrence des données dans les sous-espaces d'attributs. Dans la méthode que nous proposons, au lieu de développer des étapes en suivant la technique de Apriori, nous utilisons directement un algorithme de génération des itemsets fréquents (Apriori ou autre algorithme) pour détecter les régions denses. Les régions denses cor-respondent bien aux itemsets fréquents générés, et la sélectivité d'une région revient au support de l'itemset fréquent correspondant. Ces régions denses seront par la suite uti-lisées pour déduire les groupes d'attributs liés. Un degré d'association β est déni pour chaque groupe d'attributs ; ce degré d'association remplace la notion de couverture d'un sous-espace dans l'algorithme CLIQUE. Finalement, nous ajoutons une étape de sélection des groupes d'attributs liés puisque le nombre de groupes qui peuvent être détectés par cette méthode peut être important. Nous décrivons, en détails dans la section 3.3, les diérentes étapes de l'approche proposée.

3.2.2 Phase d'apprentissage

Notre méthode SIFRA est une méthode d'ensemble qui combine plusieurs apprenants ; chaque apprenant utilise une projection diérente de données pour former une base de règles oues de tailles et de prémisses diérentes. Chaque apprenant aura, comme espace des entrées, un des groupes d'attributs liés qui sont générés lors de l'étape précédente. Les diérents apprenants utilisent la même méthode d'apprentissage pour construire

leurs bases de règles locales. La méthode d'apprentissage à base de grille oue est uti-lisée dans le cadre de ce travail [Ishibuchi et al., 1992, Ishibuchi and Yamamoto, 2005]. Nous adoptons la partition oue supervisée vu qu'elle a prouvé son ecacité dans les travaux de [Soua et al., 2013]. La discrétisation supervisée MDLP de Fayyad et Irani [Fayyad and Irani, 1993] est utilisée pour partitioner les attributs numériques et la fonc-tion d'appartenance trapézoïdale est utilisée pour dénir les sous-ensembles ous. En utili-sant cette méthode de discrétisation supervisée, des partitions de taille diérentes peuvent être obtenues pour chaque attribut. Ainsi, des grilles oues rectangulaires sont obtenues pour chaque groupe d'attributs (voir Figure 27). Dans la gure 27, un exemple de grille

oue rectangulaire est obtenu pour le groupe d'attributs {X2, X4}où trois sous-ensembles

ous sont dénis pour l'attribut X2 et quatre sous-ensembles ous pour l'attribut X4.

Après avoir partitionné l'espace des entrées en des sous-espaces ous en utilisant la partition oue supervisée, nous avons utilisé la méthode heuristique d'Ishibuchi [Ishibuchi et al., 1999, Ishibuchi et al., 1992, Ishibuchi et al., 1994] pour construire une règle oue pour chaque sous-espace (voir section 1.3.1.2). Les équations 7 et 8 de la section 1.3.1.2 ont été utilisées pour calculer le degré de certitude des règles oues. D'autre méthodes heuristiques pour le calcul du degré de certitude peuvent être uti-lisées dans de prochains travaux, notamment celles basées sur la mesure Conance [Ishibuchi and Yamamoto, 2005].

3.2.3 Phase de classication

Les bases de règles locales générées par les diérents apprenants sont combinées pour former une base de règles globale. Cette base globale est utilisée pour classier de nouvelles données de classes inconnues. La méthode d'inférence oue utilisée dans cette thèse est la méthode de la seule règle gagnante (voir section 1.3.2.1). Nous avons choisi cette mé-thode an de garder les mêmes mémé-thodes d'apprentissage et de classication utilisées dans SIFCO [Soua et al., 2013]. Cela nous permet de comparer notre méthode de regroupement d'attributs avec celle de SIFCO. Cependant, comme les règles oues sont construites sur des projections diérentes des données et puisque notre méthode combine les opinions de plusieurs apprenants, l'utilisation de la méthode de vote pondéré (section 1.3.2.2) comme méthode d'inférence oue pourrait être envisagée dans de prochains travaux.

3.3 Une nouvelle méthode de regroupement d'attributs