• Aucun résultat trouvé

4.1 SIFRA avec discrétisation supervisée multi-variée

4.1.1 Méthodes de discrétisation

Certaines méthodes de data mining requièrent un pré-traitement des données an de s'assurer que celles-ci possèdent un format spécique requis pour appliquer un algorithme donné. La discrétisation représente une forme de pré-traitement ou de transformation de données, qui consiste à diviser des attributs numériques en des intervalles pour obtenir des variables discrètes requises pour l'application de certains algorithmes de data mining [Moreno et al., 2007]. Plusieurs méthodes de discrétisation ont été proposées dans la lit-térature. Ces méthodes peuvent être classiées de diérentes manières : supervisées vs non-supervisées, multi-variées vs uni-variées, paramétriques vs non-paramétriques.

La première classication concerne la prise en compte ou pas de l'attribut Classe lors du partitionnement des attributs. Quand la discrétisation supervisée considère l'informa-tion liée à la classe, les méthodes de discrétisal'informa-tion non-supervisés divisent les attributs en un nombre spécique d'intervalles quelque soit leur pouvoir discriminant. D'un autre côté, la discrétisation peut être uni-variée ou multi-variée. Les méthodes uni-variées divisent chaque attribut à part, alors que la discrétisation multi-variée construit les intervalles des diérents attributs simultanément. Cette dernière considère les inter-dépendances entre les attributs lors de leur partition. Finalement, nous distinguons entre les méthodes de discrétisation paramétriques, qui exigent des paramètres d'entrée xés par l'utilisateur, comme le nombre d'intervalles requis, et les méthodes non-paramétriques qui utilisent seulement les données traitées et ne nécessitent aucune autre entrée [Yang et al., 2009]. Nous présentons dans la suite quelques méthodes de discrétisation.

4.1.1.1 Discrétisation non-supervisée

Deux méthodes de discrétisation non-supervisée fréquemment utilisées sont la méthode d'intervalles d'amplitudes égales (EWI : Equal-Width Interval) et la méthode d'inter-valles de fréquences égales (EFI : Equal-Frequency Interval) [Catlett, 1991]. La première méthode (EWI) divise le domaine de variation d'un attribut en un nombre prédéni k d'intervalles de largeur égale ; quant à la deuxième (EFI) le divise en un nombre pré-déni d'intervalles contenant le même nombre de valeurs. Ces deux méthodes sont alors paramétriques vu que le nombre d'intervalles doit être prédéni par l'utilisateur.

4.1.1.2 Discrétisation supervisée

Les méthodes de discrétisation supervisée cherchent à choisir les intervalles qui discriminent au mieux la classe. La mesure d'entropie a été utilisée dans

[Fayyad and Irani, 1993] pour évaluer la discrimination des points de coupure candidats et choisir celui qui minimise l'entropie calculée. Cette méthode de discrétisation, notée MDLP, est une méthode de discrétisation supervisée, non-paramétrique et descendante ; elle partitionne le domaine de variation en deux intervalles en choisissant le meilleur point de coupure, puis re-partitionne chaque intervalle de manière récursive. ChiMerge est une autre méthode de discrétisation supervisée qui est basée sur le critère de Chi-deux [Chimerge, 1992]. Cette méthode utilise le test de Chi-Chi-deux pour déterminer si les fréquences de classes dans deux intervalles adjacents sont susamment diérentes ; si ce n'est pas le cas alors les deux intervalles peuvent être fusionnés. Cette méthode est une méthode ascendante (par fusion) et paramétrique (nécessite de xer un seuil). Le lecteur intéressé pourra trouver la description d'autres méthodes de discrétisation supervisées dans [Yang et al., 2009].

4.1.1.3 Discrétisation multi-variée

Les méthodes précédemment évoquées sont toutes uni-variées ; elles discrétisent chaque attribut à part indépendamment des autres. Nous décrivons dans ce paragraphe quelques méthodes de discrétisation multi-variées. Cette catégorie présente l'avantage de prendre en considération les dépendances entre les attributs (comment ces variables inter-agissent entre elles) avant de choisir les points de coupure des intervalles. Prenons comme exemple la pression artérielle de l'être humain [Chao and Li, 2005]. Celle-ci a tendance à augmenter avec l'âge : chez les jeunes, la pression artérielle moyenne est de 120/80 mmHg, alors que chez les personnes âgées elle est de 140/90 mmHg. Par conséquent, il n'est pas approprié de générer un point de coupure tel que 140 mmHg et 90 mmHg pour la pression systolique et la pression diastolique, respectivement. En eet, une pression de 139mmHg/89mmHg chez une personne âgée de 65 ans est considérée comme une tension normale alors que la même pression obtenue pour une personne de 20 ans pourrait être considérée comme une hypertension. Pour conclure, pour discrétiser l'attribut pression artérielle, il faut évidemment tenir compte de l'attribut âge. Les méthodes de discré-tisation multi-variées sont les seules à prendre en compte ce genre de dépendances entre les variables lors de leur partition.

Cluster-based discretization [Monti and Cooper, 1999] est l'une des premières mé-thodes de discrétisation multi-variées. Dans cette méthode, les interactions entre les at-tributs sont analysées pour créer la variable Cluster qui représente une pseudo-classe du problème, puis la méthode de disrétisation supervisée de MDLP [Fayyad and Irani, 1993] est utilisée pour former les intervalles des attributs tout en considérant la variable Cluster au lieu de la classe d'origine.

La méthode MVD [Bay, 2001] est une autre méthode de discrétisation multi-variée. Dans cette méthode, les attributs sont d'abord partitionnés en des intervalles ns en utilisant une technique de discrétisation simple telle que la discrétisation à intervalles égaux. Puis une fusion des intervalles adjacents est eectuée d'une manière itérative ; les

intervalles fusionnées sont ceux qui représentent des distributions multivariées similaires. L'analyse de la distribution multivariée implique tous les attributs. Cependant, cette approche peut être coûteuse en termes de temps de calcul surtout pour les bases à haute dimension [Mehta et al., 2005].

4.1.1.4 Discrétisation supervisée multi-variée

Une autre catégorie de discrétisation est la discrétisation à la fois supervisée et multi-variée. Ces méthodes bénécient des avantages des deux types de discrétisation ; elles garantissent la prise en compte de l'interdépendance entre les attributs d'une part, et de l'information relative à l'attribut Classe d'autre part.

Dans [García et al., 2010], une méthode de discrétisation supervisée multi-variée qui est basée sur le Clustering de données, a été proposée. Cette méthode, nommée CBD (Clustering-Based Discretization), utilise l'algorithme k-means pour construire des clus-ters (en évaluant la distance euclidienne entre les données). L'algorithme k-means est mis en oeuvre en considérant tous les attributs en même temps, y compris l'attribut Classe, et en donnant plus de poids à ce dernier. Dans le travail de [García et al., 2010], l'attri-but Classe est une variable numérique, donc incorporer la classe dans l'élaboration des clusters avec l'algorithme k-means en utilisant la distance euclidienne est possible. Ce-pendant, d'autres mesures (autre que la distance euclidienne) doivent être utilisées dans les problèmes où l'attribut Classe consiste en une variable qualitative. An d'évaluer la méthode de discrétisation CBD, celle-ci a été utilisée avec la méthode de classication associative CMAR et a été comparée à d'autres méthodes de discrétisation, notamment les méthodes EWI, EFI et la méthode supervisée MDLP. Les résultats expérimentaux ont montré une amélioration de la précision de la méthode de classication associative CMAR lorsque la méthode de discrétisation CBD a été utilisée.

Toujours basée sur le Clustering, la méthode HyperCluster Finder

re-présente une deuxième méthode de discrétisation supervisée multi-variée

[Muhlenbach and Rakotomalala, 2002]. Quand la méthode CBD utilise l'algorithme k-means pour former les Clusters, cette méthode utilise le graphe des voisins basé sur la mesure de la distance euclidienne (the Relative Neighborhood Graph of Toussaint [Toussaint, 1980]). Le graphe des voisins est construit en considérant tous les attributs en même temps. Après la génération du graphe des voisins (voir Fig 35-a), les arcs entre 2 individus de classes diérentes sont coupés an d'isoler les groupes (voir Fig 35-b) ; des clusters totalement homogènes sont ainsi créés. Puis, seuls les groupes les plus signicatifs, qui possèdent au moins un nombre donné d'individus, sont sélectionnés (ce nombre est, a priori, xé par l'utilisateur). Enn, le minimum et maximum de chaque Cluster sont projetés sur chaque dimension pour dénir les frontières et former les intervalles de chaque attribut.

Une dernière méthode que nous évoquons dans ce paragraphe est la méthode de [Gupta et al., 2010] qui est aussi basée sur le Clustering et qui incorpore l'attribut Classe

Figure 35  Graphe de voisins et clusters pour un exemple à deux classes (classe

◦et classe •)[Muhlenbach and Rakotomalala, 2002]

dans la phase de discrétisation. D'abord, la technique Clustering est utilisée pour re-présenter les interdépendances entre les attributs détectés sous forme de clusters. Deux algorithmes de Clustering diérents ont été testés : l'algorithme k-means et l'algorithme SNN(Shared Nearest Neighbor clustering). Puis, la discrétisation des attributs est élaborée en prenant en considération en même temps les  clusters  ainsi obtenus et l'information liée à l'attribut Classe. En eet, les clusters formés sont considérés comme un nouveau attribut Classe C' appelé  pseudo-classe, cette variable donne une information sur le cluster auquel appartient chaque donnée. Le problème devient ainsi un problème à deux attributs : la classe C et le pseudo-classe C'. Par la suite, la méthode MDLP de Fayyad et Irani [Fayyad and Irani, 1993] est utilisée pour discrétiser les attributs en prenant en considération les deux attributs Classe et pseudo-classe (le calcul de l'entropie se fait sur ces deux attributs).

4.1.2 Les méthodes de discrétisation dans le contexte de SIFRA