• Aucun résultat trouvé

Analyse des eets des paramètres sur la méthode SIFRA

La méthode SIFRA requiert le choix de certains paramètres d'entrée. Le choix de ces paramètres peut inuencer les résultats des classieurs ous ; il peut notamment inuencer le résultat des groupes d'attributs générés, les taux de bonne classication, le nombre de règles générées ou encore le temps de réponse. Les valeurs de ces paramètres sont choisies et xées par l'utilisateur. Certains de ces paramètres sont requis pour la phase d'apprentissage (génération des règles oues) ; ces paramètres sont :

• la méthode de la partition oue : supervisée ou simple

• la taille de la partition oue k (si une partition simple est choisie)

D'autres paramètres sont requis pour la phase de regroupement d'attributs ; ces para-mètres sont :

• le seuil minsupp

• le seuil βmin

• l'algorithme de génération des itemsets fréquents

• la méthode de discrétisation utilisée pour l'application de l'algorithme de génération

des itemsets fréquents

Cette partie est consacrée à l'étude de tous ces paramètres à l'exception de l'algorithme de génération des itemsets fréquents. Nous avons en eet analysé, dans le paragraphe

précédent, l'eet du choix de ces algorithmes sur le temps de réponse et sur la performance de la méthode SIFRA. Suite à cette étude, nous avons choisi d'utiliser l'algorithme FP-Growth pour la génération des itemsets fréquents dans cette section.

5.5.1 Eet de la méthode de partition oue

Nous commençons cette étude par l'analyse de l'eet de la méthode de partition oue sur les résultats de SIFRA ; les résultats sont traités en terme de taux de bonne classi-cation et du nombre de règles générées. Réduire le nombre de règles dans les SCBRFs est l'objectif principal de notre travail. Cependant, le souci majeur des méthodes de classi-cation consiste à obtenir la meilleure précision (le meilleur taux de bonne classiclassi-cation). Nous cherchons alors dans ce travail à trouver un compromis entre ces deux paramètres : c'est à dire pouvoir réduire le nombre de règles générées par rapport aux SCBRFs clas-siques sans dégrader la performance de classication.

Deux méthodes de partition oue ont été testées dans ce travail : la partition oue simple qui utilise la discrétisation régulière EWI et la partition oue supervisée qui utilise la discrétisation supervisée MDLP[Soua et al., 2013]. La méthode proposée dans [Soua et al., 2013] a montré une amélioration considérable des taux de classication dans les SCBRF.

Les résultats expérimentaux de cette étude sont représentés en détail dans l'annexe H. Le tableau 19 de l'annexe H contient toutes les valeurs des taux de bonne classication et des nombres de règles générées par SIFRA en utilisant les deux méthodes de partition diérentes. Pour la partition simple, plusieurs valeurs de k (la taille de la partition) ont été testées. Pour résumer ces résultats, nous présentons dans la gure 48 un histogramme qui sert à comparer les deux méthodes de partition oue en termes du taux de bonne classication et du nombre de règles générées. Dans le cas de la partition oue simple, une seule valeur de k, celle qui fournit le meilleur taux de bonne classication, est considérée. La gure 48 montre que la partition oue supervisée fournit des résultats meilleurs que ceux obtenus par la partition simple dans la plupart des bases de données. Elle améliore considérablement le taux de bonne classication dans la majorité des bases (Wine, Vehicle, Glass, Diabetes, Heart-statlog, Balance-scale et Ionosphere) et diminue aussi signicati-vement le nombre de règles générées dans toutes les bases (sauf Vehicle et mfeat-fourrier). Cette méthode de partition oue permet alors d'avoir un compromis entre ces deux fac-teurs. Pour cette raison, nous utilisons la partition oue supervisée dans le reste des expérimentations présentées dans ce rapport.

5.5.2 Eet des seuils minsupp et β

min

Nous avons analysé l'eet des seuils minsupp et βmin sur le temps de réponse de la

méthode SIFRA en annexe G. Nous complétons, dans cette partie, l'étude des eets de ces deux paramètres sur la performance de SIFRA en termes de taux de bonne classication

Figure 48  Eet de la partition oue sur la méthode SIFRA

et du nombre de règles générées.

Nous avons noté précédemment que la valeur du seuil minsupp aecte l'ensemble des itemsets générés. La diminution de ce seuil engendre un ensemble plus grand d'itemsets fréquents (la même chose pour les itemsets fermés). De ce fait, l'ensemble des groupes d'attributs sera ainsi modié par la modication du seuil minsupp. L'ensemble des groupes

d'attributs liés est aussi inuencé par la valeur du seuil βmin. La diminution de la valeur

de βminengendre la génération d'un ensemble plus grand de groupes d'attributs liés. Il est

à noter que le choix des groupes d'attributs liés a un impact important sur les résultats de classication. Pour cela, nous proposons d'analyser dans cette partie l'eet des seuils

minsupp et βmin sur les résultats de classication de notre méthode SIFRA, notamment

sur le taux de bonne classication et le nombre de règles générées.

Nous avons mené des tests expérimentaux en utilisant diérentes valeurs des seuils

minsupp et βmin. Dans cette étude, nous avons considéré six bases de données avec

dié-rents nombres d'attributs et d'observations. L'étude expérimentale et les résultats obtenus sont présentés dans l'annexe H. Suite à cette étude, nous avons constaté que le choix des

valeurs appropriées des seuils minsupp et βmin dépend des données. Le comportement

de ces seuils est illustré par la gure 49 qui représente les valeurs de minsupp et βmin

donnant les meilleurs taux de bonne classication pour les diérentes bases testées. Cette gure montre que la valeur appropriée de minsupp dière d'une base à une autre. Quant

au seuil βmin, la gure 49 montre que la valeur 0.7 donne presque toujours le meilleur

taux de classication (à l'exception de la base Ionosphere).

Il serait donc intéressant de proposer une méthode de paramétrage automatique qui détermine, pour chaque base, les meilleurs seuils d'une manière automatique. Une solution possible consisterait à utiliser un Algorithme Génétique (AG) et à considérer les deux

Figure 49  Valeurs de minsupp et βmindonnant le meilleur taux de classication

facteurs (nombre de règles et taux de bonne classication) dans la fonction tness de l'AG. L'étude de cette solution est envisagée comme perspective de ce travail. Pour le reste de ce rapport, nous choisissons les valeurs de paramètres ayant conduit aux meilleurs résultats obtenus pour chaque base de données.

5.5.3 Eet de la méthode de discrétisation pour le

regroupe-ment d'attributs

Dans la phase de regroupement d'attributs de SIFRA, une première étape de discréti-sation est requise pour partitionner les attributs numériques en des intervalles et pouvoir appliquer par la suite un algorithme de génération des itemsets fréquents. Dans le chapitre 4, nous avons noté que la méthode de discrétisation choisie peut avoir un eet majeur sur les résultats des groupes d'attributs générés et nous avons étudié quelques méthodes de discrétisation qui peuvent être adaptées à notre contexte. Parmi les méthodes étudiées, la discrétisation supervisée-multivariée se distingue par le fait qu'elle prend en compte l'in-terdépendance entre les attributs d'une part et l'information liée à la classe d'autre part. Nous rappelons que notre méthode de regroupement d'attributs vise à dégager les liaisons entre les attributs, donc prendre en compte les inter-dépendances entre ces attributs lors de leur discrétisation pourrait être très intéressant. De plus, puisque les groupes d'attri-buts générés seront utilisés pour construire des règles de classication oues, il serait donc intéressant de considérer l'information liée à la classe lors de la phase de discrétisation. Pour cela, nous avons choisit d'utiliser une méthode de discrétisation à la fois supervisée et multivariée dans la phase de regroupement d'attributs de SIFRA.

D'un autre côté, nous rappelons que la deuxième phase de SIFRA (la phase d'ap-prentissage ou de génération des règles oues) requiert aussi une étape de discrétisation pour le partitionnement ou des variables d'entrée en des sous-espaces ous (voir section 1.3.1.3 du chapitre 1). Nous avons adopté la méthode de discrétisation supervisée MDLP

Figure 50  Eet des méthodes de discrétisation sur la performance de la méthode SIFRA

[Fayyad and Irani, 1993] dans cette phase puisqu'elle a montré des résultats meilleurs que ceux obtenus par la discrétisation régulière (voir paragraphe "Eet de la méthode de partition oue" et annexe H). Il serait intéressant de tester l'utilisation de la même mé-thode de discrétisation dans les deux phases : la phase de regroupement d'attributs et la phase d'apprentissage. La discrétisation supervisée de MDLP [Fayyad and Irani, 1993] est adoptée dans ce cas dans les deux phases.

Nous menons alors des tests expérimentaux de SIFRA avec trois méthodes de discré-tisation diérentes :

• la discrétisation régulière : la méthode EWI avec 3 intervalles

• la discrétisation supervisée : la méthode MDLP de [Fayyad and Irani, 1993]

• la discrétisation supervisée-multivariée : la méthode nommée "Clustering+MDLP"

de [Gupta et al., 2010]

Les valeurs précises des taux de bonne classication et les groupes d'attributs liés obtenus dans diérentes bases de données sont présentés en Annexe I. An de bien illustrer l'eet de ces méthodes et de pouvoir les comparer, nous présentons sous forme graphique (Figure 50) les taux de bonne classication obtenus par SIFRA en utilisant les trois méthodes de discrétisation.

D'après cette gure, nous remarquons que la discrétisation supervisée-multivariée réa-lise de meilleurs résultats par rapport aux deux autres méthodes de discrétisation dans

le cas des bases de données Iris, Glass et Balance-scale. Cependant, comparée à la dis-crétisation régulière, nous notons que la disdis-crétisation supervisée-multivariée a dégradé la performance de classication dans 4 bases de données.

Avec les bases Diabetes, Ecoli et Ionosphere, nous trouvons que les meilleurs taux de bonne classication sont obtenus avec la discrétisation supervisée. Il est aussi à noter que cette méthode de discrétisation réalise de meilleures performances que la discrétisation régulière dans presque tous les cas (sauf avec les bases Vehicle et Heart-statlog). Cela conrme le fait qu'utiliser la même méthode de discrétisation dans la phase de regroupe-ment d'attributs et la phase d'apprentissage de SIFRA pourrait améliorer les résultats de classication.

Finalement, nous remarquons que la discrétisation régulière donne parfois des résul-tats de classication plus intéressants que ceux obtenus par les deux autres méthodes de discrétisation (comme le cas des bases Vehicle et Heart-statlog).

Pour conclure, la discrétisation supervisée-multivariée pourrait être intéressante pour certaines bases de données (comme Iris, Glass et Balance-scale). Cependant, il s'avère que la discrétisation supervisée présente aussi un choix intéressant dans plusieurs autres bases de données. Ceci peut être expliqué par le fait que la même méthode de discrétisation est utilisée dans la phase d'apprentissage de SIFRA. Néanmoins, dans les bases Vehicle et Heart-statlog, la discrétisation régulière présente des résultats très satisfaisants par rapport aux deux autres méthodes. À travers ces résultats, nous déduisons que le choix de la méthode de discrétisation appropriée s'avère être dépendant des données. Élargir les bases de tests et analyser la nature des données testées peut être envisageable comme perspective à cette étude.

L'utilisation de la méthode de discrétisation supervisée dans SIFRA montre des ré-sultats satisfaisants dans certaines bases de données. Il pourrait aussi être intéressant d'utiliser cette méthode de discrétisation dans le cas de l'extension supervisée de SIFRA, la méthode SIFRA-SAR. Comme la méthode SIFRA-SAR utilise une approche de regrou-pement d'attributs supervisée, la prise en compte de l'attribut Classe dans la phase de discrétisation pourrait aussi être intéressant. Dans ce contexte, nous proposons d'utili-ser la méthode de discrétisation supervisée MDLP dans les deux versions de l'approche SIFRA-SAR : "SAR avec Attribut Classe" et "SAR avec facteur d'homogénéité". Nous proposons aussi de tester la méthode de discrétisation supervisée-multivariée dans ces deux méthodes SAR. Les résultats de tous ces tests sont fournis en Annexe I. À travers cette étude, nous notons que les résultats obtenus sur les méthodes SIFRA-SAR ont les mêmes tendances que ceux obtenus avec SIFRA : l'utilisation des méthodes de discréti-sation supervisée ou supervisée-multivariée dans le contexte des approches SIFRA-SAR semble intéressante dans certaines bases de données. Cependant, la discrétisation régulière paraît plus adaptée à nos méthodes SIFRA-SAR dans plusieurs cas.