• Aucun résultat trouvé

Comparaison entre SIFRA et SIFRA-SAR

5.6 Analyse de la performance des méthodes proposées

5.6.1 Comparaison entre SIFRA et SIFRA-SAR

Dans cette section, nous présentons une comparaison de nos méthodes proposées : SI-FRA, "SAR avec l'attribut Classe" et "SAR avec facteur d'homogénéité". Nous rappelons que la méthode SIFRA utilise une approche de regroupement d'attributs qui cherche les

associations intéressantes entre les attributs sans considérer leur liaisons avec la classe. Alors que les deux approches SAR cherche les associations intéressantes entre les attributs en analysant l'information liée à la classe de deux manières diérentes : la première inclut l'attribut Classe dans la phase de génération des itemsets fréquents et la deuxième privi-lège les régions denses qui possèdent une homogénéité importante par rapport à l'attribut Classe.

Nous considérons également dans la méthode "SAR avec facteur d'homogénéité" les deux méthodes d'agrégation proposées : Max (pour dénoter l'homogénéité maximale parmi les homogénéités des diérentes régions liées) et Moy (qui signie la moyenne des homogénéités des diérentes régions liées).

Le tableau 10 montre les taux de bonne classication obtenus par les diérentes mé-thodes, suivies entre parenthèses du nombre de règles générées.

D'après ce tableau, nous remarquons que des résultats similaires sont obtenus par toutes les approches avec la base Iris. Ceci est dû au fait que les mêmes groupes d'attri-buts sont trouvés par les diérentes méthodes. Cependant, les méthodes de regroupement d'attributs supervisées donnent de meilleurs résultats que SIFRA dans presque toutes les autres bases de données, à l'exception de Vehicle. Elles améliorent de façon signicative les taux de bonne classication pour les cinq dernières bases de données.

Ainsi, "SAR avec l'attribut Classe" améliore les taux de classication de 3% par rap-port à SIFRA dans le cas de la base de données Glass et de 0.85% dans la base Diabetes. La méthode "SAR avec facteur d'homogénéité" donne de meilleurs résultats que SIFRA et que "SAR avec l'attribut Classe" pour les bases de données Heart-statlog, Ecoli et Balance-scale. Une amélioration considérable de 27% est obtenue dans le cas de la base Ecoli. Avec les bases de données Sonar et Wine, la méthode "SAR avec facteur d'homo-généité" donne des résultats légèrement meilleurs que SIFRA et que "SAR avec l'attribut Classe". Pour la base de données Vehicle, la version "Moy" de la méthode "SAR avec fac-teur d'homogénéité" donnent une précision légèrement inférieure à SIFRA (66.19% contre 67.61%). Le nombre de règles dans ce cas est inférieur à celui obtenu par SIFRA.

En résumé, les méthodes SAR semblent être meilleures que SIFRA dans presque tous les cas, à l'exception de la base de données Vehicle. Cela conrme que le fait de privilégier les groupes d'attributs qui sont associés à la classe peut améliorer les taux de bonne classication. Enn, pour comprendre pourquoi SIFRA surpassent les méthodes SAR pour la base Vehicle, une analyse détaillée de la nature des données et de leurs liaisons avec l'attribut Classe devrait être eectuée dans un travail futur.

Concernant le nombre de règles générées, il varie légèrement entre les diérentes ap-proches pour toutes les bases de données, à l'exception de la base de données Diabetes. En fait, le nombre de règles générées dépend du nombre d'attributs dans chaque groupe. Ainsi, le grand nombre de règles obtenues par la méthode "SAR avec facteur d'homo-généité" dans le cas de la base Diabetes peut s'expliquer par le fait que des groupes contenant un grand nombre d'attributs liés ont été détectés.

SIFRA SAR avec SAR avec facteur l'attribut Classe d'homogénéité

Moy Max Iris 97.33 (14) 97.33 (14) 97.33 (14) 97.33 (14) Wine 98.87 (38) 98.87 (38) 99.43 (39) 98.87 (38) Vehicle 67.61 (273) 65.13 (131) 66.19 (148) 65.95 (156) Sonar 66.34 (78) 66.34 (76) 66.82 (78) 66.82 (78) Glass 62.14 (13) 64.48 (24) 63.08 (31) 63.55 (8) Diabetes 75.26 (35) 76.95 (40) 76.43 (79) 76.56 (97) Heart-statlog 77.40 (14) 79.25 (13) 80.00 (17) 80.00 (17) Ecoli 63.98 (20) 66.07 (18) 81.25 (47) 81.25 (47) Balance-scale 77.12 (17) 77.28 (17) 78.40 (30) 77.92 (30)

Tableau 10  Comparaison entre les méthodes proposées : SIFRA et SAR

Nous rappelons que dans la méthode "SAR avec facteur d'homogénéité", le degré d'association d'un groupe d'attributs β prend en considération deux facteurs : β1 qui représente la densité des données dans les régions liées et β2 qui représente le degré d'homogénéité des diérentes régions liées du groupe d'attributs. Ainsi, pour calculer le degré d'homogénéité β2, nous avons proposé dans le chapitre 4 d'utiliser deux méthodes d'agrégation diérentes :

1. β2 est calculé comme étant la moyenne des homogénéités des diérentes régions liées (voir équation 58), désignée par Moy

2. β2 est égal à la valeur maximale des homogénéités des diérentes régions liées (voir équation 60), désignée par Max

D'après le tableau 10, nous remarquons que ces deux méthodes (la moyenne et le maximum) donnent les mêmes résultats dans 4 bases de données et une diérence mineure dans les autres bases de données. La faible diérence obtenue dans la plupart des cas s'explique par le fait que le facteur d'homogénéité β2 a généralement une valeur faible par rapport au coecient β1 (quelque soit la fonction d'agrégation utilisée). Ainsi, modier la méthode du calcul du facteur d'homogénéité β2 a généralement un impact mineur sur le degré d'association β. Pour améliorer la valeur du facteur d'homogénéité, il serait intéressant d'utiliser dans son agrégation avec le facteur β1 une méthode de moyenne pondérée pour calculer le degré d'association β. Cela permettrait de donner plus de poids au facteur d'homogénéité β2.

Comme les deux méthodes (Moy et Max) ont donné des résultats similaires, nous avons décidé de présenter uniquement les meilleurs taux de classication obtenus par les deux méthodes dans les essais expérimentaux suivants.

5.6.2 Comparaison des méthodes proposées avec d'autres