• Aucun résultat trouvé

Analyse du coût de la méthode SIFRA

Le coût de la méthode SIFRA peut être élevé dans certaines bases de données qui contiennent un nombre important d'attributs, et ceci est dû au coût important de l'algo-rithme Apriori dans ces bases. Dans ce contexte, nous avons proposé dans le chapitre 3 quelques solutions intéressantes pour réduire le coût d'exécution de la méthode SIFRA. L'utilisation d'algorithmes de génération d'itemsets fréquents basés sur des structures de données non-coûteuses comme FP-Growth, FIN et PrePost+ présente l'une des solu-tions envisagées. D'autres solusolu-tions plus rapides ont également été proposées telles que l'utilisation des algorithmes de génération d'itemsets fermés et des algorithmes de géné-ration d'itemsets maximaux. Nous exposons, dans cette section, les tests expérimentaux menés avec ces solutions sur diérentes bases de données. Nous choisissons des bases de données avec diérents nombres d'attributs et nombres d'observations. Les nombres d'attributs traités varient entre 4 et 76. Nous rappelons que le traitement d'une dizaine d'attributs ou plus par les SCBRF provoque une explosion du nombre de règles générées [Ishibuchi et al., 1992, Ishibuchi et al., 1993, Ishibuchi and Yamamoto, 2005]. Notre but consiste à pouvoir traiter un nombre d'attributs moyennement important (entre 10 et 100), en utilisant la méthode de regroupement d'attributs proposée dans le chapitre 3, pour générer un classieur ou performant dans un temps réduit.

géné-ration d'itemsets fréquents moins coûteux et plus rapides que Apriori ont été proposés dans la littérature (FP-Growth, FIN et PrePost+, ...). Nous choisissons de tester l'algo-rithme FP-Growth car c'est l'un des algol'algo-rithmes les plus connus dans la littérature et il a prouvé une meilleure ecacité par rapport à Apriori dans plusieurs travaux. Nous rappelons que le choix d'un algorithme de génération des itemsets fréquents plus ecace et moins coûteux que Apriori résout le problème de la complexité de la première phase de SIFRA (la phase de génération des itemsets fréquents), mais le nombre important d'item-sets fréquents générés rend la deuxième phase de SIFRA (la phase de détermination des attributs liés) plus coûteuse. Comme discuté dans le chapitre 3, nous proposons de remé-dier à cela en utilisant des algorithmes de génération d'itemsets fermés ou maximaux qui fournissent un ensemble réduit d'itemsets. Dans ce contexte, nous choisissons l'algorithme FPclose pour la génération des itemsets fermés d'une part et l'algorithme FPmax pour la génération des itemsets maximaux d'autre part.

Des tests expérimentaux avec les trois algorithmes choisis (FP-Growth, FPclose et FPmax) ont été réalisés en comparaison avec ceux obtenus par la version classique de SIFRA (où Apriori a été utilisé pour la génération des itemsets fréquents). Le temps de réponse et la précision de classication sont les deux critères utilisés dans cette étude. Nous présentons en détails les diérents tests menés et les résultats expérimentaux obtenus dans l'annexe F et nous exposons dans cette partie une synthèse de ces résultats.

An de pouvoir comparer et analyser les temps d'exécution des diérentes solutions, les tests expérimentaux doivent être élaborés sous les mêmes conditions. Pour cela, nous avons utilisé les mêmes paramètres d'entrée pour chaque base de données. Il est à noter

que certains paramètres, comme les seuils minsupp et βmin, ont un eet considérable sur

les résultats expérimentaux. En fait, le choix des ces deux seuils aecte le résultat de l'en-semble des itemsets fréquents générés, et inuence par la suite le résultat de classication ainsi que le temps de réponse de la méthode SIFRA. Une analyse ne de l'eet des seuils

minsupp et βmin sur le temps de réponse de la méthode SIFRA est fournie dans l'annexe

G.

En résumé, dans cette partie, nous avons testé cinq méthodes diérentes de génération d'itemsets dans le contexte de SIFRA :

1. La première utilise l'algorithme Apriori et génère donc l'ensemble de tous les itemsets fréquents

2. La deuxième utilise l'algorithme FP-Growth qui génère aussi tous les itemsets fré-quents mais qui est censé être plus rapide et ecace que Apriori

3. La troisième méthode utilise l'algorithme FPclose an de générer seulement l'en-semble des itemsets fermés

4. La quatrième utilise aussi l'algorithme FPclose mais l'adapte de manière à ce qu'il puisse retrouver tous les itemsets fréquents et non-fermés. Cette adaptation permet

d'éviter la perte des régions liées qui peuvent être intéressantes pour la phase de classication (voir paragraphe "Génération d'itemsets fermés" dans 3.6)

5. La cinquième méthode utilise l'algorithme FPmax et génère alors l'ensemble des itemsets maximaux qui est plus réduit que tous les ensembles précédents.

L'étude expérimentale réalisée pour comparer les cinq versions de SIFRA et les ré-sultats obtenus sont présentés dans l'annexe F. Ils ont permis de déduire les réré-sultats suivants :

• Concernant l'algorithme FP-Growth, son utilisation garantit l'obtention de tous les

groupes d'attributs envisagés sans perdre aucune information intéressante, et donc il n'aecte pas la performance de classication. Par ailleurs, l'algorithme FP-Growth garantit la réduction du temps de réponse par rapport à Apriori et a aussi montré une réduction considérable du temps de réponse par rapport à FPclose dans certaines bases de données.

• Lorsque nous utilisons l'algorithme FPclose, nous obtenons généralement une

réduc-tion considérable du temps de réponse par rapport aux diérents algorithmes. Ce-pendant, une baisse de la performance de classication pourrait être obtenue à cause de la perte de quelques régions liées. Cet inconvénient a été surtout marqué dans les petites bases de données. En revanche, il n'a pas trop inuencé la performance de classication dans les grandes bases de données. Ceci peut être expliqué par le fait que plusieurs associations peuvent être détectées lorsque le nombre d'attributs est important et que l'absence de quelques associations n'aecte pas trop le résultat de classication, par contre, dans les bases ayant un petit nombre d'attributs, un petit nombre d'associations est découvert par la méthode de regroupement d'attributs et l'élimination de quelques régions liées peut supprimer toutes les associations trouvées dans ces bases.

• L'utilisation de FPclose avec l'adaptation de son code pour qu'il retrouve toutes

les régions liées ratées ne semble pas intéressante surtout dans le cas des bases de données ayant un grand nombre d'attributs. En eet, le traitement supplémentaire qui cherche les régions ratées nécessite un temps de réponse parfois beaucoup plus important que le temps mis par Apriori.

• En utilisant l'algorithme FPmax, le temps de réponse est généralement réduit par

rapport à celui obtenu par Apriori. Cependant, aucun groupe d'attributs n'a été dé-tecté dans la plupart des bases de données : chaque attribut a été considéré comme indépendant et traité seul par un classieur. En eet, les itemsets de longueur impor-tante possèdent généralement des supports faibles ; de même, les groupes d'attributs les plus longs possèdent généralement les degrés d'association les plus faibles qui ne

peuvent généralement pas excéder le seuil d'association βmin. L'utilisation de

satisfait pas l'objectif principal de la phase de regroupement d'attributs qui consiste à détecter des associations intéressantes entre les attributs.

Pour conclure, nous notons que les deux choix les plus intéressants et adaptés à notre méthode SIFRA sont les algorithmes FP-Growth ou FPclose (sans adaptation). FPclose possède l'avantage de réduire considérablement le temps de réponse dans la plupart des bases de données. Cependant, il peut provoquer la perte de quelques informations utiles et diminuer par la suite la performance de classication de notre méthode SIFRA dans certaines bases de données. D'un autre côté, l'algorithme FP-Growth permet de détecter toutes les associations intéressantes sans perdre aucune information et garantit de plus la réduction du temps de réponse par rapport à Apriori et par rapport à FPclose dans certains cas. Pour cela, nous choisissons d'utiliser l'algorithme FP-Growth dans le reste de ce chapitre an de mener des tests expérimentaux rapides tout en gardant une bonne performance et précision de notre système.

5.5 Analyse des eets des paramètres sur la méthode