• Aucun résultat trouvé

Fouille des r` egles d’association disjonctives int´ eressantes

Fouille de r` egles d’association disjonctives en utilisant les

Algorithme 13 : Test de minimalit´ e

5.4 Fouille de r` egles d’association disjonctives

5.5.2 Fouille des r` egles d’association disjonctives int´ eressantes

Dans ce cadre, nous nous int´eressons aux exp´erimentations relatives `a l’algorithme 16. Nous extrayons alors des r`egles d’association int´eressantes et valides en fonction de la variation de minsup et de min− interest.

16 64 256 1024 4096 16384 65536 262144 1.04858e+006 4.1943e+006 1 2 3 4 5 6 7 8 9 10 Nombre de R-A-D min-int 10 e(-1)

Nbre de R-A-D en fonction de min-int |min-sup=0.1|

|min-sup=1|

Figure 5.13 – Temps d’extraction des IDMHI en fonction de la variation de minsup.

Ainsi, nous nous focalisons sur deux types d’analyses, `a savoir une analyse quantitative des r´esultats obtenus et puis une analyse qualitative qui met en œuvre l’int´erˆet de ces r`egles extraites.

Analyse quantitative : `A ce niveau l`a, nous ´etudions le nombre de r`egles dis-jonctives valides RA (i.e., qui satisfont minsup et minconf ) et le temps n´ e-cessaire pour leur extraction en fonction des param`etres suivants : minsup et min− interest. De mˆeme, nous d´esignons par nonRA les r`egles disjonctives non valides correspondant aux candidats {ci} dans l’algorithme 16, qu’on va encore augmenter leurs conclusions dans une nouvelle it´eration.

En premier lieu, nous gardons fixe minsup `a 1 et 0.1 et nous varions la valeur de min− interest de 1 `a 0.1. La valeur de minconf est maintenue aussi fixe `a 0.5. Les r´esultats obtenus sont illustr´es respectivement dans les tableaux de figures 5.14 et 5.15.

Selon ces deux tableaux (i.e., 5.14 et 5.15), le nombre de r`egles valides augmente en diminuant la valeur de min− interest. Ceci est tout `a fait logique, car en diminuant la valeur de min−interest et pour une valeur constante de minsup, le nombre de M HDI augmente et c’est de mˆeme pour les r`egles d’association. En plus, en diminuant la valeur de min−interest, nous obtenons plus de conclusions qui satisfont le crit`ere d’homog´en´eit´e. Le temps d’ex´ecution est toujours propor-tionnel au nombre de r`egles disjonctives valides et non valids extraites.

En plus, nous remarquons que le nombre de r`egles valides est maintenu constant pour les valeurs de min-interest entre 0.7 et 0.3 et a tripl´e `a la valeur de min-interest ´egale `a 0.2 jusqu’`a arriver `a une saturation pour la valeur de 0.1. Ceci est justifi´e par le fait que nos donn´ees sont plus sensibles `a des valeurs faibles de min−interest, comme nous l’avons d´ej`a mentionn´e dans les exp´erimentations de la sous-section pr´ec´edente relatives aux IDF M H.

Nous remarquons aussi que le nombre de r`egles non valides pour minsup = 1 est nul. En fait, toutes les r`egles qui ont ´et´e form´ees `a partir de IDF M H satisfont les seuils de minsup, min− interest et minconf. De mˆeme, nous avons v´erifi´e que toutes ces r`egles ont une confiance ´egale `a 1.

Min-interest 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 IDFMH 222262 9340 430 430 430 430 430 358 67 67 RA sat 633 770 184 470 184 470 184 470 184 470 184 470 127 806 4422 4422 nonRA sat 0 0 0 0 0 0 0 0 0 Temps sat . 9. 9. 9. 10. 9. 7. 4. 3. Ex´e(s) 942 667 655 361 648 417 068 913

Figure 5.14 – Variation de min − interest pour Min-sup=1

Min-interest 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 IDFMH 222354 2299 1852 1852 1852 1852 1852 97 7 7 RA sat 2910 1528 1528 1528 1528 1528 63 0 0 nonRA sat 716 466 466 466 466 466 152 84 84 280263 854594 797016 854602 797016 807892 796 Temps sat 10546. 7612 . 6848. 6842 . 6843. 6840. 5. 2. 2. Ex´e(s) 432 812 459 264 340 226 383 226 242

Figure 5.15 – Variation de min − interest pour Min-sup=0.1

En deuxi`eme lieu, nous gardons fixes min− interest `a 1 (valeur importante) et `

a 0.2 (valeur faible) et nous faisons varier la valeur de minsup de 0.01 `a 1. Les r´esultats obtenus sont illustr´es dans les tableaux de deux figures 5.16 et 5.17. Selon ces deux tableaux, le nombre de r`egles valides g´en´er´ees et le nombre de r`egles non valides sont ´etroitement li´es au nombre des IDF M H extraits pr´ec´ e-demment. Ceci est tout `a fait logique, ´etant donn´ee que les r`egles sont extraites `a base de ces IDF M H. Ainsi, pour le cas de minsup = 0.07 et min−interest = 1, le nombre des IDF M H ´etait nul et par cons´equent ceux de r`egles valides et de r`egles non valides sont ausi nuls.

De mˆeme, nous remarquons que le temps d’ex´ecution est aussi proportionnel au nombre de IDF M H extrait `a chaque valeur de minsup.

Min-sup 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 IDFMH 23 36 15 10 8 2 0 3 2 7 RA 3 52 6 14 12 2 0 0 0 0 nonRA 1827 5492 450 130 33 0 0 8 4 84 Temps 2. 2. 2. 2. 2. 2. 0 2. 2. 2. Ex´e(s) 064 262 068 070 110 094 143 185 214

Figure 5.16 – Variation de minsup pour min-interest=1.

Min-sup 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 IDFMH 621 2890 629 721 870 1037 1453 1674 2065 2299 RA 24 6021 4824 759 16248 17432 29376 28025 13260 2910 nonRA 3 29 19 25 134 408 273 1208 1280 716 789824 430273 47509 466797 229838 159336 81783 811398 368745 268336 Temps 65. 807. 298. 396. 1982. 5956. 3558. 19533. 20382. 10380 Ex´e(s) 007 431 874 639 233 517 315 321 451 427

Figure 5.17 – Variation de minsup pour min-interest=0.2.

Analyse qualitative : `A ce niveau l`a, nous nous int´eressons `a trouver et interpr´ e-ter des r`egles valides int´eressantes, i.e., des r`egles qui contiennent des itemsets pour la pr´emisse et pour la conclusion qui ne sont pas proches s´emantiquement. Ces r`egles vont nous permettre de mieux exploiter la base de donn´ees Suisses et d’interpr´eter des informations utiles sur les habitudes et le mode de vie des ”Personnes” Suisses.

`

A la base de l’analyse quantitative et des tests r´ealis´es, nous d´ecidons de traiter des r`egles d’association valides et int´eressantes pour des valeurs bien d´etermin´ees de minsup ´egales `a 1, 0.5, 0.1, 0.05 et 0.01 et des valeurs bien d´etermin´ees aussi de min− interest correspondantes respectivement 1, 0.5 et 0.2.

En fait, pour minsup = 0.01, nous testons les deux valeurs de min-interest ´egales `

a 1 et 0.2. De mˆeme, pour la valeur de min− interest = 1, nous testons les trois valeurs de minsup ´egales `a 1, 0.5 et 0.05. La valeur de min−conf ´etait constante et ´egale `a 0.5.

Le nombre de r`egles valides r´esultantes et `a interpr´eter est r´esum´e dans le tableau de la figure 5.18. `````` ```````` Min-interest Minsup 1 0.5 0.1 0.05 0.01 1 4422 41 12 0.5 1528 974 0.2 2910 24

Figure 5.18 – Nombre de r`egles valides en fonction de minsup et de min− interest. Ainsi, notre travail consiste `a analyser ces sept fichiers correspondant aux r`egles extraites :

— fichier A.txt contenant 4422 r`egles valides et correspondant `a minsup = 1 et min-interest=1.

— fichier B.txt contenant 41 r`egles valides et correspondant `a minsup = 0.5 et min-interest=1.

— fichier C.txt contenant 12 r`egles valides et correspondant `a minsup = 0.05 et min-interest=1.

— fichier D.txt contenant 1528 r`egles valides et correspondant `a minsup = 0.1 et min-interest=0.5.

— fichier E.txt contenant 974 r`egles valides et correspondant `a minsup = 0.05 et min-interest=0.5.

— fichier F.txt contenant 24 r`egles valides et correspondant `a minsup = 0.01 et min-interest=0.2.

— fichier G.txt contenant 2910 r`egles valides et correspondant `a minsup = 0.1 et min-interest=0.2.

Par la suite, nous codons chacun de ces fichiers, de fa¸con qu’il contient des impli-cations entre nos donn´ees r´eelles. Aini, chaque item de la base de donn´ees corres-pondra `a une r´eponse `a une question bien d´efinie par laquelle a ´et´e interrog´e la population Suisse.

Exemple 39. Nous consid´erons la r`egle suivante du fichier A.txt : R : 691 692 693 => 473 474 Supp = 11330 ,conf= 1.000000

Cette r`egle R sera cod´ee `a la forme R et ceci pour faciliter son interpr´etation. R : Changement d’emploi/d’employeur-2`eme raison :1,2,3(Occuper ou rechercher un emploi plus int´eressant, Fin de contrat temporaire, Oblig´e de changer du fait de l’employeur) Changement d’emploi/d’employeur-2`eme raison :5 (Garde des enfants ou d’autres personnes `a charge) Changement d’emploi/d’employeur-2`eme raison :7(autre raison) => Fumeurs-pipe :1oui Fumeurs-pipe :2non Supp = 11330 ,conf= 1.000000

Lors de l’analyse de ces r`egles, nous nous limitons `a examiner que les r`egles exactes (i.e., confiance est ´egale `a 1). Dans cette liste de r`egles, nous cherchons celles qui nous paraissent int´eressantes i.e., elles traitent dans la pr´emisse et dans

la conclusion des items pour lesquels l’implication n’´etait pas implicite. Voici une liste de r`egles que nous jugeons int´eressantes.

— implication entre : Autre ´ev´enement grave (Ann´ee) => Souffre encore de cet ´

ev´enement grave(degr´es)

— implication entre : Conflit dans l’entourage => Changement d’emploi/d’employeur-2`eme raison

— implication entre : Poids individuel longitudinal, taille de l’´echantillon => Poids transversal individuel, taille de l’´echantillon inchang´ee

— implication entre : Poids individuel longitudinal, taille de l’´echantillon => Poids individuel longitudinal, extrapolant `a la taille de la population en 2004 — implication entre : Date de reception de la nationalit´e Suisse => Changement

de m´etier

— implication entre : Permis de r´esidence(s´ejour annuel B/ d’´etablissement C) => Poids individuel taille de l’´echantillon

— implication entre : Fumeurs-cigares / Fumeurs-pipe => Fumeurs-nombre de cigares par jour / Fumeurs-nombre de pipes par jour

— implication entre : Autres enfants n´es-7`eme enfant vit en Suisse => Satisfac-tion de vivre seul ou en commun

— implication entre : Conflits dans l’entourage-Mois => Souffre encore de ces conflits dans l’entourage(degr´es).

5.6 Conclusion

Dans ce chapitre, nous avons propos´e une nouvelle approche de fouille de r`egles d’association impliquant des items non fr´equents. En effet, les items non fr´equents sont group´es dans des itemsets pour produire des itemsets fr´equents selon la mesure du sup-port disjonctif. Dans le but de produire des r`egles aussi ”compr´ehensibles” que possible, les itemsets disjonctifs fr´equents ont ´et´e limit´es `a ˆetre minimaux par rapport `a l’inclusion ensembliste, et un crit`ere d’homog´en´eit´e a ´et´e consid´er´e pour filtrer les itemsets.

Nous avons impl´ement´e un premier algorithme pour la fouille de tous les itemsets disjonctifs-fr´equents minimaux homog`enes et un deuxi`eme pour le calcul de toutes les r`egles int´eressantes.

Nos algorithmes ont ´et´e test´es sur des donn´ees r´eelles issues de SHP .

Nous avons obtenu des r´esultats int´eressantes que se soitent au niveau du nombre de motifs extraits (les IDF M H et les r`egles d’association disjonctives int´eressantes) ou au niveau du temps d’ex´ecution et de la r´ealisabilit´e des ces exp´erimentations. De mˆeme, nous avons proc´ed´e `a l’analyse et l’interpr´etation des r´esultats obtenus.

Dans le chapitre prochain, nous g´en´eralisons ces r`egles disjonctives vers d’autres r`egles tenant compte de diff´erents types de supports que peut avoir un itemset.

Extraction de r`egles d’association