Génération des règles d’association - Extraction de règles d’association

Extraction de règles d’association

3.3 Génération des règles d’association

La génération de règles d’association est la seconde étape essentielle du processus d’ex-traction des règles d’association. Un algorithme efficace à ce sujet a été proposé par Agrawal dans (Agrawal et al., 1994 [AS94]). Son principe général est le suivant. Pour chaque itemset fréquent I1 ∈ F de taille supérieure ou égale à 2, tous les sous-ensembles I2 de I1 sont dé-terminés et la valeur du support supp(I₁)/supp(I₂) est calculée. Si ce rapport est supérieur ou égal au seuil de confiance minconf fixé par l’utilisateur, la règle d’association I₁ →I₂\I₁ est générée. L’algorithme est basé sur la propriété suivante.

Propriété 6. Etant donné un itemset I, le support d’un sous-ensemble I⁰ est supérieur ou égal au support de I.

Etant donnés trois itemsets I₁, I₂, I₃ tels que I₁ ⊃ I₂ ⊃ I₃, il est possible de déduire de cette propriété que supp(I₃) ≥ supp(I₂) ≥ supp(I₁) [Pas00]. En conséquence, la confiance de la règle r : I₂ → I₁\I₂ est supérieure ou égale à la confiance de la règle r⁰ :I₃ → I₁\I₃. Si la règle r n’est pas valide, alors la règle r⁰ ne le sera pas non plus. Cela signifie que si la règle d’association AC → DE n’est pas valide, par conséquent les règles A → CDE et C → ADE ne seront pas valides non plus, et il n’est pas nécessaire de calculer leurs confiances. Cette propriété permet de diminuer le nombre de règles d’association testées par l’algorithme. Réciproquement, la confiance de la règle r⁰⁰ :I₁\I₂ →I₂ est supérieure ou égale à la confiance de la règle r⁰⁰⁰ : I₁\I₃ → I₃. Si la règle r⁰⁰⁰ est valide alors la règle r⁰⁰ le sera également. Cela signifie que si la règle d’association A → BC est valide, alors les règles AB →C et AC →B le seront également.

3.3.1 Algorithme de génération des règles d’association

Soit F un ensemble d’itemsets fréquents dans lequel chaque élément de cet ensemble possède deux champs qui sont l’itemset en lui-même et son support. H_m représente les m-itemsets qui sont les conséquences de règles valides générées à partir de l’itemset I_k. Le pseudo-code est représenté dans l’algorithme 20.

Algorithm 20 Algorithme de génération des règles d’association Require: F ensemble des itemsets fréquents ; seuil de confiance minconf Ensure: R ensemble des règles d’association valides

1: for allk-itemsets fréquents I_k ∈ F tel quek≥2 do 2: H₁ ← 1-itemset sous ensembles deI_k

3: for allh1 ∈H1 do

4: confiance(r)←support(I_k)/support(I_k\h₁) 5: if (confiance(r)≥ minconf)then

6: R←R∪ {r:Ik\h_k→h1}

7: else

8: H₁ ←H₁\{h₁} 9: end if

10: end for

11: Gen-Rules(I_k, H₁) 12: end for

13: RetournerR

L’algorithme considère successivement chaque itemset fréquent de F de taille supérieur à un (lignes 1 à 12). Pour chacun des itemsets I_k, l’ensemble H₁ des 1-itemsets qui sont des sous-ensembles de I_k est généré (ligne 2). Et pour chacun de ces itemsets h₁, la règle I_k\h₁ → h₁ est générée si sa confiance est supérieure ou égale à minconf (lignes 4 à 6).

Sinon, si cette règle n’est pas valide, alors le 1-itemset h₁ est supprimé de H₁ (ligne 8).

Lorsque tous les 1-itemsets de H₁ ont été testés, h₁ contient la liste des 1-itemsets qui sont les conséquences des règles valides générées à partir deI_k. Les règles valides générées à partir de I_k sont les règles dont l’union de l’antécédent et de la conséquence donne l’itemset I_k. La procédure Gen-Rules est alors appelée (ligne 11) afin d’insérer dans R les règles valides générées à partir de I_k dont la conséquence contient plus de un item. L’algorithme termie lorsque tous les k-itemsets fréquents pour k ≥ 2 ont été considérés. L’ensemble R renvoyé par l’algorithme (ligne 13) contient alors toutes les règles d’association valides générées à partir de l’ensemble F.

Procédure Gen-Rules La procédure Gen-Rules met à jour l’esemble R des règles d’as-sociations en y insérant les règles valides générées à partir de Ik dont la conséquence est un (m+ 1)-itemsets. Cette procédure est récursive et réalise en fin d’exécution un appel afin de générer, à partir de I_k, les règles valides dont la conséquence est un (m+ 2)-itemsets.

Ces appels se répètent récursivement jusqu’à ce que les règles, dont la conséquence est un (|I_k|+ 1)-itemsets, aient été insérées dansR. La démarche de cette procédure est représentée dans l’algorithme 21ci-après.

Algorithm 21 Algorithme Gen-Rules : Insertion de règles d’association dans R Require: k-itemsets fréquents ; Ensemble H_m de m-itemsets ; Seuilminconf

Ensure: EnsembleR de règles d’associations valides 1: if k > m+ 1then

2: H_m+1 ←Apriori-Gen(H_m)

3: for allpour chaqueh_m+1∈H_m+1 do

4: confiance(r)←support(Ik)/support(Ik\h_m+1) 5: if confiance(r)≥minconfthen

6: R←R∪ {r:I_k\h_m+1→h_m+1}

7: else

8: Supprimerh_m+1 de H_m+1 9: end if

10: end for

11: Gen-Rules(I_k, H_m+1) 12: end if

Le premier test de l’algorithme (ligne 1) correspond au test d’arrêt des appels récurs-sifs de la procédure. Ensuite, l’ensemble H_m+1 des (m+ 1)-itemsets qui peuvent être des conséquences de règles valides générées à partir de I_k est créé. Cette création est réalisée en appliquant la procédure Apriori-Gen à l’ensemble H_m des m-itemsets qui sont les consé-quences de règles valides générées à partir de I_k (ligne 2). Chaque règle dont la conséquence est un (m+ 1)-itemsets de Hm+1 est alors testée (lignes 3 à 10). Si la règle testée est valide, elle est insérée dans R (ligne 6). Sinon, les (m+ 1)-itemsets qui en est la conséquence est supprimée de Hm+1 (ligne 8). Cette suppression correspond à la diminution du nombre de règles testées basé sur la propriété 6 ci-dessus. En effet, si la règle d’associationAC ←DE n’est pas valide, DE est supprimé de H₂. Lors de l’appel récursif suivant, les itemsetsCDE etADE ne seront pas crées par Apriori-Gen dans H₃ carDE est un sous-ensemble deCDE et deADE. Les règlesA ←CDE etC ←ADE ne seront donc pas testées. L’appel récursif Gen-Rules est réalisé en fin de procédure (ligne 11) avec comme paramètre l’itemset Ik et l’ensemble H_m+1.

3.4 Conclusion partielle

La réalisation de cet état de l’art a mis en exergue une suite logique à nos travaux sur l’extraction de règles d’association dans un contexte binaire, à savoir la recherche des motifs fréquents, et la génération de règles d’association au moyen d’une mesure de qualité plus pertinente, M_GK (Totohasina et Feno, 2008 [TF08, Tot08]), par rapport à ladite mesure confiance d’Agrawal (Agrawal et al., 1993 [AIS93]). Cet état de l’art fait apparaître un panorama de l’existant autour de l’extraction de règles d’association, nous y avons recencé un nombre important d’approches. Il nous a permis de comparer différentes approches adaptées avec notre problématique. Il ne s’agit pas ici d’une description exhaustive de l’état de l’art, étant donné qu’il existe de nombreux travaux dans la littérature, mais les enseignements tirés de cette étude ont été exploités lors de l’élaboration de notre approche. Ce chapitre clôt notre partie état de l’art sur les différents domaines de recherche abordés par ce mémoire.

Dans le document Extraction de règles d'association selon le couple support-MGK : Graphes implicatifs et Applications en didactique des mathématiques (Page 54-57)