11 Anti-monotonie de la mesure de Jaccard

Comme nous l’avons vu dans les parties précédentes, seuls le support et la all-confidence,

ainsi que les quelques mesures compatibles avec la généralisation, possèdent une propriété d’anti-monotonie. Même en se limitant aux règles de classe, comme c’est le cas pour la propriété UEUC et la recherche de règles optimales, il est difficile d’avoir un ensemble minimal et complet de règles intéressantes pour une mesure donnée. Cela pose notamment des problèmes dans la recherche de pépites de connaissance qui s’appuient sur des motifs non-fréquents. Si [Surana et al. 10] s’intéresse aux mesures qui évaluent correctement ces règles, ce travail s’appuie toujours sur la recherche de motifs rares, quand nous pensons qu’il faudrait pouvoir, sinon s’en affranchir, au moins la complé-ter par des propriétés algorithmiques sur les mesures. Pour la recherche de pépites de connaissance au sens de la confiance, [Szathmary et al. 10] propose d’agréger plusieurs domaines (motifs rares minimaux, clôture. . .) pour découvrir un ensemble de règles d’association rares. Mais la contrainte de support subsiste. Nous proposons ici une approche novatrice s’appuyant sur notre vision proje-tée des règles d’association afin de déterminer l’existence d’une propriété d’anti-monotonie sur les mesures. L’état de l’art sur ce domaine a été présenté dans le chapitre précédent.

11.1 CONTEXTE ET PREMIÈRES REMARQUES

Dans toute cette partie, nous nous restreignons aux règles de classe, les règles dont le conséquent est fixé. Si nous nous plaçons dans le domaine adapté aux exemples Dex, toutes les règles ayant le même conséquent sont projetées dans un même plan, dans une zone délimitée par le domaine adapté. La figure 11.1(a) montre l’apparence de cette zone pour une proportion de conséquents

p_c donnée. Si l’on considère deux règles r : P = p → c et r’ : P⁰ = p⁰ → c telles que r soit une généralisation de r’, c’est à dire que P ⊂ P⁰ (on notera r’4r, r’ est plus spécifique que r), la propriété d’anti-monotonie du support nous rappelle que

supp(P⁰= p⁰) ≤ supp(P = p)

supp(P⁰ = p⁰, c) ≤ supp(P = p, c)

et nous permet donc de localiser la règle r’ par rapport à la règle r : r’ se trouve dans un rectangle délimité par l’origine et la projection de r noté R(r) comme cela est illustré dans la figure 11.1(b). Soit maintenant m une mesure d’intérêt des règles d’association, définissons par m↓ un seuil de mesure pré-fixé. Nous dirons que m présente une propriété d’anti-monotonie s’il existe un prédicat P sur les règles de classe tel que l’implication suivante soit vérifiée :

si P(r) alors ∀r⁰ 4 r, m(r⁰) < m↓.

Nous appellerons un tel prédicat P un prédicat d’élagage. Ce prédicat induit naturellement une stratégie d’élagage du bas vers le haut : dans le cas du support, on aurait par exemple P(r) = (supp(r) < m_↓). Le prédicat dépend de la mesure utilisée, ainsi que du seuil fixé. Jusqu’à présent, et

11

ant supp supp ≥ 0 supp ≥^ant + cons −¹ supp ≤ cons supp ≤ ant (1, p_c) 1 − p_c 1 1 p_c

(a) Domaine adapté aux exemples pour cons = pc. Chaque contrainte est rappelée sur la droite concernée.

ant supp (1, p_c) 1 − p_c 1 1 p_c R(r) × r r⁰

(b) Localisation de la règle r’ plus spécifique que la règle r.

Figure 11.1^{: Projections de règles et dépendance d’une règle plus spécifique.}

à notre connaissance, aucune des mesures étudiées dans cette thèse ne présentait de telle propriété d’anti-monotonie.

Nous allons dans un premier temps nous concentrer sur la mesure de Jaccard et nous fixer la tâche de découvrir, dans une base de données, l’ensemble des règles de classe dont la valeur de la mesure de Jaccard se trouve au dessus de m↓. Dans nos travaux sur la robustesse, nous avons mis en évidence que la mesure de Jaccard était une mesure plane, c’est-à-dire que la surface définie par jacc(r) = m_↓ est un plan. Sa restriction au plan (z = p_c) est donc une droite que nous avons représentée sur la figure 11.2(a). Cette droite partage le domaine adapté en deux régions distinctes : au dessus de la droite, S+

m↓, dans laquelle toutes les règles projetées sont intéressantes, et sous la droite, S_m⁻_↓, dans laquelle les règles projetées ne sont pas intéressantes.

Pour trouver une propriété d’anti-monotonie, il faut trouver un point r du domaine adapté (r pourra être, ou non, la projection d’une règle) tel que le rectangle associé R(r) se trouve entiè-rement inclus dans la zone S_m⁻_↓.

11.2 PROPRIÉTÉ D’ANTI-MONOTONIE DE Jaccard

Notre approche est essentiellement graphique. Considérons la figure 11.2(b) qui montre que la droite définie par l’ensemble des points tels que jacc = m_↓ a pour équation

supp = ^m^↓

1 + m↓

ant + ^m^↓

1 + m↓

p_c

et coupe l’axe des abscisses au point de coordonnées (0, ^m↓

1+m_↓p_c). Puisque la mesure de Jaccard prend ses valeurs entre 0 et 1, la quantité ^m↓

1+m↓p_cest un réel positif. Ainsi, toutes les règles r ayant une valeur de support inférieure à cette quantité sont telles que R(r) ∈ (Sm⁻_↓) (figure 11.2(c)). Posons donc le prédicat

P0(r) = (supp(r) < ^m^↓ 1 + m ↓^p^c^).

11

ant supp (1, p_c) 1 − p_c 1 1 pc Jacc = m^↓ Jacc = m^↓ + -+ -+ -+ -+ -+ -+ -+ -+ -J acc > m↓ J acc < m↓ S+ m↓ S− m↓

(a) Droite limite pour la mesure de Jaccard

ant supp (1, p_c) 1 − pc 1 1 p_c Jacc^{= m} ↓ m↓ 1+m↓p_c

(b) Paramètres de la droite limite

ant supp (1, p_c) 1 − pc 1 1 pc m↓ 1+m↓pc × r J acc(r⁰) < m↓

ant supp (1, pc) 1 − pc 1 1 pc m↓ 1+m↓pc Règles intéressantes Règles ne pouvant pas être élaguées

m↓pc ×

J acc(r⁰) < m↓

règles élagables

(d) Propriété d’anti-monotonie avancée

11

Naturellement, la mesure de Jaccard possède la propriété d’anti-monotonie suivante : si P0(r) alors ∀r⁰ 4 r, jacc(r⁰) < m↓.

Nous pouvons affiner cette propriété en nous rappelant que seuls les points du domaine adapté sont d’intérêt pour nous. Considérons le point d’intersection supérieure gauche entre Dex et la droite limite. Ses coordonnées sont (m_↓p_c, m_↓p_c). Finalement, aucune règle ayant une valeur de

support inférieure à m_↓p_c ni aucune de ses spécifications ne possèdent une valeur de mesure de

Jaccard supérieure à m↓, comme le montre la figure 11.2(d). Nous pouvons donc définir le prédicat PJ(r) = (supp(r) < m_↓p_c),

et affirmer que la mesure de Jaccard possède la propriété d’anti-monotonie suivante : si P_J(r) alors ∀r⁰4 r, jacc(r⁰) < m_↓.

Cela peut se vérifier par le calcul : considérons deux règles de classe r’4r, et supposons que PJ(r) est vérifiée, c’est-à-dire que supp(r) < m↓p_c. Nous pouvons écrire les équations suivantes :

jacc(r⁰) = ^supp(r 0)

ant(r0) + cons(r0) − supp(r0)

= ^supp(r

ant(r0) + cons(r) − supp(r0) ≤ ^supp(r 0) cons(r) ≤ ^supp(r) cons(r) < ^m^↓^cons(r) cons(r) < m_↓

Nous avons donc bien décrit une propriété d’anti-monotonie de la mesure de Jaccard dans le cadre de la recherche de règles de classe.

Propriété 5 – Anti-monotonie de Jaccard – : La mesure de Jaccard vérifie la propriété d’anti-monotonie suivante :

si (supp(r) < m↓p_c) alors

J acc(r) < m_↓

et ∀r⁰ 4 r, Jacc(r⁰) < m_↓ ^. Nous allons maintenant étudier cette propriété de manière expérimentale.

11.3 L’ALGORITHME

Pour évaluer la réelle efficacité de cette propriété d’anti-monotonie de la mesure de Jaccard, nous utilisons un algorithme s’appuyant sur l’algorithme de recherche de règles de classe utilisé dans CBA [Liu et al. 98] et adapté ensuite dans l’algorithme ORD [Li 06] pour la recherche de règles optimales. Cet algorithme se divise en trois parties : la fonction d’élagage, la génération de

11

Dans le document Contribution à l'étude des mesures de l'intérêt des règles d'association et à leurs propriétés algorithmiques. (Page 128-132)