• Aucun résultat trouvé

2Dans notre travail nous allons essentiellement nous intéresser à des mesures d’intérêt, mais

2.3.3 Quelques exemples de mesures

mais en fait il s’agit là de comparaison entre deux règles : pour deux règles extraites, suivant un système particulier, on aura tendance à préférer celle qui apparait plus souvent, sans pour autant établir une notion de seuil.

Ces trois principes ont été agrégés par Piatetsky-Shapiro dans [Piatetsky-Shapiro 91] pour décrire ce que pourrait être une bonne mesure d’intérêt. Une quatrième propriété est ajoutée, qui consiste à être capable de repérer l’indépendance des attributs antécédent et conséquent de la règle. Dans sa définition originale, cette valeur de repère est 0 et les principes prennent la forme suivante [Piatetsky-Shapiro 91] : soit m une mesure d’intérêt objective des règles d’association, alors

– m(A → B) = 0 si pApB= pAB, i.e. s’il y a indépendance entre les attributs A et B ; – m croît avec pABlorsque tous les autres paramètres restent les mêmes ;

– m décroît avec pA (ou pB) lorsque tous les autres paramètres restent les mêmes.

La mesure la plus simple répondant à ces critères et citée par l’auteur à titre d’exemple, est la mesure de levier définie par lev(A → B) = pAB− pApB. Cependant, la valeur de référence à l’indépendance peut être différente de 0, l’important étant de pouvoir la repérer facilement et indépendemment de la règle. Ainsi, la mesure de lift [Brin et al. 97a] définie par lif t(A → B) =

pAB

pApB vérifie-t-elle aussi les mêmes critères de variation, mais repère l’indépendance par une valeur de 1.

Depuis, beaucoup d’autres critères ont été étudiés et beaucoup de mesures définies. Michael Hahsler propose l’étude de quelques mesures sur son site1, mais nous reviendrons plus en détail sur l’ensemble des mesures. Concernant les critères, dans [Lenca et al. 08, Vaillant 06], 9 sont par exemple étudiés pour comparer les mesures et les ordonner dans une approche orientée aide à la décision multicritère. Ces critères sont les suivants :

– symétrie de la mesure : A → B et B → A sont-elles traitées de la même manière ? – décroissance avec nB;

– situation à l’indépendance (constante, variable) ; – situation à l’indétermination,

– situation pour les règles logiques (constante, variable) ;

– linéarité avec pA¬B au voisinage de 0 : comportement par rapport à l’arrivée de contre-exemples ;

– sensibilité par rapport à la taille de la base n ; – facilité de fixer un seuil ;

– intelligibilité.

Ces critères sont repris dans [Geng et Hamilton 06] parmi d’autres pour décrire un grand nombre de mesures. Ils peuvent évidemment guider l’utilisateur dans le choix de sa mesure d’intérêt.

2.3.3 Quelques exemples de mesures

Le but de cette thèse n’est pas d’être exhaustif sur les mesures d’intérêt étudiées, mais plutôt de fournir des outils génériques d’étude des mesures. Nous verrons que ces outils peuvent être dirigés selon trois grands axes : robustesse des règles, adaptabilité des mesures à des propriétés algorithmiques existantes et anti-monotonicité des mesures dans le cadre des règles de classe. Nous allons cependant donner ici une ensemble de mesures sur lequel nous nous appuierons par la suite. Ces mesures sont détaillées dans [Ohsaki et al. 04, Tan et al. 04, Geng et Hamilton 06, Lenca et al. 08]. Nous donnons dans les tables 2.3 et 2.4 l’expression d’un ensemble de 42 mesures et, lorsqu’il nous a été possible de les retrouver, les références originales des mesures.

2

nom formule référence

confiance pAB

pA

[Cleverdon et al. 66]

confiance centrée pB|A− pB []

moindre contradiction 2pAB− pA pB [Azé et Kodratoff 02] conviction pAp¬B pA¬B [Brin et al. 97b] cosine pAB pApB [Salton et McGill 83] couverture pA [] Czekanowski 2pAB pA+ pB [Czekanowski 13]

facteur bayésien pA|B

pA|¬B [Jeffreys 35]

force collective pAB+ p¬A¬B

pA× pB+ p¬A× p¬B×

p¬A× pB+ pA× p¬B

p¬AB+ pA¬B [Aggarwal et Yu 98]

gain pAB− θpA [Fukuda et al. 96]

gain informationnel log pAB

pApB [Church et Hanks 90] Ganascia 2pAB pA − 1 [Ganascia 91] indice de Gini 1 pA × (pAB2+ pA¬B2) + 1 p¬A

× (p¬AB2+ p¬A¬B2) − pB2− p¬B2 [Gini 21]

indice d’implication npAB− pApB pAp¬B [Lerman et al. 81] intérêt |pAB− pApB| [] J1-mesure pAB× log pAB pApB [Wang et al. 98] Jaccard pAB pA+ pB− pAB [Jaccard 01] J-mesure pAB× log pAB pApB

+ pA¬B× log pA¬B

pAp¬B [Smyth et Goodman 91] Kappa 2 pAB− pApB pAp¬B+ pBp¬A [Cohen 60] Klosgen pAB× (pB|A− pB) [Klösgen 92] Kulczynski pAB

pA¬B+ p¬AB [Kulczynski 27]

2

nom formule référence

Laplace npAB+ 1

npA+ 2 [Good 65]

levier pAB− pApB [Piatetsky-Shapiro 91]

lift pAB

pApB [Brin et al. 97a]

Loevinger pB|A− pB

1 − pB [Loevinger 47]

odds ratio pABp¬A¬B

pA¬Bp¬AB [Yule 00]

one way support pB|A× log pAB

pApB [Yao et Liu 97] coefficient de Pearson pAB− pApBpApBp¬Ap¬B [Pearson 96] Piatetsky-Shapiro n × (pAB− pApB) [Piatetsky-Shapiro 91] précision pAB+ p¬A¬B [] prevalence pB []

Q de Yule pAB× p¬A¬B− pA¬B× p¬AB

pAB× p¬A¬B+ pA¬B× p¬AB [Yule 00]

rappel pAB

pB [Cleverdon et al. 66]

risque relatif pB|A

pB|¬A []

Sebag-Shoenauer pAB

pA¬B [Sebag et Schoenauer 88]

spécificité p¬B|¬A []

spécificité relative p¬A|¬B− p¬A [Lavrac et al. 99]

support pAB [Agrawal et al. 93]

taux exemples contre-exemples 1 −pA¬B

pAB []

valeur ajoutée max(pB|A− pB, pA|B− pA) [Tan et al. 04] Y de Yule

pAB× p¬A¬BpA¬B× p¬AB

pAB× p¬A¬B+√

pA¬B× p¬AB [Yule 00]

Zhang pAB− pApB

max(pABp¬B, pBpA¬B) [Zhang 00] Table 2.4: Ensemble de mesures

2

A B B¬A A¬B AB ¬A¬B

Figure 2.1 : Table de contingence ensembliste

Exemple 1 – Mesure de Jaccard – : La mesure de Jaccard est définie par

pAB

pA+pB−pAB. Si l’on considère la version ensembliste de la table de contingence (Fi-gure 2.1), on voit que cette mesure représente le rapport entre l’intersection des transactions contenant A et B et l’union de ces deux ensembles : J acc(A → B) = A∩B

A∪B. Ainsi, la mesure de Jaccard va favoriser les motifs fortement corrélés et proposant peu de contre-exemples et/ou faux positifs. À l’indépendance, elle ne présente pas une valeur fixe et sa valeur pour les règles logiques est aussi variable. Elle prend ses valeurs dans l’intervalle [0, 1] et sa valeur maximale 1 n’est atteinte que pour des motifs A et B égaux.

La mesure de Jaccard a donc une interprétation ensembliste. D’autres mesures s’apparentent aux fonctions d’entropie utilisées en théorie de l’information, typiquement celles faisant apparaitre un logarithme.

Exemple 2 – One Way Support – : La mesure du One Way Support est définie par

pB|A× log pAB

pApB. Elle peut être interprétée comme la quantité d’information apportée par le motif A dans la règle A → B par rapport à B. En effet, on remarque que

oneway(A → B) = −pB|A× (log(pB) − log(pB|A)). C’est le gain obtenu sur l’information B en possédant l’information supplémentaire A. Cette mesure va largement favoriser les règles A → B dont les motifs A et B sont fortement positivement corrélés. Elle est nulle à l’indépendance, négative lorsque les variables sont décorrélées et prend ses valeurs dans [−e−1, +∞].

Parmi le grand nombre de mesures d’intérêt existantes, certaines ont une écriture plus complexe que d’autres. On peut cependant en relever quelques-unes qui ont une définition très intuitive. Le

2

support et la confiance en font bien entendu partie.

Exemple 3 – précision – : La mesure de précision est définie par pAB+ p¬A¬B. Elle représente donc la probabilité de vrais cas, c’est-à-dire de positifs et vrais-négatifs. Elle peut être par exemple utilisée en médecine pour s’assurer de la di-minution des faux-positifs et faux-négatifs, qui sont les cas problématiques des tests cliniques. Elle est aussi largement utilisée pour la validation des modèles de classifica-tion. Elle va favoriser les règles à fort support, mais aussi les règles dont l’antécédent et le conséquent sont peu fréquents, puisque l’on a alors beaucoup de vrais négatifs. Elle n’a pas de valeur fixe à l’indépendance et prend ses valeurs dans l’intervalle [0, 1]. Il apparait donc que l’ensemble des mesures est vaste et varié. Les mesures changent suivant les domaines d’applications et les besoins des utilisateurs. Nous n’en définissons ici qu’un petit nombre, par rapport à leur totalité. Notons enfin qu’il est également possible de les agréger (voir par exemple [Barthélemy et al. 06, Le et al. 08]).

CONCLUSION

L’obtention de règles d’association, c’est-à-dire d’objets de la forme A → B est le but principal de cette thèse. Nous avons cependant vu que la recherche de règles posait de nombreux problèmes, aussi bien algorithmiques que qualitatifs. Plusieurs solutions ont été proposées, parmi lesquelles nous retiendrons l’utilisation de mesures d’intérêt objectives. L’étude une à une des mesures est une tâche laborieuse et il est impératif de mettre en place un cadre général et rigoureux d’étude des mesures d’intérêt objectives.

3

Un cadre formel d’étude des