• Aucun résultat trouvé

Relations mathématiques entre les mesures

Il serait intéressant d’observer les relations mathématiques qui peuvent exister entre les mesures d’intérêt. Ceci pourrait être utile lors de l’étude du comportement des mesures, es- sentiellement dans le cas où nous identifions des relations de proportionnalité. La table 2.5 présente quelques relations découvertes suite à l’examen des définitions des mesures. Ce tra- vail peut en effet être aussi utile pour réduire le nombre de mesures étudiées dans le cas où nous proposons un cadre empirique pour l’analyse des mesures d’intérêt. Par exemple, par

l’identification de forte dépendance entre deux mesures, comme c’est le cas des mesures In- térêt et Gain informationnel (ligne 23, table 2.5), qui sont liées par une relation logarithmique, ou encore des mesures Piatetsky-shapiro et Nouveauté (ligne 27, table 2.5) qui sont propor- tionnelles, nous pouvons se restreindre à l’étude d’une seule des deux mesures. Si la valeur de Piatetsky-shapiro augmente, alors la valeur de Nouveauté augmente également, encore, si la valeur de Conviction augmente, c’est aussi le cas de la mesure Facteur de certitude (ligne 18, table2.5).

2.6 Conclusion

Ce chapitre a résumé les différentes mesures d’intérêt rencontrées dans la littérature. Il propose une formalisation de "bonnes" propriétés pour leur description. Cette formalisation est essentielle afin d’éliminer d’éventuelles interprétations, comme par exemple considérer une croissance stricte des propriétés P6, P7 et P8, pouvant engendrer la construction de matrices

différentes. S’appuyant sur ces propriétés, une étude formelle est alors réalisée sur61mesures objectives afin d’en fournir une caractérisation. Cette étude permet la construction d’une matrice d’évaluation des mesures et porte sur19propriétés parmi les22recensées dans la littérature. Seules3propriétés posent des difficultés d’interprétation.

Ce travail est le point de départ pour une catégorisation des mesures en vue d’aider l’utili- sateur dans le choix de ses mesures, dans la phase de post-traitement en fouille de données. Il permettra également la recherche et l’identification des propriétés redondantes.

NF ormule

1 Pearl=Couverture× |Confiance centrée| 2 Information Mutuelle= V S(XY )

−P (X)log2P (X)−P (X)log2P (X)

3 Dépendance= |ConfiancePrévalence| 4 Laplace=Conf iance×(n×P (XY )+1)

n×P (XY )+2Confiance

5 Sebag= 1

1

Conf iance−1

6 Moindre contradiction=Taux d’exemples×Rappel 7 Ganascia= 2 × Confiance − 1

8 Confirmation descriptive=Couverture×(Ganascia − 2) 9 Cosinus= Support Couverture×P revalence 10 Czekanowski-dice= 2Support Couverture+P revalence 11 Jaccard= 1 Couverture−Support Support + 1 Rappel 12 Kulczynski= Support×Jaccard Support−(Couverture×Jaccard) 13 Spécificité= Confiance(X → Y ) 14 Fiabilité négative= Confiance(Y → X)

15 Confirmation causale=Précision−2(Couverture − Support) 16 Confiance confirmée causale=Confiance causale+Confiance−1 17 Confiance causale=1 2  1 + Confiance(X → Y ) + Confiance(Y → X) 18 Facteur de certitude= 1 − 1 Conviction

19 Klosgen= √support×Confiance centrée 20 Support sens unique=Support double sens

Couverture

21 Risque Relatif=P (Y )F acteur de certitude+P (Y ) P (Y /X)

22 Facteur bayésien=Conviction×Intérêt 23 Gain informationnel= log2(Intérêt) 24 Q de Yule=Ratio des chances−1

Ratio des chances+1

25 Y de Yule= √Ratio des chances−1 Ratio des chances+1

26 Si P (Y /X)  P (Y ) alors Zhang = P (X)P (Y )

MGK×P (XY )P (Y )×max(f acteurbayesien,1)

sinon Zhang = P (X)

MGK×P (XY )×max(F acteur bayesien,1) 27 Piatestsky-shapiro= n|Nouveauté|

28 Taux d’exemples= 2 − 1

Conf iance = 1 −Sebag1

29 Si P (Y /X)  P (Y ) alors MGK= F acteur de certitude sinon MGK =p(Y )p(Y )×

F acteur de certitude

30 Pavillon= P (Y ) × F acteur de certitude 31 Klosgen=

P (X)× P avillon

Points clés

Positionnement :

– Étude théorique d’une soixantaine de mesures d’intérêt selon un nombre important de propriétés formelles.

Contribution :

– Formalisation des propriétés des mesures ; – Évaluation de61mesures selon19propriétés. Publications :

– S. Guillaume and D. Grissa and E. Mephu Nguifo (2010). Propriétés des mesures d’in- térêt pour l’extraction des règles. Dans Actes de l’atelier QDC de la conférence EGC, pages 15–28, Hammamet, Tunisie.

Classification des mesures d’intérêt :

méthode sans recouvrement

Sommaire

3.1 Introduction . . . . 76 3.2 Classification non supervisée. . . . 77

3.2.1 Préparation des données . . . 77 3.2.2 Objectifs de la classification . . . 77 3.2.3 Revue des méthodes de classification . . . 78 3.2.4 Choix de la procédure de classification . . . 80 3.2.5 Mise en oeuvre de la classification . . . 81

3.3 Classification des mesures d’intérêt. . . . 83

3.3.1 Les données d’entrée . . . 83 3.3.2 Classification obtenue par une méthode de CAH . . . 84 3.3.3 Classification obtenue par une version des k-moyennes . . . 86 3.3.4 Classes fortes . . . 87 3.3.5 Classification définitive . . . 88

3.4 Étude des classes. . . . 90

3.4.1 Étude des classes C1 et C2 . . . 91 3.4.2 Étude de la classe C3 . . . 93 3.4.3 Étude de la classe C4 . . . 96 3.4.4 Étude de la classe C5 . . . 99 3.4.5 Étude de la classe C6 . . . 101 3.4.6 Étude de la classe C7 . . . 103 3.4.7 Étude des mesures instables . . . 107

3.5 Étude comparative avec les autres travaux : Validation . . . . 109

3.5.1 Comparaison avec le travail de Vaillant . . . 109 3.5.2 Comparaison avec le travail de Hyunh et al. . . 110 3.5.3 Comparaison avec les travaux de Heravi et Zaiane . . . 111 3.5.4 Comparaison avec le travail de Le Bras . . . 113 3.5.5 Comparaison avec les autres travaux . . . 115

3.1 Introduction

De nombreuses mesures d’intérêt existent dans la littérature pour faire face aux limites de l’approche support-confiance. Ce nombre important de mesures met l’utilisateur dans une si- tuation difficile quant à la sélection d’une ou plusieurs mesure(s) complémentaire(s) capable(s) d’éliminer les règles non pertinentes extraites par le couple (support, confiance). Ainsi, et afin d’aider l’utilisateur dans le choix d’un bon ensemble de mesures d’intérêt qui répond à ses be- soins, nous souhaitons détecter des groupes de mesures avec des propriétés similaires. D’où l’objectif principal de ce chapitre, qui est de proposer des classes ou groupes de mesures qui vont permettre à l’utilisateur, d’une part, de restreindre le nombre de mesures à choisir, et d’autre part, d’orienter son choix en fonction des propriétés qu’il souhaiteraient que ces mesures véri- fient.

Ce travail s’appuie sur l’étude formelle réalisée dans le chapitre précédent sur les mesures et leurs propriétés, dont résulte une matrice d’évaluation de61mesures sur19propriétés. Étant donnée cette matrice, nous cherchons à identifier des classes de mesures ayant des comporte- ments similaires par rapport à l’ensemble des propriétés que nous avons dégagées précédem- ment. Toutefois, nous ne cherchons à expliquer ni les propriétés ni les mesures répertoriées dans la littérature puisqu’elles peuvent être trouvées dans les travaux de synthèse [TKS02],

[LT04], [GH07], [Fen07] et [Vai06]. L’identification de ces classes de mesures est effectuée en

utilisant des techniques bien connues en classification non supervisée comme la méthode de classification ascendante hiérarchique et la méthode de partitionnement des k-moyennes. Un consensus sera dégagé à partir des résultats obtenus avec ces deux techniques. Néanmoins, avant de lancer cette recherche de classes, il nous semble essentiel de vérifier si la matrice de

61mesures × 19propriétés (identifiée dans le chapitre précédent) ne peut être simplifiée en supprimant d’éventuelles duplications de lignes ou de colonnes.

Ce chapitre est organisé comme suit. La section3.2définit brièvement la classification non supervisée et expose ses objectifs, les méthodes et les critères choisis. La section3.3 étudie la matrice d’évaluation des mesures selon les propriétés, en vérifiant si celle-ci ne pourrait être simplifiée, et restitue les résultats de la classification obtenue par les deux techniques de clas- sification choisies. La section3.4 propose une sémantique aux classes extraites. Pour finir, la section 3.5 valide la classification retenue en comparaison avec celles dégagées, respective- ment, par Vaillant [Vai06], Huynh et al. [HGB+07], Heravi et Zaiane [HZ10], Le bras [Bra11],