• Aucun résultat trouvé

Agrégation de mesures d'intérêt de règles d'association

3.3 Recherche des motifs basée sur les préférences

3.3.5 Agrégation de mesures d'intérêt de règles d'association

Dans [BLLV06], Barthélemy et al., proposent de tenir compte des diérentes informa- tions apportées par les mesures de qualité qui permettent d'évaluer la qualité des règles d'association. Très hétérogènes ces mesures produisent des évaluations très variées. Les auteurs ont alors adopté une approche permettant l'agrégation à l'aide de relations valuées dans le but de mesurer le degré d'intensité de préférence d'une règle sur une autre. Cette relation valuée repose sur l'idée suivante : Soit un ensemble de règles AR = {r1, r2, ..., rn}

et un ensemble de mesures M = {m1, m2, ..., mk}, la relation valuée Rmk(ri, rj)correspond

à une diérence normalisée entre les valeurs prises par la mesure mk sur les règles ri et

rj. Les auteurs ont présenté la relation valuée suivante :

Rmk(ri, rj) = { 1− exp(−(ri[mk]−rj[mk])2 2 k ) si ri[mk]− rj[mk] > 0 0 sinon

Le paramètre σk représente un seuil entre "les préférences faibles" et "les préférences

fortes". Cette relation permet de modéliser un système de préférences sur l'ensemble des règles. Les auteurs ont ensuite appliqué un opérateur d'agrégation sur l'ensemble des

relations valuées dans le but de produire une relation de consensus.

3.4 Conclusion

Dans ce chapitre, nous avons tout d'abord exposé le problème de la sélection des règles d'association pour les deux scénarios suivants :

 Plusieurs experts interviennent dans la décision, ayant chacun une préférence pour une mesure de qualité.

 Un seul expert intervient dans la décision, ayant des préférences pour plusieurs me- sures de qualité.

Ensuite, nous avons passé en revue les diérentes approches d'agrégation de préférences et nous avons montré leur connexion avec le problème exposé ci-dessus. Enn, nous avons présenté et discuté les travaux dédiés à la sélection des motifs en utilisant les préférences. Dans le chapitre suivant, nous allons proposer une approche permettant de sélectionner les règles d'association selon les préférences d'un ou plusieurs experts.

Points clés

 Nous avons exposé le problème de sélection des règles d'associa- tion en utilisant plusieurs mesures de qualité.

 Nous avons passé en revue les approches d'agrégation des préfé- rences et avons montré leur connexion avec la sélection des règles d'association selon plusieurs mesures grâce aux correspondances individus/mesures et alternatives/règles.

 Nous avons passé en revue et analysé les approches d'extraction des motifs basées sur les préférences.

Sélection des règles d'association basée

sur la relation de dominance

Sommaire

4.1 Introduction . . . 69 4.2 Travaux sur les mesures de qualité . . . 70 4.2.1 Caractérisation d'une bonne mesure de qualité . . . 70 4.2.2 Classication des mesures de qualité . . . 72 4.2.3 Limites et motivations . . . 73 4.3 Sélection des règles non dominées . . . 75 4.3.1 Règles non dominées . . . 75 4.3.2 Formalisation pour la sélection des règles non dominées . . . . 77 4.3.3 Algorithme SkyRule . . . 80 4.3.4 Expérimentations . . . 82 4.4 Sélection des k meilleures règles d'association . . . 87 4.4.1 Ordonnancement des règles selon plusieurs mesures . . . 88 4.4.2 Algorithme RankRule . . . 90 4.4.3 Dualité . . . 91 4.4.4 Expérimentations . . . 92 4.5 Conclusion . . . 98

L'objectif de ce chapitre est d'introduire une approche permettant de sélectionner, se- lon plusieurs mesures de qualité, un ensemble réduit de règles d'association exprimant

le meilleur compromis entre les diérentes évaluations des mesures choisies par un ou plusieurs experts.

4.1 Introduction

Pour comprendre l'intérêt des règles d'association en fouille de données, il faut se rap- peler le but de l'extraction de connaissances qui n'est autre que produire à un utilisateur des éléments d'analyse capables de lui fournir des connaissances préalablement inconnues et potentiellement utiles dans sa spécialité. Pour que cette analyse conduite par l'utilisa- teur soit ecace, seules les règles d'association intéressantes doivent être extraites. Étant donné le nombre exorbitant de règles qui peuvent être générées, les trier selon diérentes mesures de qualités (Conance, Corrélation, Rappel, etc.) pourrait être une solution per- mettant d'aboutir à celles qui sont pertinentes et descriptives de données. Néanmoins, un nombre important de mesures de qualité proposées dans la littérature a induit à son tour de nouveaux problèmes, tel que le problème de sélection d'une ou plusieurs mesures qui soient les mieux appropriées aux besoins de l'utilisateur. Ce problème a été largement traité par un certain nombre de travaux qui ont eu pour objet d'étudier les comportements des diérentes mesures. Toutefois, ces travaux n'ont pas résolu un deuxième problème qui consiste à sélectionner les règles pertinentes en utilisant simultanément plusieurs mesures. Dans ce chapitre, nous proposons une nouvelle approche dont l'objectif est de sélection- ner un ensemble réduit de règles, appelé règles non dominées, selon plusieurs mesures. Cette sélection est basée essentiellement sur la notion de dominance de Pareto [BSYN12], qui va permettre de retenir seulement les règles exprimant le meilleur compromis entre les diérentes évaluations de mesures choisies. Nous proposons également d'étendre cette approche an de sélectionner les k meilleures règles en utilisant plusieurs mesures simul- tanément où k est xé par l'utilisateur [BSYN14].

Le reste du chapitre est organisé comme suit : La section 4.2 commence par présenter certaines approches utilisées pour étudier le comportement des mesures et les répartit selon deux grandes catégories : la première regroupe les approches qui qualient "une bonne mesure de qualité" et la deuxième regroupe les approches qui classient les mesures de qualité. La section 4.3 présente une solution pour la sélection des règles d'association selon plusieurs mesures en introduisant l'ensemble des règles non dominées et présente un algorithme pour l'extraire. Cette section compare ensuite le nombre de règles non dominées par rapport au nombre total de règles et au nombre de règles qui peuvent être extraites par une approche utilisant les seuils. Enn, la section 4.4 présente une approche permettant de sélectionner les k meilleures règles en utilisant la relation de dominance.