R`egles d’association multi-objectifs - Pépite | Optimisation combinatoire multiobjectif : appo

4.2.1 Motivations

Une tâche importante de l’extraction de connaissances est la recherche de règles d’association. Une règle d’association traduit des relations entre certains items (attributs) d’une base de données. Le premier problème traité a été l’étude du panier de la ménagère (étude des tickets de caisse) où des relations entre les différents achats sont recherchés (ex : SI Pain ET Vin ALORS Boursin, comme disait une certaine publicité.) [1].

Plus formellement, une règle d’association est une implication de la forme SI C Alors P (If C then P) où C et P sont des conjonctions de termes. C représente la condition de la règle et P la prédiction. Un terme peut représenter la présence/absence d’un attribut (attribut binaire) ou associer un attribut à une valeur (lorsque l’on considère des attributs nominaux ou numériques).

Une question fondamentale est donc : qu’est-ce qu’une bonne règle ? Comment évaluer la qualité d’une règle ? Plusieurs communautés scientifiques se sont intéressées à cette question. Chacune a essayé de proposer différents indicateurs de mesure et l’on peut maintenant en dénombrer plus d’une vingtaine. Nous avons ici étudié différents critères, afin de trouver des relations (corrélation, ...) entre eux pour, in fine, extraire un ensemble restreint de critères complémentaires, indépendants permettant de mettre en évidence toutes les propriétés des règles et ainsi proposer une modélisation multi-objectif du problème de recherche de règles. Dans le cadre de nos études, nous nous sommes focalisés sur les règles ayant une prédiction composée d’un seul terme. Si ce terme était toujours le même (et correspondant à un attribut à prévoir) nous aurions traité des règles de prédiction. Dans nos études, le terme composant P peut être basé sur n’importe quel attribut de la base.

4.2.2 Etude de crit`eres de mesure de qualit´e

L’objectif de cette étude est de rechercher les éventuelles relations existantes entre les principales mesures de qualité des règles proposées dans la litérature. Ce travail, réalisé dans le cadre des travaux de thèse de Mohammed Khabzaoui, a donné lieu à une collaboration avec Assi N’Guessan, Maˆıtre de conférences en statistiques. Il s’est conclu par une présentation lors des Journées Fran¸caises des Statistiques JDS’03 [50].

Considérons la règle d’association R, qui représente une implication de la forme C _{→ P (Si} C Alors P) où C est la condition et P la prédiction. La qualité d’une règle peut dépendre de plusieurs caractéristiques (sa force de prédiction, son nombre d’occurrences...) en fonction du contexte.

Nous présentons ici les critères étudiés. Lors d’une première étude, nous en avions sélectionnés onze provenant des statistiques, de la théorie de l’information, du datamining. Pour avoir plus de détails sur ces critères, le lecteur peut se référer à [80].

– Support : c’est la mesure classique des règles d’association. Elle permet de mesurer la fréquence de la règle dans la base de données.

– Confiance : elle mesure la validité de la règle, c’est la probabilité conditionnelle de P sachant C.

– Intérêt et Conviction : l’intérêt mesure la dépendance en privilégiant les motifs rares dont le support est faible. L’intérêt a un comportement symétrique. Afin de pallier à ce problème, un nouvel indice a été proposé : la Conviction.

– Surprise : la surprise est utilisée pour mesurer l’affirmation. Elle permet de chercher les règles étonnantes.

– Jaccard : c’est une mesure de similarité utilisée pour calculer la similarité (ou distance) entre deux mots ou textes.

– Phi-coefficient : c’est une mesure de dépendance dérivée du test de χ2_.

– Cosinus : cette mesure est dérivée de la corrélation statistique. Elle est très intéressante dans la région de faible support et de fort intérêt.

Tab. _{4.1 – Critères de qualité étudiés.}

Crit`ere Formulation math´ematique

Support - Supp. |CandP |_N

Confiance - Conf. |CandP |_|C| Int´erˆet - Int. N ∗|CandP |_{|C|∗|P |} Conviction - Conv. _{N ∗|CandP |}|C|∗|P | Surprise - Surp. |CandP |−|CandP |_{|P |} Jaccard - Jacc. _{|C|+|P |−|CandP |}|CandP |

Phi-coefficient - φ. (|CandP |∗|CandP |−|CandP |∗|CandP |)2 |C|∗|P |∗|C|∗|P |

Cosinus - Cos. √|CandP |

|C|∗|P |

J-mesure - JMe. |P |_N _{∗ [}|CandP |_{|P |} log(N ∗|CandP |_{|C|∗|P |} ) +(1₋|CandP |_{|P |} ) log(1−

|CandP | |P |

1−|C|_N )] Piatetsky-Shapiro - P S. |CandP |_N ₋ |C|_N _∗ |P |_N

Laplace - Lapl. |CandP |+1_|C|+2

– Piatetsky-Shapiro : autre mesure de dépendance utilisée en datamining. – Laplace : cette mesure est très proche de la confiance par sa définition.

4.2.3 Analyses statistiques

Afin d’étudier les relations entre critères, nous avons énuméré pour un problème donné (le problème classique Nursery de l’UCI Data Repository2 _{- site sur lequel un grand nombre de} bases de données classiques pour l’extraction de connaissances sont à disposition), toutes les règles pouvant exister (énumération exhaustive). Nous avons alors mesuré chacune de ces règles suivant l’ensemble des critères étudiés ci-dessus. Nous avons ainsi généré un tableau de 2002 lignes et de 11 colonnes dans lequel une ligne représente une règle d’association et chaque colonne la qualité de la règle par rapport à l’un des critères. Nous avons soumi ce premier tableau de données à l’analyse en composantes principales (ACP) normée disponible sous le logiciel SPAD 5.5 [18, 56]. Des corrélations fortes entre critères (mesures) revient donc à trouver des corrélations entre les colonnes de la matrice. Ainsi il est possible de mettre en évidence, des critères ayant des comportements similaires pour l’ensemble des règles. L’ensembles de ces comportements est résumé par le tableau 4.2 qui représente la matrice des corrélations linéaires entre les onze critères étudiés.

Supp. Conf. Int. Conv. Surp. Jacc. φ. Cos. JMe. PS. Lapl. Supp. 1,00 Conf. 0,62 1,00 Int. -0,09 0,20 1,00 Conv. 0,27 0,56 0,47 1,00 Surp. 0,17 0,48 0,07 0,17 1,00 Jacc. 0,87 0,62 0,32 0,55 0,20 1,00 φ. 0,38 0,50 0,62 0,81 0,26 0,76 1,00 Cos. 0,86 0,68 0,34 0,56 0,19 0,98 0,76 1,00 JMe. 0,34 0,50 0,40 0,84 0,15 0,64 0,89 0,62 1,00 PS. 0,29 0,49 0,25 0,71 0,15 0,51 0,75 0,51 0,93 1,00 Lapl. 0,63 0,99 0,18 0,54 0,53 0,61 0,49 0,67 0,50 0,51 1,00

Tab. _{4.2 – Matrices des corr´elations lin´eaires.}

Cette matrice donne une première indication sur la nature des relations linéaires entre ces différents critères par rapport aux 2002 règles. On peut ainsi remarquer de très fortes corrélations entre “Cosinus” et “Jaccard” (0,98), entre “J-mesure” et “Piatestky-Shapiro” (0,93), entre “Confiance” et “Laplace” (0,99). “Support” peut être rattaché au premier groupe via sa corrélation avec “Jaccard”. De même “Phi-Coefficient” et “Conviction” peuvent être associés au deuxième groupe. Les critères “Intérêt” et “Surprise” sont dans l’immédiat assez atypiques. Le cercle des corrélations (voir figure 4.1) avec 75,44 % d’inertie, confirme les tendances précitées et met en relief l’importance du premier axe factoriel.

Ce travail a été confirmé dans le cadre d’un projet de statistiques réalisé par des étudiants de 2ème _{année de la filière Génie Informatique et Statistique de Polytech’Lille. En effet, dans le} cadre de ce projet, d’autres bases de règles ont été générées sur des problèmes différents. Les études sur ces autres bases montrent que les corrélations entre les critères restent valides.

4.2.4 Conclusions et perspectives de l’´etude des crit`eres

Ces analyses nous ont permis de mettre en évidence 5 classes de critères. Une analyse plus complète, étudiant 24 critères a montré un même regroupement en 5 classes (thèse de M. Khabzaoui). Chaque classe rassemble des critères très fortement corrélés, ce qui veut dire des critères qui mesurent les mêmes propriétés. Ces classes sont données dans le tableau 4.3. L’idée est maintenant de choisir un critère représentant chacune des classes afin d’obtenir une modélisation multi-objectif considérant des critères réellement complémentaires.

Tendance 1 Jaccard, Cosinus, Support

Tendance 2 Laplace, Confiance

Tendance 3 Phi-Coefficient, Conviction, J-mesure, Piatetsky-Shapiro Tendance 4 Int´erˆet

Tendance 5 Surprise

Tab.4.3 – Récapitulatif des différentes corrélations.

Ce travail exploratoire doit maintenant être accompagné d’autres études afin de s’assurer que les corrélations identifiées sur l’ensemble de l’espace des solutions sont vérifiées également sur des sous-espaces. En particulier, un aspect important consiste à vérifier la validité de l’analyse sur le front Pareto. En effet, les solutions qui nous intéressent le plus, sont les solutions non dominées (ou les solutions proches) et il est important de vérifier que sur ces solutions les classes de critères restent valides.

Ce travail a permis de proposer une modélisation multi-objectif du problème de recherche de règles. Notons que ce problème peut également être vu comme un problème d’optimisation combinatoire puisque chaque règle consiste en une combinaison de termes.

Ainsi, le problème de recherche de règles d’association ayant été défini comme un problème d’optimisation combinatoire multi-objectif, différentes possibilités s’offrent à nous pour le

résoudre. Nous discutons dans un premier temps d’une résolution par méthode exacte puis nous présentons une approche à l’aide de métaheuristiques.

Dans le document Pépite | Optimisation combinatoire multiobjectif : apport des méthodes coopératives et contribution à l'extraction de connaissances (Page 64-69)