• Aucun résultat trouvé

4.2.1

Motivations

Une tˆache importante de l’extraction de connaissances est la recherche de r`egles d’association. Une r`egle d’association traduit des relations entre certains items (attributs) d’une base de donn´ees. Le premier probl`eme trait´e a ´et´e l’´etude du panier de la m´enag`ere (´etude des tickets de caisse) o`u des relations entre les diff´erents achats sont recherch´es (ex : SI Pain ET Vin ALORS Boursin, comme disait une certaine publicit´e.) [1].

Plus formellement, une r`egle d’association est une implication de la forme SI C Alors P (If C then P) o`u C et P sont des conjonctions de termes. C repr´esente la condition de la r`egle et P la pr´ediction. Un terme peut repr´esenter la pr´esence/absence d’un attribut (attribut binaire) ou associer un attribut `a une valeur (lorsque l’on consid`ere des attributs nominaux ou num´eriques).

Une question fondamentale est donc : qu’est-ce qu’une bonne r`egle ? Comment ´evaluer la qualit´e d’une r`egle ? Plusieurs communaut´es scientifiques se sont int´eress´ees `a cette question. Chacune a essay´e de proposer diff´erents indicateurs de mesure et l’on peut maintenant en d´enombrer plus d’une vingtaine. Nous avons ici ´etudi´e diff´erents crit`eres, afin de trouver des relations (corr´elation, ...) entre eux pour, in fine, extraire un ensemble restreint de crit`eres compl´ementaires, ind´ependants permettant de mettre en ´evidence toutes les propri´et´es des r`egles et ainsi proposer une mod´elisation multi-objectif du probl`eme de recherche de r`egles. Dans le cadre de nos ´etudes, nous nous sommes focalis´es sur les r`egles ayant une pr´ediction compos´ee d’un seul terme. Si ce terme ´etait toujours le mˆeme (et correspondant `a un attribut `a pr´evoir) nous aurions trait´e des r`egles de pr´ediction. Dans nos ´etudes, le terme composant P peut ˆetre bas´e sur n’importe quel attribut de la base.

4.2.2

Etude de crit`eres de mesure de qualit´e

L’objectif de cette ´etude est de rechercher les ´eventuelles relations existantes entre les prin- cipales mesures de qualit´e des r`egles propos´ees dans la lit´erature. Ce travail, r´ealis´e dans le cadre des travaux de th`ese de Mohammed Khabzaoui, a donn´e lieu `a une collaboration avec Assi N’Guessan, Maˆıtre de conf´erences en statistiques. Il s’est conclu par une pr´esentation lors des Journ´ees Fran¸caises des Statistiques JDS’03 [50].

Consid´erons la r`egle d’association R, qui repr´esente une implication de la forme C → P (Si C Alors P) o`u C est la condition et P la pr´ediction. La qualit´e d’une r`egle peut d´ependre de plusieurs caract´eristiques (sa force de pr´ediction, son nombre d’occurrences...) en fonction du contexte.

Nous pr´esentons ici les crit`eres ´etudi´es. Lors d’une premi`ere ´etude, nous en avions s´electionn´es onze provenant des statistiques, de la th´eorie de l’information, du datamining. Pour avoir plus de d´etails sur ces crit`eres, le lecteur peut se r´ef´erer `a [80].

– Support : c’est la mesure classique des r`egles d’association. Elle permet de mesurer la fr´equence de la r`egle dans la base de donn´ees.

– Confiance : elle mesure la validit´e de la r`egle, c’est la probabilit´e conditionnelle de P sachant C.

– Int´erˆet et Conviction : l’int´erˆet mesure la d´ependance en privil´egiant les motifs rares dont le support est faible. L’int´erˆet a un comportement sym´etrique. Afin de pallier `a ce probl`eme, un nouvel indice a ´et´e propos´e : la Conviction.

– Surprise : la surprise est utilis´ee pour mesurer l’affirmation. Elle permet de chercher les r`egles ´etonnantes.

– Jaccard : c’est une mesure de similarit´e utilis´ee pour calculer la similarit´e (ou distance) entre deux mots ou textes.

– Phi-coefficient : c’est une mesure de d´ependance d´eriv´ee du test de χ2.

– Cosinus : cette mesure est d´eriv´ee de la corr´elation statistique. Elle est tr`es int´eressante dans la r´egion de faible support et de fort int´erˆet.

Tab. 4.1 – Crit`eres de qualit´e ´etudi´es.

Crit`ere Formulation math´ematique

Support - Supp. |CandP |N

Confiance - Conf. |CandP ||C| Int´erˆet - Int. N ∗|CandP ||C|∗|P | Conviction - Conv. N ∗|CandP ||C|∗|P | Surprise - Surp. |CandP |−|CandP ||P | Jaccard - Jacc. |C|+|P |−|CandP ||CandP |

Phi-coefficient - φ. (|CandP |∗|CandP |−|CandP |∗|CandP |)2 |C|∗|P |∗|C|∗|P |

Cosinus - Cos. √|CandP |

|C|∗|P |

J-mesure - JMe. |P |N ∗ [|CandP ||P | log(N ∗|CandP ||C|∗|P | ) +(1|CandP ||P | ) log(1−

|CandP | |P |

1−|C|N )] Piatetsky-Shapiro - P S. |CandP |N |C|N |P |N

Laplace - Lapl. |CandP |+1|C|+2

– Piatetsky-Shapiro : autre mesure de d´ependance utilis´ee en datamining. – Laplace : cette mesure est tr`es proche de la confiance par sa d´efinition.

4.2.3

Analyses statistiques

Afin d’´etudier les relations entre crit`eres, nous avons ´enum´er´e pour un probl`eme donn´e (le probl`eme classique Nursery de l’UCI Data Repository2 - site sur lequel un grand nombre de bases de donn´ees classiques pour l’extraction de connaissances sont `a disposition), toutes les r`egles pouvant exister (´enum´eration exhaustive). Nous avons alors mesur´e chacune de ces r`egles suivant l’ensemble des crit`eres ´etudi´es ci-dessus. Nous avons ainsi g´en´er´e un tableau de 2002 lignes et de 11 colonnes dans lequel une ligne repr´esente une r`egle d’association et chaque colonne la qualit´e de la r`egle par rapport `a l’un des crit`eres. Nous avons soumi ce premier tableau de donn´ees `a l’analyse en composantes principales (ACP) norm´ee disponible sous le logiciel SPAD 5.5 [18, 56]. Des corr´elations fortes entre crit`eres (mesures) revient donc `a trouver des corr´elations entre les colonnes de la matrice. Ainsi il est possible de mettre en ´evidence, des crit`eres ayant des comportements similaires pour l’ensemble des r`egles. L’ensembles de ces comportements est r´esum´e par le tableau 4.2 qui repr´esente la matrice des corr´elations lin´eaires entre les onze crit`eres ´etudi´es.

2

Supp. Conf. Int. Conv. Surp. Jacc. φ. Cos. JMe. PS. Lapl. Supp. 1,00 Conf. 0,62 1,00 Int. -0,09 0,20 1,00 Conv. 0,27 0,56 0,47 1,00 Surp. 0,17 0,48 0,07 0,17 1,00 Jacc. 0,87 0,62 0,32 0,55 0,20 1,00 φ. 0,38 0,50 0,62 0,81 0,26 0,76 1,00 Cos. 0,86 0,68 0,34 0,56 0,19 0,98 0,76 1,00 JMe. 0,34 0,50 0,40 0,84 0,15 0,64 0,89 0,62 1,00 PS. 0,29 0,49 0,25 0,71 0,15 0,51 0,75 0,51 0,93 1,00 Lapl. 0,63 0,99 0,18 0,54 0,53 0,61 0,49 0,67 0,50 0,51 1,00

Tab. 4.2 – Matrices des corr´elations lin´eaires.

Cette matrice donne une premi`ere indication sur la nature des relations lin´eaires entre ces diff´erents crit`eres par rapport aux 2002 r`egles. On peut ainsi remarquer de tr`es fortes corr´elations entre “Cosinus” et “Jaccard” (0,98), entre “J-mesure” et “Piatestky-Shapiro” (0,93), entre “Confiance” et “Laplace” (0,99). “Support” peut ˆetre rattach´e au premier groupe via sa corr´elation avec “Jaccard”. De mˆeme “Phi-Coefficient” et “Conviction” peuvent ˆetre associ´es au deuxi`eme groupe. Les crit`eres “Int´erˆet” et “Surprise” sont dans l’imm´ediat assez atypiques. Le cercle des corr´elations (voir figure 4.1) avec 75,44 % d’inertie, confirme les tendances pr´ecit´ees et met en relief l’importance du premier axe factoriel.

Ce travail a ´et´e confirm´e dans le cadre d’un projet de statistiques r´ealis´e par des ´etudiants de 2`eme ann´ee de la fili`ere G´enie Informatique et Statistique de Polytech’Lille. En effet, dans le cadre de ce projet, d’autres bases de r`egles ont ´et´e g´en´er´ees sur des probl`emes diff´erents. Les ´etudes sur ces autres bases montrent que les corr´elations entre les crit`eres restent valides.

4.2.4

Conclusions et perspectives de l’´etude des crit`eres

Ces analyses nous ont permis de mettre en ´evidence 5 classes de crit`eres. Une analyse plus compl`ete, ´etudiant 24 crit`eres a montr´e un mˆeme regroupement en 5 classes (th`ese de M. Khabzaoui). Chaque classe rassemble des crit`eres tr`es fortement corr´el´es, ce qui veut dire des crit`eres qui mesurent les mˆemes propri´et´es. Ces classes sont donn´ees dans le tableau 4.3. L’id´ee est maintenant de choisir un crit`ere repr´esentant chacune des classes afin d’obtenir une mod´elisation multi-objectif consid´erant des crit`eres r´eellement compl´ementaires.

Tendance 1 Jaccard, Cosinus, Support

Tendance 2 Laplace, Confiance

Tendance 3 Phi-Coefficient, Conviction, J-mesure, Piatetsky-Shapiro Tendance 4 Int´erˆet

Tendance 5 Surprise

Tab.4.3 – R´ecapitulatif des diff´erentes corr´elations.

Ce travail exploratoire doit maintenant ˆetre accompagn´e d’autres ´etudes afin de s’assurer que les corr´elations identifi´ees sur l’ensemble de l’espace des solutions sont v´erifi´ees ´egalement sur des sous-espaces. En particulier, un aspect important consiste `a v´erifier la validit´e de l’analyse sur le front Pareto. En effet, les solutions qui nous int´eressent le plus, sont les solutions non domin´ees (ou les solutions proches) et il est important de v´erifier que sur ces solutions les classes de crit`eres restent valides.

Ce travail a permis de proposer une mod´elisation multi-objectif du probl`eme de recherche de r`egles. Notons que ce probl`eme peut ´egalement ˆetre vu comme un probl`eme d’optimisation combinatoire puisque chaque r`egle consiste en une combinaison de termes.

Ainsi, le probl`eme de recherche de r`egles d’association ayant ´et´e d´efini comme un probl`eme d’optimisation combinatoire multi-objectif, diff´erentes possibilit´es s’offrent `a nous pour le

r´esoudre. Nous discutons dans un premier temps d’une r´esolution par m´ethode exacte puis nous pr´esentons une approche `a l’aide de m´etaheuristiques.