• Aucun résultat trouvé

Partie I Problématique et état de l'art

4.3 Les indices de qualité des règles

4.3.3 Synthèse sur les indices de qualité

On vient de voir que parmi les indices de qualité des règles, un grand nombre exprime par une formule fonction de quatre eectifs une facette particulière de la qualité qui n'est pas prise en compte par le support et/ou la conance. L'utilisateur se trouve alors confronté à un dilemme : lequel choisir ? Nous allons d'abord examiner le problème posé par leur utilisation, puis voir d'autres façons plus globales d'aborder la qualité d'une règle.

Les dicultés d'utilisation des indices

Pour choisir un indice adapté à ses besoins, l'utilisateur peut s'appuyer sur la sémantique de ces indices [148]. S'il en trouve un parfaitement adapté, il n'a plus qu'à déterminer un seuil an de ne garder que les règles dont la valeur pour cet indice dépasse le seuil, ce qui peut se faire par tâtonnement an d'avoir un jeu de règles de la taille attendue. S'il en prend deux, c'est déjà plus dicile. En eet, les meilleures règles selon un indice ne sont pas nécessairement les meilleures selon l'autre. Par exemple, si on prend le support et la conance, on a plusieurs possibilités de choix des deux seuils pour un jeu de règles d'une taille donnée, et ces choix ne vont pas donner les mêmes jeux de règles. Et quand l'utilisateur choisit plus d'indices, le problème devient rapidement complexe. Il peut alors s'aider, des techniques d'analyse multi-critères, ou d'autres méthodes, comme le propose P. Lenca [162].

Des utilisations plus globales

Notons que certains indices ne sont pas utilisés seuls, mais associés à des règles d'inférence, comme la transitivité et la contraposition90. Par exemple R. Gras [100] et les personnes qui ont

90Rappelons que la transposition est une règle d'inférence permettant de déduire de la règle A→B la règle

nonB→nonA. Cette règle fait partie des règles de la logique du "sens commun" utilisant la négation, au même titre que le raisonnement par l'absurde qui consiste à prouver la règle A→B en établissant l'impossibilité d'avoir simultanément A et nonB.

travaillé à ses cotés ne se sont pas contentés de dénir un indice d'implication statistique sur une règle. Dans le logiciel Chic91, les règles sont représentées en réseau de telle façon qu'elles

respectent la transitivité. Et un travail a été fait pour que les eets de la négation soient le plus possible pris en compte. Ainsi, bien que l'indice d'implication, ou ses extensions comme l'indice d'implication ordinale de S. Guillaume [106], soient au départ construits sur une règle avec seule- ment une propriété à gauche et une à droite, un examen approfondi des diverses possibilités avec les règles ayant des propriétés en commun a été fait. Par exemple, dans la représentation qui est faite dans Chic du réseau de règles d'association, ils évitent les cycles avec des règles telles que A→B, B→C et C→A quand ils ne contiennent pas les réciproques. De plus, après avoir signalé que la contraposition est une règle d'inférence valable dans leur ensemble de règles sur deux propriétés, ils mènent une réexion sur l'action de la négation sur un ensemble de règles ayant plusieurs propriétés en commun avec notamment, la règle d'inférence suivante :

(ab → c) ` (ac → b) et (bc → a).

Un travail du même genre est mené pour prendre en compte l'eet des valeurs diérentes d'une même propriété sur le réseau des règles [106].

Les mesures subjectives permettent également de prendre en compte d'autres informations que celles spéciques à la règle pour évaluer sa qualité. La règle produite n'est pas comparée aux autres règles extraites en même temps, comme dans le cas précédent, mais à des règles fournies par l'expert. L'intérêt de A. Silbershatz et A. Tuzhilin [216] en fait partie. Les auteurs quanti- ent le gain de croyance produit par l'apport d'une nouvelle connaissance E dans la croyance a s'appuyant sur une ancienne connaissance e. La formule de ce gain est Pap(a|E,e)−p(a|e)

p(a|e) , il peut

être positif ou négatif.

Ce qui manque aux indices de qualité

Ces indices de qualité sont associés à une règle unique. Et la règle est considérée comme l'as- sociation d'une partie gauche et d'une partie droite, ces deux parties étant formées de propriétés. Il y a eu un développement important des indices considérant les parties gauches et droites comme un tout indivisible, mais, à notre connaissance, dans le calcul d'aucun de ces indices n'a été considérée la composition en propriétés de ces deux parties. Cela pose le problème de la prise en compte des relations entre les propriétés avant leur fusion dans la partie gauche ou droite. Montrons ce problème sur un exemple. Imaginons que nous avons 100 sujets dont 10 seulement vérient simultanément trois propriétés a, b, et c, ainsi que les deux propriétés a et b, et que 20 vérient la propriété c. On n'a pas besoin de plus d'informations pour calculer la plupart des indices de qualité de la règle ab → c (Par exemple, le support est 10, la conance est 1, la diérence est 0,8). On a ainsi des indices de qualité égaux pour des cas qui diérent beaucoup, comme celui où 90% des sujets ne possèdent aucune des deux propriétés a ou b, cas totalement diérent de celui où 90% des sujets possèdent l'une sans posséder l'autre. Cet exemple n'est qu'un aperçu des relations entre propriétés qui sont ignorées par les indices de qualité des règles. Dans la dernière section de ce chapitre, elles sont exposées de façon plus approfondie. cours