• Aucun résultat trouvé

Diculté de concilier des règles de bonne qualité avec une structure logique

Partie I Problématique et état de l'art

4.4 Diculté de concilier des règles de bonne qualité avec une structure logique

4.4 Diculté de concilier des règles de bonne qualité avec une

structure logique

Nous allons voir maintenant qu'une fusion de ces deux points de vue que sont : augmenter la qualité de chaque règle en s'appuyant sur les indices, et augmenter la qualité de l'ensemble du jeu de règles en s'appuyant sur sa structure logique, est dicile. On va d'abord montrer sur un petit exemple que la transitivité, règle d'inférence du premier point de vue, n'est pas vériée en général dans un jeu de "bonne qualité" selon le second de point de vue, c'est-à-dire dont le support et la conance dépassent des seuils donnés à l'avance, puis montrer que la négation des propriétés, qui est prise en compte selon le second point de vue grâce à certains indices comme l'indice d'implication statistique, pose des problèmes selon le premier.

4.4.1 Transitivité et règles d'association

Supposons qu'on dispose du tableau des valeurs de 3 propriétés A, B et C pour 20 sujets, dont on a extrait les règles de support supérieur ou égal à 4 et de conance supérieure ou égale à 0,5. On a notamment la règle A→B et la règle B→C. L'utilisateur peut-il encore inférer selon la transitivité que la règle A→C fait également partie des règles extraites ? La réponse est non. Et même si on lui donne le support et la conance de chacune de ces deux règles, il ne peut pas deviner sauf cas extrêmement particulier le support et la conance de la règle A→C. Dans cet exemple, si la règle A→B a pour support 4 et conance 0,5, et la règle B→C a pour support 6 et conance 0,5, le support s de la règle A→C peut prendre toutes les valeurs de l'ensemble 0,1,...,8 tandis que la conance pour s non nul est égale à s/8. Nous avons représenté dans la gure par un diagramme de Venn92 deux cas extrêmes pouvant se produire, le cas le moins "surprenant"

étant celui ou les trois ensembles se rencontrent, comme dans la gure 4.3.

Détaillons le diagramme de la partie gauche de la gure 4.2. La propriété A est vériée par 8 sujets, 4 qui vérient également la propriété B, et 4 qui ne vérient que A (ni B, ni C). L'intersection entre A et B contient 4 sujets, c'est-à-dire que ces 4 sujets vérient à la fois A et B. Le support de la règle A→B est égal au support du motif AB, c'est-à-dire au nombre de sujets qui vérient simultanément A et B. On a vu que ce nombre est 4. Et la conance est le quotient de ce nombre par le nombre d'éléments qui vérient A, soit 8, ce qui fait 0,5. On voit que A est disposé de telle façon qu'aucun de ses sujets ne vérie C. C'est pour cela que le support de la règle A→C est 0. Et on n'a pas calculé la conance, car en général on élimine les motifs de support nul.

Dans la partie droite, A est passé de l'autre coté, il est entièrement à l'intérieur de C, ce qui explique que la conance de la règle A→C soit 1. Le cas le plus courant est celui de la gure 4.3, où A rencontre de façon "proche" B et C et leur intersection. On peut voir qu'alors la règle A→C a un support et une conance proches de ceux des autres règles. Cela correspond ici à une forme d'indépendance93 entre A, B et C.

Pour conclure sur cet exemple, partant d'un jeu de règles d'association extrait selon le deuxième point de vue en utilisant des seuils de support de 4 et de conance de 0,5, si on combine deux règles A→B et B→C de ce jeu selon le premier point de vue par la transitivité,

92C'est une représentation pratique des éléments de moins de quatre ensembles faisant apparaître leurs éléments

communs. Chaque ensemble est représenté par une ligne fermée, ses éléments peuvent être représentés chacun par une croix ou tous par leur eectif écrit à l'intérieur de cette forme. Les éléments gurant à l'intérieur de plusieurs formes sont communs à celles-ci.

93La dénition de l'indépendance entre deux variables correspond à des notions assez intuitives sur l'absence

Fig. 4.2  transitivité 1 .

Fig. 4.3  transitivité 2 .

en la règle A→C, elle ne fait pas toujours partie du jeu, dans la mesure où son support peut être en dessous de 4 et/ou sa conance en dessous de 0,5, comme c'est le cas du graphique de gauche de la gure 4.2. Certes, en cas d'indépendance entre A, B et C, comme dans la gure 4.3 la propriété est vériée, mais le but des règles d'association est plutôt de faire apparaître des liaisons entre propriétés que leur indépendance. Ainsi le jeu de règles trouvé selon le deuxième point de vue peut être rejeté si on se place selon le premier point de vue. Notons au passage que cet exemple montre bien qu'une liaison entre trois variables est complexe et ne peut pas en général se déduire des liaisons entre les variables prises deux à deux.

4.4.2 Négation et treillis de Galois

La négation des propriétés est souvent utilisée dans le raisonnement du "sens commun". Un raisonnement complexe peut être démonté par un simple contre-exemple. Un jeu de règles soumis à interprétation se doit, à notre avis, d'être compatible avec la négation. La négation est prise en compte par certains indices de qualité comme nous le détaillerons plus loin, donc selon le deuxième point de vue. Nous allons examiner ce qui se passe en cas de négation de propriétés selon le premier point de vue, d'abord en utilisant le treillis des concepts, puis les bases de règles.

4.4. Diculté de concilier des règles de bonne qualité avec une structure logique

sujets a b c d e 1 1 0 1 1 0 2 0 1 1 0 1 3 1 1 1 0 1 4 0 1 0 0 1 5 1 1 1 0 1

Tab. 4.4  Le tableau T des propriétés

Au tableau T de la table 4.4 correspondent les 8 concepts (∅, 12345), (c, 1235), (a(c), 135)94,

(be, 2345), ((ac)d, 1), ((bce), 235), ((abce), 35), ((abcde), ∅), ainsi qu'on peut le voir dans la partie droite du graphique de la gure 4.4 (le diagramme de Hasse du treillis a été simplié pour les propriétés, mais pas pour les sujets) où on a noté les propriétés a, b, c, d et e de façon positive95 par a1, b1, c1, d1 et e1.

sujets a0 a1 b0 b1 c0 c1 d0 d1 e0 e1 1 0 1 1 0 0 1 0 1 1 0 2 1 0 0 1 0 1 1 0 0 1 3 0 1 0 1 0 1 1 0 0 1 4 1 0 0 1 1 0 1 0 0 1 5 0 1 0 1 0 1 1 0 0 1

Tab. 4.5  Le tableau T' des propriétés dédoublées du tableau T

Si on considère maintenant les propriétés négatives, notées a0, b0, c0, d0 et e0 obtenues en échangeant les valeurs 0 et 1 du tableau T, qui gurent dans le tableau T' de la table 4.5, on peut construire le graphe semi-simplié des concepts de la gure 4.4 (dans chaque concept, on a le motif et les sujets séparés par une virgule, les motifs étant simpliés mais pas les sujets) et en transformant celui des propriétés positives par symétrie de la façon suivante : on transforme toutes les lettres du motif simplié en remplaçant 1 par 0, et on fait le complément de l'ensemble des sujets. Par exemple, au concept (a(c), 135), qui est écrit (a1, 135) on fait correspondre le concept (a0, 24). En fait il n'y a que 6 concepts (∅, 12345), (d0, 2345), (a0(d0), 24), (b0e0, 1), ((a0d0)c0, 4), ((a0b0c0d0e0), ∅), les deux candidats (∅, 124), (∅, 14), obtenus à partir des concepts ((abce), 35) et ((bce), 235) n'en sont pas96. Ceci nous montre que la négation n'est pas

compatible avec le treillis des concepts, puisque partant d'un treillis de 8 concepts, on obtient par négation un treillis de 6 concepts.

Regardons maintenant les bases de Guigues et Duquenne associées. La base des propriétés négatives du tableau (c0→a0, a0→d0, b0<→e0) s'obtient en prenant les contraposées de celle des propriétés positives (a1→c1, d1→c1, e1<→b1). Ce qui semble montrer que la négation est

94On indique par a(c) le fait que le motif est ac, mais que sa forme simpliée est a.

95La notation a indique que seule la propriété a est considérée, et pas sa négation. Quand on la note par a1,

cela signie que la propriété a va être dédoublée en deux propriétés a=a1, et sa négation a0. On dit que c'est une notation positive, par analogie avec la façon dont on écrit le nombre 3 de façon positive en +3 quand on envisage l'existence de nombres négatifs comme -3.

96Le lecteur désireux de s'en assurer peut construire directement ce diagramme selon les indications gurant

4.4. Diculté de concilier des règles de bonne qualité avec une structure logique compatible avec la formalisation en base de Guigues et Duquenne alors qu'elle ne l'est pas avec les treillis de concepts97. Toutefois, cette base n'est elle-même pas totalement compatible avec

la négation, car dès qu'il y a plus de 2 propriétés dans la règle, on ne peut plus déduire de cette façon automatique la base des règles entre les propriétés négatives de celle entre les propriétés positives. Par exemple, si dans la première base, il y avait une règle a1f1→b1, elle ne pourrait pas se transformer en la règle b0→a0f0. En eet l'ensemble des sujets vériant a1 et f1 est obtenu par intersection des ensembles de sujets vériant chacune des deux propriétés, il n'est pas le complémentaire de l'intersection des ensembles de sujets vériant chacune des deux propriétés a0 et f0, mais de leur réunion98(lois de Morgan99). Par contre R. Gras et al. [102] le prennent

en compte dans l'utilisation de leurs indices : ils signalent que cela donne les règles a1b0→f0 et b0f1→a0.

Nous voyons ainsi que la négation n'est pas prise en compte selon le premier point de vue, c'est-à-dire dans le modèle logique des règles d'association, alors qu'elle est un peu plus prise en compte selon le second point de vue, notamment par l'utilisation faite de l'indice d'implication [102, 224] .

4.4.3 Peut-on se passer de la structure logique de l'ensemble de règles

On a vu qu'un jeu de règles de bonne qualité peut être apprécié selon deux points de vue diciles à concilier. On peut se demander si un seul point de vue ne serait pas susant, et alors lequel choisir. L'importance du second point de vue n'est plus à démontrer. Une règle doit être de bonne qualité an de servir à un utilisateur. Nous avons vu que ce point de vue est à l'origine de nombreuses recherches qui ont déjà produit une quantité d'indices, puis de recherches sur la classication de ces indices. Puisque ce second point de vue est si important, peut-on oublier le premier ? Il a fait également l'objet de recherches, mais dans le sens d'optimisation des algorithmes, pas dans le sens de l'amélioration de la qualité pour un utilisateur non informaticien. Nous allons montrer sur un exemple qu'on ne peut pas se satisfaire d'un jeu de règles qui ne respecterait pas la logique du "sens commun".

Cet exemple est tiré du livre de J. Pearl [192] sur la causalité. Il évoque le problème d'in- terprétation délicat posé par le "paradoxe de Simpson" sur un exemple médical. On donne à un médecin les résultats observés sur un groupe de malades. La relation complexe entre les trois propriétés que sont l'administration d'un médicament (C), la guérison d'un malade (E) et le sexe de ce malade (F) est indiquée par les règles suivantes100 :

1. Tous sexes confondus, la guérison E est de 40% quand on n'administre pas le médicament (non C), et de 50% dans le cas contraire (C).

2. Si le malade est une femme (F) la guérison E est de 30% quand on n'administre pas le médicament (non C), et de 20% dans le cas contraire (C).

3. Si le malade est un homme (non F) la guérison E est de 70% quand on n'administre pas le médicament (non C), et de 60% dans le cas contraire (C).

97Notons au passage qu'il n'y a pas donc pas équivalence entre le treillis des concepts et la base de Guigues et

Duquenne

98On peut s'en convaincre en associant à la propriété a1 vériée par les sujets s1, s3 et s5, une propriété f1

vériée uniquement pour les sujets s2, s3 et s5. le motif "a1f1" est uniquement vérié pour s3 et s5. Comme la propriété f0 est vériée pour les sujets s1 et s4, le motif "a0f0" est vérié pour s4. Comme b est vérié également pour les s3 et s5, on a la règle af→b, mais b0 étant vérié pour s1, on n'a pas la règle b0→a0f0.

99Ces lois sont relatives aux propriétés liant la négation, l'intersection et la réunion d'ensembles, et se trouvent

dans tous les livres d'algèbre "moderne", c'est-à-dire traitant de la théorie des ensembles [93].

J. Pearl reprend alors le raisonnement de Lindley et Novick [167] qui sont à l'origine de cet exemple :

"Si un patient entre dans le cabinet du médecin et que c'est un homme ou une femme, le médecin ne lui prescrit pas le médicament, en suivant les probabilités à sexe donné, alors que s'il doit lais- ser une prescription pour un patient dont il ne connaît pas le sexe, il lui prescrira ce médicament." Et ils concluent que c'est un raisonnement stupide, qu'en fait il ne prescrira pas non plus le médicament car il a connaissance des tables par sexe. Ils proposent alors de reprendre le raisonnement en considérant F non comme le sexe mais comme une pression sanguine basse. Dans ce cas le médecin prescrit le médicament car il ne regarde que la table des eets combinés, et pas les tables selon le niveau de pression sanguine. La diérence de raisonnement est que dans le premier cas, comme F est le sexe, le médecin lui attribue un rôle causal (en sciences humaines on n'imagine pas qu'un traitement peut changer le sexe d'un individu, donc chaque fois que le sexe est présent dans un schéma explicatif, il fait partie des causes) alors que dans le second, quand F est la pression sanguine il la considère comme un eet du traitement, et il n'a aucune raison d'examiner l'eet du traitement C sur la guérison E du patient en segmentant selon l'eet du traitement sur F.

Et après avoir établi par plusieurs exemples qu'il n'y aucune connection logique entre la vue statistique et la vue causale, J. Pearl établit deux dénitions mathématiques diérentes de ce qu'il appelle le concept de "confounding", une causale, et l'autre selon un critère associatif qu'il dénit comme non purement statistique car prenant en compte également un présupposé causal. Nous n'irons pas dans ce sens, notre but n'étant pas de faire nous-mêmes un raisonnement à partir de la base de données, mais de fournir un jeu de règles d'association qui sera utilisé par des experts pour faire un raisonnement. De cet exemple nous tirons tout simplement l'enseignement que laisser un jeu de règles avec trois règles aussi délicates à interpréter sans les avoir pointées, ou sans les avoir éliminées est très gênant. En eet, vu le nombre de règles obtenues, si l'utilisateur prend une décision au vu de l'une des règles et qu'il découvre après coup une autre règle qui lui aurait fait prendre la décision contraire, il risque de rejeter en bloc le jeu de règles d'association. Après avoir ainsi montré qu'on ne peut ignorer impunément le premier point de vue en ne regardant pas la qualité globale des règles, nous allons aborder l'aspect informatique des règles d'association en faisant non seulement le tour des algorithmes d'extraction automatique des règles d'association dans le prochain paragraphe, mais également en étudiant dans un autre paragraphe un formalisme proche de celui des règles d'association, qui est celui des dépendances fonctionnelles. Bien que son but soit diérent - il ne s'agit pas dans ce cas d'extraire des règles de données, mais de ranger les données pour qu'elles respectent des règles- il y a moyen de tirer des enseignements sur la façon dont sont dénies ces dépendances fonctionnelles et dont opèrent leurs règles d'inférence, ainsi que des problèmes rencontrés lors de cette formalisation.