• Aucun résultat trouvé

Les problèmes des relations complexes dans les règles d'asso-

Partie I Problématique et état de l'art

C.3 Trois variables

7.2 Les problèmes des relations complexes dans les règles d'asso-

Les relations complexes entre variables sont plus diciles à repérer quand les variables sont binaires que quand elles sont quantitatives. Pour mieux les appréhender, nous avons d'abord créé des tableaux avec des valeurs numériques pour que les variables vérient diérents types de liaisons.

Pour représenter une liaison entre deux variables quantitatives A et B, nous avons choisi un nuage de points, traversé par deux droites, l'une exprimant la dépendance de B par rapport à A, et l'autre celle A par rapport à B, l'angle des deux droites indiquant la force de la liaison : plus l'angle est petit, plus la liaison est forte ; plus il est proche de 90, plus elle est faible. Et la liaison est positive (les valeurs selon A et B croissent ou décroissent ensemble) quand les droites montent de la gauche vers la droite et négative (A croit quand B décroît et inversement) dans

7.2. Les problèmes des relations complexes dans les règles d'association le cas contraire. Nous renvoyons le lecteur intéressé par la justication de cette modélisation et par les calculs des équations des droites aux ouvrages traitant des modèles de corrélation et de régression[10, 121].

Un fois cette liaison identiée, nous avons transformé A en variable binaire, en remplaçant toutes ses valeurs supérieures à 0,5 par 1 et les autres par 0. Le nuage de points se sépare alors en deux droites, une pour A=1 et l'autre pour A=0. La liaison entre A et B se représente cette fois par la droite qui joint les centres de gravité des deux nuages. Plus sa pente est élevée, plus la liaison est forte, et plus elle s'approche de l'horizontale, plus elle est faible, le sens de la liaison étant repéré comme précédemment. Nous renvoyons le lecteur intéressé également par la mise en oeuvre de ce modèle aux ouvrages de statistique.

Puis nous avons codé de la même façon B. Cette fois la seule représentation possible est formée de 4 points formant un carré, tous ceux ayant une valeur de A supérieure à 0.5 et une valeur de B supérieure à 0.5 se retrouvant confondus avec le point de coordonnées A=1 et B=1. Représenter ces 4 points n'apporte rien ; c'est pourquoi nous avons dressé le tableau du nombre de points se trouvant confondus avec chacun des 4 points (A=0, B=0), (A=0, B=1), (A=1, B=0), (A=1, B=1). Ce qui constitue le tableau de contingence des deux variables A et B déjà rencontré quand nous avons déni les indices de qualité de la règle A→B. Nous passons ainsi d'une liaison bien identiée grâce à sa représentation graphique, à l'ensemble formé des 4 eectifs associés à des règles d'association, dans lequel nous cherchons des indicateurs de cette liaison. Bien sûr, une fois ces indicateurs découverts au sein des règles d'association, il conviendra de les dénir de façon formelle. Mais ce n'est pas l'objet de ce paragraphe dans lequel on se contente de faire le tour des liaisons reconnues par les scientiques comme gênant le raisonnement, en les récrivant simplement en termes de règles d'association.

7.2.1 L'indépendance entre A et B, et une liaison positive

a) A et B sont des propriétés quantitatives

Ce sont les graphiques à gauche de la gure 7.1 pour lesquels A et B sont des propriétés quan- titatives. Dans ces trois graphiques, on a représenté les valeurs prises par des sujets selon les propriétés A et B. Chaque sujet est représenté par un losange de coordonnées A et B. Dans le graphique du haut, les deux droites forment un angle proche de 90 degrés, ce qui exprime l'indépendance entre A et B. Dans le graphique du dessous, les droites ont à peine bougé, mais il paraît dicile de dire encore que A et B sont indépendants. En eet, les points se retrouvant proches du cercle, leurs valeurs de A et de B vérient à peu de choses près l'équation A2+B2 = 1.

On voit ainsi que ces deux droites nous aident à repérer un seul type de liaison, qui est appelée liaison linéaire, et ce que nous appelons le plus souvent indépendance est en fait une absence de liaison linéaire.

b) B est une propriété quantitative et A une propriété dichotomique

Les graphiques de droite de la gure 7.1 montrent les mêmes points quand A est codée de façon binaire, comme on l'a indiqué plus haut. Dans celui du haut, la valeur du centre de gravité du nuage A=0 est de 0,49 pour B, alors que celle du nuage A=1 est de 0,51 pour B. La droite est quasi-horizontale. Et de même pour le graphique du milieu. Par contre, elle monte pour celui du bas. On voit que la liaison linéaire s'exprime bien par la pente de cette droite. Par contre, la liaison complexe entre A et B qui apparaissait clairement dans le graphique de gauche au centre de la gure 7.1 n'est plus visible dans le graphique de droite. C'est l'eet du codage, qui a fait disparaître des informations qu'on pourra dicilement récupérer en cas de besoin.

Fig. 7.1  En haut, l'indépendance "vraie", en dessous, l'indépendance "fausse", en bas une "vraie" liaison positive.

7.2. Les problèmes des relations complexes dans les règles d'association c) A et B sont deux propriétés dichotomiques

Maintenant, on code B comme on a codé A, et dans la table 7.2, on donne les résultats de ce codage pour les données correspondant à chacun des 3 graphiques de la gure 7.1.

Eectifs B Eectifs B Eectifs B

A 0 1 Total A 0 1 Total A 0 1 Total

0 105 100 205 0 98 94 192 0 174 58 232

1 92 103 195 1 95 113 208 1 36 132 168

Total 197 203 400 Total 193 207 400 Total 210 190 400

Tab. 7.2  Les données de la gure 7.1 après codage binaire de A et de B.

Ce passage des trois nuages de 400 points (graphiques de gauche) de la gure 7.1 aux 4 eectifs des trois tableaux de la table 7.2 représente le comptage des points situés dans chaque quadrant des graphiques obtenus par découpage selon la verticale et l'horizontale passant par le centre du nuage (ce centre a une valeur de A et de B égale à 0,5). En cas d'indépendance, il y en a autant dans chaque quadrant, et en cas de liaison positive, il y en a beaucoup plus dans les 2 quadrants où A et B sont du même coté de 0,5 (soit, après codage, pour lesquels A=1 et B=1 ou A=0 et B=0) que dans les deux autres.

Précisons que nous nous sommes placée dans un cas où les valeurs de A et de B sont concen- trées autour de 0,5 de façon équilibrée, c'est-à-dire qu'il y a à peu près autant de valeurs de chaque côté de 0,5 pour A comme pour B. On attend donc en cas d'indépendance entre A et B un eectif de 100 dans chacune des 4 cases des tableaux de la table 7.2, et en cas de liaison positive, on s'attend non pas à ce que les distributions de valeurs de A ou de B prises séparément changent (les eectifs pour A=1, A=0, B=1, B=0, appelés eectifs marginaux sont xés), mais que l'eectif des sujets pour lesquels A et B valent 1 augmente ; et ceci d'autant plus que la liaison entre A et B est forte. Comme les eectifs marginaux sont xés et que ce sont les sommes des 4 cases du tableau prises deux à deux, l'augmentation de cet eectif d'un nombre x entraîne par compensation la diminution d'autant des eectifs des deux cases qui sont voisines de la sienne et l'augmentation d'autant de celui de la case qui lui est opposée125. Tout cela apparaît clairement

dans la table 7.2. Les deux tableaux de gauche montrent une répartition équilibrée des eectifs des 4 modalités de AxB, chacune étant voisine de 100, alors que dans le dernier tableau les cases "positives" c'est-à-dire correspondant à des valeurs égales de A et de B ont un eectif bien supérieur à celui des cases "négatives", pour lesquelles A et B ont des valeurs complémentaires (c'est-à-dire de somme 1).

L'indépendance de A et de B (ou du moins une faible liaison) se lit ainsi dans les deux tableaux de gauche, et une liaison positive importante dans celui de droite.

d) Linéarité et log-linéarité

La mesure de la liaison repérée dans le tableau croisant les valeurs de A et de B n'est pas de même type que celle correspondant aux deux types de graphiques de la gure 7.1. On a déjà dit que ces modèles sont linéaires. Précisons-le. Dans le premier, on peut exprimer A en fonction de B ou inversement par une équation du type A = αB + β + ², ou B = αA + β + ² [10], comme c'est indiqué au dessus de chacun des graphiques de gauche de la gure 7.1. Dans le second, en utilisant les moyennes indiquées en haut des graphiques de droite de la gure 7.1, on peut

125C'est ce qu'on exprime en disant que le tableau d'eectifs de 4 cases a 1 degré de liberté quand on xe les

également exprimer B en fonction de A par une équation du type B = αA + β + ²126 [121]. Par

contre, pour les tableaux, on utilise un modèle log-linéaire [181] pour exprimer non pas les valeurs de A ou de B, mais celles des logarithmes des eectifs des cases nij en fonction des marges du

tableau. L'intervention des logarithmes permet de transformer un modèle de type multiplicatif en un modèle de type additif comme le modèle linéaire. Malheureusement, le modèle log-linéaire ne peut pas s'exprimer à travers des graphiques aussi expressifs que ceux que nous avons vus pour le modèle linéaire. On peut toutefois exprimer simplement la liaison entre A et B indiquée par ces eectifs en faisant le rapport des deux quotients, en ligne ou en colonne, ce qui donne pour chacun des trois tableaux de la table 7.2 les valeurs 1,18=(103/100)/(92/105), 1,24=(113/94)/(95/98), 11=(132/58)/(36/174). Les valeurs proches de 1 indiquent l'indépendance (mais comme on l'a vu, un certain type linéaire d'indépendance) les valeurs supérieures à 1 représentent une liaison positive et celles entre 0 et 1 une liaison négative, qui correspond au cas où le déséquilibre des cases désavantage celles où A et B ont mêmes valeurs au prot des deux autres. On peut passer au logarithme et on obtient alors les trois valeurs suivantes : 0,16 0,22 et 2,4 ; les deux premières valeurs sont proches de 0, alors que la suivante est nettement positive. Et si la valeur du rapport était comprise entre 0 et 1, le logarithme serait négatif.

Il y a une remarque à faire au sujet de ce rapport. Faire des quotients ou passer au logarithme peut être gênant quand il y a une case avec un eectif nul, comme c'est le cas pour les règles d'association exactes. On peut éviter ce problème en calculant le "produit en croix", c'est-à-dire en remplaçant par exemple (103/100)/(92/105) par 103x105-100x92, ce produit étant voisin de 0 quand le rapport est voisin de 1, positif quand le rapport est supérieur à 1, négatif sinon. Le problème est que ce produit en croix ne se généralise pas aussi bien que le rapport des quotients quand on passe de deux à trois propriétés.

e) Indépendance et "proximité"

Faisons une deuxième remarque. Depuis le début de cette section, nous parlons de valeurs proches : des angles proches de 90 degrés, des droites de pente quasi-nulle, des rapports proches de 1, la proximité représentant l'indépendance entre A et B, les autres valeurs représentant une liaison linéaire, ou log-linéaire. Nous n'avons pas exprimé rigoureusement ce que voulait dire ce terme. Il existe un concept de même usage, en statistique, qui est "ne dière pas signicative- ment de". Ce concept est déni par des tests d'hypothèses [121]127. Pour la comparaison de deux

moyennes (graphiques de droite de la gure 7.1), le calcul des valeurs "testées" s'appuie non seule- ment sur les moyennes de valeurs, mais également sur les écart-types des valeurs, et si un certain nombre de conditions sont vériées (on suppose que les distributions des valeurs de B selon A=0 et de B selon A=1 ne dièrent que par leurs moyennes, et qu'elles sont de préférence "normales" , c'est-à-dire qu'elles suivent la loi de probabilité de Laplace-Gauss), la décision de "diérence signicative ou non" s'obtient en comparant le résultat du calcul à un seuil choisi dans une table. Ces tests sont robustes dans la mesure où une petite entorse aux conditions d'applications ne change pas beaucoup le résultat. Mais ils ne sont plus utilisables pour les données traitées habi- tuellement en fouille de données pour diverses raisons que nous avons exposées dans le chapitre 2. De la même façon d'ailleurs les graphiques ne seront plus utilisables si nous voulons visualiser les liaisons de plusieurs variables. Si nous voulons alors dénir le terme "proche" de façon plus rigoureuse sans utiliser les tests d'hypothèses statistiques, il faut dénir un seuil de diérence entre deux valeurs, que ce soit des mesures d'angle, ou des rapports de quotient. Comme nous

126les modèles pour les trois graphiques de droite de la gure 3 sont respectivement B = 0, 02A + 0, 49 + ²,

B = 0, 04A + 0, 51 + ², B = 0, 29A + 0, 35 + ².

7.2. Les problèmes des relations complexes dans les règles d'association utilisons les graphiques pour illustrer seulement les diverses relations complexes entre propriétés avant de les dichotomiser, nous n'essayons pas de dénir ici cette proximité. Nous le faisons dans le chapitre suivant qui concerne le "Nettoyage par des méta-règles des incohérences dues aux relations complexes", les algorithmes de nettoyage nécessitant des dénitions rigoureuses.

f) Règle d'association A→B

Avec les valeurs du tableau 7.2, nous pouvons calculer les indices de qualités de la règle A→B dans les 3 cas, qu'on trouve dans le tableau 7.3.

Règle A→B Tableau de gauche Tableau du milieu Tableau de droite

Support 103 113 132

Fréquence 0,26 0,28 0,33

Conance 0,53 0,54 0,79

Diérence 0,02 0,03 0,31

Tab. 7.3  Les indices des règles A→B extraites des tableaux de la table 7.2.

Nous constatons sur la table 7.3 que pour chaque indice, les valeurs pour les deux premiers tableaux sont assez proches alors que celles pour le dernier sont plus élevées, cet écart étant plus net pour la conance et la diérence que pour le support et la fréquence. Examinons plus précisément chacun de ces indices.

Le support est le nombre de valeurs qui vérient simultanément A et B, donc ici A=1 et B=1. Nous avons vu précédemment qu'en cas d'indépendance, on attend une valeur de 100, et qu'une augmentation de x indique une liaison d'autant plus forte que x est grand. Cela a pour conséquence que la fréquence de la règle A→B augmente de x/400, que sa conance passe de 100/200 à (100+x)/200, soit de 0,5 à 0,5+0,01x. Quant à sa diérence, elle est obtenue en faisant la diérence entre la conance et le pourcentage de sujets vériant B, soit 100/200, et passe de 0 à 0,01x. Notons au passage que du fait de la parfaite symétrie entre A et B dans notre cas, ce qui arrive pour la règle A→B arrive exactement pour les règles B→A, nonA→nonB, nonB→A, qui ont donc même support, même conance et diérence que la règle A→B. Et les règles A→nonB, nonA→B, B→nonA, nonB→A ont des indices égaux variant dans l'autre sens c'est-à-dire passant respectivement de 100 à 100-x pour le support, de 0,25 à 0,25-x/400 pour la fréquence, de 0,5 à 0,5-0,01x pour la conance et de 0 à -0,01x pour la diérence.

Ainsi nous venons d'expliquer que dans le cas d'une distribution marginale donnée de A et de B, l'indépendance entre A et B fait que la règle A→B a des indices de support, fréquence, conance et diérence de valeurs respectives 100 0,25 0,5 et 0, et que la liaison positive entre A et B fait qu'ils augmentent tous. Si on retourne maintenant au tableau 7.3, on peut conclure que les augmentations des indices de la règle A→B entre la première colonne et la seconde, correspondant à des propriétés indépendantes, doivent être jugées négligeables, alors que les augmentations entre ces deux colonnes et la dernière doivent être jugées importantes. Notons au passage la diculté de prendre une telle décision (indépendant/lié, écart négligeable/important) sans s'appuyer sur les tests d'hypothèses en statistique.

7.2.2 L'ajout de C ne modie rien à la règle A→B

a) L'absence d'interaction apparaît sur les graphiques

Dans la gure 7.2 le graphique du haut contient les mêmes données que celui du haut de la gure 7.1 et ceux du bas sont associés de la même façon. Celui du milieu n'a pas été repris. On a