Le sens général d'un indice de qualité - Les indices de qualité des règles

Partie I Problématique et état de l'art

4.3 Les indices de qualité des règles

4.3.1 Le sens général d'un indice de qualité

Les indices de qualité des règles servent à mesurer la qualité individuelle d'une règle A→B selon diérents aspects orientés utilisateur. Il y en a actuellement une cinquantaine. Les plus uti- lisés sont le support et la conance. Nous les étudions de façon détaillée, puis nous en examinons d'autres, et nous dressons un inventaire de leurs caractéristiques.

Le support

Le support [113] est le nombre de sujets qui vérient la règle A→B, c'est-à-dire toutes les propriétés de A et de B. On exige en général qu'il soit positif, car ce qui prime ici n'est pas la logique formelle comme dans le paragraphe précédent, mais la valeur d'usage : une bonne règle n'est pas une règle pour laquelle il n'y a pas de contre-exemple, mais une règle exprimant des

87_{Notons que ce concept est indispensable pour qu'on obtienne bien un treillis, alors que les motifs de support}

nul sont rarement gardés. Le motif vide doit être conservé aussi si aucun sujet ne vérie simultanément toutes les propriétés.

cooccurrences de propriétés constatées sur des sujets. En général, on accepte un degré d'impré- cision plus ou moins élevé selon le domaine d'où sont issues les données. Par exemple, la saisie peut être entachée d'erreurs de frappe, mais la mesure peut aussi être approximative, notam- ment quand elle provient de questionnaires d'opinion. Ce qui fait qu'on préfère avoir un support supérieur à un seuil donné an que les règles extraites ne soient pas des conséquences des seules erreurs, mais expriment une relation tangible. Plus le seuil de support est élevé, moins on obtient de règles, et plus les règles obtenues sont solides. Elles sont d'ailleurs parfois tellement triviales qu'elles n'apportent aucune connaissance nouvelle. En eet, si on a par exemple N sujets et deux propriétés a et b qui sont vériées par tous les sujets sauf 1, on obtient un motif ab dont le support est N-1 si le sujet qui ne vérie pas a ne vérie pas non plus b, ou N-2 dans le cas contraire, ainsi les règles a → b et b → a ont leur support élevé (≥N-2) de façon "mécanique". Si un certain nombre de propriétés sont dans ce cas, augmenter le seuil de support pour diminuer le nombre de règles produit comme eet supplémentaire que ces règles inintéressantes deviennent majoritaires. On ne peut donc pas se contenter du support pour mesurer la qualité d'une règle. Certains auteurs appellent support ce que nous appelons fréquence, qui est le rapport du support au nombre total de sujets. Cette fréquence est plus utilisée que le support dès que le nombre de sujets est important, ou tout simplement si on veut comparer les règles extraites à celles établies par d'autres chercheurs sur des données de même type, mais ne comportant pas nécessairement le même nombre de sujets.

La conance

La conance [113] d'une règle A→B est la proportion de sujets qui vérient les propriétés de B parmi ceux qui vérient celles de A, donc le quotient du support des deux motifs correspondants. On a vu que les règles de conance 1 avaient un statut spécial, ce sont les règles exactes, qui ne sont contredites par aucun sujet. A l'autre extrême, la conance peut être proche de zéro sans toutefois atteindre 0, puisque nous avons décidé de ne construire que des règles vériées par au moins un sujet. A supports de A et de B constants, la règle A→B est de meilleure qualité quand sa conance est plus grande, car en augmentant ce coecient, on augmente le nombre de sujets vériant les propriétés de B parmi ceux qui vérient celles de A, tout en diminuant le nombre de ceux qui vérient B sans vérier A. Cela fait apparaître une inuence grandissante de A sur B. On extrait très souvent toutes les règles dont le support et la conance dépassent des seuils xés par l'utilisateur. Mais on n'est plus dans le cas de règles A→B où A et B ont des supports constants, ce qui complique la comparaison. Et choisir parmi deux règles de même support celle de plus grande conance peut conduire à garder la plus "douteuse" des deux comme l'indique l'exemple suivant : supposons que les propriétés a, b, c et d sont vériées respectivement par 20, 24, 25 et 16 parmi les 30 sujets de l'ensemble S, que la règle a → b est vériée par 15 sujets, ce qui fait une conance de 15/20=0,75 , et la règle c → d est vériée également par 15 sujets, ce qui fait une conance de 15/25=0,60. Les deux règles ayant même support, on aurait tendance à préférer la règle a → b à la règle c → d du fait de sa plus grande conance. Mais en regardant de plus près, on voit que la propriété b est vériée par 24/30=80% des sujets de S. Elle est donc proportionnellement plus rare chez les sujets vériant a (c'était 75%) que chez les autres. Alors que la propriété d est vériée par 16/30=53% des sujets de S, donc proportionnellement plus fréquente chez les sujets vériant c (c'était 60%) que chez les autres. Du coup, la règle a → b paraît moins être une relation de "type causal" que la règle c → d. C'est avec un exemple de ce genre que J. Han [113] montre l'insusance du support et de la conance pour assurer la qualité d'une règle.

4.3. Les indices de qualité des règles Les autres indices

Ce qui invite à créer un nouvel indice qui prend cette remarque en compte, comme la diérence entre la conance de la règle A→B et la proportion de sujets vériant les propriétés de B parmi tous les sujets, qui est négative dans le premier cas (0,75-0,80=-0,05) et positive dans le second (0,60-0,50=0,10). La règle est considérée d'autant meilleure qu'il est plus élevé.

Nous avons montré le sens du support, et de la conance. Puis que ces deux indices se révèlent insusants pour exprimer toutes les facettes de la qualité d'une règle. La diérence corrige une de ces insusances, mais il y en d'autres qu'elle ne corrige pas. De nombreux indices ont été créés pour cela, et nous renvoyons le lecteur intéressé par leur sens particulier à [52, 152, 142].

Signalons toutefois l'indice d'"implication statistique" qui provient d'une autre démarche ini- tiée par R. Gras [99] bien avant l'avènement de la fouille de données. Ce travail s'inscrivait alors dans le domaine de la didactique et avait pour but de trouver des implications entre appren- tissages d'atomes de connaissances chez des élèves en partant de leurs résultats à des contrôles de connaissances. Une valeur élevée de cet indice (ou de ses diverses améliorations [102, 106]) correspond à un degré élevé de certitude qu'elle n'est pas due à une conguration particulière des eectifs, comme comme dans le dernier exemple cité dans le paragraphe précédent. Il a créé cet indice à partir de l'écart entre la conguration d'eectifs observée et celle arrivant par hasard selon des modèles statistiques développés avec l'aide d'I.C. Lerman [166] (lois binomiales, de Poisson, normales indépendance). Malgré cette approche diérente, cet indice peut être utilisé comme les autres pour classer les règles d'association de la meilleure à la moins bonne.

Les indices de qualité de la règle A→B que nous venons de décrire se calculent à partir de quatre eectifs trouvés dans la base de données, auxquels s'ajoutent éventuellement des éléments four- nis par l'utilisateur tels par exemple que la loi de Poisson pour l'indice d'implication statistique, ou des pondérations diérentes pour les propriétés de la partie gauche de la règle comme celles proposées par A. Freitas [86]88_{. Nous indiquons maintenant comment se font les calculs.}

Dans le document Extraire et valider les relations complexes en sciences humaines : statistiques, motifs et règles d'association (Page 122-124)