• Aucun résultat trouvé

Partie I Problématique et état de l'art

5.3 Les simulations

5.3.3 Les résultats

nombre de motifs trouvés sur les 100 échantillons sur le

type1 type2 type3 corpus

de longueur 2 (excluant1) 2182 (334) 3218 (507) 2937 (475) 1157 de longueur 3 (excluant1, 2) 152 (0+4) 1028 (1+38) 987 ( 2+35) 424

de longueur 4 (excluant1, 2) 0 12 (0+0) 26 (0+0) 86

de longueur 5 (excluant1, 2) 0 0 0 14

tous (excluant1+2) 2334 (338) 4528 (546) 3950(512) 2034

Tab. 5.7  Résultats des 3 types de simulations avec 100 échantillons.

Nous réalisons 100 simulations et non 3, et nous ne prenons plus comme seuil de support d'un motif le maximum de l'ensemble des supports de ce motif issu des simulations, mais le 95e centile, ce qui correspond à un risque inférieur à 5 % de rejeter à tort l'eet du hasard dans l'apparition du motif fréquent (Howel, [126]). Chaque fois qu'un motif trouvé par simulation se retrouve dans le corpus avec un support inférieur ou égal au seuil ainsi déni, il est appelé motif "excluant", avec l'indice 1 s'il ne contient pas de sous-motif excluant, et l'indice 2 sinon. Par exemple, si le motif "abc" (resp. abd, ab, bc, bd, ad) a comme support 15 (resp . 17, 30, 25, 28, 32) et comme seuil 16 (resp. 18, 28, 26, 27, 30), "abd" est un motif excluant.1 car aucun de ses sous-motifs n'est excluant, et "abc", contenant le sous-motif excluant "bc" est un motif excluant.2. Le tableau 5.7 récapitule selon les trois types de hasard le nombre de motifs fréquents trouvés sur au moins un échantillon, et entre parenthèses, parmi ceux-ci, ceux qui se sont trouvé excluants. Un résultat appréciable de ces essais est que les motifs excluants obtenus par la simulation de type 1 font tous partie des motifs excluants de la simulation de type 3. Par contre 40 (resp. 6) motifs excluants

110Un relecteur anonyme nous propose d'arriver au même résultat par une méthode plus directe consistant à

itérer la permutation suivante : choisir deux documents contenant un nombre voisin de mots-clés, choisir deux mots-clés de fréquences comparables, échanger.

5.3. Les simulations de type 2 et de longueur 2 (resp. 3) ne gurent pas parmi les motifs excluants de type 3, et 8 (resp. 4) des motifs excluants de type 3 ne se retrouvent pas parmi ceux de type 2. Toutefois, si le motif est excluant pour l'un de ces 2 types (type 2 ou 3), et non excluant pour l'autre, la diérence entre les seuils dûs aux 2 motifs est 1 dans la majorité des cas, atteignant une seule fois 3, et une seule fois 4 sur les 58. Ce qui rend les conclusions tirées des simulations de type 2 et 3 très proches, les diérences pouvant être attribuées aux uctuations d'échantillonnage. En prenant le maximum au lieu du 95e centile, on ne retrouve pas une telle convergence entre les diérents types de simulations. Le tableau 5.8 détaille les résultats de la simulation de type 3111

pour 2 indices, l'indice de conance et celui d'implication112. On voit que par ces simulations, 3

000 des 6 484 règles trouvées sur le corpus ont été jugées "fortuites". La répartition de ces règles selon la longueur du motif dont elles sont issues permet de faire quelques remarques.

corpus bio hasard : non le sous-motif de AB dû au hasard est de Tous

règles A→B longueur 2 lg>2 long3 Tous

longueur AB 2 3 4 5 Tous 2 3 4 5 3 3

Nbre de règles 1364 1248 631 239 3482 950 1284 574 180 12 222 3000 6482

Max conf obs 1,00 1,00 1,00 1,00 1,00 0,36 1,00 1,00 1,00 0,36 0,48 1,00 1,00

Moyenne conf 0,29 0,40 0,49 0,52 0,38 0,14 0,27 0,41 0,47 0,16 0,17 0,27 0,33

Min conf obs 0,04 0,04 0,04 0,04 0,04 0,04 0,04 0,04 0,04 0,04 0,04 0,04 0,04

Max impl 1,00 1,00 1,00 1,00 1,00 0,95 1,00 1,00 1,00 0,81 0,96 1,00 1,00

Moyenne impl 0,69 0,81 0,92 0,92 0,79 0,52 0,67 0,86 0,92 0,56 0,56 0,67 0,74

Min impl 0,00 0,00 0,07 0,13 0,00 0,05 0,06 0,11 0,19 0,32 0,21 0,05 0,00

Tab. 5.8  Résultats de simulation de type 3 avec 100 échantillons.

Examinons en premier lieu les 4 colonnes de résultats obtenus pour les règles fortuites construites sur des motifs de longueur 2. Les 950 règles de longueur 2 qui ont été exclues ont un indice de conance inférieur à 0,363 et un indice d'implication inférieur à 0,949. Ce qui signie que ces règles sont éliminées par la suite, qu'on prenne un seuil de conance de 0,8 (on pourrait même prendre un seuil bien inférieur) ou un seuil d'implication de 0,95. Par contre, pour ce qui est des règles éliminées parce que le motif de longueur supérieure à 2 qui les constitue contient un sous-motif de longueur 2 excluant, elles peuvent prendre tous les niveaux de conance et d'indice d'implication possibles. Les deux colonnes suivantes concernent les règles fortuites contenant un motif excluant de longueur 3. Ces 37 motifs ont généré uniquement des règles de longueur 3, et pas de longueur supérieure, soit 222 règles en tout (2 de ces motifs ne contiennent pas de sous- motif excluant de longueur 2, et ont généré 12 règles). On voit que ces règles également auraient été éliminées, en prenant un indice de conance supérieur à 0,8, ou d'implication supérieur à 0,95. La première conclusion tirée de ces remarques est que le seuillage d'indice paraît une tech- nique appropriée pour rejeter des règles bâties sur des motifs (et non des sous-motifs) dûs au hasard. En particulier, le seuil d'implication de 0,95, construit sur des modèles probabilistes pour un risque de 1ère espèce de 5 %, permet de rejeter toutes ces règles comme dues au hasard. On voit qu'on pourrait prendre un seuil pour la conance qui aurait le même rôle, mais que 0,8 est trop élevé pour notre corpus, un seuil de 0,5 paraît largement susant pour un risque de première

111Les tableaux 5.13 et 5.14 en appendice, contiennent les mêmes informations pour les simulations de types 1

et 2.

112Les résultats concernant les autres indices tels que les 4 types de support, la diérence, l'intérêt, la conviction,

espèce de 5 %. Un coup d'oeil sur le tableau 5.15, gurant en appendice, pour une simulation de type 3 où le 95e centile a été remplacé par le max, donc correspondant à un risque de première espèce inférieur à 1 %, nous conforte dans notre opinion par un seuil d'implication de 0,997, et de conance de moins de 0,7.

La deuxième remarque est que les règles "fortuites" ne contenant pas de motif excluant, mais des sous-motifs excluants, ne s'éliminent pas directement par ces techniques de seuillage. De plus on peut s'interroger sur la légitimité de leur exclusion. En eet, prenons un motif "abc" non excluant, contenant le sous-motif "ab" excluant. Nous estimons légitime, d'après les remarques précédentes, d'éliminer les règles a→b et b→a. Il peut être gênant de retirer également les 6 règles générées par le motif abc : a→bc, b→ac, c→ab, ab→c, ac→b et bc→a.

Illustrons cela par une règle tirée du corpus et jugée fortuite à la suite d'une simulation de type 3, où l'on a choisi comme seuil de support le 95e centile. La règle "153 ; 401 → 452" de support 12, de conance 1, a été jugée fortuite car bien que son motif "153 ; 401 ; 452" ne soit pas excluant, un de ses sous-motifs l'est. Voici les supports, et les seuils pour certains, de ses divers motifs et sous-motifs :

 motif "153 ; 401 ; 452"113, de support 12, avec un seuil de 0

 sous-motif "153 ; 401", de support 12, avec un seuil de 11  sous-motif "153 ; 452", de support 22 avec un seuil de 23  sous-motif "401 ; 452", de support 30 avec un seuil de 6

 motifs "153", "401", "452" de supports respectifs 239, 36 et 80

S'il est clair que la règle 401→452 de support 30 et de conance 0,833 doit être gardée, au vu de la distance qui sépare son support de son seuil, le statut des autres règles est moins net, et nous pensons qu'on pourrait supprimer sans inconvénient la règle exacte "153 ; 401 → 452" . Elle s'appuie sur la règle "401→452", en y ajoutant la règle "153→452", qui provient du motif excluant, donc que nous supprimons sans hésitation, et sur le motif "153 ; 401" qui dans cette simulation n'est pas excluant.

Dans le tableau 5.9 gure le nombre de règles "fortuites", c'est à dire construites sur des sous-motifs excluants, On a également essayé de voir le nombre de règles "fortuites" qu'on peut atteindre en prenant le max au lieu du 95e centile (voir tableau 5.15 en appendice). Il ne croît pas de façon exceptionnelle. Par exemple, pour les simulations de type 3, nous en trouvons 3 934, dont 199 de conance supérieure ou égale à 0,8.

nombre de règles rendues "fortuites" par simulations de du

type1 type2 type3 corpus

de longueur 2 (de conance≥0,8) 676 (0) 1014 (0) 950 (0) 2314 (58)

de longueur 3 (de conance≥0,8) 660 (33) 1272 (62) 1296 (58) 2544 (217) de longueur 4 (de conance≥0,8) 224 (31) 420 (62) 574 (70) 1024 (172)

de longueur 5 (de conance≥0,8) 30 (6) 120 (25) 180 (28) 420 (64)

toutes (de conance≥0,8) 1590 (68) 2826 (149) 3000 (156) 6482 (511) Tab. 5.9  Résultats des 3 types de simulations avec 100 échantillons.