• Aucun résultat trouvé

Optimisation de la génération des règles d’association positives et négatives valides

5.3 Optimisation du parcours des règles pertinentes

Une des solutions pour réduire le très grand nombre des règles extraites consiste à les mesurer pour ne garder que des plus pertinentes. Ainsi, nous présentons dans cette section notre modèle d’optimisation au parcours d’extraction des règles d’association potentiellement intéressantes, en utilisant le nouveau couple support-MGK. En effet, nous allons opter les deux points suivants : (i) Description des propriétés d’élagage de l’espace de recherche ; (ii) Parcours optimisé de cet espace de recherche. Dans un premier temps, nous montrons com-ment réduire considérablecom-ment, à l’aide des nouvelles propriétés mathématiques introduites, le nombre des règles d’association à extraire en éliminant celles qui ne sont pas pertinentes.

Dans un second temps, nous présentons notre stratégie de parcours de l’espace de recherche grâce également à des nouvelles propriétés énoncées. La tâche de notre modèle est donc de dégager d’une part un modèle mathématique d’élagage proposé visant à réduire efficacement les coûts de l’extraction des règles réellement intéressantes, ainsi que l’espace mémoire pour ces règles valides. D’autre part, d’introduire un nouveau modèle de parcours de recheche des règles en partitionnant l’ensemble en deux sous-classes, classe d’attraction et celle de répulsion que nous allons expliciter dans les deux paragraphes 5.3.1 et 5.3.2 ci-après. Afin d’éviter le paradigme de classes minoritaires, les deux classes seront élaguées sous la même contrainte ξα à un risque α fixé.

5.3.1 Propriétés du parcours d’élagage

Dans le but de ne pas générer toutes les règles candidates, nous définissons les propriétés d’élagage de l’espace de recherche. L’algorithme 24peut être rendu plus efficace en considé-rant les propriétés ci-après.

Proposition 13. Si la règleXY est potentiellement intéressante, alors les règlesYX, YX, XY le seront également, sinon les règles XY, YX, XY, YX pourront être intéressantes (cf. Totohasina, 2008 [Tot08]).

Le corollaire 1 ci-dessous partitionne l’ensemble des règles en deux sous-classes, classe d’attraction et celle de répulsion, et permet d’éviter de plus le problème des redondances.

Corollaire 1. Si X favorise Y (i.e. P(Y|X)> P(Y)), seul l’ensemble des règles XY, YX, XY et YX de la classe attractive est à évaluer ; sinon nous allons étudier XY, XY, YX et YX qui sont des règles dans la classe répulsive.

Il est possible, en vertu des propositions ci-dessous, de générer sur chacune des classes toutes les règles potentiellement intéressantes. En effet, les trois premières propositions (prop. 14, 15 et16) permettent de générer les règles de la classe attractive.

Proposition 14. ∀X, Y ∈ F t.q. P(Y|X)> P(Y) et P(X)≥P(Y) (resp. P(X)≤P(Y)),

Les propositions17 et18 suivantes caractérisent les règles de la classe répulsive.

Proposition 17. ∀X, Y ∈ F t.q. X défavorise Y (i.e. X favorise Y, X favorise Y et Y favorise X), on a MGK(X →Y) = MGK(Y →X) et MGK(X →Y) =MGK(Y →X).

Démonstration. Puisque P(Y|X) > P(Y), nous avons : MGK(X → Y) = P(Y1−P|X)−P(Y)

(Y) =

1−P(Y|X)−1+P(Y)

P(Y) = −P(X∩YP(X)P)+P(Y(X)P) (Y) = −P(X|YP(X))+P(X) = 1−P(X|YP(X))−1+P(X) = P(X|Y1−P(X)−P(X)

) , d’où MGK(X →Y) = MGK(Y →X). Ce qui montre que siXY est intéressante, alorsYX le sera également. Et, siXY n’est pas intéressante, alorsYX ne le sera pas non plus.

Comme P(Y|X) ≥ P(Y), nous avons MGK(X → Y) = P(Y1−P|X)−P(Y)

(Y) = P(X∩YP(X)P)−P(X(Y)P) (Y) =

P(X)[P(Y|X)−P(Y)]

P(X)P(Y) = PP(X)P(X)P(Y(Y))P(Y|X)−P(Y)

P(Y) , donc MGK(X → Y) = PP(X)P(X)P(Y(Y))MGK(X → Y) (4). De plus, MGK(X → Y) = P(X∩YP(X)−P)P(Y(X)P) (Y) = P(Y)[P(XP(X)P|Y(Y)−P) (X)] = PP(X)P(XP(Y(Y))P(X|Y)−P(X)

P(X) , donc MGK(X → Y) = PP(X)P(X)P(Y(Y))MGK(Y → X) (40). En identifiant (4) et (40), nous avons MGK(X →Y) = MGK(Y →X), ∀X, Y ∈ F. Donc, siXY est intéressante, alorsYX le sera. Et, si XY n’est pas intéressante, alors YX ne le sera pas non plus.

Proposition 18. Etant donnés deux motifs X et Y fréquents (i.e. X, Y ∈ F), tels que P(Y|X)≤P(Y) et P(X)≥P(Y), on a MGK(X →Y)≤MGK(X →Y).

Démonstration. On est dans le cas oùX défavoriseY (P(Y|X)≤P(Y)), maisX favoriseY (P(Y|X)> P(Y)) : le nombre de contre-exemples est supérieur au nombre d’exemples. Donc, la quantité MGK(X → Y) doit être supérieure au point d’équilibre : 12MGK(X → Y). Il faut donc que P(X) ≥ 12P(Y), équivaut à P(X) ≤ 12P(Y), entraîne P(X)P(Y) ≤ P(X)P(Y). D’où, d’après (4) de la propriété 17, MGK(X → Y) ≤ MGK(X → Y). Ce qui montre si XY est intéressante, alors XY le sera également.

La propriété19ci-dessous permet d’éviter le problème des redondances, et complémente les propriétés ainsi évoquées.

Proposition 19. Etant donnés trois motifs X, Y, Z de F tels que XYZ, on a : MGK(X →Z\X)MGK(Y →Z\Y) et MGK(Z\Y →Y)≥MGK(Z\X →X).

Démonstration. Puisque XYZ, du fait de la croissance de support, on a :supp(Z)supp(Y) ≤ supp(X), entraine P(Z|X) ≤ P(Z|Y) ⇔ P(Z|X)−P(Z) ≤ P(Z|Y)−P(Z).

Par association, pour P(Z)6= 1, on a : P(Z|X)−P1−P(Z)(Z)P(Z|Y1−P)−P(Z)(Z), d’où MGK(X →Z\X)MGK(Y → Z\Y). Et puisque supp(X)supp(Y) ≥ supp(Z) et les trois motifs X, Y et Z se favorisent mutuellement deux à deux, on a : 1 ≥ MGK(Y\X → X) ≥ 0, équivaut à MGK(Z\Y →Y)≥MGK(Z\Y →Y)MGK(Y\X →X)≥0. Or,MGK est multiplicative (ou transitive), finalement, on a MGK(Z\Y →Y)≥MGK(Z\X →X).

Comme nous le savons, l’économie du coût de l’extraction est fonction de la stratégie d’élagage. Nous allons décrire dans la sous-section5.3.2ci-après notre modèle d’optimisation du parcours de l’espace de recherche.

5.3.2 Parcours de l’espace de recherche

Nous partitionnons tout d’abord l’ensemble en deux sous-classes, classe attractive et classe répulsive, ce qui partitionne également notre espace de recherche. Rappelons que si X favorise Y, les règles XY, YX, YX et XY seront étudiées dans la classe attractive ou zone d’attraction. Si X défavorise Y, les règles XY, YX, XY et YX quant à elles seront étudiées dans la classe répulsive ou zone de répulsion. Autrement dit, lorsque la règle XY est dans la classe attractive, les règles XY,YX,YX et XY pourront être potentiellement pertinentes, tandis que les quatre autres règles XY,YX, XY etYX ne seront pas non plus intéressantes. Celles-ci pourront être intéressantes lorsque XY est dans la classe répulsive, mais cette fois-ci, les quatre autres XY, YX, YX et XY ne seront pas non plus pertinentes. Ce qui va permettre d’élaguer les règles qui ne sont pas même classe que la règle XY.

Dans la zone attractive, sous l’hypothèse P(X) ≥ P(Y), nous avons prouvé d’après la propriété 14queMGK(Y →X)> MGK(X →Y), ce qui implique que si la règle XY est valide selon MGK, alors la règle YX le sera également. Ensuite, d’après la propriété15, on a MGK(Y → X) = MGK(X →Y), s’agissant que YX et XY sont équivalentes.

Par conséquent, si la règle XY est valide, alors la règle YX le sera également. Enfin, nous avons montré d’après la propriété 16que MGK(X →Y)> MGK(X →Y), cela signifie que si la règle XY est valide, alors la règle XY le sera également. En fait, une seule règle, XY, va permettre de déduire l’intérêt de trois autresYX, YX etXY. Ce qui donne une notable optimisation de l’espace de recherche, soit 3/4 de réduction.

Dans la zone répulsive, sous l’hypothèse P(X) ≤ P(Y), nous avons montré, d’après la propriété 17, que MGK(X → Y) = MGK(Y → X), signifiant si la règle XY est valide, alors la règle YX le sera également. Nous avons aussi montré que MGK(X → Y) = MGK(Y → X), qui signifie si la règle XY est valide, alors la règle YX le sera également. D’autre part, nous avons montré que MGK(X → Y) ≤ MGK(X → Y), ce implique si la règle XY est valide, alors XY le sera également. En conclusion, nous retrouvons aussi le même constat que précédemment : une seule règle,XY, va permettre d’inférer les trois autres règlesXY,YX,XY etYX. Ce qui donne également des 3/4 de réduction de l’espace de recherche, seuls les quarts de la classe vont étudier.

De plus, pour tous X, Y, Z ∈ F tels que XYZ, on a d’après la propriété 19 MGK(X → Z\X)MGK(Y → Z\Y). Cela signifie que si la règle YZ\Y n’est pas valide, alors la règle XZ\X ne le sera pas non plus. Par exemple, si la règle ACDE n’est pas valide, alors les règles ACDE et CADE ne seront pas valides non plus et il n’est pas néccesaire de poursuivre leur évaluation selon la mesure MGK. Réciproquement, puisque MGK(Z\Y → Y) ≥ MGK(Z\X → X) entraîne si la règle Z\XX est valide, alors la règleZ\YY le sara également. Par exemple, siABCetACB sont valides, alorsABC le sera également. Ce qui permet d’élaguer sans perte d’information les règles d’association redondantes, afin de minimiser aussi l’espace de recherche.

Ces stratégies montrent un comportement efficace de notre modèle. Celui-ci va générer les règles potentiellement pertinentes à partir de la classe contenant la règle XY. Ce qui nous assure un double gain : amélioration de la qualité des règles et réduction de l’espace de recherche. A cet effet, nous n’étudions que des quarts de la classe, soit la moitié de l’ensemble.