• Aucun résultat trouvé

4.4 Évaluation d’itemsets de variables secondaires

4.4.1 Coût de construction d’un itemset

Nous suivons la démarche décrite dans les chapitres précédents afin de définir un coût de construction d’itemsets de variables secondaires dans le contexte des données multi-tables. Ce coût de construction joue le rôle d’une régularisation Bayésienne, afin de prévenir le risque de sur-apprentissage lié au grand nombre d’itemsets po-tentiellement considérés. Un itemsetπ est entièrement défini par :

– les variables secondaires qui le constituent

– la discrétisation (nombres et bornes d’intervalles) des variables secondaires numé-riques qui interviennent dans l’itemset

– la partition en groupes de valeurs des variables secondaires catégorielles qui ap-paraissent dans l’itemset

– l’intervalle qui intervient dans l’itemset pour chaque variable secondaire numé-rique

– le groupe de valeurs qui intervient dans l’itemset pour chaque variable secondaire catégorielle

Nous utilisons les notations suivantes :

Notation 4.1.

N : nombre d’individus de l’échantillon (nombre d’enregistrements de la table cible)

Ns : nombre de lignes de la table secondaire – J : nombre de valeurs de la variable cible

m : nombre de variables (numériques et catégorielles) dans la table secondaire – X ={x1, . . . , xk}: l’ensemble des kvariables secondaires qui constituent l’itemset – Xcat (resp. Xnum) : ensemble des variables catégorielles (resp. numériques) qui

apparaissent dans l’itemset(X =XcatXnum)

Vx: nombre de valeurs de la variable secondaire catégoriellexX(Vx=|dom(x)|) – Ix: nombre d’intervalles (resp. groupes de valeurs) de la variable secondairexX

numérique (resp. catégorielle)

– {i(vx)}vx∈dom(x) : ensemble des indices des groupes auxquels les valeurs vx sont affectées pour la variable secondaire catégorielle xX

îNi(x)ï

1≤i(x)≤Ix : nombre d’enregistrements de la table secondaire dont la valeur de la variable secondaire numériquexX appartient l’intervalle de discrétisation i(x)

ix1, . . . , ixk : indices des groupes des variables secondaires catégorielles (ou inter-valles de discrétisation des variables numériques) qui apparaissent dans l’itemset π

En utilisant les notations ci-dessus, un modèleπest donc complètement défini d’une façon formelle par {X,{Ix}, îNi(x)

ï, {i(vx)},{ix} }. La décomposition de la pro-babilité a priori P(π)sur ces paramètres selon l’a priori hiérarchique de la Défini-tion 4.1 donne l’expression de la probabilité P(π). Soulignons qu’une distribution uniforme est utilisée à chaque étage de la hiérarchie des paramètres des modèles.

Les itemsets considérés sont constitués d’une conjonction d’expressions de la forme (x∈Sx). Ces expressions correspondent à des tests de deux types : (i) l’appartenance à un intervalle(xi ∈[a1, a2])dans le cas des variables numériques, et l’appartenance à un groupe dans le cas catégoriel (xi ∈ V). Ces tests portent sur une seule partie (intervalle ou groupe de valeur) de chaque variable secondaire qui apparaît dans l’itemset. Il est donc inutile d’envisager tous les partitionnements possibles. Dans le cas où la variable à partitionner est numérique, il suffit de considérer des discréti-sations en deux ou trois intervalles. Dans le cas catégoriel, on a besoin uniquement de faire des groupements de valeurs en deux groupes. Nous tirons partie de cette constatation dans la Définition 4.1.

Définition 4.1. A priori hiérarchique d’un itemset de variables secondaires.

1. le nombrekde variables secondaires qui constituent l’itemset est uniformément distribué entre 0 et m.

2. pour un nombre de variablesk, chaque sous-ensemble dekvariables qui consti-tuent l’itemset est équiprobable.

3. pour une variable secondaire catégorielle qui figure dans l’itemset, le nombre de groupes est nécessairement 2 (Ix = 2).

4. pour une variable secondaire numérique qui figure dans l’itemset, le nombre d’intervalles est soit 2, soit 3 de façon équiprobable.

5. pour une variable secondaire numérique (respectivement catégorielle), et pour un nombre d’intervalles (respectivement nombre de groupes) donné, toutes les partitions en Ix intervalles (respectivement, en Ix groupes de valeurs) sont équiprobables (cf.{i(vx)}vx∈dom(x)pour les groupes et{Ni(x).}1≤i(x)≤Ix pour les intervalles).

6. pour une variable secondaire catégorielle x appartenant à l’itemset, le choix du groupe de valeursix sur lequel porte la condition est équiprobable.

7. pour une variable secondaire numériquexappartenant à l’itemset, si la variable est discrétisée en deux intervalles, le choix de celui sur lequel porte la condition est équiprobable. Lorsqu’il y a 3 intervalles, celui qui figure dans l’itemset est nécessairement l’intervalle du milieu.

Notons que dans l’a priori hiérarchique de la Définition 4.1, l’hypothèse uniforme est effectuée uniquement à chaque étage de la hiérarchie des paramètres des modèles.

Il ne s’agit pas de faire un a priori uniforme sur l’espace des itemsets où tous les itemsets étant a priori équiprobables, ce qui serait équivalent à une approche par maximum de vraisemblance. L’a priori uniforme conduirait dans ce cas à un critère non pénalisé de type entropie, qui tend à sélectionner des itemsets « complexes » qui correspondent à des lignes dans la table secondaire.

Nous détaillons dans la suite l’expression de chacun des termes de P (π) en nous basant sur les hypothèses de la Définition 4.1.

Le nombre de variables secondaireskappartenant à la prémisse est choisi en suivant une distribution uniforme entre 0 et m.

P(k) = 1

m+ 1 (4.1)

Afin de dénombrer le nombre de façons de choisir k variables secondaires (qui ap-paraissent dans l’itemset) parmi m, il semble naturel de considérer le nombre de combinaisons

A m k

B

. Cependant, à cause de la propriété de symétrie de

A m k

B

, si k est supérieur à m2 la sélection de nouvelles variables devient plus probable. Ceci favorise l’ajout de variables secondaires inutiles sans pour autant avoir un impact considérable sur la vraisemblance du modèle. Nous choisissons alors d’utiliser le nombre de combinaison avec répétition

A m+k−1 k

B

. Tous les sous-ensembles de k variables étant équiprobables, on obtient :

P(X |k) = 1

A m+k−1 k

B (4.2)

La probabilité de choisir un sous ensemble X de k variables secondaires est alors :

P (X) = 1

m+ 1 × 1

A m+k−1 k

B (4.3)

Pour une variable secondaire catégorielle x qui figure dans l’itemset, le nombre de groupes est nécessairement 2.

P (Ix= 2 |X) = 1 (4.4)

Pour une variable secondaire numérique x qui apparait dans l’itemset, le nombre d’intervalles de discrétisation est soit 2 soit 3.

P (Ix = 2,3|X) = 1

2 (4.5)

Pour une variable secondaire catégorielle x appartenant à l’itemset, le nombre de partitions possibles des Vx valeurs en 2 groupes est S(Vx,2) (où S est le nombre de Stirling de deuxième espèce). Le choix étant équiprobable, on obtient :

P ({i(vx)} |X, Ix = 2) = 1

S(Vx,2) (4.6)

Pour une variable secondaire numériquex, et pour un nombre d’intervallesIxdonné, toutes les discrétisations en Ix intervalles sont équiprobables. Le dénombrement des choix possibles conduit à :

P Ni(x)ï|X, Ix = 2,32= 1

A Ns+Ix−1 Ix−1

B (4.7)

Une variable secondaire catégorielle x appartenant à l’itemset est nécessairement partitionnée en 2 groupes. Le choix du groupe qui intervient dans la condition est alors :

P (ix |X,{i(vx)}, Ix = 2) = 1

2 (4.8)

Pour une variable secondaire numériquexqui appartient à l’itemset, si xest discré-tisée en deux intervalles (Ix = 2), l’intervalle sur lequel porte la condition dans l’itemset est soit le premier, soit le second. Il y a donc deux choix possibles : P1ix |X,îNi(x)

ï, Ix = 22 = 12. Si au contraire, la variable x est découpée en 3 intervalles (Ix = 3), l’intervalle sélectionné est nécessairement celui situé au milieu : P1ix |X,îNi(x)ï, Ix = 32= 1. Le choix de l’intervalle qui figure dans l’itemset peut s’exprimer alors comme suit :

P1ix |X,îNi(x)ï, Ix= 2,32= 1

1 +1{2}(Ix) (4.9)

avec 1{2}(Ix) est la fonction indicatrice de l’ensemble {2} telle que 1{2}(a) = 1 si a= 2, 0 sinon.

En passant au log négatif de ces probabilités, le coût de construction Cc(Aπ) d’un itemsetπ est défini comme suit :

Cc(Aπ) = (4.10)

log (m+ 1) + log

A m+k−1 k

B

(4.10.(a))

+ Ø

x∈Xcat

(log (S(Vx,2)) + log 2) (4.10.(b))

+ Ø

x∈Xnum

A

log 2 + log

A Ns+Ix−1 Ix−1

B

+ log11 +1{2}(Ix)2

B

(4.10.(c))

La ligne (a) de l’Équation 4.10 correspond au choix des variables secondaires qui apparaissent dans l’itemset. La ligne (b) représente le choix des partitions des va-leurs des variables secondaires catégorielles ainsi que le choix des groupes impliqués dans l’itemset. La ligne (c) correspond au choix de la discrétisation des variables secondaires numériques ainsi que les intervalles sur lesquels portent les conditions de l’itemset.

Le critère de l’Équation 4.10 est un log négatif de probabilités, ce qui exprime une longueur de codage [Shannon, 1948]. Cc(Aπ) peut être donc interprété comme un coût de codage de l’itemsetπ. Par ailleurs, il peut être vu comme un coût de construc-tion de la variableAπ associée à π.