• Aucun résultat trouvé

Afin d’évaluer une grille bivariée, nous utilisons le critère proposé dans l’approche MODL (Minimum Optimised Description Length) appliqué au cas de deux variables numériques [Boullé, 2007b]. Dans cette approche, le problème de partitionnement de deux variables numériques est transposé en un problème de sélection de modèles.

Le meilleur modèle (ici, la meilleure grille bivariée) est choisi selon une approche MAP (Maximum a Posteriori), qui consiste à maximiser la probabilité d’un modèle connaissant les données P(M od`ele|Donn´ees). En appliquant la formule de Bayes,

on obtient :

P(M od`ele|Donn´ees) = P(M od`ele)P (Donn´ees|M od`ele)

P (Donn´ees) (2.1)

La probabilité des données P (Donn´ees) étant constante quelque soit le modèle, le problème se ramène alors trouver le modèle qui maximise le produit du numérateur P(M od`ele)P (Donn´ees|M od`ele) parmi la famille de modèles considérés.

Définition 2.1. Un modèle de partitionnement bivarié est caractérisé par : – le nombre d’intervalles pour chaque variable ;

– les bornes des intervalles ;

– les distributions de la variable cible par couple d’intervalles, spécifiée par les ef-fectifs de chaque classe calculés localement dans la cellule correspondante.

Notation 2.1.

N : nombre d’individus de l’échantillon (nombre d’enregistrements de la table cible)

J : nombre de valeurs de la variable à expliquer (connu)

Ia,Ib : nombre d’intervalles de discrétisation respectivement pour les variables na et nb

Nia.. : nombre d’individus de l’intervalle ia (1≤iaIa) de la variablenaN.ib. : nombre d’individus de l’intervalle ib (1≤ibIb) de la variable nbNiaib. : nombre d’individus de la cellule (ia, ib)

Niaibj : nombre d’individus de la cellule(ia, ib)pour la valeur à expliquer j

2.3.1 Distribution a priori des modèles

La probabilité a priori du modèle P (M od`ele) est définie comme la probabilité a priori des paramètres du modèle{Ia, Ib,{Nia..},{N.ib.},{Niaibj}}. Cette probabilité se décompose en suivant la hiérarchie naturelle de ces paramètres.

Définition 2.2. L’a priori hiérarchique sur l’espace des modèles de discrétisation bivariée est défini de la manière suivante :

1. les nombres d’intervalles sont compris entre 1 et N de façon équiprobable indépendamment l’un de l’autre,

2. pour chacune des deux variables na et nb et pour un nombre d’intervalles donné, les bornes d’intervalles sont équiprobables,

3. dans chaque cellule de la grille, les distributions des valeurs de la variable cible sont équiprobables,

4. les distributions des valeurs de la variable cible sur chaque cellule sont indé-pendantes entre elles.

En décomposant la probabilité a priori du modèle (applications successives de la règle de Bayes) en fonction de ses paramètres, l’Équation 2.2 donne l’expression de P (M od`ele) :

P(M od`ele) = P (IaP (IbP({Nia..} |IaP ({Nib..} |Ib)

×

Ia

Ù

ia=1 Ib

Ù

ib=1

P ({Niaibj} |Ia, Ib,{Nia..},{N.ib.}) (2.2)

Afin de préciser la valeur de chacun des termes de l’Équation 2.2, nous utilisons les hypothèses de l’a priori hiérarchique en adoptant à chaque niveau une distribution uniforme.

Dans la première hypothèse de l’a priori hiérarchique, les nombre d’intervallesIa et Ib sont uniformément distribués entre 1 etN :

p(Ia) =p(Ib) = 1

N (2.3)

Les nombres d’intervalles étant fixés, toutes les subdivisions en Ia intervalles sont équiprobables. Le calcul de la probabilité du choix des bornes d’une discrétisation particulière P({Nia..} |Ia) n’est autre qu’un problème de dénombrement. Il y a

A N +Ia−1 Ia−1

B

façons pour discrétiser N valeurs en Ia intervalles4. On effectue le même raisonnement pour la discrétisation de la deuxième variable nb. On obtient dès lors :

p({Nia..} |Ia) = 1

A N +Ia−1 Ia−1

B (2.4)

p({Nib..} |Ib) = 1

A N +Ib−1 Ib −1

B (2.5)

Le troisième terme de l’a priori indique dans que chaque cellule de la grille, les distributions des valeurs de la variable cible sont équiprobables. Le nombre d’affec-tation de j classes à Niaib. individus dans la cellule (ia, ib) se dénombre alors par

4. La notation 3 n

k 4

représente le coefficient binomial : le nombre de combinaisons de k éléments parmi n.

Niaib.+J−1

J −1 . Ces paramètres étant équiprobables, on obtient pour chaque cellule(ia, ib):

p({Niaibj} |Ia, Ib,{Nia..},{N.ib.}) = 1

A Niaib.+J−1 J−1

B (2.6)

Les distributions des valeurs de la variable cible sur chaque cellule sont indépen-dantes entre elles. Le dernier terme peut s’écrire alors sous la forme d’un produit de probabilités. En remplaçant chaque terme par sa valeur dans l’Équation 2.2, on obtient l’expression de la probabilité a priori d’un modèle :

P (M od`ele) = N1 × N1

La vraisemblance dans chaque cellule (ia, ib) correspond à la probabilité d’observer les individus ayant pour effectifs Niaib.connaissant le modèle de distribution de la variable cible défini localement sur cette cellule. Le nombre de répartitions deNiaib. individus en J classes dans la cellule (ia, ib) sous contrainte d’affecter exactement Niaibj individus à laj`emeclasse(1≤jJ)est un problème multinomial. Le nombre de possibilités est quantifié par le coefficient multinomial N Niaib.!

iaib1!Niaib2!...NiaibJ!. Ces observations étant supposées équiprobables, on obtient la vraisemblance dans chaque cellule :

1

Niaib.! Niaib1!Niaib2!...NiaibJ!

(2.8)

En exploitant de nouveau l’indépendance des distributions entre les cellules, la vrai-semblance des données sachant le modèle est égale à :

P(Donn´ees|M od`ele) =

2.3.3 Critère

En remplaçant les probabilités d’a priori et de vraisemblance par leurs expressions respectives (Équation 2.2 et Équation 2.9) et en passant au log négatif (Équation 2.10.a), le critère d’évaluation d’un partitionnement bivarié supervisé de deux variables nu-mériques na etnb est donné par l’Équation 2.10.b.

C = −logp(M od`ele)−logp(Donn´ees|M od`ele) (2.10.a)

Les cinq premiers termes représentent la probabilitéa priori du modèle : le choix du nombre de partitions, des bornes des intervalles, et de la distribution de la variable à expliquer dans chaque cellule de la grille. Le dernier terme correspond à la vrai-semblance, c’est à dire la probabilité d’observer les classes connaissant le modèle de partitionnement bivarié supervisé.

Le critère de l’Équation 2.10.b peut être interprété comme la capacité d’une grille de données à encoder les classes cibles sachant la variable secondaire, puisque le log négatif de probabilités n’est autre qu’une longueur de codage [Shannon, 1948].

Le coût C(M od`ele) de la meilleure grille bivariée peut s’interpréter comme la pro-babilité que la variable secondaire binaire explique la variable cible sur la base de la transformation de la représentation équivalente et du modèle de discrétisation bivariée correspondant.

En se basant sur cette formule, on peut définir une mesure normalisée G(M od`ele) de l’importance d’une variable en considérant le modèle nul, noté M od`ele, où la grille se réduit à une seule cellule. Le coût C(M od`ele) du modèle nul représente la longueur de codage des valeurs à expliquer quand aucune information explicative n’est utilisée

G(M od`ele) = 1− C(M od`ele)

C(M od`ele) (2.11)

G(M od`ele)peut s’interpréter comme un taux de compression qui prend des valeurs comprises entre 0 et 1. Cet indicateur vaut 0 pour une variable non informative et

il est maximal pour le modèle optimal, c’est-à-dire pour la grille bivariée la plus probable conditionnellement aux données. Il ne peut atteindre asymptotiquement la valeur 1 que dans le cas de valeurs cibles parfaitement séparables par un modèle en grille de données, ce qui correspond à une variable secondaire expliquant parfaite-ment la variable cible. L’indicateur de pertinence ainsi défini peut être utilisé comme un critère de type filtre pour la sélection des variables secondaires binaires [Guyon et Elisseeff, 2003].