• Aucun résultat trouvé

Variable catégorielle avec peu de valeurs

Dans le cas d’une variable secondaire binaireA(avec deux valeursaetb), nous avons montré que toute l’information contenue dans cette variable est résumée dans la paire d’attributs (na, nb). À l’aide de cette nouvelle représentation, nous avons proposé d’utiliser les modèles en grille de données bivariées afin d’estimer la probabilité conditionnelleP (Y | A). Dans cette partie, nous généralisons cette approche au cas des variables secondaires catégorielles. Une variable secondaire catégorielle est une variable d’une table secondaire qui produit des valeurs non numériques. À chaque enregistrement secondaire, elle attribue uneétiquetteou une modalité. Comme dans le cas binaire, nous considérons que l’ordre des modalités n’a pas de sens, et que notre analyse ne dépend pas de cet ordre.

3.2.1 Approche

Ici, nous considérons le cas où la variable explicative secondaire A est une variable catégorielle qui peut prendre un ensemble de valeurs V(A) ={v1, v2, . . . , vV} où V est le nombre de modalités. Par analogie à une variable binaire, pour obtenir une représentation plus compacte, on peut créer autant de nouveaux attributs dans la table cible que de valeurvk. Notons parnk(1≤kV) les nouveaux attributs. Pour chaque individu, nk correspond au nombre de fois la valeur vk est apparue dans le sac de lignes reliées à cet individu dans la table secondaire. En utilisant la nouvelle représentation, l’estimation de la probabilité conditionnelle P (Y | A) se ramène alors à estimer la probabilité P (Y |(n1, n2,· · · , nV)). Pour ce faire, comme dans le cas binaire, nous utilisons les modèles en grilles de données. Cette fois, au lieu d’avoir des grilles bivariées, nous considérons des grilles multivariées supervisées [Boullé, 2011].

Les modèles en grille de données multivariées sont des estimateurs non paramé-triques de la probabilité conditionnelle de la classe sachant un ensemble de variables explicatives [Boullé, 2011]. Il s’agit d’une généralisation du cas bivarié : l’idée est de discrétiser conjointement les variables numériquesnk(1≤kV) en intervalles. Ce partitionnement multivarié définit une distribution des instances dans une grille de données àV-dimensions dont les cellules sont définies par des n-uplets d’intervalles.

Par conséquent, notre objectif est de trouver la discrétisation multivariée optimale qui maximise la séparation des classes. En d’autres termes, nous cherchons la grille optimale avec des cellules homogènes selon les valeurs de la variable cible.

Exemple 3.1. Considérons la variable secondaire TYPE_FACTURATION de la base de données de la Figure 3.1 (cf. Figure 3.2). Cette variable secondaire est caté-gorielle et possède 3 modalités (Forfait/Post-payée/Pré-payée). En appliquant notre approche dans le cas catégoriel, nous créons 3 variables dans la table cible (nF orf ait, nP ost−pay´ee et nP r´e−pay´ee) qui représentent respectivement pour chaque client, le nombre d’appels effectués depuis une ligne à forfait, une ligne post-payée et une ligne Pré-payée. La Figure 3.3 illustre un exemple de la grille multivariée corres-pondante (3 dimensions, puisque nous avons 3 modalités), qui permet d’évaluer la probabilité P 1AP PET EN CE´ |T Y P E_F ACT U RAT ION2.

Dans le reste de ce chapitre, nous utilisons la même approche que dans le cas d’une variable secondaire binaire : une famille de modèles de partitionnement multivarié des variables nk (1 ≤ kV) est d’abord introduite ; ensuite, le meilleur modèle (meilleure grille) est choisi au moyen d’une approche Bayésienne. Nous définissons un critère pour estimer la densité de probabilité conditionnelle d’une variable secondaire catégorielle ainsi que la procédure utilisée afin d’optimiser les grilles multivariées correspondantes.

CLIENT

CID AGE GENRE SALAIRE APPENTENCE

DETAILS D’APPELS

CID

TYPE (Fixe/Mobile)

DESTINATION (National/International)

TYPE_FACTURATION (Forfait/Post-payée/Pré-Payée) JOUR (Jour de la semaine)

DURÉE (en minute) HEURE

Figure 3.1: Extrait du schéma relationnel d’une base de données CRM

Figure 3.2: Exemple de variable secondaire catégorielle : TYPE_FACTURATION

3.2.2 Critère

Dans une grille multivariée, chaque variable explicativenk numérique est partition-née en intervalles. Les dimensions de la grille dépendent de la taille des partitions. Le peuplement de la grille se fait en distribuant les individus sur les intervalles des va-riables explicatives. Les modèles de partitionnement multivarié supervisé suivent la même approche que les grilles bivariées. Pour décrire de tels modèles, nous utilisons les notations suivantes :

Notation 3.1.

N : nombre d’individus de l’échantillon (nombre d’enregistrements de la table cible)

J : nombre de valeurs de la variable cible

V : nombre de modalités de la variable secondaire catégorielle

Ik : nombre d’intervalles pour la discrétisation de la variable nk (1≤kV) – Nik : nombre de valeurs de la variable nk dans l’intervalle de discrétisation ik

Ni1i2...iV : nombre d’individus de la cellule (i1, i2, . . . , iV)

Ni1i2...iVj : nombre d’individus de la cellule(i1, i2, . . . , iV)pour la valeur à expliquer j

En utilisant les notations ci-dessus, un modèle est complètement défini par les para-mètres {{Ik},{Nik},{Ni1i2...iVj}}. Une distributiona priori P(M odele)` est définie sur cet espace de modèles. Elle exploite la hiérarchie naturelle de ces paramètres :

EŽŵďƌĞĚ͛ĂƉƉĞůƐĚĞƉƵŝƐƵŶĞůŝŐŶĞăĨŽƌĨĂŝƚ EŽŵďƌĞĚ͛ĂƉƉĞůƐĚĞƉƵŝƐƵŶĞůŝŐŶĞ ƉŽƐƚͲƉĂLJĠĞ

'ƌŝůůĞĚĞĚŽŶŶĠĞƐ ŵƵůƚŝǀĂƌŝĠĞ ƉŽƵƌůΖĠǀĂůƵĂƚŝŽŶ ĚĞ W;WWdEͮdzWͺ&dhZd/KEͿ

Ϭ

Ϭ

ϭϬϬ ϲϱ

ϭϬϬ

Ϭ ϴϬ

ϭϬϬ

KƵŝ EŽŶ

Figure 3.3: Exemple de grille multivariée pour l’évaluation de la variable secondaire TYPE_FACTURATION

le nombre d’intervalles de chaque variablenk, leurs bornes et finalement les effectifs de la variable cible dans chaque cellule. À chaque niveau de cette hiérarchie le choix est supposé être uniforme. Pour le terme de vraisemblance P(Donn´ees|M od`ele), on suppose en outre que les distributions multinomiales des valeurs cibles dans chaque cellule sont indépendantes les unes des autres. En passant au log négatif de P(M od`ele)P(Donn´ees|M od`ele), le critère d’optimisation est donné ci-dessous.

Le critère d’évaluation d’une grille multivariée à V variables numériques est donné

dans l’Équation 3.1 :

C’est une généralisation du cas bivarié. La première ligne correspond au choix des partitions (nombre et bornes d’intervalles) de chacune des variables explicatives. La somme sur toutes les variables explicatives provient de l’hypothèse que celles-ci sont partitionnées de façon indépendante l’une de l’autre. La deuxième ligne correspond au choix de la distribution des valeurs de la classe dans chaque cellule de la grille multivariée. La dernière ligne représente la vraisemblance d’observer les valeurs à expliquer étant donné le modèle de partitionnement multivarié.

3.2.3 Algorithme d’optimisation

Afin d’optimiser les grilles multivariées, nous utilisons des généralisations des algo-rithmes de la section 2.4 [Boullé, 2011]. L’heuristique gloutonne de l’algorithme 2.1 se généralise au cas multivarié. Celle-ci, en partant d’une grille élémentaire, procède en itérant les optimisations partielles par variable nk (en fusionnant les intervalles adjacents). La meilleure grille est celle qui donne le meilleur coût. L’algorithme 3.1 donne un pseudo-code de l’heuristique gloutonne dans le cas multivarié.

La complexité en temps de calcul de la procédure gloutonne d’optimisation des grilles multivariées est deO(V2NlogN) [Boullé, 2011].