• Aucun résultat trouvé

4.2 Nouvelle m´ethode de substitution bas´ee sur l’entropie

4.2.2 Algorithme

n X i=1 NijlogNij+ dij Nij ! = 0 Dans ce cas, il nous faut maximiser :

n X i=1 m X j=1 dijlog Nij + dij N.j+ d.j

Selon la proposition 4.2.1, soit dij = 0, soit dij = di (c’est-`a-dire vj est la valeur de substitution pour toutes les valeurs manquantes de la classe Ci). Dans le cas o`u dij = di > 0, il faut donc maximiser :

P (Ci|vj) = Nij + dij N.j+ d.j

C’est la probabilit´e de la classe Ci conditionnellement `a la valeur vj dans la base avec des valeurs substitu´ees.

`

A noter que l’analyse faite dans cette section n’est valide que sous la contrainte sur la grandeur des Nij. Dans le contexte de la classification par arbre de d´ecision, la maximisation de P (Ci|vj) est justifi´ee par le fait qu’un exemple e dont la valeur sur l’attribut en question est inconnue, serait dirig´e vers le nœud N dont la probabilit´e de la classe de e dans N est la plus grande possible.

4.2.2 Algorithme

Nous ´etudions dans la suite les algorithmes permettant de mettre en pratique le principe d´ecrit ci-dessus. Ces algorithmes sont issus de travaux communs avec Thomas Delavallade [46, 55].

Le premier algorithme est exhaustif. Il consiste `a ´evaluer toutes les substitutions possibles pour choisir la meilleure substitution selon le principe d´ecrit dans la section 4.2.1. La solution obtenue respecte parfaitement le principe propos´e. Dans ce cas,

4.2 Nouvelle m´ethode de substitution bas´ee sur l’entropie 125 le nombre de possibilit´es `a ´evaluer est exponentiel selon le nombre de valeurs man-quantes (selon (4.2)) ou le nombre de classes (selon (4.3)). Ceci rend cet algorithme coˆuteux surtout dans les cas o`u le nombre de donn´ees manquantes, le nombre de classes et le nombre de valeurs de remplacement possibles sont grands.

Pour surmonter cette difficult´e, nous proposons de sacrifier la perfection du r´esul-tat obtenu par la solution exhaustive pour construire des algorithmes moins coˆuteux qui r´ealisent approximativement le principe propos´e. Nous d´ecrivons ci-dessous deux algorithmes. Le premier est simple, non-it´eratif et le deuxi`eme est it´eratif. ´ Evidem-ment, la deuxi`eme se rapproche mieux du principe initial au prix d’un accroissement de la complexit´e.

L’algorithme non-it´eratif traite les valeurs manquantes une `a une. Chacune est substitu´ee comme si elle ´etait la seule `a traiter. Pour chaque exemple e de ξmanq, on proc`ede en deux ´etapes :

1. Pour chaque valeur vj dans l’ensemble des valeurs possibles {v1, v2, .., vm} de A, calculer l’entropie conditionnelle de ξobs∪ {e} conditionnelle `a l’attribut A, en supposant que la valeur de e pour A est observ´ee et e(A) = vj :

I(ξobs ∪ {e}|A avec e(A) = vj)

2. Choisir l’entropie conditionnelle la plus petite et affecter `a e(A) la valeur v associ´ee `a cette entropie conditionnelle minimale :

v = arg min

vj∈{v1,v2,..,vm}I(ξobs ∪ {e}|A avec e(A) = vj)

Cette version remplit chaque valeur manquante en cherchant `a minimiser une entropie conditionnelle li´ee `a une seule valeur manquante en question. Cependant, cela n’assure pas la minimisation de l’entropie conditionnelle selon le principe d´e-crit dans la section 4.2.1. Notons que la sortie de l’algorithme est ind´ependante de l’ordre dans lequel les exemples sont trait´es. Pour un attribut, comme toutes les valeurs manquantes des exemples d’une mˆeme classe sont remplac´ees par une mˆeme valeur, on peut donc calculer une fois et reprendre le r´esultat pour plusieurs valeurs manquantes. Toutes les combinaisons possibles entre valeurs d’attributs et classes d’exemples sont ´evalu´ees. La complexit´e de l’algorithme est donc lin´eaire par rapport au produit du nombre de valeurs manquantes et du nombre de classes : O(min{|ξmanq| , n} ∗ m).

L’algorithme it´eratif permet de se rapprocher du principe propos´e. `A la premi`ere it´eration, les valeurs manquantes sont estim´ees d’une mani`ere simple, qui peut ˆetre celle de l’algorithme non-it´eratif sur des donn´ees initiales. Ensuite, pour toutes les it´erations suivantes, on recalcule toutes les valeurs manquantes, mais cette fois-ci, chaque valeur est calcul´ee en supposant que toutes les autres valeurs de substitu-tion estim´ees dans l’it´erasubstitu-tion pr´ec´edente sont des valeurs observ´ees. L’algorithme s’arrˆete lorsque l’entropie conditionnelle ne d´ecroˆıt plus significativement. Cet algo-rithme n’assure qu’une solution optimale locale. Le nombre de calculs d’entropie est cette fois de l’ordre de : O(min{|ξmanq| , n)} ∗ mL) o`u L est le nombre d’it´erations effectu´ees.

Exemple :L’exemple suivant illustre la r´ealisation de l’algorithme sur une base de 10 exemples ξ = {e1, e2, .., e10}, et un attribut A poss`edant trois valeurs not´ees v1, v2 et v3. Pour l’attribut A il y a deux donn´ees manquantes. Pour simplifier la notation dans les tableaux 4.3 et 4.4, on note xi = ei(A), la valeur pour l’attribut A de l’exemple ei. On a : ξobs = {e1, e2, e3, e4, e5, e7, e8, e10} et ξmanq = {e6, e9}. La tˆache est de trouver les valeurs pour x6 et x9.

Tab. 4.3 – Base initiale avec des donn´ees manquantes pour e6 et e9

ξ e1 e2 e3 e4 e5 e6 e7 e8 e9 e10

A x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

Valeur v1 v2 v1 v3 v1 ? v2 v2 ? v1

Classe C1 C1 C2 C2 C1 C1 C2 C2 C2 C1

x6 = v1 ⇒ I ξobs∪ {e6}|A avec x6 = v1 = −59 45log45 +15log15 −3

9 13log13 +23log23 −19 11log11 +01log01 = 0.707

x6 = v2 ⇒ I ξobs∪ {e6}|A avec x6 = v2

= 0.805 x6 = v3 ⇒ I ξobs∪ {e6}|A avec x6 = v3

= 0.888

⇒ xˆ6 = v1

x9 = v1 ⇒ I ξobs∪ {e9}|A avec x9 = v1

= 0.846 x9 = v2 ⇒ I ξobs∪ {e9}|A avec x9 = v2

= 0.721 x9 = v3 ⇒ I ξobs∪ {e9}|A avec x9 = v3 = 0.666

⇒ xˆ9 = v3

Tab.4.4 – Deuxi`eme et derni`ere it´eration (les valeurs de ˆx6 et ˆx9 ne changent pas)

ξ e1 e2 e3 e4 e5 e6 e7 e8 e9 e10

A x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

Valeur v1 v2 v1 v3 v1 ? v2 v2 ? v1

Classe C1 C1 C2 C2 C1 C1 C2 C2 C2 C1

x6= v1 ⇒ I ξobs∪ {e6, e9}|A avec x9= v3et x6= v1 = −105 45log45 +15log15 −3

10 13log13 +23log23 −102 22log22 +02log02 = 0.636

x6= v2 ⇒ I ξobs∪ {e6, e9}|A avec x9= v3et x6= v2

= 0.724 x6= v3 ⇒ I ξobs∪ {e6, e9}|A avec x9= v3et x6= v3

= 0.875

⇒ xˆ6 = v1

x9= v1 ⇒ I ξobs∪ {e6, e9}|A avec x6= v1et x9= v1

= 0.826 x9= v2 ⇒ I ξobs∪ {e6, e9}|A avec x6= v1et x9= v2

= 0.685 x9= v3 ⇒ I ξobs∪ {e6, e9}|A avec x6= v1et x9= v3 = 0.636

4.3 Exp´erimentations 127 Le tableau 4.3 illustre le comportement de l’algorithme non-it´eratif. Le nombre de calculs d’entropie est ici lin´eaire par rapport au nombre de donn´ees manquantes ou bien du nombre de classes.

Le tableau 4.4 illustre, sur le mˆeme exemple ce qui est fait lors de la deuxi`eme it´eration (la premi`ere it´eration est r´ealis´ee `a l’aide de l’algorithme non-it´eratif). La deuxi`eme it´eration est la derni`ere car les valeurs de substitution pour x6 et x9 ne changent pas et en cons´equence l’entropie conditionnelle ne diminue pas.

4.3 Exp´erimentations

Pour compl´eter l’´etude pr´esent´ee ci-dessus, un certain nombre d’exp´erimentations ont ´et´e men´ees dans le contexte de la classification supervis´ee. Ces exp´erimentations ont ´et´e faites en commun avec Thomas Delavallade [46, 55].

Nous pr´ef´erons d´esormais voir comment notre m´ethode se comporte de mani`ere empirique. Au travers d’exp´eriences sur des donn´ees artificielles et r´eelles, nous sou-haitons d’une part identifier les conditions qui lui sont les plus favorables et d’autre part juger de sa qualit´e comparativement aux techniques existantes pour justifier l’int´erˆet qu’il peut y avoir `a l’utiliser. Cela permet d’avoir une id´ee pour choisir la technique la plus ad´equate relativement `a un probl`eme concret.

Dans le contexte de la classification supervis´ee, la performance des techniques de substitution n’est ´evalu´ee ni sur la proximit´e entre les valeurs de substitution et les valeurs r´eelles, ni sur le respect de la distribution de certaines statistiques. ´

Evaluer une technique de substitution reviendra `a ´evaluer le classifieur construit sur la base que cette technique aura compl´et´ee. Parmi les diverses mesures d’´evaluation des classifieurs, nous avons choisi le taux de bonnes classifications qui est le seul utilis´e dans les diff´erentes ´etudes comparatives sur le sujet qui nous ont servi de r´ef´erence [4, 14, 69].