Algorithme - Nouvelle m´ethode de substitution bas´ee sur l’entropie

4.2 Nouvelle m´ethode de substitution bas´ee sur l’entropie

4.2.2 Algorithme

n X i=1 Nijlog^N^ij^{+ d}^ij Nij ! = 0 Dans ce cas, il nous faut maximiser :

n X i=1 m X j=1 dijlog ^N^ij ^{+ d}^ij N.j+ d.j

Selon la proposition 4.2.1, soit dij = 0, soit dij = di (c’est-`a-dire vj est la valeur de substitution pour toutes les valeurs manquantes de la classe Ci). Dans le cas o`u dij = di > 0, il faut donc maximiser :

P (Ci|vj) = ^N^ij ^{+ d}^ij N.j+ d.j

C’est la probabilité de la classe Ci conditionnellement à la valeur vj dans la base avec des valeurs substituées.

A noter que l’analyse faite dans cette section n’est valide que sous la contrainte sur la grandeur des Nij. Dans le contexte de la classification par arbre de décision, la maximisation de P (Ci|vj) est justifiée par le fait qu’un exemple e dont la valeur sur l’attribut en question est inconnue, serait dirigé vers le nœud N dont la probabilité de la classe de e dans N est la plus grande possible.

4.2.2 Algorithme

Nous ´etudions dans la suite les algorithmes permettant de mettre en pratique le principe d´ecrit ci-dessus. Ces algorithmes sont issus de travaux communs avec Thomas Delavallade [46, 55].

Le premier algorithme est exhaustif. Il consiste à évaluer toutes les substitutions possibles pour choisir la meilleure substitution selon le principe décrit dans la section 4.2.1. La solution obtenue respecte parfaitement le principe proposé. Dans ce cas,

4.2 Nouvelle méthode de substitution basée sur l’entropie 125 le nombre de possibilités à évaluer est exponentiel selon le nombre de valeurs man-quantes (selon (4.2)) ou le nombre de classes (selon (4.3)). Ceci rend cet algorithme coûteux surtout dans les cas où le nombre de données manquantes, le nombre de classes et le nombre de valeurs de remplacement possibles sont grands.

Pour surmonter cette difficulté, nous proposons de sacrifier la perfection du résul-tat obtenu par la solution exhaustive pour construire des algorithmes moins coûteux qui réalisent approximativement le principe proposé. Nous décrivons ci-dessous deux algorithmes. Le premier est simple, non-itératif et le deuxième est itératif. ´ Evidem-ment, la deuxième se rapproche mieux du principe initial au prix d’un accroissement de la complexité.

L’algorithme non-itératif traite les valeurs manquantes une à une. Chacune est substituée comme si elle était la seule à traiter. Pour chaque exemple e de ξmanq, on procède en deux étapes :

1. Pour chaque valeur vj dans l’ensemble des valeurs possibles {v₁, v₂, .., vm} de A, calculer l’entropie conditionnelle de ξobs∪ {e} conditionnelle `a l’attribut A, en supposant que la valeur de e pour A est observ´ee et e(A) = vj :

I(ξobs ∪ {e}|A avec e(A) = vj)

2. Choisir l’entropie conditionnelle la plus petite et affecter à e(A) la valeur v associée à cette entropie conditionnelle minimale :

v = arg min

vj∈{v1,v2,..,vm}I(ξ^obs ∪ {e}|A avec e(A) = vj)

Cette version remplit chaque valeur manquante en cherchant à minimiser une entropie conditionnelle liée à une seule valeur manquante en question. Cependant, cela n’assure pas la minimisation de l’entropie conditionnelle selon le principe dé-crit dans la section 4.2.1. Notons que la sortie de l’algorithme est indépendante de l’ordre dans lequel les exemples sont traités. Pour un attribut, comme toutes les valeurs manquantes des exemples d’une même classe sont remplacées par une même valeur, on peut donc calculer une fois et reprendre le résultat pour plusieurs valeurs manquantes. Toutes les combinaisons possibles entre valeurs d’attributs et classes d’exemples sont évaluées. La complexité de l’algorithme est donc linéaire par rapport au produit du nombre de valeurs manquantes et du nombre de classes : O(min{|ξmanq| , n} ∗ m).

L’algorithme itératif permet de se rapprocher du principe proposé. À la première itération, les valeurs manquantes sont estimées d’une manière simple, qui peut être celle de l’algorithme non-itératif sur des données initiales. Ensuite, pour toutes les itérations suivantes, on recalcule toutes les valeurs manquantes, mais cette fois-ci, chaque valeur est calculée en supposant que toutes les autres valeurs de substitu-tion estimées dans l’itérasubstitu-tion précédente sont des valeurs observées. L’algorithme s’arrête lorsque l’entropie conditionnelle ne décroˆıt plus significativement. Cet algo-rithme n’assure qu’une solution optimale locale. Le nombre de calculs d’entropie est cette fois de l’ordre de : O(min{|ξmanq| , n)} ∗ mL) où L est le nombre d’itérations effectuées.

Exemple :L’exemple suivant illustre la réalisation de l’algorithme sur une base de 10 exemples ξ = {e1, e2, .., e10}, et un attribut A possèdant trois valeurs notées v1, v2 et v3. Pour l’attribut A il y a deux données manquantes. Pour simplifier la notation dans les tableaux 4.3 et 4.4, on note xi = ei(A), la valeur pour l’attribut A de l’exemple ei. On a : ξobs = {e1, e2, e3, e4, e5, e7, e8, e10} et ξmanq = {e6, e9}. La tâche est de trouver les valeurs pour x6 et x9.

Tab. 4.3 – Base initiale avec des donn´ees manquantes pour e6 et e9

ξ e1 e2 e3 e4 e5 e6 e7 e8 e9 e10

A x₁ x₂ x₃ x₄ x₅ x₆ x₇ x₈ x₉ x₁₀

Valeur v1 v2 v1 v3 v1 ? v2 v2 ? v1

Classe C1 C1 C2 C2 C1 C1 C2 C2 C2 C1

x₆ = v1 ⇒ I ξobs∪ {e6}|A avec x6 = v1 = −⁵₉ ⁴₅log⁴₅ +¹₅log¹₅ −3

9 ¹3log¹₃ +²₃log²₃ −¹₉ ¹₁log¹₁ +⁰₁log⁰₁ = 0.707

x₆ = v₂ ⇒ I ξobs∪ {e₆}|A avec x₆ = v₂

= 0.805 x₆ = v₃ ⇒ I ξobs∪ {e6}|A avec x6 = v₃

= 0.888

⇒ xˆ₆ = v₁

x₉ = v₁ ⇒ I ξobs∪ {e9}|A avec x9 = v₁

= 0.846 x₉ = v₂ ⇒ I ξobs∪ {e9}|A avec x9 = v₂

= 0.721 x₉ = v3 ⇒ I ξobs∪ {e9}|A avec x9 = v3 = 0.666

⇒ xˆ₉ = v3

Tab.4.4 – Deuxième et dernière itération (les valeurs de ˆx6 et ˆx9 ne changent pas)

ξ e1 e2 e3 e4 e5 e6 e7 e8 e9 e10

A x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

Valeur v1 v2 v1 v3 v1 ? v2 v2 ? v1

Classe C₁ C₁ C₂ C₂ C₁ C₁ C₂ C₂ C₂ C₁

x₆= v1 ⇒ I ξobs∪ {e6, e₉}|A avec x9= v3et x6= v1 = −₁₀⁵ ⁴₅log⁴₅ +¹₅log¹₅ −3

10 ¹3log¹₃ +²₃log²₃ −₁₀² ²₂log²₂ +⁰₂log⁰₂ = 0.636

x₆= v₂ ⇒ I ξobs∪ {e₆, e₉}|A avec x₉= v₃et x₆= v₂

= 0.724 x₆= v₃ ⇒ I ξobs∪ {e6, e₉}|A avec x9= v₃et x₆= v₃

= 0.875

⇒ xˆ₆ = v₁

x₉= v₁ ⇒ I ξobs∪ {e6, e₉}|A avec x6= v₁et x₉= v₁

= 0.826 x₉= v₂ ⇒ I ξobs∪ {e6, e₉}|A avec x6= v₁et x₉= v₂

= 0.685 x₉= v3 ⇒ I ξobs∪ {e6, e₉}|A avec x6= v1et x9= v3 = 0.636

4.3 Expérimentations 127 Le tableau 4.3 illustre le comportement de l’algorithme non-itératif. Le nombre de calculs d’entropie est ici linéaire par rapport au nombre de données manquantes ou bien du nombre de classes.

Le tableau 4.4 illustre, sur le même exemple ce qui est fait lors de la deuxième itération (la première itération est réalisée à l’aide de l’algorithme non-itératif). La deuxième itération est la dernière car les valeurs de substitution pour x6 et x9 ne changent pas et en conséquence l’entropie conditionnelle ne diminue pas.

4.3 Exp´erimentations

Pour compléter l’étude présentée ci-dessus, un certain nombre d’expérimentations ont été menées dans le contexte de la classification supervisée. Ces expérimentations ont été faites en commun avec Thomas Delavallade [46, 55].

Nous préférons désormais voir comment notre méthode se comporte de manière empirique. Au travers d’expériences sur des données artificielles et réelles, nous sou-haitons d’une part identifier les conditions qui lui sont les plus favorables et d’autre part juger de sa qualité comparativement aux techniques existantes pour justifier l’intérêt qu’il peut y avoir à l’utiliser. Cela permet d’avoir une idée pour choisir la technique la plus adéquate relativement à un problème concret.

Dans le contexte de la classification supervisée, la performance des techniques de substitution n’est évaluée ni sur la proximité entre les valeurs de substitution et les valeurs réelles, ni sur le respect de la distribution de certaines statistiques. ´

Evaluer une technique de substitution reviendra à évaluer le classifieur construit sur la base que cette technique aura complétée. Parmi les diverses mesures d’évaluation des classifieurs, nous avons choisi le taux de bonnes classifications qui est le seul utilisé dans les différentes études comparatives sur le sujet qui nous ont servi de référence [4, 14, 69].

Dans le document Mesures de discrimination et leurs applications en apprentissage inductif (Page 141-144)