• Aucun résultat trouvé

État de l'art sur le traitement des données manquantes

De nombreuses techniques de traitement des données manquantes ont été développées. Dans les années 90,Hu et al.(2000), sans prétendre être exhaustifs, en identiaient déjà plus d'une vingtaine, pour la plupart issues des recherches en statistique. Depuis, les chercheurs en intelligence articielle, bioinformatique et fouille de données entre autres, se sont mis à étudier la question et ont développé de nouvelles techniques. Recenser l'ensemble de ces techniques serait fastidieux. Aussi avons-nous opté pour une mise en évidence des principales caractéristiques des diérentes méthodes. Ce travail nous permettra de dresser une taxinomie. Nous pourrons alors y placer les techniques les plus usitées et avoir ainsi une vue d'ensemble du domaine.

6.4.1 Vers une taxinomie des diérentes méthodes

Lorsque l'on souhaite utiliser une base de données incomplète, trois stratégies sont possibles (Song et Shepperd,2007).

1. Utiliser un algorithme qui permet intrinsèquement de travailler en présence de don-nées manquantes, ou modier un algorithme existant pour que cela devienne possible. Lorsque l'on fait de l'estimation de paramètres, l'algorithme EM (Expectation-Maxi-misation) introduit par Dempster et al. (1977) est une solution ecace, quoique coûteuse. Pour un problème de classication, des solutions ont été proposées pour adapter les arbres de décision, pour C4.5 ou CART par exemple (Feelders,1999). Tous les algorithmes d'apprentissage basés sur des notions de distance ou de similarité (k-moyennes, k plus proches voisins) peuvent assez facilement s'adapter aux données manquantes. C'est ce que font Timm et al. avec l'algorithme des c-moyennes oues qui, à l'instar de l'algorithme EM, peut à la fois prendre en charge l'absence de certaines valeurs et leur trouver des valeurs de substitution.

Timm et al. (2003) vont plus loin en proposant de considérer la distribution des données manquantes comme une donnée pertinente pour faire de la classication non supervisée. Il sut de modier la mesure de distance ou de similarité, par exemple en réduisant la dimension des vecteurs que l'on compare, pour n'intégrer à chaque fois que les composantes qui sont renseignées. Cependant on se retrouve à vouloir comparer des distances qui n'ont pas été mesurées sur les mêmes dimensions, ce qui peut poser problème. Certains travaux cherchent explicitement à intégrer le fait qu'une donnée soit manquante, en ajoutant une modalité supplémentaire pour chaque attribut incomplet.

2. Se ramener à une base de données complète par réduction de la dimension du pro-blème. Pour cela tous les exemples de la base contenant des valeurs manquantes sont supprimés3. Cette technique, du fait de sa simplicité est fréquemment employée. Cependant elle présente deux inconvénients majeurs. D'une part, elle engendre de grosses pertes d'informations qui peuvent s'avérer dommageables, les techniques sta-tistiques d'analyse des données ayant besoin d'un nombre susant d'échantillons pour que leurs inférences soient valides. Dans des cas qui ne sont pas rares, où la quasi-totalité des exemples possède des valeurs manquantes, elle devient même inutilisable. D'autre part, les statistiques, telles que la moyenne ou la variance, seront fortement

3On peut également choisir de supprimer toutes les variables dont certaines observations manquent, mais il faut être prudent car certaines peuvent être essentielles pour l'analyse.

6.4. ÉTAT DE L'ART SUR LE TRAITEMENT DES DONNÉES MANQUANTES 75 biaisées, à moins que le mécanisme de génération des données ne soit complètement aléatoire (MCAR) (Magnani,2003).

3. Se ramener à une base complète en trouvant un moyen adéquat pour remplacer les valeurs manquantes. On nomme ce procédé imputation, complétion ou substitution. Avec certains algorithmes d'apprentissage il est possible d'adopter une quatrième stra-tégie qui consiste à considérer l'ensemble des valeurs observées et à ignorer l'ensemble des manquantes. Ceci suppose donc que les valeurs manquantes ne sont pas porteuses d'in-formation et que le mécanisme de génération des valeurs manquantes est complètement aléatoire (MCAR). L'application de cette stratégie suppose que l'algorithme d'appren-tissage est capable de traiter des exemples qui ne sont pas tous décrits par les mêmes variables et qui appartiennent donc à des espaces diérents, de dimensions diérentes. Ra-gel et Crémilleux(1998) ont montré l'intérêt d'une telle stratégie pour l'apprentissage de règles d'associations. L'application de cette méthode aux arbres de décision est cependant plus délicate et reste un problème ouvert.

La stratégie 1 n'étant pas toujours applicable, parce que l'on souhaite absolument utiliser un algorithme qui s'étend dicilement au cas des valeurs manquantes, et la stratégie

2 comportant des faiblesses rédhibitoires, celle-ci est la plus utilisée. C'est celle que nous adopterons pour notre problème. Nous aurions pu modier Salammbô, à l'image de ce qui est fait dans CART ou C4.5. Mais comme le révèlent les études de Ragel et Crémilleux

(1999),Feelders(1999) etBatista et Monard(2003), la substitution des valeurs manquantes appliquée en amont de la construction d'un arbre de décision est souvent plus ecace que le recours au traitement interne de ces valeurs par C4.5 ou CART.

Cette première analyse conduit à la typologie de la gure 6.3. Nous allons maintenant nous focaliser sur les techniques de substitution correspondant à la stratégie3, en essayant de dégager les caractéristiques qui permettent de les diérencier. La technique étiquetée CD, pour Case Deletion ou suppression de cas, correspond à la stratégie2dans laquelle on se ramène à une base de données complète par suppression de tous les exemples contenant au moins une valeur manquante.

Fig. 6.3  Les grandes catégories de méthodes pour le traitement des données manquantes

Hu et al. (2000) ont construit une typologie simple, reposant essentiellement sur deux alternatives découlant des questions suivantes

76 CHAPITRE 6. TRAITEMENT DES DONNÉES MANQUANTES la méthode est-elle déterministe ou stochastique ?

Repose-t-elle sur la construction d'un modèle permettant de prédire les valeurs manquantes ou non ?

En s'inspirant de cette démarche nous proposons de rajouter de nouveaux critères an de pouvoir catégoriser plus nement les diérentes techniques.Hu et al.(2000) indiquent que les familles de méthodes qu'ils ont mises en évidence ne sont pas mutuellement exclusives et ne forment donc pas une partition. Cette remarque s'appliquera également à la taxinomie que nous allons introduire.

Nous notons Eo

i la partie observée de la variable vi, alors que Em

i en désigne la partie manquante. Il s'agit des ensembles d'exemples pour lesquels la valeur de vi est observée ou manquante :

Eio = {ej ∈ E/vji 6=?} Eim = {ej ∈ E/vji =?}

E = Eio∪ Eim noi et nm

i désigneront les cardinaux de ces ensembles. Dans la suite nous noterons ˆvij

l'estimation d'une valeur manquante vij. Supposons qu'une donnée vij soit manquante (valeur de vj pour l'exemple ei). Pour trouver une valeur de substitution diverses options s'orent à nous :

1. Considère-t-on le problème dans l'espace des variables ou dans celui des exemples ? La substitution de vij peut se faire à partir des informations existantes à propos de l'exemple ei contenues dans les autres variables vk ∈ V k 6= j (espace des variables). On peut préférer se focaliser sur les informations relatives à la variable vj présentes dans les autres exemples ek∈ E k 6= i(espace des exemples).

2. Utilise-t-on l'information de classe y ?

Nous distinguerons alors les techniques de substitution supervisées qui utilisent cette information, des techniques non supervisées qui ne s'en servent pas. Cela aura son importance dans le contexte de la classication supervisée, lorsqu'il faudra spécier le protocole expérimental. Nous y reviendrons à la section 6.6.3.

3. A-t-on recours à un modèle de prédiction ?

Ceci correspond au second critère de Hu et al., lorsque nous nous plaçons dans l'es-pace des variables. L'idée sous-jacente est d'essayer de tirer prot de la structure de corrélation qui peut exister entre les vk(k 6= j) et vj. La diculté réside dans le choix du modèle, dans les hypothèses qui le sous-tendent et qui sont souvent invériables en pratique. De plus, lorsque peu de données sont disponibles, le modèle peut s'avérer statistiquement peu able.

4. Si oui quel est le type de modèle utilisé ?

Classication, régression ou inférence bayésienne

5. Le processus de substitution est-il déterministe ou stochastique ?

C'est le premier critère mentionné par Hu et al. Les méthodes stochastiques prennent en compte l'incertitude sous-jacente, liée au remplacement d'une valeur inconnue. Certaines approches déterministes peuvent également tenir compte de l'incertitude. Aussi aurait-il peut-être fallu dédoubler ce critère. C'est le cas des méthodes de substitution multiple déterministes (elles sont théoriquement envisageables, mais ja-mais utilisées) ou encore de l'approche par assignation de toutes les valeurs possibles (AP V : All Possible Values) que nous décrirons plus loin.

6.4. ÉTAT DE L'ART SUR LE TRAITEMENT DES DONNÉES MANQUANTES 77 6. Prend-on en compte les informations au niveau local ou global ?

Autrement dit n'utilise-t-on que l'information de données proches de vij (au niveau des exemples ou des variables) ? Lorsqu'on s'intéresse à la proximité entre exemples, ce critère peut être regroupé avec le2e. Il sut pour cela de considérer que la variable de classe y permet d'identier les exemples qui sont proches.

Ces critères en main, nous avons pu construire la taxinomie des méthodes de substitu-tion des valeurs manquantes qui est décrite à la gure6.4. Elle est représentée par un arbre, dans lequel chacun des n÷uds correspond à un test binaire sur l'un de nos critères. Le ls de gauche rassemble les méthodes qui passent le test, alors que celles qui sont regroupées sous le ls de droite invalident ce test. Les diérentes méthodes sont rangées dans les feuilles de cet arbre. Les abréviations et acronymes seront explicités, à la section suivante, dans laquelle nous détaillerons le principe et les caractéristiques des techniques correspondantes.

78 CHAPITRE 6. TRAITEMENT DES DONNÉES MANQUANTES Fig. 6.4  Taxinomie des diéren tes métho des de traitemen t des données manquan tes

6.4. ÉTAT DE L'ART SUR LE TRAITEMENT DES DONNÉES MANQUANTES 79 6.4.2 Techniques de substitution des valeurs manquantes

Nous ne prétendons pas couvrir l'ensemble du domaine, mais nous évoquerons les mé-thodes les plus courantes, celles que nous avons incluses dans la taxinomie de la gure

6.4.

Toutes n'ont pas les mêmes propriétés, aussi est-il important de bien spécier les objec-tifs que l'on s'assigne avant de choisir une méthode de substitution an de pouvoir vérier l'adéquation entre objectifs et propriétés de chaque méthode. Les principaux objectifs que l'on peut vouloir poursuivre sont les suivants.

 Précision de la substitution : la valeur de remplacement doit être aussi proche que possible de la vraie valeur4.

 Préservation de la distribution des données : on s'intéresse plutôt aux para-mètres de cette distribution : moyenne, variance de chaque variable, covariance entre les variables.

 Précision de l'étape d'analyse : dans notre contexte la phase d'analyse correspond à la construction d'un modèle de classication supervisée. Un des objectifs est alors de maximiser les performances du classieur.

 Complexité minimale

Substitution dans l'espace des exemples 6.4.2.1 Substitution par la moyenne

Les valeurs manquantes de chaque variable sont remplacées par la moyenne de la va-riable considérée. Si cette méthode est simple et peu complexe, elle présente l'inconvénient de sous-estimer la variance et de biaiser la corrélation entre variables. La distribution des données est donc loin d'être préservée. Un autre problème provient du fait que l'estimateur de la moyenne est très sensible à la présence de valeurs aberrantes. Malgré cela, cette tech-nique s'avère empiriquement plutôt satisfaisante (Acuna et Rodriguez,2004). Pour pallier la sensibilité de la moyenne il peut être préférable d'utiliser la médiane qui est plus robuste. Dans le cas de données discrètes, on a recours au mode.

Dans un contexte de classication, comme celui que nous étudierons en section 6.6, il peut être intéressant d'estimer moyenne, médiane et mode relativement à chacune des classes et non pas sur la population toute entière. Les classes peuvent être connues à l'avance (supervisé) ou avoir été construites par des méthodes non supervisées (EM, k-moyennes, nuées dynamiques...).

Dans notre taxinomie, les méthodes correspondantes sont alors appelées : CMoyenne, CMédiane et CMode, le C indiquant que l'on tient compte d'une information de classe. Pour tenir compte de l'incertitude liée au processus de substitution on peut non pas considérer que l'on connaît avec certitude la valeur de substitution, mais tirer une valeur aléatoire centrée sur la médiane ou la moyenne. Ceci permet de rehausser la variance et donc de réduire le biais relatif à cette statistique. Généralement cette technique ne s'emploie qu'avec la moyenne, en supposant que la variable considérée suit une loi normale dont les paramètres sont estimés sur l'ensemble des données observables ou bien simplement sur les données de la même classe.

4Cet objectif est un peu utopique sachant que nous n'avons accès à la vraie valeur que sur des exemples jouets.

80 CHAPITRE 6. TRAITEMENT DES DONNÉES MANQUANTES Les deux méthodes en question ont été nommées MoyenneA et CMoyenneA, le A indiquant que l'on eectue un tirage aléatoire. Le tableau 6.5récapitule les méthodes que nous venons de mentionner.

Tab. 6.5  Diérentes techniques de substitution basées sur une mesure de tendance cen-trale

Moyenneij =moyenne ({x})x∈Eo j Médiane ˆvij =médiane ({x})x∈Eo j Modeij =mode ({x})x∈Eo

j CMoyenneij =moyenne ({x})x∈Eo

j,Classe(x)=yi CMédiane ˆvij =médiane ({x})x∈Eo

j,Classe(x)=yi CMode ˆvij =mode ({x})x∈Eo

j,Classe(x)=yi MoyenneAij ∼ Nmoyenne ({x})x∈Eo

j ,écart-type ({x})x∈Eo j



CMoyenneAij ∼ NCMoyenne, écart-type ({x})x∈Eo

j,Classe(x)=yi



6.4.2.2 Substitution aléatoire

Une autre façon de traiter les valeurs manquantes d'une variable donnée vj consiste à tirer aléatoirement une valeur dans le domaine de dénition de vj. Ceci revient à faire une hypothèse minimale sur les données, correspondant à la situation d'ignorance : toutes les valeurs sont équiprobables5. Ce domaine n'est pas connu a priori. On le détermine sur les échantillons observables Eo

j. Nous avons noté cette méthode AléatoireMM , MM signiant min-max, en référence à un domaine de dénition d'une variable continue. Pour les variables discrètes, il s'agit simplement de l'ensemble des modalités prises par vj et qui sont eectivement observées.

La méthode AléatoireHD fait partie de ce que l'on appelle les techniques Hot Deck qui visent à remplacer une valeur manquante vij sur vj, en utilisant les valeurs prises par cette même variable sur d'autres exemples. La méthode AléatoireHD revient simplement à choisir au hasard (tirage uniforme), un exemple l 6= i tel que vlj soit observée. Cette valeur est alors utilisée pour remplacer vij.

Si nous intégrons une information de classe (mode supervisé ou suite à un clustering des diérents exemples), nous pouvons raner l'identication du domaine de dénition de vj, classe par classe, avant de faire le tirage aléatoire. Ceci correspond à la méthode CAléatoireMM . CAléatoireHD consiste simplement à choisir aléatoirement un exemple qui donnera la valeur de substitution, non pas parmi tous les exemples, mais uniquement parmi ceux de la même classe que l'exemple à traiter. Le tableau6.6rappelle les dénitions des méthodes aléatoires que nous venons d'introduire.

6.4.2.3 Substitution en utilisant l'ensemble des valeurs possibles

À l'instar des techniques de remplacement aléatoire, la méthode APV permet de tenir compte de l'incertitude. Elle s'abstient de faire la moindre hypothèse sur les données. L'idée est la suivante. Puisqu'on ne connaît pas la valeur manquante, le plus simple est encore d'envisager toutes les possibilités. Ainsi toutes les valeurs observées de vj seront utilisées pour créer autant de nouveaux exemples, ne diérant que par cette valeur. L'incertitude

6.4. ÉTAT DE L'ART SUR LE TRAITEMENT DES DONNÉES MANQUANTES 81 Tab. 6.6  Techniques de substitution aléatoires

AléatoireMMij ∼ U  min ({x})x∈Eo j , max ({x})x∈Eo j  AléatoireHD ˆvij = vlj/vlj ∈ Eo j CAléatoireMMij ∼ U  min ({x})x∈Eo

j,Classe(x)=yi, max ({x})x∈Eo

j,Classe(x)=yi



CAléatoireHDij = vlj/vlj ∈ Eo

j, yl= yi

liée à la substitution est eectivement prise en compte. En revanche cela se fait de manière déterministe. Si vij est manquante on crée nj nouveaux exemples à partir de ei, où nj est le nombre de valeurs distinctes de vj. L'accroissement du nombre d'exemples dans la base est exponentiel en fonction du nombre de valeurs manquantes, ce qui peut vite devenir problématique.

Il existe également une autre version de cette technique, que nous avons appelée CAPV , dans laquelle une information de classe est prise en compte. La procédure de substitution est identique à celle de APV, à la diérence près qu'on ne s'intéresse qu'aux valeurs de vj

pour les exemples appartenant à la classe de ei.Grzymala-Busse et Hu (2001) notent que ces méthodes sont prometteuses, mais soulignent également les problèmes combinatoires qu'elles peuvent rencontrer.

6.4.2.4 k plus proches voisins

Pour chaque observation contenant des valeurs manquantes, on recherche ses k plus proches voisines. Dans le cas de variables continues, la valeur de remplacement correspond simplement à une moyenne pondérée des valeurs prises par ces k voisins pour la variable en question. Lorsque les variables sont discrètes, on procède à un vote majoritaire pour choisir la valeur la plus fréquente parmi les k qui ont été identiées. Nous avons noté cette méthode, qui fait partie des techniques Hot Deck, kppv. La diculté réside dans le choix du paramètre k et de la métrique utilisée, les distances les plus utilisées étant l'euclidienne, celle de Mahalanobis ou encore celle de Pearson. Ces distances sont également employées pour xer les poids requis lors du calcul de la moyenne pondérée. L'avantage de cette méthode est de ne faire aucune supposition quant à la distribution des données, et de prendre en considération la corrélation entre variables. En revanche elle est assez gourmande en temps de calcul.

Lorsque de nombreuses données sont manquantes, la dénition de la métrique est assez problématique. Pour calculer la distance entre deux exemples eiet ek, une technique simple consiste à projeter les vecteurs correspondants sur le sous-espace de dimension q < p dans lequel ces deux exemples n'ont pas de valeurs manquantes. La distance entre les deux projetés est alors considérée comme la distance entre nos deux exemples. Prenons un exemple concret. Soient e1 et e2, 2 exemples décrits par 5 variables.

v1 v2 v3 v4 v5

e1 2 4 ? 3 ?

e2 ? 1 3 7 ?

On projette alors e1 et e2 sur (v2, v4) pour obtenir pr (e1) et pr (e2). En considérant la distance euclidienne, que l'on note d, on a :

82 CHAPITRE 6. TRAITEMENT DES DONNÉES MANQUANTES Ainsi la distance ne sera pas calculée sur des espaces de même dimension. Pour y parvenir, nous proposons d'utiliser une version itérative de l'algorithme kppv, que nous notons kppvI. Il s'agit de partir d'une substitution initiale (Moyenne, Aléatoire ou encore kppv) puis de calculer la distance entre exemples sur l'espace de départ (de dimension p), en considérant que les valeurs remplacées précédemment sont des valeurs observées. On procède alors à l'estimation de nouvelles valeurs de remplacement par l'utilisation classique de la méthode kppv et on recommence, jusqu'à satisfaire un certain critère d'arrêt. Ce peut être par exemple un nombre d'itérations maximal ou encore l'absence de modication des valeurs de substitution d'une itération sur l'autre.

Pour remplacer une valeur vij manquante, la technique kppv procède localement, en s'appuyant sur la valeur prise par vj sur d'autres exemples, proches de ei. On peut dénir des versions Ckppv et CkppvI qui tiennent compte d'une information de classe. La mé-thode Ckppv est utilisée parSong et Shepperd (2007) sous le nom de MINI . Ils procèdent à une réduction amont de la dimension du problème en sélectionnant les variables clés via l'algorithme de sélection d'attributs d'ID3. Le calcul de leurs distances doit donc en être amélioré. Autre particularité, ils se placent dans un contexte d'apprentissage supervisé et disposent donc d'une variable classe. Mais ils n'utilisent qu'indirectement cette infor-mation, pour calculer la distance entre chaque exemple contenant une valeur manquante et chacune des classes. Les k plus proches voisins de l'exemple considéré, parmi ceux qui appartiennent à la classe dont il est le plus proche, sont alors utilisés pour déterminer la