Les données manquantes en reconnaissance de forme

Il arrive fréquemment que des données soient manquantes dans des applications de modèles prédictifs. Par exemple, il manque souvent des résultats de test clinique quand on souhaite pré- dire l’efficacité d’un traitement pour un patient donné. Dans le cas de questionnaires concernant les préférences d’achat, les clients ne répondent parfois pas à toutes les questions. De façon gé- nérale en reconnaissance de forme, il est important de distinguer deux cas : les données peuvent manquer au moment de l’apprentissage et/ou au moment de la classification. Dans le cas de l’étude présentée ici, l’apprentissage est réalisé avec la totalité des données et certaines données (certains classifieurs faibles) manquent au moment de la classification. Nous nous concentrons donc sur les méthodes de traitement des données manquantes pendant la classification.

Données manquantes pendant la classiﬁcation

Une étude des différentes méthodes de traitement des données manquantes lors de la clas- siﬁcation par arbre de décision a été réalisée par Saar-Tsechansky et Provost [59]. Dans cette étude, on se place dans le cadre de la prédiction d’une variable cibley en appliquant un modèle F , issu d’un apprentissage, sur un vecteur d’attribut x = (x1. . . xN)T(y = F (x)) et on suppose

que certains attributsxi sont manquants. Dans ce contexte, plusieurs approches existent pour

traiter les données manquantes :

1 - Ignorer l’instance à traiter. Si l’instance présente des attributs manquants, on décide de ne pas faire de prédiction. Une prédiction est faite seulement si tous les attributs sont présents ;

2 - Acquérir les attributs manquants. En pratique, un attribut manquant peut être acquis moyen- nant un coût, tel que le coût d’effectuer un test clinique ;

3 - Estimer les attributs manquants par une valeur de substitution. L’attribut manquant est remplacé par une valeur estimée à partir des valeurs de cet attribut dans l’ensemble d’apprentissage. Une pratique courante consiste à prendre la moyenne des valeurs de l’attri- but ;

4 - Estimer la variale cible en se basant sur les distributions des attributs. Connaissant la distribution (estimée) des valeurs d’un attribut, on peut estimer la distribution de la variable cible. L’algorithme C4.5 [55], basé sur un arbre de décision, s’appuie sur ce principe : quand un attribut est manquant au niveau d’un noeud, plusieurs pseudo-instances sont

créées avec des valeurs différentes pour l’attribut manquant ainsi qu’un poids correspon- dant à la probabilité de la valeur affectée. Chaque pseudo-instance est traitée par l’arbre de décision et la décision ﬁnale est une combinaison des différentes décisions ;

5 - Estimer les attributs manquants par une valeur arbitraire. Au lieu d’estimer une valeur (comme la moyenne), on remplace systématiquement l’attribut manquant par une valeur arbitraire.

6 - Utiliser des modèles prédictifs réduits. Dans cette approche, on construit plusieurs mo- dèles prédictifs capables de prédire la variable cible en utilisant seulement un sous- ensembles des attributs. Par exemple, si l’attribut 1 manque, on utilisera le modèle appris sur les attributs 2 à N. L’idée de cette approche est d’utiliser uniquement les attributs

présents pour prédire la variable cible.

Parmi toutes ces approches, les approches 4 et 5 ont été retenues. L’approche 6 représente les solutions existantes dans le domaine de la détection de visages tournés ou occultés. Elles sont abordées au chapitre suivant. La section suivante expose une solution naïve au problème de classifieurs faibes manquants inspirée de l’approche 5. Quant aux solutions solutions propo- sées, elles s’appuient sur les distributions des scores fournis par les classifieurs faibles pour estimer la variable cible, qui est ici la probabilité d’appartenance d’un exemple à la classe visage. L’étude de Saar-Tsechansky et Provost [59] ne concerne pas le traitement des données manquantes dans une cascade de classifieurs boostés. Quelques solutions ont été proposés dans le cas d’autres classifieurs. Pour des algorithmes de type SVM, on peut citer Globerson et Roweis [18] qui proposent un algorithme d’apprentissage sous la forme d’un problème quadratique qui prend en compte la possibilité que des attributs soient manquants lors de la classification. Cette idée est par la suite améliorée par Dekel et Shamir [11] qui proposent un algorithme d’apprentissage robuste à la suppression de attributs pendant la classification mais également robuste à la corruption (par du bruit) de ces attributs. Dans le cadre du boosting, Wang et Feng [75] proposent d’estimer les attributs manquants en utilisant des régressions linéaires entre chaque attribut manquant et l’ensemble des attributs présents. Enfin, Smeraldi et al. [66] proposent une version modifiée de l’agorithme Adaboost discret dans laquelle les classifieurs faibles donnent des réponses dans{−1, 0, 1}. Le cas 0 correspond au cas où l’attribut est manquant pendant la classification.

Aucun article sur le traitement de classifieurs faibles manquants dans une cascade de classifieurs boostées n’a été trouvé et la solution proposée est, à notre connaissance, la première existante. Celle-ci est uniquement valable pour des cascades utilisant des algorithmes de boosting réels, i.e. des algorithmes de boosting dont les classifieurs faibles sont des fonctions à valeurs réelles. On ne peut donc pas l’appliquer à l’algorithme Adaboost discret (les classifieurs faibles donnent des réponses binaires : 1 ou -1). Dans notre cas, les attributs seront les scores faibles fournis par les classifieurs faibles et le modèle prédictif sera le classifieur fort de chaque niveau qui combine les scores faibles et les compare à un seuil.

4.3 Solution naïve de gestion des classiﬁeurs faibles manquants

Dans le document Gestion de données manquantes dans des cascades de boosting : application à la détection de visages (Page 72-74)