• Aucun résultat trouvé

Le test de Friedman nous permet de savoir si les diérences observées entre les diérents classieurs sont signicatives ou non. Si tel est le cas, il faut ensuite procéder à des com-paraisons multiples via des tests que l'on qualie de post-hoc, pour savoir quels classieurs dièrent. Lorsque l'on souhaite comparer les k(k−1)

2 paires de classieurs, l'équivalent non paramétrique du test de Tukey est le test de Nemenyi (Demsar, 2006). Pour toute paire de classieurs (Ci, Cj), l'hypothèse nulle énonce que les rangs moyens de Ci et Cj sont identiques. On a H0 : Ri= Rj.

Sous H0, q = qRi−Rj k(k+1)

6n

suit une loi normale.

Contrôler le taux d'erreurs global sachant que l'on doit eectuer k(k−1)

2 comparaisons, impose d'utiliser des valeurs critiques liées à celles qui sont fournies par la loi des écarts studentisés. Le test de Nemenyi consiste alors à appliquer la règle de décision suivante.

|q| ≥ qk,∞,α√

2 ⇒ Rejeter H0 |q| < qk,∞,α√

2 ⇒ Accepter H0

où qk,∞,α vérie P (x ∼ qk,∞∈ [−q/ k,∞,α, qk,∞,α]) = α, x ∼ qk,∞ indiquant que x suit la loi des écarts studentisés dont les paramètres sont le nombre k de classieurs comparés et un nombre de degrés de liberté inni.

Ce test, tout comme sa version paramétrique (le test de Tukey), ajuste le taux d'erreurs de comparaison, pour prendre en compte le fait que k(k−1)

2 comparaisons seront eectués et ainsi contrôler le taux d'erreurs global. Il ne faut donc pas l'utiliser lorsqu'un des classieurs sert de référence et que l'on souhaite comparer les k − 1 autres à celui-ci.

Dans de tels cas, il vaut mieux utiliser un autre type de test et contrôler le taux d'erreurs global via l'une des procédures d'ajustement décrites à la n de la section 5.4. Demsar suggère d'utiliser un z test basé sur la loi normale. En eet, sous H0, q suit une loi normale. Il est donc possible de calculer la p-valeur associée. Nous pouvons ensuite appliquer la procédure d'ajustement ascendante de Holland-Copenhaver, qui nous semble mieux adaptée que celles qui ont été proposées parDemsar (2006).

5.6 Conclusion

Nous avons vu dans ce chapitre quelles techniques pouvaient être mises à prot pour s'assurer que les diérences observées expérimentalement entre diérents classieurs ne sont pas le fruit du hasard, introduit via la procédure d'échantillonnage des données. Selon le nombre de classieurs à comparer, et le nombre de bases de données sur lesquelles ces classieurs sont évalués, diérentes solutions sont plus ou moins adéquates. Nous avons également vu, à propos de l'utilisation du test de Student, que la mesure de performance choisie avait son importance, ainsi que la procédure d'échantillonnage qui doit pouvoir garantir un minimum d'indépendance entre les échantillons, ce qui n'est pas aisé lorsqu'une seule base de données est à disposition.

Par la suite, nous serons amené à comparer plusieurs algorithmes de prétraitement : traitement des données manquantes et sélection d'attributs. Nous plaçant dans le contexte de la classication supervisée, ces algorithmes seront évalués par l'intermédiaire des clas-sieurs construits sur les bases de données qu'ils auront prétraitées. Nous aurons donc la plupart du temps k classieurs à comparer, évalués sur n bases de données.

Au vu de ce que nous venons de présenter, nous mettrons donc en place un test de Fried-man pour savoir si les classieurs ont des perforFried-mances équivalentes au vu des diérences

68 CHAPITRE 5. COMPARAISON DE CLASSIFIEURS que l'on peut observer. Lorsque ce test nous indiquera que ces diérences sont signica-tives, nous aurons alors recours au test de Nemenyi pour identier, parmi toutes les paires de classieurs, celles qui associent deux classieurs dont les performances sont distinctes. Lorsqu'une technique servira de référence à laquelle les k − 1 autres techniques seront com-parées, nous opterons pour un z test combiné à la procédure d'ajustement ascendante de Holland-Copenhaver.

Nous allons maintenant aborder plus précisément les questions liées au traitement des données manquantes et à la sélection d'attributs, au cours desquelles nous serons amené à mettre en ÷uvre la méthodologie comparative que nous venons de décrire. Mais avant cela, il nous paraît important de mettre en garde le lecteur contre des interprétations abusives des tests que nous venons de présenter.

Supposons qu'un test T soit appliqué à partir de données D pour choisir entre une hypothèse nulle H0 et l'hypothèse complémentaire H1 qui lui est associée. Pour un niveau de conance donné (1 − α), le fait que T rejette H0 indique qu'en considérant que H1 est vraie, nous pouvons garantir que nous avons moins de α% de chances de nous tromper et que H0 soit vraie. En revanche lorsque T accepte H0, cela veut simplement dire que de D seulement, nous ne pouvons pas conclure que H1 est vraie en garantissant une probabilité d'erreur inférieure à α. Dans notre cas, lorsque les tests employés ne concluent pas sur l'existence de diérences signicatives entre les classieurs comparés, cela signie que les données recueillies ne susent pas à révéler l'existence de diérences signicatives. En l'état on ne peut écarter l'idée que les diérences observées soient dues à l'aléatoire introduit par le processus d'échantillonnage, sans accepter de commettre une erreur avec une probabilité supérieure à α.

Chapitre 6

Traitement des données manquantes

La base de données à partir de laquelle nous avons construit un premier modèle d'éva-luation des risques contient de nombreuses données manquantes : plus du quart. Notre algorithme d'apprentissage ayant besoin de travailler sur une base complète, nous avons remplacé les valeurs manquantes par la valeur moyenne de l'attribut correspondant. Ceci n'est guère satisfaisant. Dans ce chapitre, nous allons envisager l'utilisation d'autres tech-niques, plus avancées, an d'améliorer la qualité de notre modèle. L'absence de certaines valeurs ou la présence de valeurs erronées est un problème récurrent que l'on retrouve dans de nombreux domaines, en particulier en analyse de risque, lorsque celle-ci se base sur l'analyse de données historiques, ce qui est notre cas. Aussi avons-nous décidé dans ce chapitre de traiter la question de façon aussi générique que possible.

6.1 Position du problème

La plupart des techniques actuelles d'analyse et de fouille de données sont fortement dépendantes de la qualité des données. Or, dans des applications réelles, il est fréquent que nombre de valeurs soient erronées, incohérentes, ou tout simplement manquantes. Pour mener à bien des analyses valides, il est donc important de tenir compte de ces problèmes. Si les statisticiens se préoccupent depuis longtemps de cette question (Little et Rubin,2002), essentiellement pour traiter les problèmes de non-réponse dans les questionnaires, cela est plus récent pour les chercheurs travaillant sur l'ADN (Oba et al.,2003), dans le domaine de l'ingénierie logicielle (Song et Shepperd,2007) ou la fouille de données. En apprentissage, les données manquantes peuvent faire chuter les performances d'un classieur (Acuna et Rodriguez,2004), voire le rendre inutilisable.

Nous nous proposons ici de recenser les principales méthodes existantes de traitement des données manquantes en section6.4, en présentant leurs points forts et leurs faiblesses, d'un point de vue théorique. Nous introduisons ensuite une nouvelle technique, basée sur des considérations issues de la théorie de l'information et qui correspond mieux à nos besoins. Nous l'avons développée en collaboration avec Thanh Ha Dang (Dang et Delaval-lade,2006;Delavallade et Dang,2007). Il n'existe pas de meilleure méthode dans l'absolu. Chacune est plus ou moins adaptée pour répondre à un objectif donné, en fonction du type de problème à traiter. Pour cette raison, nous comparerons les diérentes méthodes dans un cadre expérimental bien normalisé. Ceci devrait nous permettre de caractériser le comportement des diérentes techniques en fonction des particularités de la base de don-nées considérée. Nous nous intéresserons uniquement aux dondon-nées manquantes, une valeur erronée ou incohérente pouvant être considérée comme manquante1.

1La diculté avec ce type de données réside alors dans leur identication, ce qui est un problème

70 CHAPITRE 6. TRAITEMENT DES DONNÉES MANQUANTES