• Aucun résultat trouvé

Partie III Expérimentation et Évaluation

Chapitre 7 Complexité de classement d’objets avec valeurs manquantes 127

7.3 Complexité de classement d’objet dans un arbre de décision

7.3.3 Complexité de classement dans la méthode C4.5

LT)) = O(log( ¯LmT)) = O(m× log( ¯LT))

Où ¯LT est le nombre moyen de feuilles dans un arbre d’attribut. Quand on remplit toutes les valeurs manquantes dans l’instance à classer, on parcourt un seul chemin dans l’arbre de décision final pour trouver la classe de cette instance, ce qui correspond à une complexité O(log(L)) où L est le nombre des feuilles dans l’arbre de décision final.

7.3.3 Complexité de classement dans la méthode C4.5

Dans la méthode C4.5, quand nous classons une instance ayant des valeurs manquantes, nous parcourons les chemins possibles dans l’arbre de décision final selon les valeurs des attributs inconnus. Dans le pire des cas, nous parcourons tous les chemins dans l’arbre de décision, ce qui correspond à la complexité suivante :

O(L logv(L))

Cette complexité est quasi-linéaire en fonction du nombre de feuilles dans l’arbre de décision.

7.4 Conclusion

Dans ce chapitre, nous avons expliqué le calcul de la complexité de construction des arbres d’attributs (AAOPs et AAPs) en temps d’exécution. Nous avons ensuite présenté la complexité de classement d’un objet incomplet en utilisant notre algorithme de classement, la méthode C4.5 ainsi que la méthode des Arbres d’Attributs Ordonnés (AAO).

Nous avons montré que notre algorithme est exponentiel en fonction de nombre d’attributs manquants dans l’instance à classer. Plus le nombre des valeurs manquantes dans l’objet à classer est grand, plus la complexité du classement augmente. Quant à la complexité de classement d’un objet en C4.5, elle est quasi-linéaire en fonction de nombre de feuilles de l’arbre de décision final. Nous pouvons conclure que notre méthode est plus complexe que C4.5 et AAO lors du clas-sement d’un objet ayant des valeurs manquantes. Cependant, la performance de notre approche est meilleure que celles de C4.5 et AAO.

Conclusion

Contributions

Nous avons traité dans ce mémoire du problème des valeurs manquantes dans les données pour les arbres de décision. Les arbres de décision sont une méthode d’apprentissage supervisé qui extrait des connaissances sous forme d’arbre. Cet arbre est facile à interpréter et à utiliser comme outil d’aide à la décision pour classer de nouveaux cas. Dans un tel arbre, les nœuds représentent les attributs et les valeurs de ces attributs forment les branches de chaque nœud. Les feuilles représentent la classe.

Le problème des valeurs manquantes se pose pendant la phase de construction lors du calcul de l’information mutuelle pour choisir l’attribut nœud ainsi que lors de la partition de l’ensemble d’apprentissage selon l’attribut choisi. Pendant la phase de classement, nous rencontrons ce pro-blème quand un attribut nœud est inconnu dans l’objet à classer. L’objectif du travail effectué dans cette thèse est de classer de manière probabiliste un objet ayant des valeurs manquantes dans un arbre de décision.

Dans un premier temps, nous avons proposé deux approches pour résoudre ce problème, la première, AAOP, est une extension de la méthode des Arbres d’Attributs Ordonnés (AAO) proposée par Lobo et Numao. Nous avons étendu cette méthode sur deux points : 1) nous gardons sur chaque feuille les valeurs de la classe avec leurs probabilités ; 2) nous construisons chaque arbre d’attribut en utilisant les attributs déjà traités et dépendants de l’attribut en question. La deuxième proposition, AAP, construit pour chaque attribut un arbre d’attribut en utilisant les attributs dont il dépend. La dépendance est calculée en utilisant l’Information Mutuelle.

Nous avons combiné les deux approches pour classer le même objet quand nous avons plu-sieurs attributs manquants et dépendants en même temps. Dans ce cas, nous utilisons pour les attributs les moins dépendants de la classe leurs AAOPs, et nous utilisons les AAPs des attributs les plus dépendants de la classe. Par exemple, considérons le cas où nous avons quatre attributs

A, B, C et D manquants et ordonnés par ordre croissant en fonction de leur Information

Mu-tuelle Normalisée avec la classe tel que A et B sont dépendants et ils dépendent de C et D. C et D ne sont pas dépendants. Dans ce cas, nous utilisons pour A et B leurs AAOPs, et pour les attributs C et D, nous utilisons leurs AAPs.

Nous avons testé cette approche sur plusieurs bases de données réelles et pour plusieurs seuils de dépendance. Les attributs dans les bases prennent des valeurs qualitatives et discrètes. Les attributs discrets sont traités comme des attributs qualitatifs en considérant chaque valeur comme une modalité.

Nous avons comparé nos résultats de classement avec ceux donnés par C4.5 et AAO. Nous avons montré que notre approche donne de meilleurs résultats quand les attributs sont dépen-dants. En revanche, quand les attributs sont indépendants, nos résultats de classement n’offrent pas d’améliorations par rapport aux résultats de C4.5 et AAO, puisque dans ce cas chacun de

nos arbres est constitué d’un seul nœud-feuille avec sa distribution de probabilités dans la base d’apprentissage. Or, dans la réalité, il est rare que les données soient indépendantes, et nous avons montré que la prise en compte des dépendances améliorait de manière sensible les perfor-mances du classement.

Dans un deuxième temps, nous avons proposé un algorithme statistique, appelé

Analyser-Instance, qui est une implantation de la méthode des k plus proches voisins. Cet algorithme

calcule pour chaque instance de la base de test la fréquence de ses instances les plus proches dans la base d’apprentissage. Notre expérimentation a montré que les résultats de l’approche

AAP sont proches du résultat de l’algorithme Analyser-Instance pour certains seuils. Cet

al-gorithme prend en compte les valeurs manquantes dans l’objet à classer lors du calcul de ses fréquences, sans traiter les valeurs manquantes elles-mêmes.

Dans le dernier chapitre de ce mémoire, nous avons calculé la complexité de notre algorithme de classement. Nous l’avons comparée avec la complexité de classement obtenue en utilisant C4.5 et AAO en présence de valeurs manquantes. Nous avons trouvé que la complexité de notre algorithme est exponentielle en fonction du nombre d’attributs manquants dans l’instance à classer.

Ainsi, si le nombre des valeurs manquantes est égal à 1 et si l’attribut manquant est la racine de l’arbre de décision final, la complexité de notre approche est proche de la complexité de C4.5 lors du classement. De plus, les résultats de classement de AAP et de AAO sont meilleurs que ceux obtenus par C4.5 parce que celui-ci considère la fréquence de cet attribut dans toute la base d’apprentissage sans prendre en compte les dépendances éventuelles.

Si l’attribut manquant n’est pas la racine de l’arbre, notre approche donne un résultat de classement meilleur que celui de C4.5 et AAO parce que AAO n’utilise pas forcément tous les attributs qui dépendent de l’attribut inconnu, et C4.5 calcule sa probabilité dans le sous-ensemble d’apprentissage associé à son nœud.

La complexité de notre algorithme de classement est plus élevée que celles de C4.5 et AAO, mais ses performances sont meilleures.

Retour sur les arbres de décision probabilistes

En 2005 et 2006, la conférence internationale IEEE en Data Mining (ICDM) a lancé deux propositions pour identifier les dix meilleurs algorithmes utilisés en Data Mining, et C4.5 a été identifié comme la méthode la plus utilisée pour le classement76. Ainsi, C4.5 semble être la méthode la plus efficace pour le classement en l’absence de valeurs manquantes.

Dans cette thèse, nous n’avons pas traité la question de l’amélioration de l’arbre de décision en estimation de probabilité mais nous avons étudié les arbres de décision probabilistes pour traiter le problème des valeurs manquantes dans les objets à classer. Nous avons utilisé les arbres de décision probabilistes sous leur forme la plus simple, en gardant sur chaque feuille les valeurs de la classe avec leurs probabilités.

Le problème de l’estimation de probabilité en utilisant un arbre de décision probabiliste est délicat puisque d’une part l’algorithme de construction cherche à trouver l’arbre le plus petit en appliquant la stratégie d’élagage, ce qui diminue le nombre d’attributs utilisés pour la construction, et d’autre part, le fait de laisser l’arbre croître jusqu’au bout conduit à un nombre

76

Les algorithmes candidats en classement étaient C4.5, CART, K plus proches voisins et Naïve Bayes. http://www.cs.uvm.edu/~icdm/algorithms/index.shtml. C4.5 est classé premier.

Conclusion

d’instances assez petit par feuille, ce qui donne une estimation de probabilité non fiable. Dans notre travail, pour améliorer la probabilité estimée sur chaque feuille dans l’arbre de décision, nous avons utilisé une stratégie de pré-élagage pour avoir les attributs pertinents dans chaque arbre construit.

Toutefois, le fait d’utiliser un seul arbre de décision pour classer l’objet ayant des valeurs manquantes réduit la capacité de cet arbre en classement, et l’estimation de probabilité donnée dans ce cas devient très faible. Parce que C4.5 prend la fréquence de l’attribut manquant dans le sous-ensemble associé au nœud où cet attribut est inconnu, C4.5 n’est pas efficace pour classer un objet ayant des valeurs manquantes. De plus, les distributions de probabilités obtenues avec C4.5 sont éloignées des résultats obtenus avec l’algorithme Analyser-Instance.

Avec notre approche, nous associons des arbres de décision probabilistes à chaque attribut dans la base d’apprentissage, ces arbres vont servir à calculer la distribution de probabilités de l’attribut manquant. Nous pouvons conclure que la combinaison des distributions de probabilités données par ces arbres pour classer l’objet conduit à un résultat de classement plus précis et plus fin que celui donné par C4.5.

Perspectives

Nous envisageons plusieurs directions pour la poursuite de ce travail.

D’une part, nous souhaiterions approfondir le travail sur les arbres de décision probabilistes pour améliorer leur performance en estimation de probabilité, sans changer la structure de l’arbre, et en prenant en compte le fait qu’il faut avoir un nombre minimum d’objets par feuille et qu’il faut utiliser le maximum d’attributs pertinents.

D’autre part, nous pensons étudier en détail les méthodes statistiques qui traitent les valeurs manquantes dans les données et les comparer avec notre approche. Il serait intéressant de com-parer les distributions de probabilités obtenues par notre approche avec celles d’autres méthodes de fouille de données, comme les règles d’association [Ragel et Cremilleux, 1998, Tsumoto et al., 2005] et les réseaux bayésiens [Naïm et al., 2004, Heckerman, 1997].

Il n’existe pas à notre connaissance une "meilleure" méthode pour la gestion des valeurs manquantes, qui soit applicable à toutes les bases de données. Nous avons montré que les relations entre les attributs changent d’une base à l’autre. Il existe des bases où la corrélation entre les attributs est forte et d’autres où on rencontre des attributs indépendants.

Ainsi, pour que la méthode des Arbres d’Attributs Ordonnés soit applicable, les attributs des bases d’apprentissage doivent vérifier certaines conditions ; notre approche fonctionne mieux que AAO et C4.5 quand la corrélation entre les attributs est forte ; la méthode de majorité n’est applicable que pendant la phase d’apprentissage.

Dans notre travail, nous avons montré comment construire deux familles d’arbres pour les attributs dans la base d’apprentissage, ainsi que l’arbre de décision final. Puisque la complexité de classement avec notre approche est exponentielle en fonction du nombre d’attributs manquants dans l’objet à classer, nous cherchons des moyens pour diminuer cette complexité et augmenter le taux de bon classement probabiliste.

Nous pensons que construire une seule famille d’arbres AAPs qui prenne en compte les dé-pendances éventuelles entre les attributs peut apporter des simplifications significatives. Nous avons également été confrontés à un problème de cycle quand deux attributs sont dépendants et manquants en même temps. Pour éviter ce problème, nous pensons à une solution hybride qui combine la famille des arbres d’attributs probabilistes AAP avec l’algorithme Analyser-Instance,

qui donne un résultat proche de celui de notre approche. Ainsi, pour l’attribut le moins dé-pendant de la classe, nous proposons de calculer sa distribution de probabilités en appelant l’algorithme Analyser-Instance et pour l’attribut le plus dépendant de la classe utiliser son AAP. Nous pensons que ces améliorations sont susceptibles de diminuer la complexité de calcul et aussi augmenter la qualité de l’estimation probabiliste.

Nous avons dans ce travail abordé un des aspects du vaste problème de la gestion des valeurs manquantes dans les données, qui dépasse largement le cadre des arbres de décision. Ce problème, qui se répète sur toutes les étapes du processus d’ECD, fait partie de thèmes traités en Fouille de Données Complexes.

Annexe A

A.1 La validation Croisée

La validation croisée est une méthode d’estimation non biaisée du taux d’erreur [Cornuéjols

et al., 2002]. L’idée de la validation croisée (N-fold cross-validation) consiste à :

– Diviser les données d’apprentissage S en N sous-échantillons de taille égale.

– Retenir l’un de ces échantillons, disons de numéro i, pour le test et construire le classifieur en utilisant les N-1 autres.

– Mesurer le taux d’erreur empirique ei sur l’ échantillon i. – Recommencer n fois en faisant varier l’échantillon i de 1 à N.

L’erreur estimée finale est donnée par la moyenne des erreurs mesurées.

e = 1 N N X i=1 ei