• Aucun résultat trouvé

2.5 Utilisation des sous-ensembles flous dans la construction des arbres . 75

2.5.5 R´esum´e

Dans cette section, nous avons propos´e une nouvelle taxonomie de m´ethodes de construction d’arbres de d´ecision flous. Cette taxonomie repose sur la m´ethode de s´election du meilleur attribut et la strat´egie d’identification de fonctions d’apparte-nance.

Nous avons ensuite introduit l’utilisation des mesures de discrimination floues dans la recherche des coupures floues pour un attribut num´erique. Les mˆemes me-sures sont propos´ees pour la s´election des attributs dont les valeurs sont floues ou issues d’une discr´etisation par des coupures floues. Cette proposition est justifi´ee par la validation, dans le chapitre 1 de ces mesures par un mod`ele hi´erarchique pour des mesures de discrimination floues.

2.6 Conclusion

L’utilisation de l’entropie de Shannon dans la construction des arbres de d´ecision est tr`es fr´equente. Cette mesure intervient dans diff´erentes ´etapes, notamment dans la s´election du meilleur attribut et dans la discr´etisation des attributs num´eriques. L’extension de l’entropie de Shannon pour les ´ev´enements flous sert ´egalement de base `a plusieurs algorithmes pour le mˆeme but lorsqu’on souhaite prendre en compte l’incertitude et l’impr´ecision. `A cˆot´e de ces mesures, plusieurs autres sont recens´ees. Nous avons introduit des mesures plus g´en´erales que l’entropie de Shannon et l’entropie de Shannon floue dans ce processus. Ce sont des mesures de discrimina-tion classiques et floues, en particulier des entropies condidiscrimina-tionnelles de Dar´oczy, de R´enyi et leurs extensions floues. Ces mesures poss`edent un certain nombre de carac-t´eristiques d´efinies par le mod`ele hi´erarchique. Elles sont ´egalement caract´eris´ees de mani`ere exp´erimentale. Notre proposition fournit des choix alternatifs des mesures afin d’obtenir des solutions plus adapt´ees `a des probl`emes sp´ecifiques.

Dans ce chapitre, une nouvelle taxonomie des m´ethodes d’induction d’arbres de d´ecision flous est ´egalement propos´ee. Elle est caract´eris´ee par le crit`ere de s´election du meilleur attribut et la strat´egie d’identification de sous-ensembles flous.

Finalement, une impl´ementation de ces mesures est int´egr´ee dans une plateforme d’exp´erimentation s’intitul´ee DTGen. Ce logiciel sert `a une s´erie d’exp´erimentations sur plusieurs bases de donn´ees, y compris des bases issues des applications r´eelles que nous pr´esentons dans le chapitre 5.

Chapitre 3

Mesures de discrimination et

´evaluation de classifieurs

L’´evaluation de la performance de classifieurs est une tˆache n´ecessaire mais diffi-cile en apprentissage automatique. Elle permet de comparer des m´ethodes de classifi-cations entre elles et de comparer les classifieurs. Grˆace `a l’´evaluation, nous pouvons prendre des d´ecisions concernant le choix des m´ethodes et des classifieurs. Plusieurs crit`eres ont ´et´e propos´es et utilis´es dans un tel processus. Chaque crit`ere mesure une ou plusieurs facettes des classifieurs. Les crit`eres nous aident ´egalement `a carac-t´eriser les m´ethodes de classification et ainsi mieux comprendre les comportements des m´ethodes vis-`a-vis des donn´ees. Cela est n´ecessaire car il s’av`ere que dans les travaux existants il n’existe aucune m´ethode qui soit la meilleure pour tous les pro-bl`emes [140]. C’est-`a-dire que si un algorithme est plus efficace pour un probl`eme particulier, il est de niveau inf´erieur pour d’autres probl`emes.

Cependant, la plupart des mesures existantes ne prennent pas en compte les caract´eristiques du probl`eme telles que la qualit´e des donn´ees disponibles et notam-ment la distribution des classes. Elles ne consid`erent que le r´esultat de classification obtenu. Cela cause des biais dans l’´evaluation et dans l’interpr´etation des r´esultats, en particulier pour la comparaison des algorithmes sur des bases de donn´ees diff´e-rentes. Dans ce chapitre, nous justifions l’utilisation de mesures de discrimination comme une alternative pour ´evaluer des classifieurs. Un des avantages de ce type de mesure est la prise en compte des caract´eristiques des donn´ees. La justification se base principalement sur le mod`ele hi´erarchique pour les mesures de discrimination qui a ´et´e introduit et utilis´e dans l’induction d’arbres de d´ecision.

3.1 Introduction

Les techniques d’apprentissage inductif deviennent de plus en plus populaires dans les recherches scientifiques et industrielles. L’ensemble des m´ethodes d’appren-tissage ne cesse de s’agrandir. Naturellement l’´evaluation et la comparaison des m´e-thodes entre elles doivent ˆetre ´etudi´ees. Cela correspond `a un besoin r´eel de la re-cherche et de l’industrie. Or, la qualit´e d’une m´ethode de classification, en particulier

le r´esultat de classification, est un concept difficile `a d´efinir.

Les crit`eres d’´evaluation doivent ˆetre ´etablis en fonction des propri´et´es du pro-bl`eme `a r´esoudre. Certaines applications demandent que le classifieur construit donne la plus grande pr´ecision possible tandis que certaines pr´ef`erent obtenir la r´eponse le plus tˆot possible (d´ecision m´edicale par exemple). Dans plusieurs applications, certaines classes sont plus importantes que d’autres donc il est souhaitable que la classification soit la plus juste possible pour ces classes. Dans la suite, nous d´ecrivons le processus d’´evaluation et les probl´ematiques de l’´evaluation.