• Aucun résultat trouvé

4.6 Évaluation sur des données France Telecom

5.1.2 Les critères d’évaluation

On présente ci-dessous une typologie des critères de discrétisation supervisée.

5.1.2.1 Supervisé versus non supervisé.

Les critères cités précédemment dans le cadre des arbres de décision sont tous super- visés. Ils tiennent compte de la variable à expliquer pour évaluer une discrétisation, alors que les critères non supervisés n’utilisent que la variable explicative. Les méthodes non supervisées les plus classiques sont EqualWidth et EqualFrequency. La méthode Equal- Width divise le domaine numérique en intervalles de largeur égale, alors que la méthode EqualFrequency divise l’ensemble des individus en intervalles d’effectif égal.

Dans la plupart des articles se comparant à ces méthodes, le nombre d’intervalles est fixé à 10. Certains auteurs proposent des choix heuristiques, comme le log du nombre de valeurs numériques distinctes [Dougherty et al., 1995]. Il est à noter que le problème du choix du nombre d’intervalles pour la méthode EqualWidth est un sujet d’étude à part entière dans la communauté scientifique de l’estimation de densité par histogrammes [Sturges, 1926, Scott, 1979, Castellan, 1999, Birgé and Rozenholc, 2002].

Remarque 5.1.Les critères supervisés sont préférables dès lors qu’il s’agit de modéliser la dis-

tribution de probabilité conditionnelle de la variable à expliquer. Ils ne sont pas limités dans leur expressivité comme les critères non supervisés, pour lesquels le choix de l’emplacement des bornes de discrétisation est fortement contraint et ne peut pas tenir compte des variations de densité conditionnelle.

5.1.2.2 Global versus local.

Les critères globaux recherchent une partition de tous les individus alors que les critères locaux ne s’intéressent qu’à un sous-ensemble des individus. La distinction "global versus local", aussi appelée "statique versus dynamique" dans la littérature, est essentiellement liée à l’utilisation des méthodes dans le cadre des arbres de décision, qui peuvent soit discrétiser les variables numériques une fois pour toutes avant la construction de l’arbre, soit discrétiser les variables localement à chaque noeud de l’arbre, sur une sous-population d’individus.

5.1.2.3 Binaire versus n-aire.

Les critères binaires recherchent la meilleure discrétisation en deux intervalles, alors que les critères n-aires recherchent une discrétisation en un nombre quelconque d’inter- valles. Il est à noter que les critères binaires sont souvent utilisés en conjonction avec un algorithme récursif pour produire des discrétisations n-aires.

Remarque 5.2. En raison de leur forte expressivité, les critères n-aire sont préférables pour

modéliser la distribution de probabilité conditionnelle de la variable à expliquer.

5.1.2.4 Familles de critères

Plusieurs familles de critères ont été étudiées dans la littérature. Les principales sont basées sur :

– le taux d’erreur : il s’agit de minimiser le taux d’erreur en apprentissage,

– l’indépendance entre intervalles : il s’agit de fusionner les intervalles adjacents ayant une distribution similaire des valeurs à expliquer,

– évaluation de l’entropie : il s’agit d’évaluer l’entropie conditionnelle de la variable à expliquer.

Les critères basés sur le taux d’erreur sont adaptés à la modélisation déterministe, alors que ceux basés sur l’indépendance des distributions entre intervalles ou sur l’entropie conditionnelle concernent la modélisation probabiliste.

5.1.2.5 Pénalisation des critères

La discrétisation supervisée est un problème de compromis entre finesse et fiabilité. Les critères de discrétisation sensibles à la finesse des informations produisent généralement trop d’intervalles, ce qui nuit à leur fiabilité.

Pour améliorer la fiabilité des critères, certaines méthodes pénalisent explicitement les discrétisations comportant de nombreux intervalles ou ayant des intervalles de faible effectif. Cette pénalisation est incorporée soit dans le critère directement, par exemple par un ratio dont le dénominateur est le nombre d’intervalles, soit sous forme de para- mètres utilisateurs. Des paramètres sont également utilisés dans les critères basés sur une approximation, en imposant par exemple un effectif minimum pour fiabiliser l’estimation empirique des probabilités, ou dans les critères basés sur un test statistique, pour fixer un seuil de décision. Une autre approche pour obtenir un critère d’évaluation fiable est de poser le problème de la discrétisation comme un problème de sélection de modèles, en adoptant par exemple une approche Bayesienne MAP, une approche MDL [Rissanen, 1978], ou un test statistique dans le cas d’un choix entre deux hypothèses.

De façon synthétique, on peut retenir les caractéristiques suivantes (non exclusives) employées pour la fiabilisation des critères :

– pénalisation en fonction du nombre d’intervalles, – pénalisation en fonction des effectifs par intervalle, – utilisation d’une approche de sélection de modèles, – utilisation de paramètres.

Remarque 5.3.La pénalisation explicite des discrétisations comportant trop d’intervalles ou contenant des intervalles de faible effectif ne garantit ni la finesse, ni la fiabilité des discrétisations.

Remarque 5.4.Les critères binaires résolvent le problème de fiabilité en se limitant à deux

intervalles. S’ils sont utilisés récursivement pour produire des discrétisations n-aires, la fiabilité redevient un problème, notamment en raison de l’application du même critère de nombreuses fois, sur des sous-échantillons de tailles très variées.

Remarque 5.5.Les critères incorporant un paramétrage utilisateur ne sont pas adaptés à l’au-

tomatisation de la phase de préparation des données du Data Mining, puisqu’ils réclament une intervention humaine. Même quand les paramètres sont fixés de façon interne à la méthode, ils résultent souvent de compromis heuristiques adaptés à certaines situations, ce qui n’est pas satisfaisant pour traiter de façon générique, fiable et fine tout problème d’analyse de données.