• Aucun résultat trouvé

5.5 Démarche de modélisation

5.5.2 Famille de modèles de discrétisation

On formalise les principaux choix de modélisation ayant conduit à l’espace des modèles considérés par la méthode MODL de discrétisation supervisée.

Choix 5.1. Modélisation de la probabilité conditionnelle.

Le choix d’une modélisation probabiliste plutôt que déterministe provient de l’objec- tif de généricité. En effet, seule la modélisation probabiliste peut s’adapter à toutes les applications potentielles de la préparation des données, que ce soit pour la classification, le scoring ou l’explication.

Choix 5.2. Modélisation non paramétrique.

L’objectif est de modéliser la probabilité de la variable à expliquer conditionnellement à la variable explicative. Comme on se place dans le contexte de la préparation des don- nées pour le Data Mining, on ne dispose en général d’aucune connaissance du domaine. Le choix d’une méthode non paramétrique, ayant un comportement d’approximateur uni- versel s’impose alors naturellement.

Précisons que l’on utilise le terme paramétrique au sens défini dans [Robert, 2006], c’est à dire quand les paramètres de modélisation appartiennent à un espace de dimension finie. La modélisation non paramétrique est intéressante essentiellement en raison de ses capacités d’approximation universelle, atteintes asymptotiquement. Peut-on pour autant considérer qu’un mélange infini de Gaussiennes, de polynômes de degrés quelconques ou de fonctions splines sont équivalents ? La question se pose notamment en pratique, puisque l’on ne dispose que d’échantillons de taille finie permettant d’estimer un nombre fini de paramètres. On privilégie dans le choix suivant une famille de modèles qui vise à maximiser l’expressivité d’un modèle quand le nombre de paramètres est borné.

Choix 5.3. Modèle de discrétisation n-aires.

Les modèles de discrétisation n-aires sont choisis pour leur expressivité, leur simplicité de mise en oeuvre et leur interprétabilité. Une discrétisation n-aire est ici considérée comme un modèle non paramétrique d’estimation de probabilité conditionnelle, constant par morceaux.

Ceci détermine la structure de l’espace M des paramètres des modèles, à savoir le choix

du nombre I d’intervalles, des bornes bi des intervalles, et pour chaque intervalle i des

probabilités conditionnelles pij des J valeurs à expliquer. Pour un nombre d’intervalles I

fixé, MI est une famille paramétrique de modèles dont les paramètres {bi}i sont à valeurs

dans RI−1et les paramètres {pij}ij à valeurs dans [0, 1]IJ. On peut maintenant préciser la

nature non paramétrique de la famille de modèles envisagée M =S

I∈N∗MI, qui contient

un nombre infini de paramètres, à valeurs dans les ensembles infinis non dénombrables R et [0, 1] .

La modélisation sur les rangs plutôt que sur les valeurs explicatives permet de se rendre indépendant de toute transformation monotone de la variable explicative et d’être plus ro- buste aux valeurs atypiques. On se conforme ainsi à l’objectif d’automatisation, en évitant les opérations usuelles de nettoyage, transformation, normalisation, fortes consommatrices de temps en préparation des données. De plus, l’invariance par transformation monotone de la variable explicative simplifie le problème de modélisation, sans perte d’expressivité. La modélisation sur les rangs n’est pas propre à la méthode MODL. En effet, la quasi-totalité des méthodes de discrétisation de la bibliographie recherche les bornes des intervalles parmi les frontières entre les individus de l’échantillon d’apprentissage.

Choix 5.5. Modèle discret dépendant des données explicatives.

La famille de modèles de discrétisation dépend des individus en apprentissage pour le nombre d’intervalles maximum envisagé, pour le choix des bornes des intervalles, et localement à chaque intervalle, pour le choix des paramètres de la distribution à expli- quer. Cela a pour conséquence de considérer une famille de modèles à paramètres discrets. Cette famille de modèles dépend des données explicatives uniquement, pas des données à expliquer, ce qui est acceptable puisque l’on modélise les probabilités conditionnelles uni- quement, la distribution des valeurs explicatives étant exclue de l’objectif de modélisation. En contraignant les paramètres de modélisation par les données explicatives disponibles, on simplifie le problème de modélisation sans perte de généralité.

Dans le cas général, la modélisation dépendant des données est contestable en raison du double usage des données, qui augmente considérablement le risque de sur-apprentissage. Dans notre approche, on se limite à une dépendance vis-à-vis des données explicatives, qui elle évite le risque de sur-apprentissage. En effet, la famille des modèles est déterminée après avoir vu les données explicatives uniquement. Le meilleur modèle est ensuite choisi après avoir vu les données à expliquer.

De façon plus précise, soit un échantillon D = {(x1, y1), (x2, y2), . . . , (xN, yN)} de taille

N , que l’on peut supposer sans perte de généralité indexé selon l’ordre des valeurs expli-

catives xn. Suite aux choix précédents, on ne s’intéresse plus qu’à la modélisation de la

séquence DY = {y1, y2, . . . , yN} sous la forme d’une suite de I sous-séquences de taille Ni

décrites par des distributions multinômiales de paramètres Nij. Le passage de la famille

M des modèles de discrétisation à la famille cM des modèles de séquences ainsi définie est

effectué en utilisant les données explicatives uniquement. Pour une taille d’échantillon N

donnée, on se limite à la famille cM(N )=S

I∈{1,...,N }Mc

(N )

I . Cette famille cM(N ) ne dépend

que de N et permet de décrire n’importe quelle séquence de N valeurs à expliquer. On

peut considérer que cM = limN →∞Mc(N ), avec pour chaque N une famille paramétrique

c

M(N ) de modèles à nombre fini de paramètres de taille O(N J ), à valeurs dans l’ensemble

{0, . . . , N } de taille finie. Par rapport à la famille initiale M, l’espace des paramètres est considérablement réduit sans perte sur l’expressivité des modèles.

Modélisation continue et modélisation discrète.

L’hypothèse d’une variable explicative à valeurs dans R est très largement utilisée dans la littérature. En effet, quand la modélisation est effectuée au moyen de fonctions paramé- triques ayant de bonnes propriétés analytiques (dérivabilité, intégrabilité...), cela permet

d’étudier formellement les propriétés asymptotiques des méthodes d’apprentissage statis- tique dans un cadre théorique maîtrisé.

Cette hypothèse de données à valeurs dans R est par contre peu réaliste en pratique, puisque les données à modéliser sont par nature discrètes et à support borné, au moins pour leur représentation informatique. L’utilisation d’espaces de fonctions à valeurs dans R correspond à l’expressivité du continu, infiniment riche en regard des données à mo- déliser, qui ne peuvent exprimer qu’un ensemble dénombrable de comportements. En se limitant au cas paramétrique usuel, l’expressivité est par contre très pauvre en l’absence de connaissances a priori sur le domaine. En définitive, la modélisation dans R est para- doxalement trop riche pour le domaine numérique considéré, et trop pauvre quand elle est limitée au cas paramétrique.

La modélisation discrète dépendant des données explicatives part du principe que tout paramètre de modélisation doit être introduit de façon parcimonieuse, uniquement s’il permet d’augmenter effectivement l’expressivité des modèles. Dans notre approche, la

famille de modèles cM n’exploite que la relation d’ordre entre les valeurs explicatives, en ne

faisant aucune hypothèse sur le domaine des valeurs, qui n’est pas nécessairement R, ni sur le type de distribution conditionnelle des valeurs à expliquer, qui peut être quelconque. Par rapport aux approches usuelles, on étend le domaine d’application de la méthode et on concentre l’expressivité des modèles sur les parties denses de l’espace des valeurs explicatives observables. L’utilisation d’espaces discrets permet de décrire un ensemble dénombrable de modèles de comportement, en adéquation avec l’ensemble dénombrable des comportements observables.

En abandonnant les hypothèses fortes sur les données habituellement supposées dans l’approche continue, on perd la possibilité d’exploitation des méthodes d’analyse numé- rique, généralement nécessaires pour l’obtention de preuves formelles de consistance, de convergence ou d’optimalité dans un cadre asymptotique. Notre approche discrète, qui n’effectue que très peu d’hypothèses sur les données, permet par contre d’exploiter des méthodes d’analyse combinatoire pour obtenir d’autres types de propriétés dans un cadre non asymptotique, comme celles démontrées en début de chapitre 4.