• Aucun résultat trouvé

Identification des variables explicatives

Dans le document The DART-Europe E-theses Portal (Page 136-142)

La base de données brute contient un très grand nombre de variables (plus de 250).

L’étape d’identification (Figure 6.17 ) consiste à sélectionner parmi ces 250 variables celles qui sont les plus déterminantes pour prédire les variables de sortie et inter-médiaires qui seront appelées variables explicatives.

FIGURE6.17 – Etape 1 construction de la base de données pour l’apprentissage (figure 5.4 ).1.2 Sélection des variables explicatives et variables à prédire.

La réduction du nombre de variables d’entrée se justifie pour plusieurs raisons.

Justification N°1.Un grand nombre de variables explicatives nécessite d’avoir un très grand nombre d’exemples. Ce qui est difficile dans le cadre de cette étude et dans un contexte industriel .

Justification N°2.Certaines variables d’entrées ne sont pas connues pour un nouveaux cas. Réduire le nombre de variables d’entrée permettra de réduire le nombre de variables intermédiaires à prédire.

Justification N°3.Les variables d’entrées qui ont moins d’influence qu’un bruit sur la prédiction sont des causes d’erreur sur le résultat de la classification.

Justification N°4.La configuration des classifieurs est plus rapide si le nombre de variables explicatives est limité.

Justification N°5.Le facteur le plus déterminant pour décrire une grandeur n’est pas toujours connu a priori. La base de données brute contient donc ini-tialement plusieurs variables pour décrire une même grandeur. Ces différentes variables sont alors fortement corrélées. La plus déterminante devra être iden-tifiée.

Justification N°6.Si on généralise la problématique précédente on peut consi-dérer que l’identification de variables déterminantes non connues a priori per-met de formaliser la connaissance.

CHAPITRE 6. MODÉLISATION DES DONNÉES POUR L’APPRENTISSAGELa figure 6.18 propose une méthode pour l’identification des variables explicatives.

L’identification des variables explicatives consiste dans un premier temps à sup-primer les variables corrélées, puis à sélectionner les variables explicatives pour chaque variable à prédire et à valider la sélection.

6.3.1 Suppression de variables corrélées

Deux variables sont corrélées lorsqu’elles présentent des interdépendances. La sup-pression de variables corrélées permet d’éliminer les variables redondantes en ne sélectionnant que la variable la plus déterminante.

6.3.1.1 Méthode proposée pour la suppression de variables corrélées

La méthode proposée consiste tout d’abord à identifier des ensembles de variables corrélées entre elles. Les outils mathématiques ne permettant de déceler que les corrélations linéaires, cette tâche reste visuelle. L’opération est facilitée par les ou-tils de data mining qui intègrent des ouou-tils de visualisation de données.

Pour chaque groupe de variables corrélées, le coefficient de corrélationρ(x,y) (équa-tion 6.10)est calculé entre chaque variable à analyser et chaque variable à prédire.

ρ(x,y) =

x,y: variables à analyser

x,y: moyennes respectives des variablesxety.

L’un des traitements nécessaires à l’implémentation des donnés qui sera développé dans le chapitre suivant est la suppression de variables aberrantes. Le coefficient de corrélation est très sensible aux valeurs aberrantes, il est nécessaire de s’assurer que la base de données n’en contient plus.

La variable retenue sera la variable la plus corrélée avec les variables à prédire (va-riable dont la valeur absolue du coefficient de corrélation est le plus élevé). Si un groupe comprend à la fois des variables connues et inconnues pour un nouveau cas et que leurs coefficients de corrélation sont assez proches, la variable connue sera retenue.

La base Xqbasecontient initialementq variables. Les variablesxcor,yles moins

corré-CHAPITRE 6. MODÉLISATION DES DONNÉES POUR L’APPRENTISSAGE

CHAPITRE 6. MODÉLISATION DES DONNÉES POUR L’APPRENTISSAGElées avec la variable à prédireysont supprimées de la base de données qui est alors réduite àq0variables.

6.3.1.2 Exemples de suppression de variables

La figure 6.19 montre un exemple de variables non corrélées (distance de Haus-dorff moyenne et bénéfice sur l’aire du modèle préparé) dont les valeurs occupent tout l’espace, de variables faiblement corrélées (distance de Hausdorff moyenne et maximale) et de variables fortement corrélées (distance de Hausdorff moyenne et quadratique) dont les valeurs sont visiblement interdépendantes. Le coefficient de corrélation est proche de 0 dans le premier cas et proche de 1 dans le dernier cas.

Le tableau 6.15 donne les résultats du coefficient de corrélation entre ces variables et les variables principales à prédire. La valeur moyenne quadratique sera retenue pour la prédiction de l’erreur sur le résultat de l’analyse. La valeur moyenne sera retenue pour la prédiction des coûts. Les valeur maximale sera supprimée de la base de données.

Coefficient de corrélationρ(x,y) Distance de Hausdorff y

x Maximale Moyenne Quadratique

Erreur sur le résultat de l’analyse -0,062 -0,343 -0,476

Coût de la simulation -0,028 0,056 0,030

Coût de la préparation 0,047 -0,363 -0,210

TABLEAU6.15 – Coefficients de corrélation entre les distances de Hausdorff (maximale, moyenne ou quadratique) et les variables à prédire.

6.3.2 Sélection des variables explicatives

Après traitement et suppression des variables corrélées, la base de donnée xqbase0 contientq0variables peu corrélées entre elles.

Pour chaque variable à prédire y, les variables sont classées en fonction de leur in-fluence sur la variabley.

Les deux algorithmes de sélection des variables explicatives les plus courants (step-wise backard regression et step(step-wise forward regression ), présentés dans la section 4.5, ont été utilisés. Un premier modèle est construit ayant soitq0−1 variables (pour l’algorithme stepwise backard regression) soit une seule variable (pour les algo-rithmes stepwise forward regression et descripteur sonde).

CHAPITRE 6. MODÉLISATION DES DONNÉES POUR L’APPRENTISSAGE

FIGURE6.19 – Exemples de corrélation. (a) Variables non corrélées. (b) Variables faiblement cor-rélées. (c) Variables fortement corcor-rélées.ρ(a),ρ(b),ρ(c) : coefficients de corrélation.

Des modèles successifs sont créés auxquels une variable est ajoutée ou retirée à chaque itération en fonction de son rang Rang£

xbase(y)¤

. Les algorithmes évaluent ces modèles à l’aide de critères propres à chaque algorithme. Les itérations s’ar-rêtent lorsque le critère d’évaluation a atteint un seuil acceptable et lorsque l’ajout d’une nouvelle variable supplémentaire n’améliore pas le critère d’évaluation.

Si, quel que soit l’algorithme de sélection, le critère d’évaluation n’a pas atteint un seuil acceptable et n’évolue plus, l’exhaustivité des variables initiales est remise en

CHAPITRE 6. MODÉLISATION DES DONNÉES POUR L’APPRENTISSAGEcause. Il sera alors nécessaire d’identifier de nouvelles variables d’entrée.

6.3.3 Conclusion sur la sélection des variables explicatives

La sélection des variables explicatives permet de s’assurer de la qualité de la classi-fication et aide à la formalisation des connaissances.

Des méthodes ont été proposées pour sélectionner les variables corrélées à suppri-mer et pour sélectionner les variables explicatives à partir d’algorithmes courants de sélection.

Des critères d’évaluation propres aux algorithmes de sélection évaluent la qualité de la sélection. La valeur du seuil de ces critères est définie par l’utilisateur en fonc-tion de la précision attendue sur les prédicfonc-tions. Le choix et le nombre des variables explicatives est validé lorsque l’erreur sur les prédictions atteint un score acceptable et qu’elle n’évolue plus.

Pour chaque variable à prédire, la sélection des variables explicatives est donc condi-tionnée par le seuil défini et les algorithmes de sélection utilisés. L’exhaustivité des variables explicatives, devra être confirmée par des tests de classification présentés dans le chapitre suivant.

CHAPITRE 6. MODÉLISATION DES DONNÉES POUR L’APPRENTISSAGE

Dans le document The DART-Europe E-theses Portal (Page 136-142)