D
ONNÉES MANQUANTES ETDONNÉES DÉSEQUILIBRÉES
Julie Scholler
mars 2020
M Éc E n
I. Protocole d’étude
Protocole d’étude
• Préparation des données
• récolter et agréger les données
• étude descriptive uni et/ou multidimensionnelle (incohérences, variables non significatives)
• transformation de données
• Mise de côté d’un échantillon de test tiré aléatoirement
• Apprentissage de modèles sur la partie restante de l’échantillon
• Comparaison finale des qualités de prévision sur la base du seul échantillon de test
I. Protocole d’étude
Préparation des données
• phase longue
• laborieuse
• mais très importante
Choix de la méthode
• précision, lisibilité, concision
• quantité de données
• type de données
• données manquantes
II. Données manquantes
“The best thing to do with missing value is not to have any.”
Gertrude Mary Cox
Que faire quand il y en a ?
• supprimer les individus ayant des données manquantes
• faire avec en utilisant des méthodes adapter à la présence de données manquantes
• imputer des valeurs là où elles sont manquantes
Mais toujours commencer par regarder et visualiser les données.
II. Données manquantes
Méthodes d’imputation
1. Imputation par la moyenne ou la médiane (ou mode) au sein de sous-groupes homogènes déterminés, par exemple, par
classification non supervisée
2. Utilisation des méthodes d’analyse factorielle
package missMDAet les fonctions imputePCA etimputeMCA
II. Données manquantes
Méthodes d’imputation
3. Prédiction : construire un modèle à partir des individus complètement renseignés et l’utiliser pour prédire les données correspondant aux données manquantes
• régression linéaire : packageVIMet fonctionregressionImp, packagemiceet une des fonctions mice.impute.norm...
• algorithme desk plus proche voisins packageVIMet fonctionkNN
• CART ou random forest
• package et fonctionmissForest
• packagemice, la fonctionmiceet l’argumentmethod =
"cart"oumethod = "rf"
II. Données manquantes
Remarques
• l’imputation fait partie de la phase de construction de modèle donc il faut avoir mis de côté l’échantillon de test d’abord
• l’imputation doit se faire sans voir la variable à prédire
III. Données déséquilibrées
Données déséquilibrées - imbalanced Data
Problématique
• parfois les deux classes à prédire sont présentes dans des proportions très différentes dans la base de données initiales
• les modèles classiques peuvent être mis en défaut
• nécessité d’envisager des stratégies adéquates
Axes d’action
• changer la métrique de performance la précision n’est pas toujours l’idéal
• ré-échantillonner pour ré-équilibrer
• essayer différents algorithmes
• essayer des modèles intégrant une pénalisation (boosting + coût)
III. Données déséquilibrées
Adapter le critère de performance
Prendre en compte des critères conditionnels pour éviter de donner un poids trop important à la classe majoritaire
balanced accuracy
moyenne (non pondérée) des taux de vrais positifs et de vrais négatifs
précision oupositive predictive value nombre de vrais positifs toutes les prédictions positives
sensibilité ou recall
nombre de vrais positifs toutes les données positives
F1-score
F1 = 2×précision×sensibilité précision + sensibilité
III. Données déséquilibrées
On n’oublie pas de regarder
• la/les matrice(s) de confusion
• la courbe ROC (pour choisir un seuil)
III. Données déséquilibrées
III. Données déséquilibrées
III. Données déséquilibrées
III. Données déséquilibrées
κde Cohen
Il consiste à comparer
• la probabilité de bien classer prègle
• à une probabilité de bien classer de façon aléatoire paléatoirement
κ= prègle−paléatoirement
1−paléatoirement
Classification accuracy normalized by the imbalance of the classes in the data.
III. Données déséquilibrées
• Mesures de performance : critères généraux
• Prise en compte des connaissances métiers : coût Introduire un coût
• L’expertise métier peut nos apporter une information supplémentaire sur le bon critère à considérer.
• Une erreur peut être plus importante que l’autre.
• Cette information se traduit par un coût ou poids différents sur les types d’erreurs.
• Cette information doit être prise en compte à la fois pour 1. comparer les algorithmes
2. entrainer les algorithmes
III. Données déséquilibrées
Ré-échantillonnage
Idée ré-échantillonner pour construire un échantillon équilibré
Différentes approches
• sous-échantillonner la classe majoritaire
• sur échantillonner la classe minoritaire
III. Données déséquilibrées
Sur-échantillonnage
sur échantillonner la classe minoritaire
• dupliquer aléatoire des observations de la classe minoritaire diminue la variabilité des données
• algorithme SMOTE : génération de nouvelles observations de la classe minoritaire
III. Données déséquilibrées
Sous-échantillonnage
sous-échantillonner la classe majoritaire
• choisir aléatoire uniquement quelques individus de la classe majoritaire
on perd potentiellement des informations pertinentes
• Tomek link suppression d’individus de la classe majoritaire trop près de la classe minoritaire