MD and ID

(1)

D

ONNÉES MANQUANTES ET

DONNÉES DÉSEQUILIBRÉES

Julie Scholler

mars 2020

M Éc E n

(2)

I. Protocole d’étude

Protocole d’étude

• Préparation des données

• récolter et agréger les données

• étude descriptive uni et/ou multidimensionnelle (incohérences, variables non significatives)

• transformation de données

• Mise de côté d’un échantillon de test tiré aléatoirement

• Apprentissage de modèles sur la partie restante de l’échantillon

• Comparaison finale des qualités de prévision sur la base du seul échantillon de test

(3)

I. Protocole d’étude

Préparation des données

• phase longue

• laborieuse

• mais très importante

Choix de la méthode

• précision, lisibilité, concision

• quantité de données

• type de données

• données manquantes

(4)

II. Données manquantes

“The best thing to do with missing value is not to have any.”

Gertrude Mary Cox

Que faire quand il y en a ?

• supprimer les individus ayant des données manquantes

• faire avec en utilisant des méthodes adapter à la présence de données manquantes

• imputer des valeurs là où elles sont manquantes

Mais toujours commencer par regarder et visualiser les données.

(5)

Méthodes d’imputation

1. Imputation par la moyenne ou la médiane (ou mode) au sein de sous-groupes homogènes déterminés, par exemple, par

classification non supervisée

2. Utilisation des méthodes d’analyse factorielle

package missMDAet les fonctions imputePCA etimputeMCA

(6)

Méthodes d’imputation

3. Prédiction : construire un modèle à partir des individus complètement renseignés et l’utiliser pour prédire les données correspondant aux données manquantes

• régression linéaire : packageVIMet fonctionregressionImp, packagemiceet une des fonctions mice.impute.norm...

• algorithme desk plus proche voisins packageVIMet fonctionkNN

• CART ou random forest

• package et fonctionmissForest

• packagemice, la fonctionmiceet l’argumentmethod =

"cart"oumethod = "rf"

(7)

Remarques

• l’imputation fait partie de la phase de construction de modèle donc il faut avoir mis de côté l’échantillon de test d’abord

• l’imputation doit se faire sans voir la variable à prédire

(8)

III. Données déséquilibrées

Données déséquilibrées - imbalanced Data

Problématique

• parfois les deux classes à prédire sont présentes dans des proportions très différentes dans la base de données initiales

• les modèles classiques peuvent être mis en défaut

• nécessité d’envisager des stratégies adéquates

Axes d’action

• changer la métrique de performance la précision n’est pas toujours l’idéal

• ré-échantillonner pour ré-équilibrer

• essayer différents algorithmes

• essayer des modèles intégrant une pénalisation (boosting + coût)

(9)

Adapter le critère de performance

Prendre en compte des critères conditionnels pour éviter de donner un poids trop important à la classe majoritaire

balanced accuracy

moyenne (non pondérée) des taux de vrais positifs et de vrais négatifs

précision oupositive predictive value nombre de vrais positifs toutes les prédictions positives

sensibilité ou recall

nombre de vrais positifs toutes les données positives

F₁-score

F₁ = 2×précision×sensibilité précision + sensibilité

(10)

On n’oublie pas de regarder

• la/les matrice(s) de confusion

• la courbe ROC (pour choisir un seuil)

(11)

(12)

(13)

(14)

κde Cohen

Il consiste à comparer

• la probabilité de bien classer p_r_ègle

• à une probabilité de bien classer de façon aléatoire p_aléatoirement

κ= p_règle−paléatoirement

1−paléatoirement

Classification accuracy normalized by the imbalance of the classes in the data.

(15)

• Mesures de performance : critères généraux

• Prise en compte des connaissances métiers : coût Introduire un coût

• L’expertise métier peut nos apporter une information supplémentaire sur le bon critère à considérer.

• Une erreur peut être plus importante que l’autre.

• Cette information se traduit par un coût ou poids différents sur les types d’erreurs.

• Cette information doit être prise en compte à la fois pour 1. comparer les algorithmes

2. entrainer les algorithmes

(16)

Ré-échantillonnage

Idée ré-échantillonner pour construire un échantillon équilibré

Différentes approches

• sous-échantillonner la classe majoritaire

• sur échantillonner la classe minoritaire

(17)

Sur-échantillonnage

sur échantillonner la classe minoritaire

• dupliquer aléatoire des observations de la classe minoritaire diminue la variabilité des données

• algorithme SMOTE : génération de nouvelles observations de la classe minoritaire

(18)

Sous-échantillonnage

sous-échantillonner la classe majoritaire

• choisir aléatoire uniquement quelques individus de la classe majoritaire

on perd potentiellement des informations pertinentes

• Tomek link suppression d’individus de la classe majoritaire trop près de la classe minoritaire