• Aucun résultat trouvé

MD and ID

N/A
N/A
Protected

Academic year: 2022

Partager "MD and ID"

Copied!
18
0
0

Texte intégral

(1)

D

ONNÉES MANQUANTES ET

DONNÉES DÉSEQUILIBRÉES

Julie Scholler

mars 2020

M Éc E n

(2)

I. Protocole d’étude

Protocole d’étude

Préparation des données

récolter et agréger les données

étude descriptive uni et/ou multidimensionnelle (incohérences, variables non significatives)

transformation de données

Mise de côté d’un échantillon de test tiré aléatoirement

Apprentissage de modèles sur la partie restante de l’échantillon

Comparaison finale des qualités de prévision sur la base du seul échantillon de test

(3)

I. Protocole d’étude

Préparation des données

phase longue

laborieuse

mais très importante

Choix de la méthode

précision, lisibilité, concision

quantité de données

type de données

données manquantes

(4)

II. Données manquantes

“The best thing to do with missing value is not to have any.”

Gertrude Mary Cox

Que faire quand il y en a ?

supprimer les individus ayant des données manquantes

faire avec en utilisant des méthodes adapter à la présence de données manquantes

imputer des valeurs là où elles sont manquantes

Mais toujours commencer par regarder et visualiser les données.

(5)

II. Données manquantes

Méthodes d’imputation

1. Imputation par la moyenne ou la médiane (ou mode) au sein de sous-groupes homogènes déterminés, par exemple, par

classification non supervisée

2. Utilisation des méthodes d’analyse factorielle

package missMDAet les fonctions imputePCA etimputeMCA

(6)

II. Données manquantes

Méthodes d’imputation

3. Prédiction : construire un modèle à partir des individus complètement renseignés et l’utiliser pour prédire les données correspondant aux données manquantes

régression linéaire : packageVIMet fonctionregressionImp, packagemiceet une des fonctions mice.impute.norm...

algorithme desk plus proche voisins packageVIMet fonctionkNN

CART ou random forest

package et fonctionmissForest

packagemice, la fonctionmiceet l’argumentmethod =

"cart"oumethod = "rf"

(7)

II. Données manquantes

Remarques

l’imputation fait partie de la phase de construction de modèle donc il faut avoir mis de côté l’échantillon de test d’abord

l’imputation doit se faire sans voir la variable à prédire

(8)

III. Données déséquilibrées

Données déséquilibrées - imbalanced Data

Problématique

parfois les deux classes à prédire sont présentes dans des proportions très différentes dans la base de données initiales

les modèles classiques peuvent être mis en défaut

nécessité d’envisager des stratégies adéquates

Axes d’action

changer la métrique de performance la précision n’est pas toujours l’idéal

ré-échantillonner pour ré-équilibrer

essayer différents algorithmes

essayer des modèles intégrant une pénalisation (boosting + coût)

(9)

III. Données déséquilibrées

Adapter le critère de performance

Prendre en compte des critères conditionnels pour éviter de donner un poids trop important à la classe majoritaire

balanced accuracy

moyenne (non pondérée) des taux de vrais positifs et de vrais négatifs

précision oupositive predictive value nombre de vrais positifs toutes les prédictions positives

sensibilité ou recall

nombre de vrais positifs toutes les données positives

F1-score

F1 = 2×précision×sensibilité précision + sensibilité

(10)

III. Données déséquilibrées

On n’oublie pas de regarder

la/les matrice(s) de confusion

la courbe ROC (pour choisir un seuil)

(11)

III. Données déséquilibrées

(12)

III. Données déséquilibrées

(13)

III. Données déséquilibrées

(14)

III. Données déséquilibrées

κde Cohen

Il consiste à comparer

la probabilité de bien classer prègle

à une probabilité de bien classer de façon aléatoire paléatoirement

κ= prèglepaléatoirement

1−paléatoirement

Classification accuracy normalized by the imbalance of the classes in the data.

(15)

III. Données déséquilibrées

Mesures de performance : critères généraux

Prise en compte des connaissances métiers : coût Introduire un coût

L’expertise métier peut nos apporter une information supplémentaire sur le bon critère à considérer.

Une erreur peut être plus importante que l’autre.

Cette information se traduit par un coût ou poids différents sur les types d’erreurs.

Cette information doit être prise en compte à la fois pour 1. comparer les algorithmes

2. entrainer les algorithmes

(16)

III. Données déséquilibrées

Ré-échantillonnage

Idée ré-échantillonner pour construire un échantillon équilibré

Différentes approches

sous-échantillonner la classe majoritaire

sur échantillonner la classe minoritaire

(17)

III. Données déséquilibrées

Sur-échantillonnage

sur échantillonner la classe minoritaire

dupliquer aléatoire des observations de la classe minoritaire diminue la variabilité des données

algorithme SMOTE : génération de nouvelles observations de la classe minoritaire

(18)

III. Données déséquilibrées

Sous-échantillonnage

sous-échantillonner la classe majoritaire

choisir aléatoire uniquement quelques individus de la classe majoritaire

on perd potentiellement des informations pertinentes

Tomek link suppression d’individus de la classe majoritaire trop près de la classe minoritaire

Références

Documents relatifs

Dans ce contexte de données manquantes, une solution simple pour estimer β 0 consiste à mener une analyse en "cas complets" ("CC" par la suite) c’est-à-dire à :

Par: Mélodie Achodian et Mégane Fatal.. 28) Tu désires développer une application «jeu» pour les téléphones intelligents qui fait appel au raisonnement logique des

Le choix du PMC fonctionnel demande alors le r´eglage de deux param`etres architecturaux : le nombre de neurones dans la premi`ere couche (en accord avec le r´esultat

d’une phase décisionnelle, c’est-à-dire une fois l’arbre construit à partir de données standard, comme c’est le cas par exemple dans (Quinlan 90); d’autre

Pour y remédier l’imputation multiple propose de remplacer chaque donnée manquante par un ensemble de valeurs générant m matrices de données complétées que

L'obiectif de notre étude a été de synthétisêr ces données in sacio et de les comparer avec des observations in vivo afin d'obtenir des équations de prédiction de la digestion

F IGURE 8 – CHD - Erreurs de complétion sur un échantillon test par LOCF (noir), KNN (rouge) et missForest (vert) quand la quantité de valeurs man- quantes augmente, pour une

La probabilité qu’une donnée soit manquante ne dépend pas des données observées et non observée(s) de l’individu.. • Données manquantes de façon aléatoire : MAR (Missing