Data Science en pratique Validation de mod` ele
Maxime Jumelle ESLSCA Big Data - MBA 2
2019 - 2020
Validation de mod` ele
Bien que peu abord´ee en comparaison avec la partie mod´elisation, la validation de mod`ele n’en reste pas moins une ´etapeessentielledans un projet Data Science.
Outre les m´etriques de performances, la validation permet de mieux comprendre le mod`ele et surtout, de s’assurer d’une performance globale sur toute la population de l’´etude (et pas uniquement sur l’´echantillon
´etudi´e).
Validation de mod` ele
La validation de mod`ele cherche `a savoir si le mod`ele est bien capable de reproduire le ph´enom`ene observ´epar l’interm´ediaire des donn´ees recueillies.
Train/Test split
En pratique, le fait de s´eparer l’´echantillon en deux sous-ensembles, `a savoir un ensemble d’entraˆınement et un ensemble de test, constitue d´ej`a d’une pratique de validation de mod`ele. En l’occurrence, cette technique permettait de d´etecter un ´eventuel sur-apprentissage du mod`ele.
Nous allons voir d’autres m´ethodes qui permettent d’apporter plus de pr´ecisions sur la capacit´e de g´en´eralisation du mod`ele candidat.
Sommaire
R´e-´echantillonnage Bootstrap Validation crois´ee Comparaison de mod`ele
Intervalles de pr´ediction Cas lin´eaire simple Cas lin´eaire multiple R´egression quantile
k-Fold CV
La m´ethodek-Fold Cross-Validationconsiste `a effectuer, pour chacune deskit´erations, une s´eparation enk sous-ensembles d’entraˆınement distincts, pour n’entraˆıner le mod`ele que sur ce dernier et de le tester sur le sous-ensemble compl´ementaire de l’it´eration.
Figure–Un exemple d’une m´ethode5-Fold CV.
k-Fold CV
k-Fold CV
Quelques variations duk-Fold CV :
I Repeatedk-Fold: effectue unk-Fold CV en r´ep´etant l’op´eration plusieurs fois, choisissant ainsi ksous-ensembles diff´erents `a chaque passe.
I Stratified k-Fold: retourne des sous-ensembles d’entraˆınement dont les proportions des labels des individus sont approximativement identiques.
Stratified k-Fold CV
LOOCV
La m´ethodeLeave-One-Out Cross-Validationest un cas particulier du k-Fold CV o`uk=n. `A chaque it´eration, le mod`ele est entraˆın´e surn−1 observations, puis le score est calcul´e sur lan-`eme observation restante.
Ce processus est ainsi r´ep´et´enfois pour parcourir toutes les observations.
Figure–Un exemple d’une m´ethode LOOCV pournobservations.
LOGOCV
En th´eorie rien n’oblige, dans le cas d’unk-Fold CV, un jeu d’entraˆınement `a contenir un sous-´echantillon repr´esentatif de la population ´etudi´ee.
Par exemple, consid´erons un sondage sur la population fran¸caise avec plusieurs statuts (scolaire, ´etudiant, actif, retrait´e, ...). Il est possible, en choisissant unk´elev´e, qu’il existe un ou plusieurs sous-´echantillons n’ayant aucun ´etudiant, ou encore aucun retrait´e. Ainsi, un mod`ele serait entraˆın´e avec une classe de la population manquante, et donc le score sur le grouperestant permettrait d’´etudier la capacit´e du mod`ele `a g´en´eraliser sur de nouvelles observations.
LOGOCV
La m´ethodeLeave-One-Group-Out Cross-Validationconsiste `a r´ealiser unk-Fold CV dans lequel le sous-ensemble de test contient un seul et unique groupe de la population ´etudi´ee.
Figure–Un exemple d’une m´ethode LOGOCV.
Comparaison de mod` ele
Jusqu’`a pr´esent, un moyen de comparaison entre les mod`eles se basait selon un crit`ere de performance calcul´e par une m´etrique d´efinie au pr´ealable.
La comparaison graphique est `a l’appr´eciation du Data Scientist : en soit, cela lui permet d’´eventuellement d´efinir un crit`ere de comparaison bas´e sur la performance.
N´eanmoins, il est possible d’utiliser plusieurs statistiques de test afin d’obtenir un crit`ere quantitatif de comparaison entre les deux mod`eles (voir plusieurs).
Tests d’hypoth` eses
Pour comparer quantitativement deux distributions de scores, les tests d’hypoth`eses sont d’une grande aide. Parmi les tests d’hypoth`ese pour ce cas d’usage, nous disposons :
I destests param´etriques, comme let-test bilat´eral, qui vont utiliser les param`etres et statistiques d’ordres du mod`ele.
I destests non-param´etriques, comme le test des rangs sign´es de Wilcoxon, qui vont s’appuyer uniquement sur la distribution empirique.
Tests d’hypoth` eses
Il est essentiel de s’assurer que les hypoth`eses des tests sont correctement satisfaites. Par exemple, certains tests, comme let-test bilat´eral,
supposent que les deux distributions compar´ees ont initialement la mˆeme variance. D’autres auront des conditions sur la distribution sous-jacente.
Dans ce cours, nous verrons uniquement le test des rangs sign´es de Wilcoxon, mais sachez qu’il en existe d’autres pour comparer deux
´echantillons.
Test des rangs sign´ es de Wilcoxon
SoientX etX0 deux variables al´eatoiresind´ependantesdontX est issue de la distribution des scores du premier mod`ele etX0 la distribution des scores du deuxi`eme mod`ele. Supposons que nous ayons `a disposition un ´echantillon dem scores par mod`ele, soit2mvaleurs. Posons
Zi=Xi−Xi0,1≤i≤m
Ces diff´erences Zi sont suppos´ees mutuellement ind´ependantes.
Test des rangs sign´ es de Wilcoxon
Si les deux distributions ´etaient proches (au sens de distance entre distributions), alorsil y aurait autant de chances queZi soit positive ou n´egative: la loiFZi de chaque diff´erence Zi serait donc sym´etrique.
FZi(t) +FZi(−t) = 1,∀t
En revanche, siFZi n’´etait pas sym´etrique, alors on pourrait exprimer FZi en fonction de la m´ediane communeθ
FZi(θ+t) +FZi(θ−t) = 1,∀t
Plus les deux distributions sont proches, plusθ→0 et inversement.
Test des rangs sign´ es de Wilcoxon
Le test des rangs sign´es de Wilcoxon est le test d’hypoth`ese suivant (HWilcoxon) :
H0:θ= 0 H1:θ6= 0
La statistique de testW permet d’accepter ou de rejeter l’hypoth`ese nulle en fonction de sa valeur en comparaison avec un seuil d´efini.
Test des rangs sign´ es de Wilcoxon
Pour calculer la statistique de testW, on range dans l’ordre croissant les diff´erences absolues|Zi|non nulles(en posantm0=|{Zi :|Zi| 6= 0}|), et on d´etermine le rang Ri∈ {1, . . . , m}pour chacune de ces diff´erences absolues.
W =
m0
X
i=1
Riψi
avec
ψi=
1 siZi>0
−1 siZi<0
Sous Python, la fonctionscipy.stats.wilcoxonpermet de calculer la statistique de test pour un ´echantillon de deux ensembles de mesure.
Test des rangs sign´ es de Wilcoxon
Siθ= 0alorsW suit une distribution particuli`ere sans expression simple.
Nous utilisons untest bilat´eralH1:θ6= 0`a l’aide d’une table de r´ef´erence des valeurs critiques deW.
On rejetteH0 si
W ≤m0(m0+ 1)
2 −tα/2 ou W ≥tα/2
avectα/2 le risque de rejeterH0`a tort, que l’on d´etermine par une table de r´ef´erence.
Figure–Table de r´ef´erence des rangs sign´es de Wilcoxon pour un test
Test des rangs sign´ es de Wilcoxon
Nous ne pouvons pas d´eterminer explicitementtα/2. Mais si le nombre d’´echantillonsmest assez grand, alors la variableZ suit une distribution gaussienne, en l’occurrence `a partir de20observations.
Ainsi, unz-scorepeut ˆetre calcul´e z= W
σW
avec σW =
rm0(m0+ 1)(2m0+ 1) 6
Toujours pour le test bidirectionnel, on rejetteH0 si|z|> zα/2, avec zα/2 le quantile d’ordreα/2%d’une loi normale centr´ee r´eduite.
Sous R, la fonctionqsignrankdu package SignRankpermet d’estimer ce seuil critique.
Figure–Statistique de testW = 243177.5dep-value0.436.
Sommaire
R´e-´echantillonnage Bootstrap Validation crois´ee Comparaison de mod`ele
Intervalles de pr´ediction Cas lin´eaire simple Cas lin´eaire multiple R´egression quantile
Intervalle de pr´ ediction
Enr´egression, un mod`elefˆne pr´edit qu’une r´eponse yˆ∈R. Or, cette r´eponse cache un degr´e d’incertitude. Les intervalles de pr´ediction ont pour rˆole d’estimer ce degr´e d’incertitude autour d’une observation.
L’intervalle de pr´ediction d´epend de la r´eponse yˆde sorte `a quantifier la probabilit´e que la r´eponse th´eorique yappartienne `a cet intervalle :
P(y∈[ayˆ, bˆy]) = 1−α
L’objectif est donc de construire[aˆy, byˆ]pour chaque pr´edictiony.ˆ
=⇒Un intervalle de pr´ediction est unintervalle de confiancepour la variable r´eponsey.
Cas du mod` ele lin´ eaire
Dans le cas d’un mod`ele lin´eaire, nous pouvons exprimer analytiquement les intervalles de pr´ediction. Dans le cas lin´eaire simple
yi=β0+β1xi+εi yˆi= ˆβ0+ ˆβ1xi
on peut montrer que la loi des estimateurs des MCO de varianceσˆ2 estim´ee suivent des lois de Student
βˆ0−β0 ˆ σ0
∼ Tn−2 ˆσ02= ˆσ2
P
ix2i nP
i(xi−x)¯ 2
βˆ1−β1
ˆ
σ1 ∼ Tn−2 ˆσ12= σˆ2 P
i(xi−x)¯ 2
1 n
Normalit´ e des erreurs
Connaissant les lois des estimateurs pr´ec´edents, nous pouvons en d´eduire desintervalles de confiance des estimateurs(6=intervalle de
pr´ediction) de niveau1−α2 pour les estimateursβˆ0 etβˆ1. β0∈h
βˆ0−tn−2 1−α
2
ˆ
σ0; ˆβ0+tn−2 1−α
2
ˆ σ0i
β1∈h
βˆ1−tn−2 1−α
2
ˆ
σ1; ˆβ1+tn−2 1−α
2
ˆ σ1
i
avectn−2la fonction quantile d’une loi de Student `aν =n−2degr´es de libert´e.
Exercice
Retrouver ces intervalles de confiance `a partir de la loi des estimateurs.
Normalit´ e des erreurs
Avec les hypoth`eses pr´ec´edentes, nous en d´eduisons que y−yˆ
ˆ σq
1 +n1 +P(x−¯x)2
i(xi−¯x)2
∼ Tn−2
Et donc un intervalle de pr´ediction (qui ici est l’intervalle de confiance poury)
y∈
"
ˆ
y±tn−2 1−α
2
ˆ σ
s 1 + 1
n+ (x−¯x)2 P
i(xi−x)¯ 2
#
Lorsqueν → ∞, alors le quantile d’ordre1−α2 est celui de la loi normale N(0,1), et pourα= 5%,
Normalit´ e des erreurs
Figure–Intervalle de pr´ediction d’une observation pour un mod`ele lin´eaire simple.
Normalit´ e des erreurs
Normalit´ e des erreurs
Lorsquendevient ´elev´e, l’intervalle de pr´ediction peut ˆetre simplifi´e par un intervalle constant quel que soitx. Dans une telle situation,
P
i(xi−x)¯ 2 devient tr`es grand devant(x−x)2 lorsque
x∈[minxi,maxxi]et donc l’intervalle de pr´ediction peut se simplifier approximativement en
y∈[ˆy±1.96ˆσ]
pour un seuil de confianceα= 5%.
Non normalit´ e des erreurs
Non normalit´ e des erreurs
Figure–Bande de pr´ediction pour un mod`ele lin´eaire simple avec les hypoth`eses non v´erifi´ees.
Non normalit´ e des erreurs
Lorsque la normalit´e des erreurs n’est plus v´erifi´ee, les lois des estimateurs ne sont plus correctes, et donc l’intervalle de pr´ediction associ´e `a une observationxn’a plus de sens.
=⇒Dans un mod`ele lin´eaire, l’intervalle de pr´ediction n’a de sens que si les hypoth`eses sont v´erifi´ees.
Cas multiple
Dans le cadre de la r´egression lin´eaire multiple, sous couvert des mˆemes hypoth`eses de normalit´e, les estimateursβˆj suivent aussi des loi de Student :
βˆj−βj ˆ σj
∼ Tn−p σˆj = ˆσ q
[(X>X)−1]jj
ˆ σ2= 1
n−p
n
X
i=1
ε2i
Exercice
D´eterminer l’intervalle de confiance de seuilαpour l’estimateurβˆj deβj.
Cas multiple
Par le mˆeme raisonnement
y−yˆ ˆ
σp
1 +x>(X>X)−1x ∼ Tn−p Et l’intervalle de pr´ediction associ´e
y∈
ˆ
y±tn−p 1−α
2
ˆ σ
q
1 +x>(X>X)−1x
R´ egression quantile
Nous avons vu que la construction d’un mod`ele va d´ependre des hypoth`eses pos´ees sur les estimateurs, et donc d´ependre du mod`ele employ´e. Iln’existe pas de formule analytique g´en´eralepour les intervalles de pr´ediction (et les intervalles de confiance plus largement).
Deux choix s’offrent `a nous en fonction du mod`ele ´etudi´e.
I Il est possible de fournir des intervalles de confiance par des formules ferm´ees.
I Il n’existe pas de formule ferm´ee : une r´egression quantile permettrait d’estimer les quantiles d’ordre α2 et1−α2 sur les donn´ees.