• Aucun résultat trouvé

Data Science en pratique Validation de mod`ele

N/A
N/A
Protected

Academic year: 2022

Partager "Data Science en pratique Validation de mod`ele"

Copied!
39
0
0

Texte intégral

(1)

Data Science en pratique Validation de mod` ele

Maxime Jumelle ESLSCA Big Data - MBA 2

2019 - 2020

(2)

Validation de mod` ele

Bien que peu abord´ee en comparaison avec la partie mod´elisation, la validation de mod`ele n’en reste pas moins une ´etapeessentielledans un projet Data Science.

Outre les m´etriques de performances, la validation permet de mieux comprendre le mod`ele et surtout, de s’assurer d’une performance globale sur toute la population de l’´etude (et pas uniquement sur l’´echantillon

´etudi´e).

(3)

Validation de mod` ele

La validation de mod`ele cherche `a savoir si le mod`ele est bien capable de reproduire le ph´enom`ene observ´epar l’interm´ediaire des donn´ees recueillies.

(4)

Train/Test split

En pratique, le fait de s´eparer l’´echantillon en deux sous-ensembles, `a savoir un ensemble d’entraˆınement et un ensemble de test, constitue d´ej`a d’une pratique de validation de mod`ele. En l’occurrence, cette technique permettait de d´etecter un ´eventuel sur-apprentissage du mod`ele.

Nous allons voir d’autres m´ethodes qui permettent d’apporter plus de pr´ecisions sur la capacit´e de g´en´eralisation du mod`ele candidat.

(5)

Sommaire

R´e-´echantillonnage Bootstrap Validation crois´ee Comparaison de mod`ele

Intervalles de pr´ediction Cas lin´eaire simple Cas lin´eaire multiple R´egression quantile

(6)

k-Fold CV

La m´ethodek-Fold Cross-Validationconsiste `a effectuer, pour chacune deskit´erations, une s´eparation enk sous-ensembles d’entraˆınement distincts, pour n’entraˆıner le mod`ele que sur ce dernier et de le tester sur le sous-ensemble compl´ementaire de l’it´eration.

Figure–Un exemple d’une m´ethode5-Fold CV.

(7)

k-Fold CV

(8)

k-Fold CV

Quelques variations duk-Fold CV :

I Repeatedk-Fold: effectue unk-Fold CV en r´ep´etant l’op´eration plusieurs fois, choisissant ainsi ksous-ensembles diff´erents `a chaque passe.

I Stratified k-Fold: retourne des sous-ensembles d’entraˆınement dont les proportions des labels des individus sont approximativement identiques.

(9)

Stratified k-Fold CV

(10)

LOOCV

La m´ethodeLeave-One-Out Cross-Validationest un cas particulier du k-Fold CV o`uk=n. `A chaque it´eration, le mod`ele est entraˆın´e surn−1 observations, puis le score est calcul´e sur lan-`eme observation restante.

Ce processus est ainsi r´ep´et´enfois pour parcourir toutes les observations.

Figure–Un exemple d’une m´ethode LOOCV pournobservations.

(11)

LOGOCV

En th´eorie rien n’oblige, dans le cas d’unk-Fold CV, un jeu d’entraˆınement `a contenir un sous-´echantillon repr´esentatif de la population ´etudi´ee.

Par exemple, consid´erons un sondage sur la population fran¸caise avec plusieurs statuts (scolaire, ´etudiant, actif, retrait´e, ...). Il est possible, en choisissant unk´elev´e, qu’il existe un ou plusieurs sous-´echantillons n’ayant aucun ´etudiant, ou encore aucun retrait´e. Ainsi, un mod`ele serait entraˆın´e avec une classe de la population manquante, et donc le score sur le grouperestant permettrait d’´etudier la capacit´e du mod`ele `a g´en´eraliser sur de nouvelles observations.

(12)

LOGOCV

La m´ethodeLeave-One-Group-Out Cross-Validationconsiste `a r´ealiser unk-Fold CV dans lequel le sous-ensemble de test contient un seul et unique groupe de la population ´etudi´ee.

Figure–Un exemple d’une m´ethode LOGOCV.

(13)

Comparaison de mod` ele

Jusqu’`a pr´esent, un moyen de comparaison entre les mod`eles se basait selon un crit`ere de performance calcul´e par une m´etrique d´efinie au pr´ealable.

La comparaison graphique est `a l’appr´eciation du Data Scientist : en soit, cela lui permet d’´eventuellement d´efinir un crit`ere de comparaison bas´e sur la performance.

N´eanmoins, il est possible d’utiliser plusieurs statistiques de test afin d’obtenir un crit`ere quantitatif de comparaison entre les deux mod`eles (voir plusieurs).

(14)

Tests d’hypoth` eses

Pour comparer quantitativement deux distributions de scores, les tests d’hypoth`eses sont d’une grande aide. Parmi les tests d’hypoth`ese pour ce cas d’usage, nous disposons :

I destests param´etriques, comme let-test bilat´eral, qui vont utiliser les param`etres et statistiques d’ordres du mod`ele.

I destests non-param´etriques, comme le test des rangs sign´es de Wilcoxon, qui vont s’appuyer uniquement sur la distribution empirique.

(15)

Tests d’hypoth` eses

Il est essentiel de s’assurer que les hypoth`eses des tests sont correctement satisfaites. Par exemple, certains tests, comme let-test bilat´eral,

supposent que les deux distributions compar´ees ont initialement la mˆeme variance. D’autres auront des conditions sur la distribution sous-jacente.

Dans ce cours, nous verrons uniquement le test des rangs sign´es de Wilcoxon, mais sachez qu’il en existe d’autres pour comparer deux

´echantillons.

(16)

Test des rangs sign´ es de Wilcoxon

SoientX etX0 deux variables al´eatoiresind´ependantesdontX est issue de la distribution des scores du premier mod`ele etX0 la distribution des scores du deuxi`eme mod`ele. Supposons que nous ayons `a disposition un ´echantillon dem scores par mod`ele, soit2mvaleurs. Posons

Zi=Xi−Xi0,1≤i≤m

Ces diff´erences Zi sont suppos´ees mutuellement ind´ependantes.

(17)

Test des rangs sign´ es de Wilcoxon

Si les deux distributions ´etaient proches (au sens de distance entre distributions), alorsil y aurait autant de chances queZi soit positive ou n´egative: la loiFZi de chaque diff´erence Zi serait donc sym´etrique.

FZi(t) +FZi(−t) = 1,∀t

En revanche, siFZi n’´etait pas sym´etrique, alors on pourrait exprimer FZi en fonction de la m´ediane communeθ

FZi(θ+t) +FZi(θ−t) = 1,∀t

Plus les deux distributions sont proches, plusθ→0 et inversement.

(18)

Test des rangs sign´ es de Wilcoxon

Le test des rangs sign´es de Wilcoxon est le test d’hypoth`ese suivant (HWilcoxon) :

H0:θ= 0 H1:θ6= 0

La statistique de testW permet d’accepter ou de rejeter l’hypoth`ese nulle en fonction de sa valeur en comparaison avec un seuil d´efini.

(19)

Test des rangs sign´ es de Wilcoxon

Pour calculer la statistique de testW, on range dans l’ordre croissant les diff´erences absolues|Zi|non nulles(en posantm0=|{Zi :|Zi| 6= 0}|), et on d´etermine le rang Ri∈ {1, . . . , m}pour chacune de ces diff´erences absolues.

W =

m0

X

i=1

Riψi

avec

ψi=

1 siZi>0

−1 siZi<0

Sous Python, la fonctionscipy.stats.wilcoxonpermet de calculer la statistique de test pour un ´echantillon de deux ensembles de mesure.

(20)

Test des rangs sign´ es de Wilcoxon

Siθ= 0alorsW suit une distribution particuli`ere sans expression simple.

Nous utilisons untest bilat´eralH1:θ6= 0`a l’aide d’une table de r´ef´erence des valeurs critiques deW.

On rejetteH0 si

W ≤m0(m0+ 1)

2 −tα/2 ou W ≥tα/2

avectα/2 le risque de rejeterH0`a tort, que l’on d´etermine par une table de r´ef´erence.

(21)

Figure–Table de r´ef´erence des rangs sign´es de Wilcoxon pour un test

(22)

Test des rangs sign´ es de Wilcoxon

Nous ne pouvons pas d´eterminer explicitementtα/2. Mais si le nombre d’´echantillonsmest assez grand, alors la variableZ suit une distribution gaussienne, en l’occurrence `a partir de20observations.

Ainsi, unz-scorepeut ˆetre calcul´e z= W

σW

avec σW =

rm0(m0+ 1)(2m0+ 1) 6

Toujours pour le test bidirectionnel, on rejetteH0 si|z|> zα/2, avec zα/2 le quantile d’ordreα/2%d’une loi normale centr´ee r´eduite.

Sous R, la fonctionqsignrankdu package SignRankpermet d’estimer ce seuil critique.

(23)
(24)

Figure–Statistique de testW = 243177.5dep-value0.436.

(25)

Sommaire

R´e-´echantillonnage Bootstrap Validation crois´ee Comparaison de mod`ele

Intervalles de pr´ediction Cas lin´eaire simple Cas lin´eaire multiple R´egression quantile

(26)

Intervalle de pr´ ediction

Enr´egression, un mod`elefˆne pr´edit qu’une r´eponse yˆ∈R. Or, cette r´eponse cache un degr´e d’incertitude. Les intervalles de pr´ediction ont pour rˆole d’estimer ce degr´e d’incertitude autour d’une observation.

L’intervalle de pr´ediction d´epend de la r´eponse yˆde sorte `a quantifier la probabilit´e que la r´eponse th´eorique yappartienne `a cet intervalle :

P(y∈[ayˆ, bˆy]) = 1−α

L’objectif est donc de construire[aˆy, byˆ]pour chaque pr´edictiony.ˆ

=⇒Un intervalle de pr´ediction est unintervalle de confiancepour la variable r´eponsey.

(27)

Cas du mod` ele lin´ eaire

Dans le cas d’un mod`ele lin´eaire, nous pouvons exprimer analytiquement les intervalles de pr´ediction. Dans le cas lin´eaire simple

yi01xiii= ˆβ0+ ˆβ1xi

on peut montrer que la loi des estimateurs des MCO de varianceσˆ2 estim´ee suivent des lois de Student

βˆ0−β0 ˆ σ0

∼ Tn−2 ˆσ02= ˆσ2

P

ix2i nP

i(xi−x)¯ 2

βˆ1−β1

ˆ

σ1 ∼ Tn−2 ˆσ12= σˆ2 P

i(xi−x)¯ 2

1 n

(28)

Normalit´ e des erreurs

Connaissant les lois des estimateurs pr´ec´edents, nous pouvons en d´eduire desintervalles de confiance des estimateurs(6=intervalle de

pr´ediction) de niveau1−α2 pour les estimateursβˆ0 etβˆ1. β0∈h

βˆ0−tn−2 1−α

2

ˆ

σ0; ˆβ0+tn−2 1−α

2

ˆ σ0i

β1∈h

βˆ1−tn−2 1−α

2

ˆ

σ1; ˆβ1+tn−2 1−α

2

ˆ σ1

i

avectn−2la fonction quantile d’une loi de Student `aν =n−2degr´es de libert´e.

Exercice

Retrouver ces intervalles de confiance `a partir de la loi des estimateurs.

(29)

Normalit´ e des erreurs

Avec les hypoth`eses pr´ec´edentes, nous en d´eduisons que y−yˆ

ˆ σq

1 +n1 +P(x−¯x)2

i(xi−¯x)2

∼ Tn−2

Et donc un intervalle de pr´ediction (qui ici est l’intervalle de confiance poury)

y∈

"

ˆ

y±tn−2 1−α

2

ˆ σ

s 1 + 1

n+ (x−¯x)2 P

i(xi−x)¯ 2

#

Lorsqueν → ∞, alors le quantile d’ordre1−α2 est celui de la loi normale N(0,1), et pourα= 5%,

(30)

Normalit´ e des erreurs

Figure–Intervalle de pr´ediction d’une observation pour un mod`ele lin´eaire simple.

(31)

Normalit´ e des erreurs

(32)

Normalit´ e des erreurs

Lorsquendevient ´elev´e, l’intervalle de pr´ediction peut ˆetre simplifi´e par un intervalle constant quel que soitx. Dans une telle situation,

P

i(xi−x)¯ 2 devient tr`es grand devant(x−x)2 lorsque

x∈[minxi,maxxi]et donc l’intervalle de pr´ediction peut se simplifier approximativement en

y∈[ˆy±1.96ˆσ]

pour un seuil de confianceα= 5%.

(33)

Non normalit´ e des erreurs

(34)

Non normalit´ e des erreurs

Figure–Bande de pr´ediction pour un mod`ele lin´eaire simple avec les hypoth`eses non v´erifi´ees.

(35)

Non normalit´ e des erreurs

Lorsque la normalit´e des erreurs n’est plus v´erifi´ee, les lois des estimateurs ne sont plus correctes, et donc l’intervalle de pr´ediction associ´e `a une observationxn’a plus de sens.

=⇒Dans un mod`ele lin´eaire, l’intervalle de pr´ediction n’a de sens que si les hypoth`eses sont v´erifi´ees.

(36)

Cas multiple

Dans le cadre de la r´egression lin´eaire multiple, sous couvert des mˆemes hypoth`eses de normalit´e, les estimateursβˆj suivent aussi des loi de Student :

βˆj−βj ˆ σj

∼ Tn−p σˆj = ˆσ q

[(X>X)−1]jj

ˆ σ2= 1

n−p

n

X

i=1

ε2i

Exercice

D´eterminer l’intervalle de confiance de seuilαpour l’estimateurβˆj deβj.

(37)

Cas multiple

Par le mˆeme raisonnement

y−yˆ ˆ

σp

1 +x>(X>X)−1x ∼ Tn−p Et l’intervalle de pr´ediction associ´e

y∈

ˆ

y±tn−p 1−α

2

ˆ σ

q

1 +x>(X>X)−1x

(38)

R´ egression quantile

Nous avons vu que la construction d’un mod`ele va d´ependre des hypoth`eses pos´ees sur les estimateurs, et donc d´ependre du mod`ele employ´e. Iln’existe pas de formule analytique g´en´eralepour les intervalles de pr´ediction (et les intervalles de confiance plus largement).

Deux choix s’offrent `a nous en fonction du mod`ele ´etudi´e.

I Il est possible de fournir des intervalles de confiance par des formules ferm´ees.

I Il n’existe pas de formule ferm´ee : une r´egression quantile permettrait d’estimer les quantiles d’ordre α2 et1−α2 sur les donn´ees.

(39)

R´ egression quantile

Références

Documents relatifs

En d´ eduire une g´ en´ eralisation du th´ eor` eme de Gauss-Markov au cas de l’esti- mation par moindres carr´ es g´ en´ eralis´ es ainsi que l’optimalit´ e de l’estimateur

Y∼0+X1 r´ egression lin´ eaire simple sans intercept (identique au pr´ ec´ edent) Y∼X1-1 r´ egression lin´ eaire simple sans intercept (identique au pr´ ec´ edent)

Notons β le vecteur des param` etres de r´ egression ` a estimer dans le cadre d’un mod` ele d’analyse de la variance ` a un facteur et β b son

Notons β le vecteur des param` etres de r´ egression ` a estimer dans le cadre d’un mod` ele d’analyse de la variance ` a un facteur et β b son estimateur?. Proposer des simulations

Proposer des simulations de Monte-Carlo permettant d’´ evaluer l’erreur empirique de 1 ` ere esp` ece et la puissance empirique de ce test.. Les r´ esultats obtenus sont- ils

Proposer des simulations de Monte-Carlo permettant d’´ evaluer l’erreur empirique de 1 ` ere esp` ece et la puissance empirique de ces deux tests.. Les r´ esultats obtenus

Le jeu de donn´ees suivant relie le prix des maisons, quartier par quartier, dans chaque ville autour de Philadelphie (premiere colonne) au taux de criminalit´e (seconde colonne), `

Pour les sommes de type II, on doit faire la diff´erence entre la somme des carr´es relative aux erreurs dans le mod`ele avec les seuls effets de F 2 et la mˆeme somme dans le