Data Science en pratique Validation de mod`ele

(1)

Data Science en pratique Validation de mod` ele

Maxime Jumelle ESLSCA Big Data - MBA 2

2019 - 2020

(2)

Validation de mod` ele

Bien que peu abordée en comparaison avec la partie modélisation, la validation de modèle n’en reste pas moins une étapeessentielledans un projet Data Science.

Outre les métriques de performances, la validation permet de mieux comprendre le modèle et surtout, de s’assurer d’une performance globale sur toute la population de l’étude (et pas uniquement sur l’échantillon

´etudi´e).

(3)

Validation de mod` ele

La validation de modèle cherche à savoir si le modèle est bien capable de reproduire le phénomène observépar l’intermédiaire des données recueillies.

(4)

Train/Test split

En pratique, le fait de séparer l’échantillon en deux sous-ensembles, à savoir un ensemble d’entraˆınement et un ensemble de test, constitue déjà d’une pratique de validation de modèle. En l’occurrence, cette technique permettait de détecter un éventuel sur-apprentissage du modèle.

Nous allons voir d’autres méthodes qui permettent d’apporter plus de précisions sur la capacité de généralisation du modèle candidat.

(5)

Sommaire

Ré-échantillonnage Bootstrap Validation croisée Comparaison de modèle

Intervalles de prédiction Cas linéaire simple Cas linéaire multiple Régression quantile

(6)

k-Fold CV

La méthodek-Fold Cross-Validationconsiste à effectuer, pour chacune deskitérations, une séparation enk sous-ensembles d’entraˆınement distincts, pour n’entraˆıner le modèle que sur ce dernier et de le tester sur le sous-ensemble complémentaire de l’itération.

Figure–Un exemple d’une m´ethode5-Fold CV.

(7)

k-Fold CV

(8)

k-Fold CV

Quelques variations duk-Fold CV :

I Repeatedk-Fold: effectue unk-Fold CV en répétant l’opération plusieurs fois, choisissant ainsi ksous-ensembles différents à chaque passe.

I Stratified k-Fold: retourne des sous-ensembles d’entraˆınement dont les proportions des labels des individus sont approximativement identiques.

(9)

Stratified k-Fold CV

(10)

LOOCV

La méthodeLeave-One-Out Cross-Validationest un cas particulier du k-Fold CV oùk=n. À chaque itération, le modèle est entraˆıné surn−1 observations, puis le score est calculé sur lan-ème observation restante.

Ce processus est ainsi répéténfois pour parcourir toutes les observations.

Figure–Un exemple d’une m´ethode LOOCV pournobservations.

(11)

LOGOCV

En théorie rien n’oblige, dans le cas d’unk-Fold CV, un jeu d’entraˆınement à contenir un sous-échantillon représentatif de la population étudiée.

Par exemple, considérons un sondage sur la population fran¸caise avec plusieurs statuts (scolaire, étudiant, actif, retraité, ...). Il est possible, en choisissant unkélevé, qu’il existe un ou plusieurs sous-échantillons n’ayant aucun étudiant, ou encore aucun retraité. Ainsi, un modèle serait entraˆıné avec une classe de la population manquante, et donc le score sur le grouperestant permettrait d’étudier la capacité du modèle à généraliser sur de nouvelles observations.

(12)

LOGOCV

La méthodeLeave-One-Group-Out Cross-Validationconsiste à réaliser unk-Fold CV dans lequel le sous-ensemble de test contient un seul et unique groupe de la population étudiée.

Figure–Un exemple d’une m´ethode LOGOCV.

(13)

Comparaison de mod` ele

Jusqu’à présent, un moyen de comparaison entre les modèles se basait selon un critère de performance calculé par une métrique définie au préalable.

La comparaison graphique est à l’appréciation du Data Scientist : en soit, cela lui permet d’éventuellement définir un critère de comparaison basé sur la performance.

Néanmoins, il est possible d’utiliser plusieurs statistiques de test afin d’obtenir un critère quantitatif de comparaison entre les deux modèles (voir plusieurs).

(14)

Tests d’hypoth` eses

Pour comparer quantitativement deux distributions de scores, les tests d’hypoth`eses sont d’une grande aide. Parmi les tests d’hypoth`ese pour ce cas d’usage, nous disposons :

I destests paramétriques, comme let-test bilatéral, qui vont utiliser les paramètres et statistiques d’ordres du modèle.

I destests non-param´etriques, comme le test des rangs sign´es de Wilcoxon, qui vont s’appuyer uniquement sur la distribution empirique.

(15)

Tests d’hypoth` eses

Il est essentiel de s’assurer que les hypoth`eses des tests sont correctement satisfaites. Par exemple, certains tests, comme let-test bilat´eral,

supposent que les deux distributions compar´ees ont initialement la mˆeme variance. D’autres auront des conditions sur la distribution sous-jacente.

Dans ce cours, nous verrons uniquement le test des rangs sign´es de Wilcoxon, mais sachez qu’il en existe d’autres pour comparer deux

´echantillons.

(16)

Test des rangs sign´ es de Wilcoxon

SoientX etX⁰ deux variables aléatoiresindépendantesdontX est issue de la distribution des scores du premier modèle etX⁰ la distribution des scores du deuxième modèle. Supposons que nous ayons à disposition un échantillon dem scores par modèle, soit2mvaleurs. Posons

Z_i=X_i−X_i⁰,1≤i≤m

Ces différences Z_i sont supposées mutuellement indépendantes.

(17)

Test des rangs sign´ es de Wilcoxon

Si les deux distributions étaient proches (au sens de distance entre distributions), alorsil y aurait autant de chances queZ_i soit positive ou négative: la loiF_Z_i de chaque différence Z_i serait donc symétrique.

FZ_i(t) +FZ_i(−t) = 1,∀t

En revanche, siFZ_i n’était pas symétrique, alors on pourrait exprimer FZ_i en fonction de la médiane communeθ

FZ_i(θ+t) +FZ_i(θ−t) = 1,∀t

Plus les deux distributions sont proches, plusθ→0 et inversement.

(18)

Test des rangs sign´ es de Wilcoxon

Le test des rangs sign´es de Wilcoxon est le test d’hypoth`ese suivant (HWilcoxon) :

H₀:θ= 0 H₁:θ6= 0

La statistique de testW permet d’accepter ou de rejeter l’hypoth`ese nulle en fonction de sa valeur en comparaison avec un seuil d´efini.

(19)

Test des rangs sign´ es de Wilcoxon

Pour calculer la statistique de testW, on range dans l’ordre croissant les différences absolues|Zi|non nulles(en posantm⁰=|{Zi :|Zi| 6= 0}|), et on détermine le rang Ri∈ {1, . . . , m}pour chacune de ces différences absolues.

W =

m⁰

X

i=1

Riψi

avec

ψ_i=

1 siZ_i>0

−1 siZ_i<0

Sous Python, la fonctionscipy.stats.wilcoxonpermet de calculer la statistique de test pour un ´echantillon de deux ensembles de mesure.

(20)

Test des rangs sign´ es de Wilcoxon

Siθ= 0alorsW suit une distribution particuli`ere sans expression simple.

Nous utilisons untest bilatéralH1:θ6= 0à l’aide d’une table de référence des valeurs critiques deW.

On rejetteH₀ si

W ≤m⁰(m⁰+ 1)

2 −t_α/2 ou W ≥t_α/2

avect_α/2 le risque de rejeterH0à tort, que l’on détermine par une table de référence.

(21)

Figure–Table de référence des rangs signés de Wilcoxon pour un test

(22)

Test des rangs sign´ es de Wilcoxon

Nous ne pouvons pas déterminer explicitementt_α/2. Mais si le nombre d’échantillonsmest assez grand, alors la variableZ suit une distribution gaussienne, en l’occurrence à partir de20observations.

Ainsi, unz-scorepeut ˆetre calcul´e z= W

σW

avec σW =

rm⁰(m⁰+ 1)(2m⁰+ 1) 6

Toujours pour le test bidirectionnel, on rejetteH0 si|z|> z_α/2, avec zα/2 le quantile d’ordreα/2%d’une loi normale centr´ee r´eduite.

Sous R, la fonctionqsignrankdu package SignRankpermet d’estimer ce seuil critique.

(23)

(24)

Figure–Statistique de testW = 243177.5dep-value0.436.

(25)

Sommaire

Ré-échantillonnage Bootstrap Validation croisée Comparaison de modèle

Intervalles de prédiction Cas linéaire simple Cas linéaire multiple Régression quantile

(26)

Intervalle de pr´ ediction

Enrégression, un modèlefˆne prédit qu’une réponse yˆ∈R. Or, cette réponse cache un degré d’incertitude. Les intervalles de prédiction ont pour rôle d’estimer ce degré d’incertitude autour d’une observation.

L’intervalle de prédiction dépend de la réponse yˆde sorte à quantifier la probabilité que la réponse théorique yappartienne à cet intervalle :

P(y∈[a_y_ˆ, b_ˆ_y]) = 1−α

L’objectif est donc de construire[a_ˆ_y, b_y_ˆ]pour chaque pr´edictiony.ˆ

=⇒Un intervalle de pr´ediction est unintervalle de confiancepour la variable r´eponsey.

(27)

Cas du mod` ele lin´ eaire

Dans le cas d’un modèle linéaire, nous pouvons exprimer analytiquement les intervalles de prédiction. Dans le cas linéaire simple

yi=β0+β1xi+εi yˆi= ˆβ0+ ˆβ1xi

on peut montrer que la loi des estimateurs des MCO de varianceσˆ² estim´ee suivent des lois de Student

βˆ₀−β₀ ˆ σ0

∼ Tn−2 ˆσ₀²= ˆσ²

P

ix²_i nP

i(xi−x)¯ ²

βˆ1−β1

ˆ

σ₁ ∼ T_n−2 ˆσ₁²= σˆ² P

i(x_i−x)¯ ²

1 ⁿ

(28)

Normalit´ e des erreurs

Connaissant les lois des estimateurs précédents, nous pouvons en déduire desintervalles de confiance des estimateurs(6=intervalle de

pr´ediction) de niveau1−^α₂ pour les estimateursβˆ₀ etβˆ₁. β₀∈h

βˆ₀−t_n−2 1−α

2

ˆ

σ₀; ˆβ₀+t_n−2 1−α

2

ˆ σ₀i

β1∈h

βˆ1−t_n−2 1−α

2

ˆ

σ1; ˆβ1+t_n−2 1−α

2

ˆ σ1

i

avect_n−2la fonction quantile d’une loi de Student àν =n−2degrés de liberté.

Exercice

Retrouver ces intervalles de confiance `a partir de la loi des estimateurs.

(29)

Normalit´ e des erreurs

Avec les hypothèses précédentes, nous en déduisons que y−yˆ

ˆ σq

1 +_n¹ +P^(x−¯^x)²

i(xi−¯x)²

∼ T_n−2

Et donc un intervalle de pr´ediction (qui ici est l’intervalle de confiance poury)

y∈

"

ˆ

y±t_n−2 1−α

2

ˆ σ

s 1 + 1

n+ (x−¯x)² P

i(x_i−x)¯ ²

#

Lorsqueν → ∞, alors le quantile d’ordre1−^α₂ est celui de la loi normale N(0,1), et pourα= 5%,

(30)

Normalit´ e des erreurs

Figure–Intervalle de prédiction d’une observation pour un modèle linéaire simple.

(31)

Normalit´ e des erreurs

(32)

Normalit´ e des erreurs

Lorsquendevient élevé, l’intervalle de prédiction peut être simplifié par un intervalle constant quel que soitx. Dans une telle situation,

P

i(xi−x)¯ ² devient tr`es grand devant(x−x)² lorsque

x∈[minxi,maxxi]et donc l’intervalle de pr´ediction peut se simplifier approximativement en

y∈[ˆy±1.96ˆσ]

pour un seuil de confianceα= 5%.

(33)

Non normalit´ e des erreurs

(34)

Non normalit´ e des erreurs

Figure–Bande de prédiction pour un modèle linéaire simple avec les hypothèses non vérifiées.

(35)

Non normalit´ e des erreurs

Lorsque la normalité des erreurs n’est plus vérifiée, les lois des estimateurs ne sont plus correctes, et donc l’intervalle de prédiction associé à une observationxn’a plus de sens.

=⇒Dans un modèle linéaire, l’intervalle de prédiction n’a de sens que si les hypothèses sont vérifiées.

(36)

Cas multiple

Dans le cadre de la régression linéaire multiple, sous couvert des mêmes hypothèses de normalité, les estimateursβˆj suivent aussi des loi de Student :

βˆ_j−β_j ˆ σj

∼ Tn−p σˆj = ˆσ q

[(X^>X)⁻¹]jj

ˆ σ²= 1

n−p

n

X

i=1

ε²_i

Exercice

D´eterminer l’intervalle de confiance de seuilαpour l’estimateurβˆj deβj.

(37)

Cas multiple

Par le mˆeme raisonnement

y−yˆ ˆ

σp

1 +x^>(X^>X)⁻¹x ∼ T_n−p Et l’intervalle de pr´ediction associ´e

y∈

ˆ

y±t_n−p 1−α

2

ˆ σ

q

1 +x^>(X^>X)⁻¹x

(38)

R´ egression quantile

Nous avons vu que la construction d’un modèle va dépendre des hypothèses posées sur les estimateurs, et donc dépendre du modèle employé. Iln’existe pas de formule analytique généralepour les intervalles de prédiction (et les intervalles de confiance plus largement).

Deux choix s’offrent à nous en fonction du modèle étudié.

I Il est possible de fournir des intervalles de confiance par des formules ferm´ees.

I Il n’existe pas de formule fermée : une régression quantile permettrait d’estimer les quantiles d’ordre ^α₂ et1−^α₂ sur les données.

(39)