• Aucun résultat trouvé

s´ election d’estimateurs et d´ etection de ruptures

N/A
N/A
Protected

Academic year: 2022

Partager "s´ election d’estimateurs et d´ etection de ruptures"

Copied!
144
0
0

Texte intégral

(1)

1/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Contributions ` a la th´ eorie statistique de l’apprentissage:

s´ election d’estimateurs et d´ etection de ruptures

Sylvain Arlot

1Cnrs

2Ecole Normale Sup´´ erieure (Paris),DI/ENS, ´EquipeSierra

Soutenance d’habilitation `a diriger des recherches, 3 d´ecembre 2014

(2)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Parcours

Th`ese et monitorat `a l’Universit´e Paris-Sud (2004 `a 2008) ejour `a Berkeley (f´ev.-mars 2008, P. Bartlett)

Charg´e de recherches CNRS, affect´e au D´epartement d’Informatique de l’´Ecole normale sup´erieure

Equipe Willow (2008 `´ a 2010) Equipe Sierra (2011 `´ a aujourd’hui)

(3)

2/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Parcours

Th`ese et monitorat `a l’Universit´e Paris-Sud (2004 `a 2008) ejour `a Berkeley (f´ev.-mars 2008, P. Bartlett)

Charg´e de recherches CNRS, affect´e au D´epartement d’Informatique de l’´Ecole normale sup´erieure

Equipe Willow (2008 `´ a 2010) Equipe Sierra (2011 `´ a aujourd’hui)

(4)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Pour une th´ eorie utile en pratique

Comprendre pourquoi certaines proc´edures sont performantes

Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?

Corriger les d´efauts de m´ethodes couramment utilis´ees Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)

(5)

3/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Pour une th´ eorie utile en pratique

Comprendre pourquoi certaines proc´edures sont performantes Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?

Corriger les d´efauts de m´ethodes couramment utilis´ees Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)

(6)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Pour une th´ eorie utile en pratique

Comprendre pourquoi certaines proc´edures sont performantes Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?

Corriger les d´efauts de m´ethodes couramment utilis´ees

Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)

(7)

3/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Pour une th´ eorie utile en pratique

Comprendre pourquoi certaines proc´edures sont performantes Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?

Corriger les d´efauts de m´ethodes couramment utilis´ees Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)

(8)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Plan

1 S´election d’estimateurs

2 Validation crois´ee

3 P´enalit´es minimales

4 D´etection de ruptures

5 Conclusion

(9)

5/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

R´ egression : donn´ ees (X

1

, Y

1

), . . . , (X

n

, Y

n

)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(10)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

But : reconstruire le signal

−3

−2

−1 0 1 2 3 4

(11)

7/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Estimation de densit´ e : donn´ ees ξ

1

, . . . , ξ

n

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(12)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

But : estimer la densit´ e s

?

des observations ξ

i

(13)

9/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Cadre g´ en´ eral

Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y

But : estimer une caract´eristiques?∈Sde P

densit´e, fonction de r´egression, meilleur pr´edicteur, etc. Fonction de contrasteγ :S×Ξ→Rtelle que

s?∈argmin

t∈S

Pγ(t) avec Pγ(t) :=Eξ∼P

γ(t;ξ) Perte relative

`(s?,t) :=Pγ(t)−Pγ(s?)≥0

(14)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Cadre g´ en´ eral

Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y

But : estimer une caract´eristiques?∈SdeP

densit´e, fonction de r´egression, meilleur pr´edicteur, etc.

Fonction de contrasteγ :S×Ξ→Rtelle que s?∈argmin

t∈S

Pγ(t) avec Pγ(t) :=Eξ∼P

γ(t;ξ) Perte relative

`(s?,t) :=Pγ(t)−Pγ(s?)≥0

(15)

9/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Cadre g´ en´ eral

Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y

But : estimer une caract´eristiques?∈SdeP

densit´e, fonction de r´egression, meilleur pr´edicteur, etc.

Fonction de contrasteγ :S×Ξ→Rtelle que s?∈argmin

t∈S

Pγ(t) avec Pγ(t) :=Eξ∼P

γ(t;ξ)

Perte relative

`(s?,t) :=Pγ(t)−Pγ(s?)≥0

(16)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Cadre g´ en´ eral

Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y

But : estimer une caract´eristiques?∈SdeP

densit´e, fonction de r´egression, meilleur pr´edicteur, etc.

Fonction de contrasteγ :S×Ξ→Rtelle que s?∈argmin

t∈S

Pγ(t) avec Pγ(t) :=Eξ∼P

γ(t;ξ) Perte relative

`(s?,t) :=Pγ(t)−Pγ(s?)≥0

(17)

10/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Exemples

Pr´ediction : ξi = (Xi,Yi)

Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)

mesure la distanceentret(x) ety

R´egression (Y =R), moindres carr´es : γ t; (x,y)

= t(x)−y2

s?(X) =E[Y|X] Classification binaire (Y ={0,1}), perte 0–1 :

γ t; (x,y)

=1t(x)6=y

Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)2t(ξ) log-vraisemblance :γ(t;ξ) =log t(ξ)

(18)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Exemples

Pr´ediction : ξi = (Xi,Yi)

Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)

mesure la distanceentret(x) ety R´egression (Y =R), moindres carr´es :

γ t; (x,y)

= t(x)−y2

s?(X) =E[Y|X]

Classification binaire (Y ={0,1}), perte 0–1 : γ t; (x,y)

=1t(x)6=y

Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)2t(ξ) log-vraisemblance :γ(t;ξ) =log t(ξ)

(19)

10/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Exemples

Pr´ediction : ξi = (Xi,Yi)

Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)

mesure la distanceentret(x) ety R´egression (Y =R), moindres carr´es :

γ t; (x,y)

= t(x)−y2

s?(X) =E[Y|X] Classification binaire (Y ={0,1}), perte 0–1 :

γ t; (x,y)

=1t(x)6=y

Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)2t(ξ) log-vraisemblance :γ(t;ξ) =log t(ξ)

(20)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Exemples

Pr´ediction : ξi = (Xi,Yi)

Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)

mesure la distanceentret(x) ety R´egression (Y =R), moindres carr´es :

γ t; (x,y)

= t(x)−y2

s?(X) =E[Y|X] Classification binaire (Y ={0,1}), perte 0–1 :

γ t; (x,y)

=1t(x)6=y

Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)2t(ξ) log-vraisemblance :γ(t;ξ) =log t(ξ)

(21)

11/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Estimateurs : un r´ egressogramme

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(22)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs : r´ egressogrammes r´ eguliers

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

(23)

13/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs : r´ egression ridge ` a noyau

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(24)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs : k plus proches voisins

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

(25)

15/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage:bs :Dn 7→bs(Dn)∈S

Exemple : estimateur des moindres carr´es sur unmod`ele Sm ⊂S

bsm ∈argmin

t∈Sm

Pnγ(t) o`u Pnγ(t) := 1 n

X

ξ∈Dn

γ(t;ξ) Exemple de mod`ele : histogrammes

Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M ⇒famille d’estimateurs des moindres carr´es

Objectif : minimiser le risque,i.e.,

In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :

`(s?,bs

mb)≤C inf

m∈M

`(s?,bsm) +Rn

(26)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´essur un mod`ele Sm ⊂S

bsm ∈argmin

t∈Sm

Pnγ(t) o`u Pnγ(t) := 1 n

X

ξ∈Dn

γ(t;ξ) Exemple de mod`ele : histogrammes

Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M ⇒famille d’estimateurs des moindres carr´es

Objectif : minimiser le risque,i.e.,

In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :

`(s?,bs

mb)≤C inf

m∈M

`(s?,bsm) +Rn

(27)

15/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´es sur un mod`ele Sm ⊂S

bsm ∈argmin

t∈Sm

Pnγ(t) o`u Pnγ(t) := 1 n

X

ξ∈Dn

γ(t;ξ) Exemple de mod`ele : histogrammes

Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M⇒ famille d’estimateurs des moindres carr´es

Objectif : minimiser le risque,i.e.,

In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :

`(s?,bs

mb)≤C inf

m∈M

`(s?,bsm) +Rn

(28)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´es sur un mod`ele Sm ⊂S

bsm ∈argmin

t∈Sm

Pnγ(t) o`u Pnγ(t) := 1 n

X

ξ∈Dn

γ(t;ξ) Exemple de mod`ele : histogrammes

Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M⇒ famille d’estimateurs des moindres carr´es

Objectif : minimiser le risque,i.e.,

In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :

`(s?,s )≤C inf

`(s?,s ) +R

(29)

16/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Compromis biais-variance

E

`(s?,bsm)

= Biais + Variance Biais ou Erreur d’approximation

`(s?,Sm) = inf

t∈Sm

`(s?,t) Variance ou Erreur d’estimation

R´egression, moindres carr´es : σ2dim(Sm) n

Compromis biais-variance

⇔´eviter le sur-apprentissage et lesous-apprentissage

(30)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Compromis biais-variance

E

`(s?,bsm)

= Biais + Variance Biais ou Erreur d’approximation

`(s?,Sm) = inf

t∈Sm

`(s?,t) Variance ou Erreur d’estimation

R´egression, moindres carr´es : σ2dim(Sm) n

Compromis biais-variance

(31)

17/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M

M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

election d’estimateurs :

R(m) =`(s?,bsm) estimateur par minimum de contraste surS :

M=S S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation

(32)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

election d’estimateurs :

R(m) =`(s?,bsm) estimateur par minimum de contraste surS :

M=S S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation

(33)

17/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

election d’estimateurs :

R(m) =`(s?,bsm)

estimateur par minimum de contraste surS :

M=S S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation

(34)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

election d’estimateurs :

R(m) =`(s?,bsm) estimateur par minimum de contraste surS :

M=S S R(t) =`(s?,t) C(t) =Pnγ(t)

relaxations (convexes) en optimisation

(35)

17/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

election d’estimateurs :

R(m) =`(s?,bsm) estimateur par minimum de contraste surS :

M=S S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation

(36)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse du probl` eme : un lemme

Lemme Si

∀m∈ M, −B(m)≤ C(m)− R(m)≤A(m) alors,

∀mbC ∈argmin

m∈M

C(m) ,

R(mbC)−B(mbC)≤ inf

m∈M

R(m) +A(m) . (1)

En fait,(1)a lieu d`es que

∀m,m0 ∈ M, C(m)− R(m)

− C(m0)− R(m0)

≤A(m) +B(m0) .

(37)

18/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse du probl` eme : un lemme

Lemme Si

∀m∈ M, −B(m)≤ C(m)− R(m)≤A(m) alors,

∀mbC ∈argmin

m∈M

C(m) ,

R(mbC)−B(mbC)≤ inf

m∈M

R(m) +A(m) . (1) En fait,(1)a lieu d`es que

∀m,m0 ∈ M, C(m)− R(m)

− C(m0)− R(m0)

≤A(m) +B(m0) .

(38)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m∈ M, E C(m)

=E R(m)

.

Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,

∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .

⇒ d’apr`es le lemme,

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δn 1−δn

m∈Minf

R(m) .

Optimal au premier ordre siδn→0.

(39)

19/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m∈ M, E C(m)

=E R(m)

. Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,

∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .

⇒ d’apr`es le lemme,

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δn 1−δn

m∈Minf

R(m) .

Optimal au premier ordre siδn→0.

(40)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m∈ M, E C(m)

=E R(m)

. Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,

∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .

⇒ d’apr`es le lemme,

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δn 1−δn

m∈Minf

R(m) .

Optimal au premier ordre siδn→0.

(41)

19/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m∈ M, E C(m)

=E R(m)

. Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,

∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .

⇒ d’apr`es le lemme,

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δn 1−δn

m∈Minf

R(m) .

Optimal au premier ordre siδn→0.

(42)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Une autre utilisation du lemme

ChoisirC qui est une borne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que

∀m∈ M, C(m)≥ R(m) .

⇒ d’apr`es le lemme,

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, etection de ruptures, etc.)

minimisation du risque structurel (Vapnik) relaxations en optimisation

(43)

20/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Une autre utilisation du lemme

ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que

∀m∈ M, C(m)≥ R(m) .

⇒ d’apr`es le lemme,

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, etection de ruptures, etc.)

minimisation du risque structurel (Vapnik) relaxations en optimisation

(44)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Une autre utilisation du lemme

ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que

∀m∈ M, C(m)≥ R(m) .

⇒ d’apr`es le lemme,

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, etection de ruptures, etc.)

minimisation du risque structurel (Vapnik) relaxations en optimisation

(45)

20/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Une autre utilisation du lemme

ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que

∀m∈ M, C(m)≥ R(m) .

⇒ d’apr`es le lemme,

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, etection de ruptures, etc.)

minimisation du risque structurel (Vapnik)

relaxations en optimisation

(46)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Une autre utilisation du lemme

ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que

∀m∈ M, C(m)≥ R(m) .

⇒ d’apr`es le lemme,

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, etection de ruptures, etc.)

minimisation du risque structurel (Vapnik) relaxations en optimisation

(47)

21/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse au second ordre ?

Comment comparerC1 et C2 tels que

∀m∈ M, E C1(m)

=E C2(m)

?

Tenir compte de la variance var Ci(m)

? Variance de quelle quantit´e ?

Pour toute variable Z,mbCargminm∈M

C(m) +Z mais var C(m) +Z

epend deZ...

⇒ variance des incr´ements

var C(m)− C(m0) .

(48)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse au second ordre ?

Comment comparerC1 et C2 tels que

∀m∈ M, E C1(m)

=E C2(m)

? Tenir compte de la variance var Ci(m)

?

Variance de quelle quantit´e ?

Pour toute variable Z,mbCargminm∈M

C(m) +Z mais var C(m) +Z

epend deZ...

⇒ variance des incr´ements

var C(m)− C(m0) .

(49)

21/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse au second ordre ?

Comment comparerC1 et C2 tels que

∀m∈ M, E C1(m)

=E C2(m)

? Tenir compte de la variance var Ci(m)

? Variance de quelle quantit´e ?

Pour toute variable Z,mbCargminm∈M

C(m) +Z mais var C(m) +Z

epend deZ...

⇒ variance des incr´ements

var C(m)− C(m0) .

(50)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse au second ordre ?

Comment comparerC1 et C2 tels que

∀m∈ M, E C1(m)

=E C2(m)

? Tenir compte de la variance var Ci(m)

? Variance de quelle quantit´e ?

Pour toute variable Z,mbCargminm∈M

C(m) +Z mais var C(m) +Z

epend deZ...

⇒ variance des incr´ements

var C(m)− C(m0) .

(51)

22/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Plan

1 S´election d’estimateurs

2 Validation crois´ee

3 P´enalit´es minimales

4 D´etection de ruptures

5 Conclusion

(52)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Principe de la validation simple

−3

−2

−1 0 1 2 3 4

(53)

23/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Principe de la validation : ´ echantillon d’entraˆınement

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(54)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Principe de la validation : ´ echantillon d’entraˆınement

−3

−2

−1 0 1 2 3 4

(55)

23/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Principe de la validation : ´ echantillon de validation

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(56)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Principe de la validation : ´ echantillon de validation

−3

−2

−1 0 1 2 3 4

(57)

24/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Validation crois´ ee

V -fold

ξ1, . . . , ξq

| {z }

, ξq+1, . . . , ξn

| {z }

Entraˆınement Validation

Validation crois´eeV-fold :

B= (Bj)1≤j≤V partition de{1, . . . ,n}

⇒ Rbvf(bsm;Dn;B) = 1 V

V

X

j=1

Pnjγ bsm(−j)

mb ∈arg min

m∈M

n

Rbvf(bsm) o

A. & Celisse. A survey of cross-validation procedures for model selection.Statistics Surveys, 4:40–79, 2010.

(58)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Au premier ordre : biais de la validation crois´ ee

Hypoth`ese : Card(Bj) =n/V pour toutj. Calcul d’esp´erances :

E

Pγ bsm(Dn) ≈α(m) +β(m) n

⇒ E h

Rbvf(bsm;Dn;B)i

=E h

Pn(j)γ

bsm(−j)

i

=E h

bsm(−j)

i

≈α(m) + V

V −1 β(m)

n

⇒ biais, d´ecroissant avec V, tend vers z´ero quand V →+∞

⇒ sous-optimalit´e de la validation crois´eeV-fold`a V fix´e (prouv´e pour les r´egressogrammes, valable plus largement)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

(59)

25/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Au premier ordre : biais de la validation crois´ ee

Hypoth`ese : Card(Bj) =n/V pour toutj. Calcul d’esp´erances :

E

Pγ bsm(Dn) ≈α(m) +β(m) n

⇒ E h

Rbvf(bsm;Dn;B)i

=E h

Pn(j)γ

bsm(−j)

i

=E h

bsm(−j)

i

≈α(m) + V

V −1 β(m)

n

⇒ biais, d´ecroissant avec V, tend vers z´ero quand V →+∞

⇒ sous-optimalit´e de la validation crois´eeV-fold`a V fix´e (prouv´e pour les r´egressogrammes, valable plus largement)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

(60)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Au premier ordre : biais de la validation crois´ ee

Hypoth`ese : Card(Bj) =n/V pour toutj. Calcul d’esp´erances :

E

Pγ bsm(Dn) ≈α(m) +β(m) n

⇒ E h

Rbvf(bsm;Dn;B)i

=E h

Pn(j)γ

bsm(−j)

i

=E h

bsm(−j)

i

≈α(m) + V

V −1 β(m)

n

⇒ biais, d´ecroissant avec V, tend vers z´ero quand V →+∞

⇒ sous-optimalit´e de la validation crois´eeV-fold`a V fix´e (prouv´e pour les r´egressogrammes, valable plus largement)

(61)

26/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´eeV-foldcorrig´ee(Burman, 1989) :

Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V

V

X

j=1

Pnγ bsm(−j)

Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation

⇒ p´enalit´e V-fold

penVF(bsm;Dn;B) := V −1 V

V

X

j=1

Pn−Pn(−j)

γ

bsm(−j)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

Rbvf,corr bsm;Dn;B

=Pnγ bsm(Dn)

+ penVF(bsm;Dn;B) Sans biaissi E

(P−Pn) bsm(Dn)

=γ(m)/n

(62)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´eeV-foldcorrig´ee(Burman, 1989) :

Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V

V

X

j=1

Pnγ bsm(−j)

Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation

⇒ p´enalit´e V-fold

penVF(bsm;Dn;B) := V −1 V

V

X

j=1

Pn−Pn(−j)

γ

bsm(−j)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

Rbvf,corr bsm;Dn;B

=Pnγ bsm(Dn)

+ penVF(bsm;Dn;B) Sans biaissi E

(P−Pn) bsm(Dn)

=γ(m)/n

(63)

26/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´eeV-foldcorrig´ee(Burman, 1989) :

Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V

V

X

j=1

Pnγ bsm(−j)

Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation

⇒ p´enalit´e V-fold

penVF(bsm;Dn;B) := V −1 V

V

X

j=1

Pn−Pn(−j)

γ

bsm(−j)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

Rbvf,corr bsm;Dn;B

=Pnγ bsm(Dn)

+ penVF(bsm;Dn;B)

Sans biaissi E

(P−Pn) bsm(Dn)

=γ(m)/n

(64)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´eeV-foldcorrig´ee(Burman, 1989) :

Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V

V

X

j=1

Pnγ bsm(−j)

Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation

⇒ p´enalit´e V-fold

penVF(bsm;Dn;B) := V −1 V

V

X

j=1

Pn−Pn(−j)

γ

bsm(−j)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

Rbvf,corr bsm;Dn;B

=Pnγ bsm(Dn)

+ penVF(bsm;Dn;B)

(65)

27/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

In´ egalit´ es oracle optimales pour la p´ enalisation

V -fold

Th´eor`eme

Avec probabilit´e 1−n−2,∀δ >0,

∀mb ∈argmin

m∈M

Pnγ bsm(Dn)

+ penVF(bsm;Dn;B) ,

`(s?,bs

mb)≤ 1 +δ

m∈Minf

`(s?,bsm) +L

log Card(M)

∨log(n)α

δβn

⇒Optimal au premier ordre si Card(M)≤anb

Valable sous des hypoth`eses raisonnablement faibles pour : Les r´egressogrammesen r´egression h´et´erosc´edastique

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2 A. Model selection by resampling penalization.Electronic Journal of Statistics, 3:557–624, 2009.

L’estimation de densit´e par moindres carr´es

A. & Lerasle. WhyV= 5 is enough inV-fold cross-validation, 2014. arXiv:1210.5830v2. A. & Celisse. A survey of cross-validation procedures for model selection.Statistics Surveys, 4:40–79, 2010.

Références

Documents relatifs

Dans cet article, nous d´erivons de nouvelles propri´et´es asymptotiques pour l’EVD des M -estimateurs pour des donn´ees ayant une distribution complexe elliptique sym´etrique

Dans le chapitre un nous concentrons sur les méthodes d’estimation, de la fonction de répartition ( fonction de répartition empirique, Estimation à noyau ), de la densité

Nous allons nous focaliser sur la log-vraisemblance de toutes les segmentations possibles log f (x; J) pour d´ efinir une heuristique de pente de mani` ere coh´ erente avec notre

Nous allons nous focaliser sur la log-vraisemblance de toutes les segmentations possibles log f (x; J ) pour d´ efinir une heuristique de pente de mani` ere coh´ erente avec notre

En outre, nous avons pris le soin de dé rire les diérentes étapes de onstru tion de es indi ateurs d'erreur, e hoix étant guidé non seulement par le fait que e hapitre soit

Le but de l'exposé est de valider cette heuristique et de montrer l'optimalité non-asymptotique de l'estimateur sélectionné dans un cadre générique nou- veau que nous dénirons et

The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.. L’archive ouverte pluridisciplinaire HAL, est

Exercice 1 : On souhaite construire un intervalle de confiance de la différence de fréquence d’avoir les yeux verts dans deux populations d’un pays donné1. Dans les populations du