• Aucun résultat trouvé

s´ election d’estimateurs et d´ etection de ruptures

N/A
N/A
Protected

Academic year: 2022

Partager "s´ election d’estimateurs et d´ etection de ruptures"

Copied!
144
0
0

Texte intégral

(1)

1/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Contributions ` a la th´ eorie statistique de l’apprentissage:

s´ election d’estimateurs et d´ etection de ruptures

Sylvain Arlot

1Cnrs

2Ecole Normale Sup´´ erieure (Paris),DI/ENS, ´EquipeSierra

Soutenance d’habilitation `a diriger des recherches, 3 d´ecembre 2014

(2)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Parcours

Th`ese et monitorat `a l’Universit´e Paris-Sud (2004 `a 2008) ejour `a Berkeley (f´ev.-mars 2008, P. Bartlett)

Charg´e de recherches CNRS, affect´e au D´epartement d’Informatique de l’´Ecole normale sup´erieure

Equipe Willow (2008 `´ a 2010) Equipe Sierra (2011 `´ a aujourd’hui)

(3)

2/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Parcours

Th`ese et monitorat `a l’Universit´e Paris-Sud (2004 `a 2008) ejour `a Berkeley (f´ev.-mars 2008, P. Bartlett)

Charg´e de recherches CNRS, affect´e au D´epartement d’Informatique de l’´Ecole normale sup´erieure

Equipe Willow (2008 `´ a 2010) Equipe Sierra (2011 `´ a aujourd’hui)

(4)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Pour une th´ eorie utile en pratique

Comprendre pourquoi certaines proc´edures sont performantes

Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?

Corriger les d´efauts de m´ethodes couramment utilis´ees Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)

(5)

3/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Pour une th´ eorie utile en pratique

Comprendre pourquoi certaines proc´edures sont performantes Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?

Corriger les d´efauts de m´ethodes couramment utilis´ees Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)

(6)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Pour une th´ eorie utile en pratique

Comprendre pourquoi certaines proc´edures sont performantes Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?

Corriger les d´efauts de m´ethodes couramment utilis´ees

Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)

(7)

3/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Pour une th´ eorie utile en pratique

Comprendre pourquoi certaines proc´edures sont performantes Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?

Corriger les d´efauts de m´ethodes couramment utilis´ees Proposer denouvelles m´ethodes sur des bases th´eoriques e.g., heuristique de pente (Birg´e & Massart, 2001)

(8)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Plan

1 S´election d’estimateurs

2 Validation crois´ee

3 P´enalit´es minimales

4 D´etection de ruptures

5 Conclusion

(9)

5/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

R´ egression : donn´ ees (X

1

, Y

1

), . . . , (X

n

, Y

n

)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(10)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

But : reconstruire le signal

−3

−2

−1 0 1 2 3 4

(11)

7/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Estimation de densit´ e : donn´ ees ξ

1

, . . . , ξ

n

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(12)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

But : estimer la densit´ e s

?

des observations ξ

i

(13)

9/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Cadre g´ en´ eral

Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y

But : estimer une caract´eristiques?∈Sde P

densit´e, fonction de r´egression, meilleur pr´edicteur, etc. Fonction de contrasteγ :S×Ξ→Rtelle que

s?∈argmin

t∈S

Pγ(t) avec Pγ(t) :=Eξ∼P

γ(t;ξ) Perte relative

`(s?,t) :=Pγ(t)−Pγ(s?)≥0

(14)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Cadre g´ en´ eral

Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y

But : estimer une caract´eristiques?∈SdeP

densit´e, fonction de r´egression, meilleur pr´edicteur, etc.

Fonction de contrasteγ :S×Ξ→Rtelle que s?∈argmin

t∈S

Pγ(t) avec Pγ(t) :=Eξ∼P

γ(t;ξ) Perte relative

`(s?,t) :=Pγ(t)−Pγ(s?)≥0

(15)

9/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Cadre g´ en´ eral

Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y

But : estimer une caract´eristiques?∈SdeP

densit´e, fonction de r´egression, meilleur pr´edicteur, etc.

Fonction de contrasteγ :S×Ξ→Rtelle que s?∈argmin

t∈S

Pγ(t) avec Pγ(t) :=Eξ∼P

γ(t;ξ)

Perte relative

`(s?,t) :=Pγ(t)−Pγ(s?)≥0

(16)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Cadre g´ en´ eral

Donn´eesξ1, . . . , ξn∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y

But : estimer une caract´eristiques?∈SdeP

densit´e, fonction de r´egression, meilleur pr´edicteur, etc.

Fonction de contrasteγ :S×Ξ→Rtelle que s?∈argmin

t∈S

Pγ(t) avec Pγ(t) :=Eξ∼P

γ(t;ξ) Perte relative

`(s?,t) :=Pγ(t)−Pγ(s?)≥0

(17)

10/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Exemples

Pr´ediction : ξi = (Xi,Yi)

Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)

mesure la distanceentret(x) ety

R´egression (Y =R), moindres carr´es : γ t; (x,y)

= t(x)−y2

s?(X) =E[Y|X] Classification binaire (Y ={0,1}), perte 0–1 :

γ t; (x,y)

=1t(x)6=y

Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)2t(ξ) log-vraisemblance :γ(t;ξ) =log t(ξ)

(18)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Exemples

Pr´ediction : ξi = (Xi,Yi)

Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)

mesure la distanceentret(x) ety R´egression (Y =R), moindres carr´es :

γ t; (x,y)

= t(x)−y2

s?(X) =E[Y|X]

Classification binaire (Y ={0,1}), perte 0–1 : γ t; (x,y)

=1t(x)6=y

Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)2t(ξ) log-vraisemblance :γ(t;ξ) =log t(ξ)

(19)

10/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Exemples

Pr´ediction : ξi = (Xi,Yi)

Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)

mesure la distanceentret(x) ety R´egression (Y =R), moindres carr´es :

γ t; (x,y)

= t(x)−y2

s?(X) =E[Y|X] Classification binaire (Y ={0,1}), perte 0–1 :

γ t; (x,y)

=1t(x)6=y

Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)2t(ξ) log-vraisemblance :γ(t;ξ) =log t(ξ)

(20)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Exemples

Pr´ediction : ξi = (Xi,Yi)

Xn+1 pr´edireYn+1 avec t(Xn+1) ? γ t; (x,y)

mesure la distanceentret(x) ety R´egression (Y =R), moindres carr´es :

γ t; (x,y)

= t(x)−y2

s?(X) =E[Y|X] Classification binaire (Y ={0,1}), perte 0–1 :

γ t; (x,y)

=1t(x)6=y

Estimation de densit´e (mesure de r´ef´erenceµ) : moindres carr´es : γ(t;ξ) =ktk2L2(µ)2t(ξ) log-vraisemblance :γ(t;ξ) =log t(ξ)

(21)

11/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Estimateurs : un r´ egressogramme

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(22)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs : r´ egressogrammes r´ eguliers

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

(23)

13/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs : r´ egression ridge ` a noyau

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(24)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs : k plus proches voisins

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

(25)

15/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage:bs :Dn 7→bs(Dn)∈S

Exemple : estimateur des moindres carr´es sur unmod`ele Sm ⊂S

bsm ∈argmin

t∈Sm

Pnγ(t) o`u Pnγ(t) := 1 n

X

ξ∈Dn

γ(t;ξ) Exemple de mod`ele : histogrammes

Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M ⇒famille d’estimateurs des moindres carr´es

Objectif : minimiser le risque,i.e.,

In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :

`(s?,bs

mb)≤C inf

m∈M

`(s?,bsm) +Rn

(26)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´essur un mod`ele Sm ⊂S

bsm ∈argmin

t∈Sm

Pnγ(t) o`u Pnγ(t) := 1 n

X

ξ∈Dn

γ(t;ξ) Exemple de mod`ele : histogrammes

Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M ⇒famille d’estimateurs des moindres carr´es

Objectif : minimiser le risque,i.e.,

In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :

`(s?,bs

mb)≤C inf

m∈M

`(s?,bsm) +Rn

(27)

15/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´es sur un mod`ele Sm ⊂S

bsm ∈argmin

t∈Sm

Pnγ(t) o`u Pnγ(t) := 1 n

X

ξ∈Dn

γ(t;ξ) Exemple de mod`ele : histogrammes

Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M⇒ famille d’estimateurs des moindres carr´es

Objectif : minimiser le risque,i.e.,

In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :

`(s?,bs

mb)≤C inf

m∈M

`(s?,bsm) +Rn

(28)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´es sur un mod`ele Sm ⊂S

bsm ∈argmin

t∈Sm

Pnγ(t) o`u Pnγ(t) := 1 n

X

ξ∈Dn

γ(t;ξ) Exemple de mod`ele : histogrammes

Famille d’estimateurs (bsm)m∈M ⇒ choisirmb =m(Db n) ? e.g., famille de mod`eles (Sm)m∈M⇒ famille d’estimateurs des moindres carr´es

Objectif : minimiser le risque,i.e.,

In´egalit´e oracle (en esp´erance ou avec grande probabilit´e) :

`(s?,s )≤C inf

`(s?,s ) +R

(29)

16/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Compromis biais-variance

E

`(s?,bsm)

= Biais + Variance Biais ou Erreur d’approximation

`(s?,Sm) = inf

t∈Sm

`(s?,t) Variance ou Erreur d’estimation

R´egression, moindres carr´es : σ2dim(Sm) n

Compromis biais-variance

⇔´eviter le sur-apprentissage et lesous-apprentissage

(30)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Compromis biais-variance

E

`(s?,bsm)

= Biais + Variance Biais ou Erreur d’approximation

`(s?,Sm) = inf

t∈Sm

`(s?,t) Variance ou Erreur d’estimation

R´egression, moindres carr´es : σ2dim(Sm) n

Compromis biais-variance

(31)

17/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M

M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

election d’estimateurs :

R(m) =`(s?,bsm) estimateur par minimum de contraste surS :

M=S S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation

(32)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

election d’estimateurs :

R(m) =`(s?,bsm) estimateur par minimum de contraste surS :

M=S S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation

(33)

17/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

election d’estimateurs :

R(m) =`(s?,bsm)

estimateur par minimum de contraste surS :

M=S S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation

(34)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

election d’estimateurs :

R(m) =`(s?,bsm) estimateur par minimum de contraste surS :

M=S S R(t) =`(s?,t) C(t) =Pnγ(t)

relaxations (convexes) en optimisation

(35)

17/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

election d’estimateurs :

R(m) =`(s?,bsm) estimateur par minimum de contraste surS :

M=S S R(t) =`(s?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation

(36)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse du probl` eme : un lemme

Lemme Si

∀m∈ M, −B(m)≤ C(m)− R(m)≤A(m) alors,

∀mbC ∈argmin

m∈M

C(m) ,

R(mbC)−B(mbC)≤ inf

m∈M

R(m) +A(m) . (1)

En fait,(1)a lieu d`es que

∀m,m0 ∈ M, C(m)− R(m)

− C(m0)− R(m0)

≤A(m) +B(m0) .

(37)

18/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse du probl` eme : un lemme

Lemme Si

∀m∈ M, −B(m)≤ C(m)− R(m)≤A(m) alors,

∀mbC ∈argmin

m∈M

C(m) ,

R(mbC)−B(mbC)≤ inf

m∈M

R(m) +A(m) . (1) En fait,(1)a lieu d`es que

∀m,m0 ∈ M, C(m)− R(m)

− C(m0)− R(m0)

≤A(m) +B(m0) .

(38)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m∈ M, E C(m)

=E R(m)

.

Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,

∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .

⇒ d’apr`es le lemme,

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δn 1−δn

m∈Minf

R(m) .

Optimal au premier ordre siδn→0.

(39)

19/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m∈ M, E C(m)

=E R(m)

. Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,

∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .

⇒ d’apr`es le lemme,

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δn 1−δn

m∈Minf

R(m) .

Optimal au premier ordre siδn→0.

(40)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m∈ M, E C(m)

=E R(m)

. Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,

∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .

⇒ d’apr`es le lemme,

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δn 1−δn

m∈Minf

R(m) .

Optimal au premier ordre siδn→0.

(41)

19/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m∈ M, E C(m)

=E R(m)

. Sous r´eserve d’in´egalit´es de concentration (uniformes sur m∈ M), avec grande probabilit´e,

∀m∈ M, −δnR(m)≤ C(m)− R(m)≤δnR(m) avec δn∈]0,1[ .

⇒ d’apr`es le lemme,

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δn 1−δn

m∈Minf

R(m) .

Optimal au premier ordre siδn→0.

(42)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Une autre utilisation du lemme

ChoisirC qui est une borne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que

∀m∈ M, C(m)≥ R(m) .

⇒ d’apr`es le lemme,

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, etection de ruptures, etc.)

minimisation du risque structurel (Vapnik) relaxations en optimisation

(43)

20/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Une autre utilisation du lemme

ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que

∀m∈ M, C(m)≥ R(m) .

⇒ d’apr`es le lemme,

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, etection de ruptures, etc.)

minimisation du risque structurel (Vapnik) relaxations en optimisation

(44)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Une autre utilisation du lemme

ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que

∀m∈ M, C(m)≥ R(m) .

⇒ d’apr`es le lemme,

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, etection de ruptures, etc.)

minimisation du risque structurel (Vapnik) relaxations en optimisation

(45)

20/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Une autre utilisation du lemme

ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que

∀m∈ M, C(m)≥ R(m) .

⇒ d’apr`es le lemme,

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, etection de ruptures, etc.)

minimisation du risque structurel (Vapnik)

relaxations en optimisation

(46)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Une autre utilisation du lemme

ChoisirC qui est uneborne sup´erieure surR, uniform´ement sur m∈ M, c’est-`a-dire tel que

∀m∈ M, C(m)≥ R(m) .

⇒ d’apr`es le lemme,

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, etection de ruptures, etc.)

minimisation du risque structurel (Vapnik) relaxations en optimisation

(47)

21/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse au second ordre ?

Comment comparerC1 et C2 tels que

∀m∈ M, E C1(m)

=E C2(m)

?

Tenir compte de la variance var Ci(m)

? Variance de quelle quantit´e ?

Pour toute variable Z,mbCargminm∈M

C(m) +Z mais var C(m) +Z

epend deZ...

⇒ variance des incr´ements

var C(m)− C(m0) .

(48)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse au second ordre ?

Comment comparerC1 et C2 tels que

∀m∈ M, E C1(m)

=E C2(m)

? Tenir compte de la variance var Ci(m)

?

Variance de quelle quantit´e ?

Pour toute variable Z,mbCargminm∈M

C(m) +Z mais var C(m) +Z

epend deZ...

⇒ variance des incr´ements

var C(m)− C(m0) .

(49)

21/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse au second ordre ?

Comment comparerC1 et C2 tels que

∀m∈ M, E C1(m)

=E C2(m)

? Tenir compte de la variance var Ci(m)

? Variance de quelle quantit´e ?

Pour toute variable Z,mbCargminm∈M

C(m) +Z mais var C(m) +Z

epend deZ...

⇒ variance des incr´ements

var C(m)− C(m0) .

(50)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Analyse au second ordre ?

Comment comparerC1 et C2 tels que

∀m∈ M, E C1(m)

=E C2(m)

? Tenir compte de la variance var Ci(m)

? Variance de quelle quantit´e ?

Pour toute variable Z,mbCargminm∈M

C(m) +Z mais var C(m) +Z

epend deZ...

⇒ variance des incr´ements

var C(m)− C(m0) .

(51)

22/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Plan

1 S´election d’estimateurs

2 Validation crois´ee

3 P´enalit´es minimales

4 D´etection de ruptures

5 Conclusion

(52)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Principe de la validation simple

−3

−2

−1 0 1 2 3 4

(53)

23/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Principe de la validation : ´ echantillon d’entraˆınement

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(54)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Principe de la validation : ´ echantillon d’entraˆınement

−3

−2

−1 0 1 2 3 4

(55)

23/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Principe de la validation : ´ echantillon de validation

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(56)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Principe de la validation : ´ echantillon de validation

−3

−2

−1 0 1 2 3 4

(57)

24/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Validation crois´ ee

V -fold

ξ1, . . . , ξq

| {z }

, ξq+1, . . . , ξn

| {z }

Entraˆınement Validation

Validation crois´eeV-fold :

B= (Bj)1≤j≤V partition de{1, . . . ,n}

⇒ Rbvf(bsm;Dn;B) = 1 V

V

X

j=1

Pnjγ bsm(−j)

mb ∈arg min

m∈M

n

Rbvf(bsm) o

A. & Celisse. A survey of cross-validation procedures for model selection.Statistics Surveys, 4:40–79, 2010.

(58)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Au premier ordre : biais de la validation crois´ ee

Hypoth`ese : Card(Bj) =n/V pour toutj. Calcul d’esp´erances :

E

Pγ bsm(Dn) ≈α(m) +β(m) n

⇒ E h

Rbvf(bsm;Dn;B)i

=E h

Pn(j)γ

bsm(−j)

i

=E h

bsm(−j)

i

≈α(m) + V

V −1 β(m)

n

⇒ biais, d´ecroissant avec V, tend vers z´ero quand V →+∞

⇒ sous-optimalit´e de la validation crois´eeV-fold`a V fix´e (prouv´e pour les r´egressogrammes, valable plus largement)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

(59)

25/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Au premier ordre : biais de la validation crois´ ee

Hypoth`ese : Card(Bj) =n/V pour toutj. Calcul d’esp´erances :

E

Pγ bsm(Dn) ≈α(m) +β(m) n

⇒ E h

Rbvf(bsm;Dn;B)i

=E h

Pn(j)γ

bsm(−j)

i

=E h

bsm(−j)

i

≈α(m) + V

V −1 β(m)

n

⇒ biais, d´ecroissant avec V, tend vers z´ero quand V →+∞

⇒ sous-optimalit´e de la validation crois´eeV-fold`a V fix´e (prouv´e pour les r´egressogrammes, valable plus largement)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

(60)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Au premier ordre : biais de la validation crois´ ee

Hypoth`ese : Card(Bj) =n/V pour toutj. Calcul d’esp´erances :

E

Pγ bsm(Dn) ≈α(m) +β(m) n

⇒ E h

Rbvf(bsm;Dn;B)i

=E h

Pn(j)γ

bsm(−j)

i

=E h

bsm(−j)

i

≈α(m) + V

V −1 β(m)

n

⇒ biais, d´ecroissant avec V, tend vers z´ero quand V →+∞

⇒ sous-optimalit´e de la validation crois´eeV-fold`a V fix´e (prouv´e pour les r´egressogrammes, valable plus largement)

(61)

26/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´eeV-foldcorrig´ee(Burman, 1989) :

Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V

V

X

j=1

Pnγ bsm(−j)

Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation

⇒ p´enalit´e V-fold

penVF(bsm;Dn;B) := V −1 V

V

X

j=1

Pn−Pn(−j)

γ

bsm(−j)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

Rbvf,corr bsm;Dn;B

=Pnγ bsm(Dn)

+ penVF(bsm;Dn;B) Sans biaissi E

(P−Pn) bsm(Dn)

=γ(m)/n

(62)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´eeV-foldcorrig´ee(Burman, 1989) :

Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V

V

X

j=1

Pnγ bsm(−j)

Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation

⇒ p´enalit´e V-fold

penVF(bsm;Dn;B) := V −1 V

V

X

j=1

Pn−Pn(−j)

γ

bsm(−j)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

Rbvf,corr bsm;Dn;B

=Pnγ bsm(Dn)

+ penVF(bsm;Dn;B) Sans biaissi E

(P−Pn) bsm(Dn)

=γ(m)/n

(63)

26/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´eeV-foldcorrig´ee(Burman, 1989) :

Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V

V

X

j=1

Pnγ bsm(−j)

Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation

⇒ p´enalit´e V-fold

penVF(bsm;Dn;B) := V −1 V

V

X

j=1

Pn−Pn(−j)

γ

bsm(−j)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

Rbvf,corr bsm;Dn;B

=Pnγ bsm(Dn)

+ penVF(bsm;Dn;B)

Sans biaissi E

(P−Pn) bsm(Dn)

=γ(m)/n

(64)

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

Correction du biais et p´ enalisation

V -fold

Validation crois´eeV-foldcorrig´ee(Burman, 1989) :

Rbvf,corr(bsm;Dn;B) :=Rbvf(bsm;Dn;B) +Pnγ(bsm)− 1 V

V

X

j=1

Pnγ bsm(−j)

Heuristique de r´e´echantillonnage (Efron, 1983), sous-´echantillonnage V-foldet p´enalisation

⇒ p´enalit´e V-fold

penVF(bsm;Dn;B) := V −1 V

V

X

j=1

Pn−Pn(−j)

γ

bsm(−j)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

Rbvf,corr bsm;Dn;B

=Pnγ bsm(Dn)

+ penVF(bsm;Dn;B)

(65)

27/68

election d’estimateurs Validation crois´ee enalit´es minimales etection de ruptures Conclusion

In´ egalit´ es oracle optimales pour la p´ enalisation

V -fold

Th´eor`eme

Avec probabilit´e 1−n−2,∀δ >0,

∀mb ∈argmin

m∈M

Pnγ bsm(Dn)

+ penVF(bsm;Dn;B) ,

`(s?,bs

mb)≤ 1 +δ

m∈Minf

`(s?,bsm) +L

log Card(M)

∨log(n)α

δβn

⇒Optimal au premier ordre si Card(M)≤anb

Valable sous des hypoth`eses raisonnablement faibles pour : Les r´egressogrammesen r´egression h´et´erosc´edastique

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2 A. Model selection by resampling penalization.Electronic Journal of Statistics, 3:557–624, 2009.

L’estimation de densit´e par moindres carr´es

A. & Lerasle. WhyV= 5 is enough inV-fold cross-validation, 2014. arXiv:1210.5830v2. A. & Celisse. A survey of cross-validation procedures for model selection.Statistics Surveys, 4:40–79, 2010.

Références

Documents relatifs

Nous allons nous focaliser sur la log-vraisemblance de toutes les segmentations possibles log f (x; J ) pour d´ efinir une heuristique de pente de mani` ere coh´ erente avec notre

En outre, nous avons pris le soin de dé rire les diérentes étapes de onstru tion de es indi ateurs d'erreur, e hoix étant guidé non seulement par le fait que e hapitre soit

Nous allons nous focaliser sur la log-vraisemblance de toutes les segmentations possibles log f (x; J) pour d´ efinir une heuristique de pente de mani` ere coh´ erente avec notre

Exercice 1 : On souhaite construire un intervalle de confiance de la différence de fréquence d’avoir les yeux verts dans deux populations d’un pays donné1. Dans les populations du

Dans cet article, nous d´erivons de nouvelles propri´et´es asymptotiques pour l’EVD des M -estimateurs pour des donn´ees ayant une distribution complexe elliptique sym´etrique

Dans le chapitre un nous concentrons sur les méthodes d’estimation, de la fonction de répartition ( fonction de répartition empirique, Estimation à noyau ), de la densité

Le but de l'exposé est de valider cette heuristique et de montrer l'optimalité non-asymptotique de l'estimateur sélectionné dans un cadre générique nou- veau que nous dénirons et

The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.. L’archive ouverte pluridisciplinaire HAL, est