s´ election d’estimateurs et d´ etection de ruptures

(1)

1/68

Sélection d’estimateurs Validation croisée Pénalités minimales Détection de ruptures Conclusion

Contributions ` a la th´ eorie statistique de l’apprentissage:

s´ election d’estimateurs et d´ etection de ruptures

Sylvain Arlot

1Cnrs

2Ecole Normale Sup´´ erieure (Paris),DI/ENS, ´EquipeSierra

Soutenance d’habilitation `a diriger des recherches, 3 d´ecembre 2014

(2)

Parcours

Thèse et monitorat à l’Université Paris-Sud (2004 à 2008) Séjour à Berkeley (fév.-mars 2008, P. Bartlett)

Chargé de recherches CNRS, affecté au Département d’Informatique de l’École normale supérieure

Equipe Willow (2008 `´ a 2010) Equipe Sierra (2011 `´ a aujourd’hui)

(3)

2/68

Parcours

Thèse et monitorat à l’Université Paris-Sud (2004 à 2008) Séjour à Berkeley (fév.-mars 2008, P. Bartlett)

Chargé de recherches CNRS, affecté au Département d’Informatique de l’École normale supérieure

Equipe Willow (2008 `´ a 2010) Equipe Sierra (2011 `´ a aujourd’hui)

(4)

Pour une th´ eorie utile en pratique

Comprendre pourquoi certaines proc´edures sont performantes

Pourquoi certaines proc´edures fonctionnent-elles mieux ? Compromis entre complexit´e algorithmique et performance statistique ?

Corriger les défauts de méthodes couramment utilisées Proposer denouvelles méthodes sur des bases théoriques e.g., heuristique de pente (Birgé & Massart, 2001)

(5)

3/68

Pour une th´ eorie utile en pratique

Comprendre pourquoi certaines procédures sont performantes Pourquoi certaines procédures fonctionnent-elles mieux ? Compromis entre complexité algorithmique et performance statistique ?

(6)

Pour une th´ eorie utile en pratique

Corriger les défauts de méthodes couramment utilisées

Proposer denouvelles méthodes sur des bases théoriques e.g., heuristique de pente (Birgé & Massart, 2001)

(7)

3/68

Pour une th´ eorie utile en pratique

(8)

Plan

1 S´election d’estimateurs

2 Validation crois´ee

3 P´enalit´es minimales

4 D´etection de ruptures

5 Conclusion

(9)

5/68

R´ egression : donn´ ees (X

1

, Y

1

), . . . , (X

n

, Y

n

)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(10)

But : reconstruire le signal

−3

−2

−1 0 1 2 3 4

(11)

7/68

Estimation de densit´ e : donn´ ees ξ

1

, . . . , ξ

n

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

(12)

But : estimer la densit´ e s

^?

des observations ξ

i

(13)

9/68

Cadre g´ en´ eral

Donn´eesξ₁, . . . , ξ_n∈Ξ i.i.d. de loiP pr´ediction :ξi= (Xi,Yi)∈ X × Y

But : estimer une caract´eristiques^?∈Sde P

densité, fonction de régression, meilleur prédicteur, etc. Fonction de contrasteγ :S×Ξ→Rtelle que

s^?∈argmin

t∈S

Pγ(t) avec Pγ(t) :=Eξ∼P

γ(t;ξ) Perte relative

`(s^?,t) :=Pγ(t)−Pγ(s^?)≥0

(14)

Cadre g´ en´ eral

But : estimer une caract´eristiques^?∈SdeP

densité, fonction de régression, meilleur prédicteur, etc.

Fonction de contrasteγ :S×Ξ→Rtelle que s^?∈argmin

t∈S

`(s^?,t) :=Pγ(t)−Pγ(s^?)≥0

(15)

9/68

Cadre g´ en´ eral

t∈S

γ(t;ξ)

Perte relative

`(s^?,t) :=Pγ(t)−Pγ(s^?)≥0

(16)

Cadre g´ en´ eral

t∈S

`(s^?,t) :=Pγ(t)−Pγ(s^?)≥0

(17)

10/68

Exemples

Pr´ediction : ξ_i = (X_i,Y_i)

X_n+1 pr´edireY_n+1 avec t(X_n+1) ? γ t; (x,y)

mesure la distanceentret(x) ety

R´egression (Y =R), moindres carr´es : γ t; (x,y)

= t(x)−y2

s^?(X) =E[Y|X] Classification binaire (Y ={0,1}), perte 0–1 :

γ t; (x,y)

=1t(x)6=y

Estimation de densité (mesure de référenceµ) : moindres carrés : γ(t;ξ) =ktk²_L2(µ)−2t(ξ) log-vraisemblance :γ(t;ξ) =−log t(ξ)

(18)

Exemples

mesure la distanceentret(x) ety R´egression (Y =R), moindres carr´es :

γ t; (x,y)

= t(x)−y2

s^?(X) =E[Y|X]

Classification binaire (Y ={0,1}), perte 0–1 : γ t; (x,y)

=1t(x)6=y

(19)

10/68

Exemples

γ t; (x,y)

= t(x)−y2

γ t; (x,y)

=1t(x)6=y

(20)

Exemples

γ t; (x,y)

= t(x)−y2

γ t; (x,y)

=1t(x)6=y

(21)

11/68

Estimateurs : un r´ egressogramme

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(22)

S´ election d’estimateurs : r´ egressogrammes r´ eguliers

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

(23)

13/68

S´ election d’estimateurs : r´ egression ridge ` a noyau

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(24)

S´ election d’estimateurs : k plus proches voisins

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

−2

−1 0 1 2 3 4

(25)

15/68

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage:bs :Dn 7→bs(Dn)∈S

Exemple : estimateur des moindres carr´es sur unmod`ele S_m ⊂S

bsm ∈argmin

t∈S_m

Pnγ(t) o`u Pnγ(t) := 1 n

X

ξ∈D_n

γ(t;ξ) Exemple de mod`ele : histogrammes

Famille d’estimateurs (bs_m)m∈M ⇒ choisirmb =m(Db _n) ? e.g., famille de mod`eles (Sm)m∈M ⇒famille d’estimateurs des moindres carr´es

Objectif : minimiser le risque,i.e.,

Inégalité oracle (en espérance ou avec grande probabilité) :

`(s^?,bs

mb)≤C inf

m∈M

`(s^?,bs_m) +R_n

(26)

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´essur un mod`ele S_m ⊂S

bsm ∈argmin

t∈Sm

X

ξ∈D_n

Famille d’estimateurs (bs_m)m∈M ⇒ choisirmb =m(Db _n) ? e.g., famille de mod`eles (Sm)m∈M ⇒famille d’estimateurs des moindres carr´es

`(s^?,bs

mb)≤C inf

m∈M

`(s^?,bs_m) +R_n

(27)

15/68

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´es sur un mod`ele S_m ⊂S

bsm ∈argmin

t∈Sm

X

ξ∈D_n

Famille d’estimateurs (bs_m)m∈M ⇒ choisirmb =m(Db _n) ? e.g., famille de mod`eles (Sm)m∈M⇒ famille d’estimateurs des moindres carr´es

`(s^?,bs

mb)≤C inf

m∈M

`(s^?,bs_m) +R_n

(28)

S´ election d’estimateurs

Estimateur/Algorithme d’apprentissage :bs :Dn 7→bs(Dn)∈S Exemple : estimateur des moindres carr´es sur un mod`ele S_m ⊂S

bsm ∈argmin

t∈Sm

X

ξ∈D_n

Famille d’estimateurs (bs_m)m∈M ⇒ choisirmb =m(Db _n) ? e.g., famille de mod`eles (Sm)m∈M⇒ famille d’estimateurs des moindres carr´es

`(s^?,s )≤C inf

`(s^?,s ) +R

(29)

16/68

Compromis biais-variance

E

`(s^?,bsm)

= Biais + Variance Biais ou Erreur d’approximation

`(s^?,S_m) = inf

t∈Sm

`(s^?,t) Variance ou Erreur d’estimation

R´egression, moindres carr´es : σ²dim(Sm) n

Compromis biais-variance

⇔´eviter le sur-apprentissage et lesous-apprentissage

(30)

Compromis biais-variance

E

`(s^?,bsm)

= Biais + Variance Biais ou Erreur d’approximation

`(s^?,S_m) = inf

t∈Sm

`(s^?,t) Variance ou Erreur d’estimation

R´egression, moindres carr´es : σ²dim(Sm) n

Compromis biais-variance

(31)

17/68

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M

M´ethode :

minimiserC(m) surm∈ M ⇒ mbC

Exemples :

s´election d’estimateurs :

R(m) =`(s^?,bsm) estimateur par minimum de contraste surS :

M=S ⊂S R(t) =`(s^?,t) C(t) =Pnγ(t) relaxations (convexes) en optimisation

(32)

Un probl` eme g´ en´ eral

Objectif :

minimiser R(m) surm∈ M M´ethode :

Exemples :

(33)

17/68

Un probl` eme g´ en´ eral

Objectif :

Exemples :

R(m) =`(s^?,bsm)

estimateur par minimum de contraste surS :

(34)

Un probl` eme g´ en´ eral

Objectif :

Exemples :

M=S ⊂S R(t) =`(s^?,t) C(t) =Pnγ(t)

relaxations (convexes) en optimisation

(35)

17/68

Un probl` eme g´ en´ eral

Objectif :

Exemples :

(36)

Analyse du probl` eme : un lemme

Lemme Si

∀m∈ M, −B(m)≤ C(m)− R(m)≤A(m) alors,

∀mbC ∈argmin

m∈M

C(m) ,

R(mbC)−B(mbC)≤ inf

m∈M

R(m) +A(m) . (1)

En fait,(1)a lieu d`es que

∀m,m⁰ ∈ M, C(m)− R(m)

− C(m⁰)− R(m⁰)

≤A(m) +B(m⁰) .

(37)

18/68

Analyse du probl` eme : un lemme

Lemme Si

∀m∈ M, −B(m)≤ C(m)− R(m)≤A(m) alors,

∀mbC ∈argmin

m∈M

C(m) ,

R(mbC)−B(mbC)≤ inf

m∈M

R(m) +A(m) . (1) En fait,(1)a lieu d`es que

∀m,m⁰ ∈ M, C(m)− R(m)

− C(m⁰)− R(m⁰)

≤A(m) +B(m⁰) .

(38)

Optimalit´ e au premier ordre

Principe d’estimation sans biais du risque (Mallows, Akaike, 1973) : choisir C tel que

∀m∈ M, E C(m)

=E R(m)

.

Sous réserve d’inégalités de concentration (uniformes sur m∈ M), avec grande probabilité,

∀m∈ M, −δ_nR(m)≤ C(m)− R(m)≤δnR(m) avec δ_n∈]0,1[ .

⇒ d’apr`es le lemme,

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δ_n 1−δn

m∈Minf

R(m) .

Optimal au premier ordre siδ_n→0.

(39)

19/68

Optimalit´ e au premier ordre

∀m∈ M, E C(m)

=E R(m)

. Sous réserve d’inégalités de concentration (uniformes sur m∈ M), avec grande probabilité,

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δ_n 1−δn

m∈Minf

R(m) .

(40)

Optimalit´ e au premier ordre

∀m∈ M, E C(m)

=E R(m)

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δ_n 1−δn

m∈Minf

R(m) .

(41)

19/68

Optimalit´ e au premier ordre

∀m∈ M, E C(m)

=E R(m)

∀mbC ∈argmin

m∈M

C(m) , R(mbC)≤ 1 +δ_n 1−δn

m∈Minf

R(m) .

(42)

Une autre utilisation du lemme

ChoisirC qui est une borne supérieure surR, uniformément sur m∈ M, c’est-à-dire tel que

∀m∈ M, C(m)≥ R(m) .

∀mbC∈argmin

m∈M

C(m) , R(mbC)≤ inf

m∈M

C(m) .

Exemples :

grandes collections d’estimateurs (s´election de variables, d´etection de ruptures, etc.)

minimisation du risque structurel (Vapnik) relaxations en optimisation

(43)

20/68

Une autre utilisation du lemme

ChoisirC qui est uneborne supérieure surR, uniformément sur m∈ M, c’est-à-dire tel que

∀m∈ M, C(m)≥ R(m) .

∀mbC∈argmin

m∈M

C(m) .

Exemples :

(44)

Une autre utilisation du lemme

∀m∈ M, C(m)≥ R(m) .

∀mbC∈argmin

m∈M

C(m) .

Exemples :

(45)

20/68

Une autre utilisation du lemme

∀m∈ M, C(m)≥ R(m) .

∀mbC∈argmin

m∈M

C(m) .

Exemples :

minimisation du risque structurel (Vapnik)

relaxations en optimisation

(46)

Une autre utilisation du lemme

∀m∈ M, C(m)≥ R(m) .

∀mbC∈argmin

m∈M

C(m) .

Exemples :

(47)

21/68

Analyse au second ordre ?

Comment comparerC₁ et C₂ tels que

∀m∈ M, E C₁(m)

=E C₂(m)

?

Tenir compte de la variance var C_i(m)

? Variance de quelle quantit´e ?

Pour toute variable Z,mb_C∈argmin_m∈M

C(m) +Z mais var C(m) +Z

d´epend deZ...

⇒ variance des incr´ements

var C(m)− C(m⁰) .

(48)

Analyse au second ordre ?

∀m∈ M, E C₁(m)

=E C₂(m)

? Tenir compte de la variance var C_i(m)

?

Variance de quelle quantit´e ?

d´epend deZ...

(49)

21/68

Analyse au second ordre ?

∀m∈ M, E C₁(m)

=E C₂(m)

d´epend deZ...

(50)

Analyse au second ordre ?

∀m∈ M, E C₁(m)

=E C₂(m)

d´epend deZ...

(51)

22/68

Plan

1 S´election d’estimateurs

2 Validation crois´ee

3 P´enalit´es minimales

4 D´etection de ruptures

5 Conclusion

(52)

Principe de la validation simple

−3

−2

−1 0 1 2 3 4

(53)

23/68

Principe de la validation : ´ echantillon d’entraˆınement

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(54)

Principe de la validation : ´ echantillon d’entraˆınement

−3

−2

−1 0 1 2 3 4

(55)

23/68

Principe de la validation : ´ echantillon de validation

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−3

−2

−1 0 1 2 3 4

(56)

Principe de la validation : ´ echantillon de validation

−3

−2

−1 0 1 2 3 4

(57)

24/68

Validation crois´ ee

V -fold

ξ₁, . . . , ξ_q

| {z }

, ξ_q+1, . . . , ξ_n

| {z }

Entraˆınement Validation

Validation crois´eeV-fold :

B= (Bj)1≤j≤V partition de{1, . . . ,n}

⇒ Rb^vf(bs_m;D_n;B) = 1 V

V

X

j=1

P_n^jγ bs_m^(−j⁾

mb ∈arg min

m∈M

n

Rb^vf(bsm) o

A. & Celisse. A survey of cross-validation procedures for model selection.Statistics Surveys, 4:40–79, 2010.

(58)

Au premier ordre : biais de la validation crois´ ee

Hypoth`ese : Card(Bj) =n/V pour toutj. Calcul d’esp´erances :

E

Pγ bsm(Dn) ≈α(m) +β(m) n

⇒ E h

Rb^vf(bsm;Dn;B)i

=E h

Pn^(j)γ

bsm^(−j⁾

i

=E h

Pγ

bsm^(−j⁾

i

≈α(m) + V

V −1 β(m)

n

⇒ biais, d´ecroissant avec V, tend vers z´ero quand V →+∞

⇒ sous-optimalité de la validation croiséeV-foldà V fixé (prouvé pour les régressogrammes, valable plus largement)

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2

(59)

25/68

Au premier ordre : biais de la validation crois´ ee

E

⇒ E h

Rb^vf(bsm;Dn;B)i

=E h

Pn^(j)γ

bsm^(−j⁾

i

=E h

Pγ

bsm^(−j⁾

i

≈α(m) + V

V −1 β(m)

n

(60)

Au premier ordre : biais de la validation crois´ ee

E

⇒ E h

Rb^vf(bsm;Dn;B)i

=E h

Pn^(j)γ

bsm^(−j⁾

i

=E h

Pγ

bsm^(−j⁾

i

≈α(m) + V

V −1 β(m)

n

(61)

26/68

Correction du biais et p´ enalisation

V -fold

Validation crois´eeV-foldcorrig´ee(Burman, 1989) :

Rb^vf,corr(bs_m;D_n;B) :=Rb^vf(bs_m;D_n;B) +P_nγ(bs_m)− 1 V

V

X

j=1

P_nγ bs_m^(−j)

Heuristique de rééchantillonnage (Efron, 1983), sous-échantillonnage V-foldet pénalisation

⇒ p´enalit´e V-fold

pen_VF(bs_m;D_n;B) := V −1 V

V

X

j=1

P_n−Pn^(−j)

γ

bsm^(−j⁾

Rb^vf,corr bs_m;D_n;B

=P_nγ bs_m(D_n)

+ pen_VF(bs_m;D_n;B) Sans biaissi E

(P−P_n) bs_m(D_n)

=γ(m)/n

(62)

Correction du biais et p´ enalisation

V -fold

V

X

j=1

P_nγ bs_m^(−j)

V

X

j=1

P_n−Pn^(−j)

γ

bsm^(−j)

=P_nγ bs_m(D_n)

+ pen_VF(bs_m;D_n;B) Sans biaissi E

(P−P_n) bs_m(D_n)

=γ(m)/n

(63)

26/68

Correction du biais et p´ enalisation

V -fold

V

X

j=1

P_nγ bs_m^(−j)

V

X

j=1

P_n−Pn^(−j)

γ

bsm^(−j)

=P_nγ bs_m(D_n)

+ pen_VF(bs_m;D_n;B)

Sans biaissi E

(P−P_n) bs_m(D_n)

=γ(m)/n

(64)

Correction du biais et p´ enalisation

V -fold

V

X

j=1

P_nγ bs_m^(−j)

V

X

j=1

P_n−Pn^(−j)

γ

bsm^(−j)

=P_nγ bs_m(D_n)

+ pen_VF(bs_m;D_n;B)

(65)

27/68

In´ egalit´ es oracle optimales pour la p´ enalisation

V -fold

Th´eor`eme

Avec probabilit´e 1−n⁻²,∀δ >0,

∀mb ∈argmin

m∈M

Pnγ bsm(Dn)

+ pen_VF(bsm;Dn;B) ,

`(s^?,bs

mb)≤ 1 +δ

m∈Minf

`(s^?,bs_m) +L

log Card(M)

∨log(n)α

δ^βn

⇒Optimal au premier ordre si Card(M)≤an^b

Valable sous des hypothèses raisonnablement faibles pour : Les régressogrammesen régression hétéroscédastique

A.V-fold cross-validation improved :V-fold penalization, 2008. arXiv:0802.0566v2 A. Model selection by resampling penalization.Electronic Journal of Statistics, 3:557–624, 2009.

L’estimation de densit´e par moindres carr´es

A. & Lerasle. WhyV= 5 is enough inV-fold cross-validation, 2014. arXiv:1210.5830v2. A. & Celisse. A survey of cross-validation procedures for model selection.Statistics Surveys, 4:40–79, 2010.