HAL Id: hal-01240298
https://hal.inria.fr/hal-01240298
Submitted on 9 Dec 2015
HAL
is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or
L’archive ouverte pluridisciplinaire
HAL, estdestinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires
Heuristique de pente pour les modèles de détection de ruptures multiples
Yann Guédon
To cite this version:
Yann Guédon. Heuristique de pente pour les modèles de détection de ruptures multiples. 47èmes
Journées de Statistique, Société Française de Statistique, Jun 2015, Lille, France. �hal-01240298�
Heuristique de pente pour les mod` eles de d´ etection de ruptures multiples
Yann Gu´ edon
11
CIRAD, UMR AGAP et Inria, Virtual Plants, Montpellier, guedon@cirad.fr
R´ esum´ e. En ce qui concerne la d´ etection de ruptures multiples, la s´ election du nombre de ruptures a fait l’objet ces derni` eres ann´ ees de nombreux travaux. Mais les approches propos´ ees sont soit d´ edi´ ees ` a un mod` ele particulier (par exemple mod` ele gaussien de changement sur la moyenne) soit donnent des r´ esultats peu satisfaisants sur des s´ equences de taille petite ou moyenne. Nous proposons ici d’appliquer l’heuristique de pente, un crit` ere non-asymptotique de vraisemblance p´ enalis´ ee r´ ecemment propos´ e, pour s´ electionner le nombre de ruptures. Nous appliquons en particulier la m´ ethode d’estimation de la pente dirig´ ee par les donn´ ees, le point cl´ e ´ etant de d´ efinir la forme de la p´ enalit´ e. L’approche propos´ ee est illustr´ ee sur deux jeux de donn´ ees de r´ ef´ erence pour les mod` eles de d´ etection de ruptures multiples.
Mots-cl´ es. D´ etection de ruptures multiples, estimation de la pente dirig´ ee par les donn´ ees, mod` ele ` a structure latente, s´ election de mod` eles.
Abstract. With regard to the retrospective multiple change-point detection problem, much effort has been devoted in recent years to the selection of the number of change points. But, the proposed approaches are either dedicated to specific models (e.g. Gaus- sian change in the mean model) or give unsatisfactory results for short or medium length sequences. We propose to apply the slope heuristic, a recently proposed non-asymptotic penalized likelihood criterion, for selecting the number of change points. We in particular apply the data-driven slope estimation method, the key point being to define a relevant penalty shape. The proposed approach is illustrated using two benchmark data sets.
Keywords. Data-driven slope estimation, latent structure model, model selection, multiple change-point detection.
1 Introduction
L’heuristique de pente a ´ et´ e introduite par Birg´ e et Massart (2001) comme un nouveau crit` ere non-asymptotique de vraisemblance p´ enalis´ ee pour la s´ election de mod` eles. Ils ont montr´ e qu’il existe une p´ enalit´ e minimale telle que la dimension des mod` eles (et le risque de l’estimateur associ´ e) s´ electionn´ es avec une p´ enalit´ e plus petite devient tr` es grande.
De plus, ils ont montr´ e qu’en prenant une p´ enalit´ e ´ egale ` a 2 fois la p´ enalit´ e minimale
permettait de s´ electionner un mod` ele proche du meilleur mod` ele possible (ou mod` ele
oracle) en termes de risque d’estimateur. Cette approche a r´ ecemment ´ et´ e popularis´ ee par l’introduction par Baudry et al. (2012) de la m´ ethode d’estimation de la pente dirig´ ee par les donn´ ees qui est une m´ ethode pratique pour impl´ ementer les heuristiques de pente.
Dans le cadre de l’estimation par maximum de vraisemblance, cette m´ ethode est bas´ ee sur la relation lin´ eaire attendue entre la forme de la p´ enalit´ e (une fonction de la dimension du mod` ele) et la log-vraisemblance maximis´ ee pour des mod` eles sur-param´ etr´ es. Nous nous int´ eressons ici ` a l’application des heuristiques de pente pour s´ electionner le nombre de ruptures dans des mod` eles de d´ etection de ruptures multiples.
2 D´ efinition de la fonction de log-vraisemblance et de la forme de la p´ enalit´ e pour des mod` eles de d´ etection de ruptures multiples
Pour les mod` eles de d´ etection de ruptures multiples, les deux fonctions de log-vraisemblance possibles sont :
• log f (s
∗, x; J ), log-vraisemblance de la segmentation la plus probable s
∗en J seg- ments (le nombre de ruptures est donc ´ egal ` a J − 1) de la s´ equence observ´ ee x. Lebar- bier (2005) a utilis´ e cette fonction de log-vraisemblance pour d´ efinir une heuristique de pente pour des mod` eles gaussiens de changement sur la moyenne.
• log f (x; J ), log-vraisemblance de toutes les segmentations possibles en J segments de la s´ equence observ´ ee x avec f (x; J) = ∑
s
f (s, x; J).
Ces log-vraisemblances peuvent ˆ etre calcul´ ees exactement pour K = 2, . . . , J par un al- gorithme de programmation dynamique dans le cas de log f(s
∗, x; J) et par un algorithme de lissage dans le cas de log f(x; J) (Gu´ edon, 2013). L’estimation de la pente repose sur des log-vraisemblances maximis´ ees pour des mod` eles sur-param´ etr´ es et, comme l’a montr´ e Gu´ edon (2013, 2015), la segmentation la plus probable a souvent peu de sens pour des mod` eles sur-param´ etr´ es o` u des segmentations tr` es diff´ erentes ont des probabilit´ es a pos- teriori voisines. Par ailleurs, la log-vraisemblance de la segmentation la plus probable fluctue fortement fonction de J alors que la log-vraisemblance de toutes les segmentations possibles est au contraire tr` es lisse. Nous allons nous focaliser sur la log-vraisemblance de toutes les segmentations possibles log f (x; J) pour d´ efinir une heuristique de pente de mani` ere coh´ erente avec notre vue des mod` eles de d´ etection de ruptures multiples comme des mod` eles ` a structure latente (Gu´ edon, 2013; 2015). Ceci diff` ere du point du vue non- bay´ esien classique sur ces mod` eles o` u les ruptures sont vues comme des param` etres fixes
`
a estimer (Lebarbier, 2005). Une fois les ruptures estim´ ees, il n’y a bien entendu plus de
structure latente. Ce point de vue est par contre homog` ene avec le point de vue bay´ esien
o` u ces mod` eles sont toujours vus comme des mod` eles ` a structure latente. Un mod` ele de
d´ etection de ruptures multiples sera donc vu comme un mod` ele empirique hi´ erarchique dans le cas non-bay´ esien et comme un mod` ele bay´ esien hi´ erarchique dans le cas bay´ esien.
Nous avons ´ etudi´ e sur de nombreux jeux de donn´ ees le comportement de la log- vraisemblance de toutes les segmentations possibles log f(x; J) sur la plage de valeurs de J correspondant ` a des mod` eles sur-param´ etr´ es et nous avons remarqu´ e qu’elle ´ etait concave de mani` ere marqu´ ee si J < T (par exemple si 10 < T /J < 100), o` u T est la longueur de la s´ equence, mais beaucoup moins si J ≪ T .
Pour appliquer les heuristiques de pente, il est nec´ essaire que (Baudry et al., 2012) : (C1) La log-vraisemblance soit croissante fonction de J.
(C2) La forme de la p´ enalit´ e pen
shape(J) soit croissante fonction de J.
A ces deux conditions standards, nous ajoutons les deux conditions suivantes sp´ ` ecifiques aux mod` eles de d´ etection de ruptures multiples :
(C3) La forme de la p´ enalit´ e pen
shape(J) d´ epend de la longueur T de la s´ equence. Ajouter un segment pour disons J = T /10 induit une augmentation plus faible de la forme de la p´ enalite qu’ajouter un segment pour J ≪ T .
(C4) La diff´ erenciation au premier ordre de la forme de la p´ enalit´ e pen
shape(J ) − pen
shape(J − 1) est d´ ecroissante fonction de J . Cette d´ ecroissance n’est pas une fonction lin´ eaire de J.
Pour definir la forme de la p´ enalit´ e, notre point de d´ epart a ´ et´ e pen
shape(J) = log n
Jo` u n
J= (
T−1J−1
) est le nombre de segmentations possibles en J segments. Consid´ erons le cas limite o` u toutes les segmentations sont ´ equiprobables pour J fix´ e, alors log f (x; J ) = log γ
J+log n
J. En fait pour des mod` eles sur-param´ etr´ es comme l’a montr´ e Gu´ edon (2013, 2015) sur diff´ erents exemples, log f (x; J ) se d´ ecompose en une part structurelle correspon- dant aux vrais ruptures et un bruit qui croit avec J. La fonction log f (x; J) = α +β log n
Jtraduit ce comportement o` u β quantifie la balance entre le poids des vrais ruptures et le bruit dans log f (x; J ).
Pour respecter le caract` ere monotone de pen
shape(J ) fonction de J, nous proposons finalement
pen
shape(J) = log
{ T
J−1(J − 1)!
} ,
avec
pen
shape(J) − pen
shape(J − 1) = log ( T
J − 1 )
,
dont le comportement est proche de
log n
J− log n
J−1= log
{ T − (J − 1) J − 1
}
,
pour J ≪ T .
3 Illustration sur deux jeux de donn´ ees de r´ ef´ erence
L’heuristique de pente propos´ ee est illustr´ ee sur deux jeux de donn´ ees de r´ ef´ erence cor- respondant ` a diff´ erents mod` eles de segment (Poisson et gaussien) et des longueurs de s´ equences contrast´ ees. L’heuristique de pente est compar´ ee avec le crit` ere ICL “ex- act”propos´ e par Rigaill et al. (2012).
3.1 Catastrophes dans les mines de charbon en Grande-Bretagne
Les donn´ ees sont les dates de 191 catastrophes mini` eres entre 1851 et 1962 r´ esum´ ees par des comptages annuels durant la p´ eriode d’´ etude de 112 ans. Nous supposons que le nombre de catastrophes par ann´ ee suit une loi de Poisson et que le param` etre de cette loi est constant par morceaux au cours du temps.
La diff´ erenciation au 1er ordre de la log-vraisemblance de toutes les segmentations possibles log f (x; J ) − log f (x; J − 1) est strictement d´ ecroissante fonction du nombre de segments J (Figure 1a). Cette log-vraisemblance sur la plage de valeurs de J correspon- dant ` a des mod` eles sur-param´ etr´ es est donc concave de mani` ere marqu´ ee et le nombre de segments J n’est certainement pas une forme de p´ enalit´ e adapt´ ee. Cette figure illustre aussi le fait que la log-vraisemblance de la segmentation la plus probable log f (s
∗, x; J) fluctue fortement fonction de J alors que la log-vraisemblance de toutes les segmentations possibles log f (x; J ) est au contraire tr` es lisse. La diff´ erence de log-vraisemblances sur la diff´ erence de formes de p´ enalit´ e
log f (x; J ) − log f (x; J − 1) pen
shape(J ) − pen
shape(J − 1)
est au contraire quasi-constante ` a partir de 8 segments (Figure 1b). Ceci d´ emontre de mani` ere empirique que la log-vraisemblence de toutes les segmentations possibles est bien dans ce cas l` a une fonction lin´ eaire de la forme de la p´ enalit´ e pour des mod` eles sur- param´ etr´ es.
Les pentes ont ´ et´ e estim´ ees sur la plage J = 6, ..., 20 et nous avons obtenu un ´ ecart- type r´ esiduel de 1.05 avec la forme de p´ enalit´ e na¨ıve J au lieu de 0.04 avec la forme de p´ enalit´ e propos´ ee. Le crit` ere ICL exact ainsi que l’heuristique de pente avec la forme de p´ enalit´ e propos´ ee s´ electionne 2 segments alors que l’heuristique de pente avec la forme de p´ enalit´ e na¨ıve s´ electionne 3 segments et met du poids sur 4 segments (Table 1) ce qui est incoh´ erent avec les diff´ erentes approches de validation illustr´ ees dans Gu´ edon (2013, 2015).
3.2 Donn´ ees de forage
Les donn´ ees consistent en 4050 mesures de la r´ eponse magn´ etique nucl´ eaire de roches
for´ ees. Le signal est grossi` erement constant par morceaux o` u chaque segment correspond
0 1 2 3 4 5 6
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Log-vraisemblance différenciée
Nombre de segments
(a) Forme de pénalité naïve J
toutes les segmentations segmentation optimale
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Log-vraisemblance différenciée
Nombre de segments
(b) Forme de pénalité proposée
toutes les segmentations segmentation optimale