• Aucun résultat trouvé

Partie 2 Résumés linguistiques de périodicité 63

5.2 Regroupement

5.2.2 Le score d’érosion

Nous rappelons dans un premier temps les éléments de morphologie mathématique nécessaires à la formalisation du score d’érosion présenté à leur suite. Nous définissons ensuite γes, une méthode de regroupement basée sur ce score.

0 0,2 0,4 0,6 0,8 1

Figure 5.3 – En trait plein violet, les données en entrée, en pointillés de plus en plus clair, leurs érosions successives, et en pointillés rouges, le score d’érosion

Morphologie mathématique pour l’analyse de données La morphologie mathé-matique (MM) propose un ensemble d’opérateurs pour l’analyse de structures spatiales, comme la forme ou la taille des objets. Elle est couramment utilisée pour le traitement, l’analyse, la segmentation ou la compression d’images (Serra, 1986; Najman & Talbot, 2013).

La MM fonctionnelle, ou 1D, ne s’applique pas à des images mais à des fonctions. Elle est utilisée à des fins de débruitage dans différentes applications. Par exemple, ces opérateurs peuvent être utilisés pour simplifier des sous-ensembles flous appris sur des données afin de générer des arbres de décision (Marsala & Bouchon-Meunier, 2003), des clusters (Turpin-Dhilly & Botte-Lecoq, 1998) ou des règles graduelles (Oudni et al., 2013). Lefèvre & Claveau (2011) insistent sur le fait que la MM 1D peut être appliquée à des domaines autres que le traitement d’image et en proposent une extension dans le cadre de l’analyse textuelle. La MM 1D peut aussi être utilisée dans le cadre du traitement du signal (Bangham & Marshall, 1998), avec des applications liées par exemple à la recon-naissance de la parole (Wang et al., 2005) ou à l’analyse d’ECG (Sun et al., 2005).

L’érosion est l’une des deux opérations élémentaires de la MM. Formellement, soit une fonction f : E → F et un élément structurant B défini comme un sous-ensemble de E, l’érosion est la fonction B(f) : E → F définie comme (Serra, 1983) :

[B(f)](x) = inf

b∈Bf(x + b) (5.3)

La dilatation, définie identiquement avec un opérateur sup, est l’opération duale de l’éro-sion. L’érosion, comme la dilatation, peuvent être utilisées de manière répétée et/ou alter-née, permettant la création d’opérateurs composés plus complexes, comme l’ouverture, la fermeture ou les filtres alternés (Serra, 1986).

Principe La capacité des outils de morphologie mathématique à retirer le bruit du signal nous a amené à proposer le score d’érosion. Afin de permettre une identification robuste au bruit des groupes de valeurs hautes, nous proposons d’appliquer l’opérateur d’érosion de façon répétée afin d’extraire le « squelette » du groupe, ou dans la même ordre d’idée son centre de gravité. Cette approche est assimilable à celles du feu de forêt (Blum, 1967) ou d’extraction du squelette (Lantuejoul & Maisonneuve, 1984) en morphologie mathématique.

5.2. Regroupement 101

L’originalité de notre approche tient en son application sur des données 1D ainsi qu’en la reconstruction par addition des érosions successives. Elle est illustrée sur la figure 5.3 avec un jeu de données initial en trait plein violet, ses érosions successives en pointillés vio-let du plus foncé pour la première au plus clair pour la dernière, et enfin la reconstruction par addition en trait plein rouge.

Score d’érosion L’érosion que nous proposons d’utiliser pour le score d’érosion repose sur le plus petit élément structurant symétrique non trivial B = {−1, 0, 1}. L’érosion de la i`eme valeur de X s’écrit alors (cf. éq. (5.3)) :

i = min (xi−1, xi, xi+1) 1 = min (x1, x2) n= min (xn−1, xn) (5.4) et sa j`eme répétition : ji = i  j−1i = min j−1i−1, j−1i , j−1i+1 et 0 i = xi (5.5)

Comme au moins une valeur de X est supposée nulle (cf. éq. (5.1) p. 98), l’érosion répétée des valeurs de la série mène à son érosion totale où toutes ses valeurs sont nulles. Le score d’érosion est la somme normalisée de ces érosions successives jusqu’à érosion totale de X. Pour chaque xi de X, le score d’érosion non normalisé est défini comme :

esi =

zi X

j=0

ji (5.6)

où zi est le nombre d’érosions nécessaires pour atteindre l’érosion totale de xi :

zi= arg min

j∈N

n

ji = 0o

(5.7)

Le score d’érosion normalisé est ensuite défini comme :

esi = maxesi

i=1,...nesi (5.8)

La figure 5.4 illustre le score d’érosion et sa capacité à posséder des valeurs élevées au milieu des groupes de valeurs hautes ainsi qu’à lisser les données bruitées. Cet effet est un des bénéfices classiquement attendus des outils de morphologie mathématique. Nous proposons ci-dessous d’employer ces deux propriétés pour effectuer le regroupement des données.

Mattioli & Schmitt (1992) utilisent également des érosions successives dans le cadre de la granulométrie par érosion. Appliquée aux séries temporelles, celle-ci s’écrit :

ψj =

n X

i=1 ji

granulo-0 0,2 0,4 0,6 0,8 1

Figure 5.4 – Les données en trait plein et le score d’érosion en pointillés

0 0,2 0,4 0,6 0,8 1 2 4 6 8 10 1 3 5 7 9

Figure 5.5 – En trait plein, les données X en entrée, en pointillés courts rouges, le score d’érosion es de X, en pointillés longs verts, le score d’érosion es de X, au-dessus et en-dessous, les indices des groupes hauts et bas respectivement.

métrie par érosion agrège, pour un niveau d’érosion fixé, les valeurs obtenues pour chaque donnée, tandis que le score d’érosion agrège, pour une donnée fixée, les valeurs obtenues à chaque niveau d’érosion.

Clustering par score d’érosion Le score d’érosion en lui-même ne suffit pas à définir γ puisqu’il permet d’évaluer dans quelle mesure un point appartient à un groupe haut mais pas à un groupe bas. Pour ce faire, le score d’érosion es est calculé pour X, le complémen-taire de X, l’idée étant que les groupes hauts de X correspondent aux groupes bas de X. Comme les xi sont supposés dans [0,1], les xi de X définis comme 1 − xi appartiennent également à [0,1]. À l’instar d’esi basé sur zi, esi utilise zi dont l’existence est garantie par la contrainte ∃j tel que xj = 1 (cf. éq. (5.1) p. 98).

La fonction de regroupement basée sur le score d’érosion est notée γes(es pour erosion

score) et définie comme :

γes(xi) = H si es i > esi L sinon (5.9)

La figure 5.5 illustre le résultat de cette méthode : les groupes sont correctement identifiés sans qu’aucun paramètre ne soit spécifié.

Par la suite, nous utilisons les notations suivantes : τ désigne le type d’un groupe dans {H, L} et Gτ

k∈ G le k`eme groupe de type τ. gτ représente le nombre de groupes de type τ et nτ le nombre total de points contenus dans ces groupes. Comme tous les points appartiennent soit à un groupe haut soit à un groupe bas, n = nH + nL. Comme tous les

5.2. Regroupement 103

groupes sont soit hauts soit bas, g = gH + gL.