Zones périodiques - Résumés linguistiques de périodicité 63

Partie 2 Résumés linguistiques de périodicité 63

8.3 Zones périodiques

Une zone périodique est un ensemble ordonné de groupes contigus identifiés comme périodiques. De la même manière que les points successifs de même type H ou L sont regroupés dans la première étape de DPE pour créer les groupes H et L (cf. section 5.2 p. 98), les groupes à leur tour sont étiquetés P ou N et regroupés en zones périodique ou non périodique respectivement.

Les fronts de périodicité définis dans la section précédente sont adéquats pour étiqueter les groupes car les caractéristiques de chacun d’entre eux permettent de détecter le début des zones périodiques, avec πR, leur centre avec πC et leur fin avec πL. Nous détaillons dans la section 8.3.1 différentes méthodes d’agrégation de la valeur de ces fronts afin d’étiqueter les groupes puis dans la section 8.3.2 p. 166 une méthode de définition des zones périodiques sur cette base.

8.3.1 Étiquetage des groupes

Nous proposons de réaliser l’étiquetage des groupes périodiques par une simple tech-nique de seuillage permettant de séparer les groupes de périodicité élevée étiquetés P des autres étiquetés N.

Cette approche permet d’identifier simplement les changements de valeurs significatifs dans les fronts de périodicité. L’étude de ces changements est associée aux domaines du

change point detection présenté par Basseville & Nikiforov (1993) et du concept drift, déjà

8.3. Zones périodiques 165

la définition de modèles a priori pour les données, différentes en ce sens de l’approche retenue pour notre méthode qui n’en présuppose aucun.

D’autre part, l’utilisation du regroupement par score d’érosion afin de déterminer les valeurs élevées des fronts de périodicité n’est pas appropriée ici car il lisse les parties bruitées du signal, ce qui n’est pas souhaité pour les fronts de périodicité puisqu’ils le sont déjà par l’utilisation du test statistique. De plus, le score d’érosion est adapté à l’analyse de la périodicité du signal, qui n’est pas la propriété étudiée des fronts de périodicité.

Nous définissons la fonction d’étiquetage m : G → {P, N} qui assigne une étiquette P à un groupe j s’il appartient à une zone périodique et N sinon, le front de périodicité πM, max de l’ensemble des fronts, défini par πM

j = max(πL

j, π^C_j , π_j^R), et les seuils moyens non pondéré πd

j et pondéré ˆπd

j des fronts de périodicité de type d ∈ {L, C, R, M} respectivement définis par : π^d= max   1 g g X j=1 π^d_j, πmin   et ˆπd= max   1 n g X j=1 sj× π_j^d, πmin   (8.7)

où sj est la taille du j`eme groupe et πmin la valeur minimale acceptable pour les seuils. La version pondérée de ces derniers permet de donner plus d’importance à la périodicité locale des grands groupes par rapport à celle des petits. Sur le graphique du haut de la figure 8.3 p. 163 par exemple, de nombreux groupes de périodicité faible sont identifiés sur les bords de la série et un grand groupe de périodicité élevée est détecté en son milieu. Sans pondération, le seuil moyen de périodicité est faible car les petits groupes apériodiques sont supérieurs en nombre. En pondérant par la taille, le seuil moyen est rehaussé par la périodicité importante du grand groupe central.

Les trois fonctions d’étiquetage m1, m2 et m3 définies ci-dessous utilisent le seuil non pondéré, les versions utilisant le seuil pondéré étant notées m1w, m2w et m3w.

La fonction m1 considère qu’un groupe appartient à une zone périodique si le max des trois fronts de périodicité πL, πC et πR du groupe j est supérieur ou égal à celui de leur moyenne, i.e. : m1(j) =    P si πM j ≥ πM N sinon ^(8.8)

La méthode m2 utilise les particularités des fronts de périodicité, à savoir que πL

indique les fins de zone périodique et πRleur début. Ainsi, si l’un ou l’autre est supérieur à son seuil moyen et qu’en plus πCl’est également, indiquant que les groupes sont périodiques autour de j, alors le groupe peut-être considéré comme appartenant à une zone périodique. Nous définissons donc m2 par :

m2(j) =    P si πC j ≥ πC∧π_j^L≥ πL∨ πR j ≥ πR N sinon ^(8.9)

0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1

(a) Données (b) Vérité terrain

0 0.2 0.4 0.6 0.8 1 ² ^{6 8} ¹⁰ ¹² ¹⁴ ^{16 20 22} ²⁴ ²⁶ ²⁸ 1 5 7 9 11 13 15 19 21 23 25 27 29 ⁰ 0.2 0.4 0.6 0.8 1 1 5 7 9 11 13 15 19 21 23 25 27 29 2 6 8 10 12 14 16 20 22 24 26 28

Figure 8.4 – Analyse des zones périodiques (fond coloré) d’une série de données illus-trée sur le graphique (a). Le graphique (b) illustre la vérité terrain, le graphique (c) les groupes identifiés par la méthode de regroupement γes et le graphique (d) les zones périodiques détectées par LDPE

de ses fronts de périodicité est supérieur à son seuil moyen. La méthode est liée à m1 qui considère le max des fronts de périodicité mais est plus optimiste que cette dernière car il suffit qu’un seul front soit supérieur à son seuil moyen pour que le groupe soit considéré comme périodique. m3 est définie comme :

m3(j) =    P si (πL j ≥ πL) ∨ (πC j ≥ πC) ∨ (πR j ≥ πR) N sinon ^(8.10)

8.3.2 Définition des zones périodiques

A l’aide des étiquettes P ou N attribuées à chacun des groupes, les zones périodiques

Z = (Zk)k=1...z sont constituées comme les ensembles ordonnés de groupes successifs étiquetés P .

Afin de permettre que deux zones très proches soient considérées comme une seule, celles séparées par moins de minSep groupes sont fusionnées. De même, pour ne pas ren-voyer de zones trop petites, celles contenant moins de minSize groupes sont éliminées. Ce filtrage est réalisé à l’aide des opérateurs de fermeture et d’ouverture issus de la morpholo-gie mathématique (Serra, 1983) : le premier fusionne les zones proches avec une dilatation puis une érosion de taille minSep et le second élimine les petites zones avec une érosion puis une dilatation de taille minSize. Les méthodes utilisant ce filtrage post traitement sont préfixées par un f, par exemple fm1 ou fm3w.

Les zones périodiques sont représentées par les indices de début et de fin du premier et du dernier groupe qu’elles contiennent et enrichies de leur période et de leur périodicité calculées avec l’approche DPE classique décrite dans la section 5.3 p. 105. Pour la figure 8.4

8.4. Rendu linguistique 167

par exemple, deux zones sont déterminées :

Z1 = ([23, 73], 0.83, 11.90)

Z2 = ([93, 140], 0.78, 11.30)

signifiant que la première zone périodique Z1 s’étend du point 23 au début du groupe 7 jusqu’au point 73 à la fin du groupe 15, que son degré de périodicité est π = 0, 83 et que sa période candidate est pc= 11, 90. La deuxième zone périodique Z2 s’étend du point 93 au début du groupe 21 jusqu’au point 140 à la fin du groupe 29, son degré de périodicité est π = 0, 78 et sa période candidate est pc= 11, 30. La méthode LDPE renvoie bien en ce cas des résultats conformes à ceux attendus par l’utilisateur après inspection visuelle.

8.4 Rendu linguistique

Le rendu linguistique de LDPE permet de renvoyer une ou plusieurs phrases décrivant les zones périodiques identifiées lors des étapes détaillées dans les sections précédentes. En plus de permettre l’expression de la période, décrite pour DPE dans la section 5.4 p. 109, il intègre le contexte temporel, i.e. la localisation des zones périodiques, l’évaluation linguistique du degré de périodicité, et génère autant de phrases que de zones identifiées, contre une seule pour DPE.

Les sous-sections suivantes décrivent le protoforme utilisé dans LDPE ainsi que nos propositions concernant son rendu linguistique.

8.4.1 Protoforme utilisé

Nous proposons d’exprimer chaque zone périodique par le protoforme suivant :

Prec1CtxtTemp | {z } Contexte temporel la série est Pdté (π) | {z } Périodicité

de période Prec2punités

| {z }

Période

(8.11)

où Prec1 et Prec2 sont les adverbes de précision utilisés dans DPE et décrits par la va-riable linguistique illustrée sur la figure 5.9 p. 111, CtxtTemp est l’expression linguistique du contexte temporel comme « le premier trimestre » ou « durant l’été », Pdté est une expression linguistique de la périodicité, comme « très périodique », ou simplement « pé-riodique » et π est la valeur de périodicité, p et unités une expression appropriée de la période pcet de son unité respectivement. La partie Période entre crochets est facultative et intégrée dans la phrase résultat seulement si la périodicité π est suffisamment élevée.

Les phrases générées selon ce protoforme sont par exemple :

— « Les deux premiers mois, la série est très périodique (0,89) de période environ 1 se-maine »

— « Durant le premier trimestre, la série est périodique (0,78) de période exacte-ment 1 mois »

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 0

1 ^{Pas du tout} ^Peu ^Plutôt ∅ Très

Figure 8.5 – Variable linguistique pour le degré de périodicité π — « De septembre à novembre, la série est peu périodique »

Les deux exemples suivants caractérisent les deux zones identifiées à partir des données illustrées sur la figure 8.4 p. 166 dont la fréquence d’échantillonnage est le mois :

— « Environ le second quart de la série est périodique (0,83), de période environ 12 mois » — « Environ le dernier quart de la série est périodique (0,78), de période environ 11 mois » Nous décrivons dans les sous-sections suivantes les approches que nous avons développées pour rendre la périodicité et le contexte temporel de la zone périodique.

8.4.2 Rendu du degré de périodicité

Comme décrit dans la section 5.4 p. 109, la méthode DPE rend linguistiquement la période identifiée dans la série ainsi que la qualité de son approximation à l’unité la plus proche, mais pas son degré de périodicité π, simplement indiqué par sa valeur entre parenthèses à la fin de la phrase.

Afin de l’exprimer linguistiquement dans LDPE, nous proposons d’associer π à la variable linguistique illustrée sur la figure 8.5, utilisée de la même manière que la variable

Précision détaillée dans la section 5.4.4 p. 110, i.e. la modalité retenue est celle dont la

fonction d’appartenance est maximisée par π.

La modalité ∅ représente le quantificateur standard, i.e. la qualification d’une zone simplement « périodique », par opposition à d’autres zones « très périodiques » ou « plutôt périodiques » par exemple.

Les modalités « peu » et « pas du tout » ne sont pertinentes que dans le cas où la représentation linguistique souhaitée est exhaustive, i.e. incluant aussi les zones peu pério-diques, pour lesquelles la partie Période entre crochets dans l’éq. (8.11) n’est pas générée. Une fois la modalité sélectionnée, la partie Périodicité est instanciée en « modalité périodique (π) » comme par exemple « Plutôt périodique (0,51) ».

8.4.3 Rendu du contexte temporel

Le rendu du contexte temporel, spécifique à LDPE, permet de représenter linguisti-quement la localisation dans le temps d’une zone périodique donnée. C’est sur la base de l’intervalle de la zone indiquant son début et sa fin en termes de points dans le jeu de données que le rendu linguistique est réalisé, de manière absolue ou relative, comme indiqué dans les deux paragraphes suivants.

8.4. Rendu linguistique 169

Rendu absolu Le rendu absolu de la zone périodique fait référence aux unités du jeu de données et à un référentiel d’intervalles linguistiques fournis par l’utilisateur, afin de générer de phrases comme « les deux premiers trimestres » ou « la fin de l’année ».

Comme détaillé ci-dessous, les intervalles linguistiques fournis par l’utilisateur peuvent être ponctuels comme Les vacances de printemps ou La semaine de Roland-Garros ou bien rassemblés dans une liste, comme Trimestres ou Mois. Dans tous les cas, chaque intervalle est constitué d’une valeur de début et d’une valeur de fin dans l’unité de jeu de données, comme [1, 90] pour l’intervalle 1er trimestre lorsque le jeu de données est exprimé en jours.

Intervalles ponctuels Un intervalle ponctuel est un intervalle simple différents des listes

d’intervalles décrites dans le paragraphe suivant. Sur le calendrier français 2016 par exemple, l’intervalle les vacances de printemps est représenté par [99, 114] pour un jeu de données où l’unité est le jour, correspondant à l’intervalle du 9 avril (99`eme jour de l’année) au 24 avril (114eme` jour de l’année).

Listes d’intervalles D’autres intervalles sont définis sous formes de listes ordonnées,

comme les trimestres, les mois ou les jours, contenant les intervalles ponctuels qui les constituent. Par exemple, la liste d’intervalles Trimestres est définie par :

([1, 90], [91, 181], [182, 273], [274, 365]) (8.12) où chaque intervalle correspond à un trimestre de l’année, par exemple le 2nd intervalle fait référence au 2nd trimestre qui s’étend du 91`eme au 181eme` jour de l’année. Le rendu linguistique du i`eme intervalle est par exemple Trimestre i ou ieme` trimestre ou encore Dernier trimestre pour le dernier intervalle.

Les listes d’intervalles peuvent aussi être organisées de manière hiérarchique, comme dans les travaux de Castillo-Ortega et al. (2011a) présentés dans la section 1.3.2 p. 17.

Lien entre zones périodiques et intervalles linguistiques Chaque zone périodique z est

comparée aux intervalles linguistiques fournis par l’utilisateur. Les intervalles ponctuels sont analysés en premier lieu, car définis spécifiquement par l’utilisateur et habituellement moins standards que les listes d’intervalles.

La comparaison avec les intervalles ponctuels est basée sur le calcul de la distance Moore (Moore, 1963) entre intervalles : la distance d entre une zone dont l’intervalle est z = z⁻, z⁺ et un intervalle ponctuel A = a⁻, a⁺ est d(z, A) = max z⁻− a⁻ , z⁺− a⁺ /z⁺− z⁻ (8.13) c’est-à-dire le plus grand écart entre les bornes inférieures et les bornes supérieures rapporté à la taille de z. Si cette distance est plus petite que le seuil de sélection d’une période approchée utilisé dans la section 5.4.3 p. 110, l’intervalle ponctuel est ajouté à une liste d’intervalles candidats.

La comparaison est ensuite poursuivie avec les listes d’intervalles selon une approche plus complexe liée au fait que z peut couvrir plusieurs intervalles consécutifs de la liste. Avec la liste des trimestres définie par l’éq. (8.12) et z = [3, 184] par exemple, l’intervalle linguistique correspondant est Les deux premiers trimestres, soit l’union des deux premiers intervalles de la liste, qui est ajouté à la liste des intervalles candidats.

Afin de gérer ces cas de recouvrement sans pour autant avoir à les spécifier tous, nous proposons d’associer z à la représentation linguistique construite à partir du premier intervalle dont la distance relative de la borne inférieure à z− est inférieure à jusqu’au dernier intervalle dont la distance relative de la borne supérieure à z+ est inférieure à .

Par exemple, avec la zone z = [3, 184], = 5% et les intervalles de la liste Trimestres, l’intervalle dont la borne inférieure est à une distance relative inférieure à de z−est [1, 90] car |3 − 1|/(90 − 1) = 0, 022 < 5% et celui dont la borne supérieure est à une distance relative inférieures à est [182, 273] car |184 − 182|/(273 − 182) = 0, 022 < 5%.

Rendu linguistique des intervalles candidats Les intervalles candidats identifiés à l’étape

précédente peuvent ensuite être convertis en phrases. Concernant les intervalles ponctuels, leur nom est utilisé directement, comme par exemple « Durant les vacances de Pâques, la série est... ».

Pour les listes d’intervalles si le premier intervalle de la liste est contenu dans le résultat, une phrase du type « Durant les n premiers trimestres, la série est... », si le dernier élément est contenu dans le résultat, une phrase du type « Durant les n derniers trimestres, la série est... », sinon la phrase est « Durant les trimestres a et b, la série est... ».

Rendu relatif Le rendu linguistique relatif est indépendant de l’unité utilisée dans le jeu de données initial et se base sur des fractions de ce dernier, permettant la génération de phrases comme « Les deux premiers tiers » ou « La deuxième moitié ». Le rendu de ces dernières est similaire au rendu absolu, basé dans ce cas sur des listes pré-existantes comme Moitiés = ([0, 0.5], [0.5 1]), ou Tiers = ([0, 0.33], [0.33, 0.66], [0.67, 1]) .

Dans le document Résumés linguistiques de données numériques : interprétabilité et périodicité de séries (Page 177-183)