• Aucun résultat trouvé

Partie 2 Résumés linguistiques de périodicité 63

5.3 Période et périodicité

0 1 0 1 C 0 1 0 1 e X 0 tv 1 0 1 e C 0 1 − tv tv 1 0 1 e X+ 0 tv 1 0 1 e V

Figure 5.7 – Cardinalités pondérées pour la taille des groupes. En abscisse, la valeur d’un point, en ordonnée, le poids associé. En trait plein, la contribution d’un point H, en pointillés celle d’un point L.

5.3 Période et périodicité

La deuxième étape de la méthode DPE concerne le calcul de la période et de la pé-riodicité à partir des groupes déterminés à l’étape précédente. Ce calcul est réalisée en trois étapes présentées dans les sous-sections suivantes : dans un premier temps, la taille des groupes est évaluée, puis leur régularité est calculée, enfin le degré de périodicité et la période candidate sont déterminés.

5.3.1 Taille des groupes

La taille des groupes H et L est simplement la cardinalité du groupe considéré. sτ j la taille du jeme` groupe de type τ est donc calculée comme sτ

j = Gτj

.

Variantes La taille du groupe est ici calculée comme une cardinalité classique puisque chaque point compte pour 1 dans son calcul. Nous avons proposé d’examiner d’autres schémas de pondération qui n’attribuent pas le même poids aux points du groupe et qui calculent la taille du groupe comme leur somme pondérée.

Les différents schémas de pondération utilisés pour chaque point sont représentés sur la figure 5.7. Les poids des points des groupes H sont en traits pleins et ceux des groupes L en pointillés.

Les schémas C et Xe n’utilisent pas de paramètre. C est la cardinalité classique, i.e. tous les points du groupe comptent pour 1 dans sa taille. Xe est la fonction identité et considère qu’un point compte d’autant plus que sa valeur est élevée (resp. basse) pour un groupe H (resp. L).

Les schémas Ce, Xe+ et Ve sont définis avec le seuil tv et donc applicables pour la méthode γBL. Les tests réalisés avec ces trois schémas ont pour but de déterminer si l’utilisation d’un décompte pondéré pour la taille des groupes permet ou non de compenser la rigidité du seuil utilisé par la méthode.

e

hauts et bas : ceux qui sont supérieurs (resp. inférieurs) à tv (resp. 1 − tv) contribuent tous pour 1 à la taille des groupes H (resp. L). Ve est plus stricte car les points inférieurs (resp. supérieurs) à tv ne comptent pas pour les groupes H (resp. L). De plus, elle n’est pas symétrique, ce qui peut biaiser la comparaison des tailles de groupes H et L telle que décrite dans la section 5.3.2.

Enfin, Ce peut sembler similaire à C puisque, pour la méthode γBL, les groupes H (resp. L) sont composés de points dont les valeurs sont supérieures (resp. inférieures) à tv. En fait, la différence entre ces modalités vient de la technique de fusion appliquée avec γBL

et détaillée dans la section 5.2.3 p. 103. En effet, lorsqu’un groupe contenant peu de points est fusionné avec les deux groupes adjacents de type opposé, les valeurs qu’il contient sont inchangées. Avec le schéma de pondération C tous les points des trois groupes contribuent à 1, mais avec Ce seuls ceux de même type sont pris en compte puisque ceux de type opposé, donc « de l’autre côté » de x = tv, ont un poids nul.

Les tests menés sur l’ensemble des méthodes et des schémas sont détaillés dans la sec-tion 7.2 p. 139. Ils montrent que la cardinalité crisp C est la mieux adaptée pour la méthode DPE. Pour les modalités liées à γBL, la sensibilité au bruit liée à l’application dans un premier temps du seuil crisp n’est pas contrebalancée par le calcul pondéré de la taille qui lui est postérieur. La cardinalité classique est donc utilisée dans la suite de la thèse.

5.3.2 Régularité des groupes

L’étude de la régularité de l’occurrence d’un événement est couramment utilisée pour calculer la période d’une série temporelle : parmi les approches détaillées au chapitre 4, Durnerin (1999, p.116) calcule la régularité de l’espacement des pics de la séquence d’au-tocorrélation et Otunba et al. (2014) celle de motifs similaires dans une série symbolique. Pour DPE, la régularité étudiée n’est pas celle de l’occurrence d’un événement mais celle de la taille des groupes hauts et bas. Nous proposons d’étudier cette régularité ρ au travers de la variabilité des tailles des groupes H et L. Cette variabilité est calculée par le coefficient de variation CV qui rapporte une mesure de dispersion d à la taille moyenne µ des groupes. En notant τ le type de groupe dans {H, L}, nous définissons :

µτ = 1 gτ X j=1 sτj dτ = 1 gτ X j=1 sτj − µτ CVτ = dτ µτ ρτ = 1 − min (CVτ,1) (5.13)

Un certain nombre de choix ont été réalisés pour le calcul de ces variables : une moyenne pour la mesure de tendance centrale, une déviation absolue moyenne (DAM) pour la mesure de dispersion, un coefficient de variation CV pour celle de variabilité et son complément à 1 avec seuillage pour celle de régularité.

para-5.3. Période et périodicité 107 0 0,2 0,4 0,6 0,8 1 1 3 5 7 9 11 13 15 17 2 4 6 8 10 12 14 16 18

Figure 5.8 – Erreurs de classification ayant un impact sur la régularité

Tableau 5.1 – Combinaisons de moyenne et de médiane pour l’évaluation de la variabilité

Dispersion \ Taille Moyenne Médiane

Moyenne Combinaison µµ µ = 1/nP si = 1/nP|µ − si| Combinaison mµ m = med (si) = 1/nP|m − si| Médiane Combinaison µm µ = 1/nP si dm = med (|µ − si|) Combinaison mm m = med (si) dm = med (|m − si|) graphes suivants.

Tendance centrale Concernant la mesure de tendance centrale de la taille des groupes, la médiane, plus robuste que la moyenne, permet de ne pas prendre en compte les tailles extrêmes pouvant apparaître suite à une erreur de regroupement durant la première étape. Sur la figure 5.8 par exemple, les groupes 13 et 17 sont mal identifiés : le premier est trop grand et englobe deux groupes tandis que le second est trop petit et ne prend pas en compte le groupe dans toute sa largeur.

Pour autant, la médiane peut être trop robuste dans certains cas, comme détaillé dans la discussion plus approfondie donnée dans l’étude expérimentale de la section 7.2 p. 139. Ainsi, la moyenne est utilisée dans le reste de nos travaux, mais une poursuite des investigations à ce sujet constitue une perspective de nos travaux.

Dispersion Nous avons comparé expérimentalement (voir section 7.2.5 p. 149) l’écart-type à la DAM pour la mesure de dispersion des tailles de groupes. Les résultats montrent que l’écart-type est trop sensible au bruit et que l’utilisation de la DAM pour le calcul est préférable dans le contexte de DPE. Gorard (2005) présente également une étude détaillée illustrant les avantages de la DAM sur l’écart-type pour mesurer la dispersion.

De plus, la DAM mesure la moyenne des écarts en valeur absolue à la moyenne, mais d’autres variantes sont envisageables avec la médiane pour la mesure de tendance centrale et/ou de dispersion de la taille des groupes. Les différentes combinaisons testées sont résumées dans le tableau 5.1.

sec-tion 7.2.6 p. 150, montrent que l’utilité de la médiane par rapport à la moyenne n’est pas systématiquement vérifiée. La moyenne et la DAM sont donc retenues par la suite.

Variabilité L’utilisation du coefficient de variation qui rapporte une mesure de disper-sion à une mesure de tendance centrale permet de définir une mesure générique de la variabilité adaptée à la taille des groupes : CV est élevé avec une dispersion de 1 pour des groupes de taille moyenne 5 mais faible pour une même dispersion et une taille moyenne de groupe égale à 100. Nous n’avons pas testé d’autres variantes pour ce coefficient qui donne de bons résultats en l’état.

Régularité A l’aide de CV , nous définissons ρτpour mesurer la régularité de la taille des groupes. Nous contraignons ρτ dans [0,1] par seuillage à l’aide d’un min dans l’éq. (5.13) p. 106.

Nous avons étudié d’un point de vue théorique la borne supérieure de CV afin de normaliser ρ via une multiplication par un coefficient, i.e. ρτ = CVτ. Les résultats, détaillés en annexe D p. 221, indiquent qu’avec des valeurs de xi dans [0, 1], max (CVτ) = 2, et donc que η = 2 permet de normaliser ρτ. Or les cas où le coefficient de variation est supérieur à 1 correspondent à des tailles de groupes dont la dispersion est supérieure à la moyenne, i.e. des groupes de tailles très inégales qui ne peuvent représenter une série périodique. De plus, le facteur η = 2 « écrase » les valeurs de CV plus faibles qui sont a priori liées à des données périodiques, rendant leur analyse moins précise. La normalisation du coefficient de variation est donc réalisée par le minimum qui « coupe » les valeurs trop importantes sans écraser les valeurs plus faibles, également les plus intéressantes.

5.3.3 Degré de périodicité et période candidate

Une fois calculées la taille moyenne et la régularité des groupes, le degré de périodicité π et la période candidate pcsont évalués par :

π= ρH+ ρ2 L pc= µH + µL (5.14)

Le degré de périodicité π est simplement la moyenne des régularités des groupes, ce qui correspond à l’hypothèse initiale liant la périodicité à l’alternance de groupes hauts et bas de tailles régulières.

La période candidate pc est la somme des tailles moyennes des groupes H et des groupes L : si le signal est périodique et découpé en zones de valeurs hautes et en zones de valeurs basses, alors une zone haute et une zone basse définissent une période. C’est sous l’hypothèse de l’alternance de groupes H et L de tailles régulières, et donc lorsque π est suffisamment élevé, que la période candidate a un sens.

Concernant le calcul de la périodicité π, nous avons également testé l’opérateur min pour agréger les régularités ρH et ρL, au lieu de la moyenne utilisée dans l’éq. (5.14). Comme le min représente la conjonction logique, il aurait pu être plus pertinent car