Interprétation de résultats

8.1 Introduction et déﬁnitions

0 10 20 30 40 50 60 70 80 90 100 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 Série temporelle Motif

_G² c⁽^k⁾,G c⁽ⁱ⁾

8.2 Aperçu sur les algorithmes d’extraction de motifs disponibles

Quelle est la diff´erence entres les algorithmes d’extraction de motifs ?

Mesure de similarit´e ? Mod`ele de la classe ? Algorithme de classification ?

8.2 Aperçu sur les algorithmes d’extraction de motifs disponibles

1 2 3 4 5 6 7 8 9 10 Temps -25 -20 -15 -10 -5 0 5 10 15

20 La medoide comme modèle de la classe

1 2 3 4 5 6 7 8 9 10 Temps -25 -20 -15 -10 -5 0 5 10 15

20 La moyenne comme modèle de la classe

8.4 Conclusion

8.1 Introduction et déﬁnitions

Le problème de l’extraction de motifs a reçu une attention remarquable ces dernières

années et suscite actuellement une importante activité de recherche. L’extraction de motifs

peut être réalisée sur des séries temporelles ([205], [128]), des documents texte ([210],

[110]), des graphes [114] ou des séquences vidéo [144]. Ses domaines d’application sont

très variés, e.g., la médecine, la robotique, le traitement d’image, l’analyse de données

ou encore la détection d’anomalies ([56], [128], [132], [137], [140], [111] [139], [40], [145]).

Cette partie de la thèse s’inscrit dans le cadre du projet CASSIE dont l’objectif, qui a

été déﬁni conjointement avec les diﬀérents partenaires, est l’extraction de motifs à partir

d’une série de données temporelles. Ainsi, les méthodes d’extraction de motifs à partir de

document texte, image, vidéo ou autre ne sont pas détaillées ici.

Dans le cadre du projet CASSIE, une série temporelle représente un phénomène

ou une série d’évènements ; elle résulte d’un processus de collecte d’informations ou de

mesures. Cette collecte peut être réalisée d’une manière régulière selon une fréquence

d’échantillonnage donnée [54]. Nous nous focalisons sur les séries temporelles

monova-riables à valeur réelle pour une question de simplicité d’écriture et de présentation. Nous

ne considérons pas les cas des séries temporelles à valeur symbolique, des séries

tem-porelles multivariables, de plusieurs séries couvrant simultanément plusieurs dimensions

dans la même plage de temps. Dans la suite nous utilisons la déﬁnition suivante :

Déﬁnition 9. Une série temporelle X est une suite ordonnée de N variables réelles :

X={x

,···,x

} x

∈IR

Une série temporelle est donc déﬁnie comme un ensemble de mesures eﬀectuées à des

instants de temps contigus. Des données météorologiques, ﬁnancières, de consommation

domestique, de suivi de populations sont des exemples des séries temporelles considérées

ici. Dans le cadre de la recherche de motifs au sein d’une série temporelle nous ne nous

intéressons pas aux propriétés globales de la série mais plutôt aux relations entre les

sous-séquences de la série.

Déﬁnition 10. Soit X une série temporelle de taille N. Une sous-séquence S de X est

une suite de taille m≤N constituée d’éléments de X à des instants de temps contigus

S={x

,···,x

}

143

L’extraction de motifs à partir d’une série temporelle consiste à trouver toutes les

sous-séquences qui apparaissent de manières récurrente à des instants distincts sur la

série temporelle. Plus formellement, un motif peut être déﬁni comme suit :

Déﬁnition 11. Soit une série temporelle X. Toute sous-séquence de X qui se produit à

plusieurs reprises dans la série temporelle correspond à un motif.

La ﬁgure 8.1 illustre cette déﬁnition et donne un exemple de la présence d’un motif

dans une série temporelle.

Figure 8.1 – Illustration de la présence d’un motif dans une série temporelle

Un même motif peut apparaître à diﬀérents instants sur la série temporelle. L’ensemble

des sous-séquences correspondant à ce motif est appelée une classe de motif.

Déﬁnition 12. Soit S

,S

, ...S

, psous-séquences deX correspond à un même motif.

La classe de motif est désignée par

C={S

,···,S

}

Du fait de la présence de bruit lors de la collecte d’informations, ou tout simplement

parce que le phénomène observé présente certaines irrégularités, il est probable que des

sous-séquences correspondant à un même motif ne soient pas identiques. Aﬁn de prendre

en compte ces imperfections lors de l’extraction de motifs il est nécessaire d’utiliser les

notions de distance entre sous-séquences et de distance entre classes de motif.

– La distance entre deux sous-séquences S

etS

est notée d

. Le calcul de la

distance entre deux sous-séquences permet d’estimer le degré de similarité entre les

deux sous-séquences. Si la distance d

est faible alors les deux sous-séquences

S

etS

sont considérées comme similaires. Elles représentent alors le même motif

et peuvent être agrégées au sein de la même classe.

– La distance entre deux classesC

etC

est notéeD

. Le calcul de la distance

entre deux classes permet d’estimer le degré de similarité entre les deux classes. Si

la distance D

est faible alors les deux classes représentent le même motif et

peuvent être agrégées au sein de la même classe.

Diﬀérentes distances, entre sous-séquences et entre classes, sont proposées dans la