Espace de similarité - Détection précoce - Outils d'apprentissage automatique pour la reconnais

4.2 Détection précoce

4.2.1 Espace de similarité

Commençons par appeler Z l’espace des séries temporelles observées (supposées conti- nues) et T un majorant du temps. X[0,T ]_{désigne donc l’ensemble des applications de [0, T ]} dans l’espace de caractéristiques discriminantes X . De plus, pour alléger les notations, une fonction dépendante du temps (par exemple f) sera notée f∼et son évaluation au temps t sera notée ft.

Notre approche est construite sur la prise en compte des non-stationnarités au sein des sé- quences, tout comme dans nos précédents travaux portant sur la classification. En ce sens, nous caractérisons une séquence par une représentation temporelle. Puisque le cadre de cette étude n’est pas restreint au traitement de signaux unidimensionnels, nous ne parle- rons pas de représentations Temps-Fréquence (TF) mais de représentations TC. Toute sé- quence s de Z peut alors être associée à une fonction de X[0,T ]_{, que nous noterons x}

∼, et que nous appellerons représentation TC. À un certain temps t de [0, T ], xtest donc le vecteur caractéristique de la séquence s à l’instant t.

Pour les signaux unidimensionnels, toutes les représentations TF (comme la transformée de Fourier à court terme) et temps-échelles (comme la décomposition en ondelettes) sont des représentations TC puisqu’elles associent à chaque instant t un vecteur caractéristique. De même, les coefficients cepstraux mel-fréquences (Mel-Frequency Cepstral Coefficients, MFCC) calculés sur une fenêtre balayant continûment le signal est aussi une application TC (mais pas TF). Dans le traitement de vidéo, une fonction qui à chaque image associe un vecteur caractéristique est aussi une application TC.

L’approche présentée ici est fondée sur une vision de la discrimination de signaux diffé- rente de celle couramment utilisée (comme par exemple dans le chapitre précédent). Dans cette dernière, on mesure des similarités (et des différences) entre les séries temporelles via des distances euclidiennes entre des caractéristiques stationnaires (e.g. les MFCC calculés sur l’ensemble de la séquence) ou transitoires (e.g. une décomposition en ondelettes). Ces approches correspondent aux images (a) et (b) de la figure 4.2 page suivante. Sur l’image (a), chaque séquence est représentée par un point puisque les caractéristiques sont station-

(a) Caractéristique vs caractéristique. (b) TC vs TC.

FIGURE 4.2 – Illustration des différentes façons de séparer des séries temporelles. Deux

classes sont représentées (en bleu et orange pâle) ainsi qu’un représentant par classe. Un trajet représente l’évolution temporelle d’une séquence dans le plan des caractéristiques. L’élément discriminant auquel les exemples sont comparés pour construire l’espace de si- milarité est en rouge.

naires. En revanche, sur l’image (b), chaque séquence est représentée par un trajet (temporel) dans le plan des caractéristiques. Comparer deux trajets revient à sommer les distances au carré de chaque instant, ou de manière équivalente, à concaténer les caractéristiques temporelles et à appliquer une distance euclidienne. Au contraire, notre approche se place dans le cadre de l’image (c) de la figure 4.2. Une série temporelle n’est pas comparée à une autre série, mais à un instantané, supposé discriminant pour une classe donnée. Cette fa- çon de traiter les séquences répond au problème de divergence observé dans l’image (b) de la figure 4.2 : en comparant deux séquences temporelles entre elles, on suppose impli- citement qu’elles sont ressemblantes à chaque instant (c’est la condition pour obtenir une grande similarité), alors qu’en réalité, seulement des parties d’entre elles sont proches (des parties supposées communes à toutes les séquences d’une même classe). L’instantané que nous avons mentionné apparaît donc comme un prototype discriminant supposé partagé entre les exemples d’une même classe et susceptible d’apparaître n’importe quand au cours de la séquence analysée.

Pour mettre en œuvre cette approche, nous redéfinissons à présent la notion de représen- tation par similarités, qui consiste à associer à chaque séquence un vecteur de similarités avec des prototypes donnés (des instantanés). Les espaces de similarité ont été introduits

4.2. DÉTECTION PRÉCOCE 99 dans [Balcan et Blum, 2006, Pekalska et Duin, 2008] pour des objets de même type. Dans notre contexte, nous comparons des objets de types différents : une série temporelle (fonction du temps) et un instantané (localisé temporellement). Par conséquent, la mesure de similarité (ou de proximité) que nous introduisons est une fonction dépendante du temps et non-symétrique.

Définition 4.2.1(Mesure de similarité).

Une mesure de similarité est une fonction k∼:X[0,T ]×X → R[0,T ],qui quantifie la similarité de ses arguments.

Avec cette définition, pour une représentation TC x∼d’une séquence s et un prototype p de X , kt(x∼, p) est un scalaire qui reflète la proximité de la séquence s au prototype p à l’instant t (de [0, T ]).

Exemple 4.2.1.

Les deux fonctions définies ci-dessous sont des mesures de similarité : (x∼, p)∈ X[0,T ]× X 7→ t7→ − kxt− pk2`2 , (x∼, p)∈ X[0,T ]× X 7→ t_{7→ hx}t| pi`2 .

Ayant une mesure de similarité à notre disposition, il est maintenant possible de définir une représentation par similarités, qui agrège sous la forme d’un vecteur les proximités d’une séquence à plusieurs prototypes.

Définition 4.2.2(Représentation par similarités).

Soient k∼une mesure de similarité et L un r-uplet de prototypes de X : L = (p1, . . . , pr). La représentation par similarités fondée sur k∼et L est notée ψ∼L. Elle est définie par :

∀t ∈ [0, T ], ψLt : x∼∈ X[0,T ]7→    kt(x∼, p1) ... kt(x∼, pr)    ∈ R r_.

Ainsi, pour une représentation TC x∼, ψ_tL(x∼) est le vecteur de similarité entre x∼ et les prototypes p1, . . ., pr à l’instant t. Cette notion est illustrée sur la figure 4.3, qui fournit un exemple d’événement temporel s, avec sa représentation TC x∼, ainsi que l’évolution de sa représentation par similarités ψL

∼(x∼). Sur cette illustration p1 est un prototype discriminant qui est supposé contribuer à l’activation du détecteur. En revanche p2 s’avère être un instantané inutile pour la tâche de détection. Il illustre l’une des particularités de notre approche : elle exploite des instantanés discriminants présents à l’intérieur des événements à détecter mais sans les connaître a priori. En conséquence, ceux-ci sont à découvrir grâce à une base d’apprentissage contenant des événements (séquences à détecter) et des non- événements (séquences sans intérêt). Ceci fera en partie l’objet de la section 4.3.

Remarque16.

En plus d’être des caractéristiques particulières et bien étudiées (proximity space represen- tation, [Pekalska et Duin, 2008]), les espaces de similarité (ou de représentation) sont une généralisation de la notion de machines à vecteurs supports (Support Vector Machine, SVM) dans laquelle le noyau est remplacé par une mesure de similarité quelconque. Pour illustrer cette assertion, nous considérons un classifieur linéaire f = hα | ·i`2+b. Appliqué à un point

ψ_tL(x∼)de l’espace de similarité, on obtient : f (ψL_t(x∼)) =α | ψtL(x∼)_` 2+ b = r X i=1 αikt(x∼, pi) + b,

i.e. (f − b) ∈ Vect ({kt(·, pi), i∈ Nr}). On reconnaît immédiatement la forme d’une SVM avec deux différences majeures :

FIGURE 4.3 – Exemple de représentation par similarités. xt1 est le vecteur caractéristique

à l’instant t1 correspondant à la séquence s. ψLt(x∼) est le vecteur de similarités entre la représentation TC x∼et deux prototypes p1 et p2. Dans cet exemple, le prototype p2n’est pas discriminant pour la tâche de détection courante. En effet, l’instantané supposé activer le détecteur est celui correspondant à l’image sur laquelle la danseuse a les bras levés.

k∼ est une mesure de similarité quelconque, qui n’est ni semi-définie positive, ni sy- métrique. Cette liberté permet de comparer des objets de natures différentes ;

il n’y a aucune contrainte sur le signe de αisuivant la nature de pi, tandis qu’une SVM impose que son signe soit identique à la classe à laquelle appartient le point associé.

Dans le document Outils d'apprentissage automatique pour la reconnaissance de signaux temporels (Page 120-123)