• Aucun résultat trouvé

Morlet-Scattering Morlet-Pooling Band-Max Band- `2 Band-Pooling 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 AUC

(a) Parc vs rue calme.

MFCC WKL CNN Morlet-Scattering Morlet-Pooling Band-Max Band- `2 Band-Pooling 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 (b) Bureau vs super-marché. MFCC WKL CNN Morlet-Scattering Morlet-Pooling Band-Max Band- `2 Band-Pooling 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00

(c) Bureau vs rue calme.

FIGURE3.14 – Taux de reconnaissance des scènes acoustiques.

des problèmes de classification binaires, comme par exemple métropolitain vs station de métropolitain.

Les résultats de cette expérience numérique sont indiqués sur la figure 3.14. À l’instar du problème ICM, seul les meilleurs résultats (ceux du noyau gaussien, plutôt que linéaire) sont exposés. Ici, la méthode de référence est une SVM appliquée aux coefficients cepstraux mel-fréquences (Mel-Frequency Cepstral Coefficients, MFCC) calculés sur la totalité des 300 millisecondes des signaux. Cette approche, qui fait référence pour la classification de si- gnaux audio, semble particulièrement efficace pour certains des problèmes binaires étudiés dans cette section (par exemple bureau vs super-marché). Pourtant, même dans ces cas fa- vorables, il existe toujours une variante de notre approche (soit avec des filtres passe-bandes simples - Band-Max et Band-`2 - soit avec des ondelettes de Morlet - Morlet-Scattering) qui améliore les taux de classification obtenus avec les MFCC.

La méthode avancée qu’est WKL est généralement efficace mais moins précise que notre approche quant à la reconnaissance. Une fois de plus, ceci peut être expliqué intuitivement par la modularité de la méthode que nous proposons, qui est capable de travailler avec plusieurs fonctions d’agrégation conjointement à des ondelettes ou à des filtres de natures différentes. À l’opposé de cela, WKL apprend une décomposition en ondelettes associée à une agrégation marginale en norme `2.

De manière identique à l’expérience ICM, le CNN montre des résultats très faibles, qui sont difficiles à expliquer. De plus, ces simulations numériques confirment que l’apprentissage de la fonction d’agrégation reste une alternative efficace au choix manuel de celle-ci, et améliore même les taux de classification.

3.6

SYNTHÈSE

Ce chapitre a présenté notre première contribution. Celle-ci réside principalement dans la mise en place d’un algorithme d’apprentissage d’une représentation TF (implémentée sous la forme d’un BdF) conjointement à une SVM. Il est apparu que l’apprentissage d’un tel modèle sans contraintes particulières sur les filtres fournit certes un apport comparé à l’ex- traction purement manuelle de caractéristiques mais souffre de sur-apprentissage lorsque

l’on dispose de peu de données ou que les signaux sont fortement bruités.

Pour cette raison, l’algorithme que nous avons décrit dans ce chapitre suppose que l’on se restreigne à une (ou plusieurs) famille(s) de filtres. Cette forme de régularisation permet d’éviter l’écueil du sur-apprentissage et conduit à la mise en place d’un algorithme d’ap- prentissage de noyaux multiples, étendant l’état de l’art dans le domaine en autorisant à combiner non-linéairement des noyaux choisis parmi un ensemble infini. De manière in- téressante, il est aussi possible d’automatiser le choix de la fonction d’agrégation comme concaténation de plusieurs fonctions. Cet attribut s’ajoute au choix automatique du nombre de filtres constituant le banc et facilite l’utilisation de notre méthode.

Une dernière section d’expériences numériques a montré l’intérêt de notre approche sur des signaux ICM ainsi que sur des paysages sonores. Pour ces derniers, le gain de recon- naissance s’avère toutefois léger (en particulier comparé à celui obtenu avec des MFCC) au regard de la complexité de la méthode mise en œuvre.

Au fil des chapitres précédents, nous avons rencontré trois structures pyramidales. La pre- mière est le CNN (figure 2.5 page 45). La seconde est celle permettant d’implémenter une transformée en ondelettes rapide (figure 2.6 page 48). Enfin, la troisième est la décomposi- tion par diffusion d’ondelettes (figure 2.8 page 50). Comme nous l’avons vu, la transformée en ondelettes rapide peut être modélisée par un BdF à un seul étage car elle est compo- sée d’une cascade d’opérations linéaires. Cette configuration est identique à celle du BdF qu’il est possible d’apprendre grâce à notre approche. En revanche, cette réduction n’est pas envisageable pour le CNN et la diffusion d’ondelettes car des opérateurs d’agrégation non-linéaires sont présents à plusieurs points internes à leur structure.

En ce sens, le BdF que nous apprenons (composé d’un étage d’opérations de filtrage puis d’une agrégation non-linéaire), ne constitue que la décomposition de premier ordre d’une structure pyramidale telle qu’un CNN ou une transformée en diffusion d’ondelettes. Or de récents travaux montrent l’intérêt de capturer l’information des ordres supérieurs[Ben- gio, 2009, Andén et Mallat, 2014, Bruna et Mallat, 2013], que ce soit pour l’un ou l’autre de ces modèles. Ainsi, une extension naturelle de notre approche consisterait à appliquer une cascade de BdF et d’agrégations non-linéaires à un signal, puis d’apprendre des filtres discriminants conjointement à une SVM. À l’heure actuelle, la principale limitation à ces prochains travaux est la complexité temporelle de notre algorithme. Comme toute tech- nique d’apprentissage de noyau, notre approche est plus longue à entraîner qu’une SVM classique et nécessite elle aussi une étape de validation croisée afin de déterminer le coef- ficient de coût C et le paramètre des noyaux gaussiens γ, multipliant encore les besoins en ressources calculatoires.1Par conséquent, la mise en place de cette extension nécessite des solutions à chercher par exemple du côté du calcul parallèle.

1. À l’instar de[Gehler et Nowozin, 2008a, Sangnier et coll., 2014]il aurait été possible d’inclure γ dans les

paramètres du noyau à apprendre. Cependant, il serait nécessaire de comparer cette approche à une validation croisée (comme celle réalisée pour ce manuscrit) afin d’évaluer le risque de sur-apprentissage dû à la détermi- nation automatique de γ en comparaison au gain de temps par rapport au choix par validation croisée.

CHAPITRE

4

Un modèle de détecteur précoce

4.1

I

NTRODUCTION

Lorsqu’il s’agit de reconnaître une série temporelle, deux questions viennent à l’esprit :  quels descripteurs utiliser ?

 comment prendre le temps en compte ?

Le temps est une composante primordiale qu’on aurait tort d’assimiler à une simple dimen- sion supplémentaire, et ceci pour les raisons déjà évoquées : la prise en compte du temps permet souvent d’augmenter la puissance de discrimination des outils mis en place. Tou- tefois, celui-ci est aussi source de redondance de l’information, voire de variabilité intra- classe. Dans ce dernier cas, il est donc soit nécessaire d’augmenter le nombre de signaux observés destinés à l’apprentissage, soit de réduire la résolution temporelle. Puisqu’il est généralement difficile d’acquérir et de prendre en compte (d’un point de vue informatique) toujours plus de signaux, l’outil que nous avons mis en place dans le chapitre 3 se concentre sur la deuxième solution. En suivant un schéma démocratique de traitement des séries tem- porelles (figure 2.1 page 33), l’approche que nous avons présentée est capable de donner une réponse aux deux questions, portant sur les descripteurs et le temps.

Il reste toutefois un point important qui n’a pas été abordé dans le chapitre 3 : celui de la redondance d’information dans le temps. Autrement dit : est-il nécessaire d’observer une séquence dans sa totalité pour prendre une décision ? À défaut de déterminer les caracté- ristiques de la redondance, il est néanmoins intéressant d’analyser le compromis entre la

puissance de discriminationd’un outil et laprécocitéde la prise de décision. Cette question

(seule, sans détermination automatique des descripteurs) est abordée ici à travers le pro- blème générique de la détection précoce (au sein d’un schéma séquentiel, conformément à la figure 2.1 page 33).

Le but de ce chapitre est donc de construire un outil de détection précoce, adapté à toute série temporelle (audio, vidéo, etc.). Pour ce faire, nous laissons l’expert choisir des des- cripteurs appropriés et mettons en place le cadre qui suit, permettant une prise de déci- sion au plus tôt (section 4.2). Nous faisons le pari qu’il est possible de détecter l’appari- tion d’un événement uniquement à partir de la connaissance de quelques instantanés dis- criminants (par exemple, des poses particulières dans la reconnaissance d’actions vidéo ou de brefs sons dans l’identification de paysages sonores). Ce choix, qui nous rapproche du concept d’apprentissage d’instances multiples (Multiple Instance Learning, MIL), nous

FIGURE 4.1 – Illustration de l’activité souhaitée du détecteur. Celui-ci est supposé se dé-

clencher au plus tôt sur un événement et persister lorsqu’une notification de détection a été émise.

conduit à étendre les espaces de similarité proposés dans [Balcan et Blum, 2006, Pekalska et Duin, 2008]à la gestion des séries temporelles, tout en laissant une place primordiale au temps. À partir de ce cadre, il est alors possible d’énoncer des conditions faibles permettant d’aboutir à un détecteurfiable, i.e. ne changeant pas d’avis après avoir notifié une détection.

Ceci est une condition essentielle afin de prendre une décision à partir d’une information partielle.

Les conditions faibles que nous imposons à notre détecteur conduisent à mettre en place un problème d’apprentissage simple, ainsi qu’un algorithme efficace pour le résoudre (sec- tion 4.3). Au delà de l’aspect numérique, le détecteur que nous proposons bénéficie aussi de garanties théoriques, issues directement des travaux sur les séparateurs linéaires [Ka- kade et coll., 2009]. Enfin, avant de valider empiriquement notre approche (section 4.5), les proximités et différences de celle-ci avec les modèles existants sont discutées dans la section 4.4.