Modèles de Markov Cachés (HMM) - Modèles d’apprentissage pour des données temporelles

6.4 Modèles d’apprentissage pour des données temporelles

6.4.1 Modèles de Markov Cachés (HMM)

6.5 Positionnement du problème . . . . 74 6.5.1 Choix de l’approche pour l’intégration temporelle . . . 74 6.5.2 Discussion sur l’utilisation de l’intégration temporelle . . . 74

6.6 Méthodologies pour l’intégration temporelle des descripteurs . . . . 75

6.7 Evaluation Parole/Musique/Mix . . . . 76 6.7.1 Protocole d’évaluation . . . 76 6.7.2 Intégration temporelle sur une fenêtre fixe . . . 78 6.7.3 Intégration temporelle à horizon variable . . . 81 6.8 Conclusions . . . . 83

6.1 Introduction

Les expériences menées dans le chapitre précédent montrent que tout problème de classification audio n’est pas toujours résoluble en se limitant à un paradigme de classification à la trame. En apprentissage automatique, l’incapacité d’un système à résoudre correctement un problème est généralement liée au fait que les informations utilisées pour décrire le problème ne sont pas suffisantes ou bien que les relations entre observations et classes audio, établies par l’algorithme de classification, ne sont pas valides.

Dans le cas de la classification parole/musique/mix effectuée à la trame, l’information contenue dans une trame est parcellaire et donc insuffisante pour décrire avec précision les phénomènes acoustiques mis en jeu. On pourrait donc soit s’intéresser à la construction de nouveau descripteurs, permettant de faire apparaître de nouvelles propriétés, soit prendre en compte le fait qu’on n’a pas encore réussi à extraire toute l’information possible à partir des descripteurs utilisés.

Le passage d’une classification à la trame à une classification par segment (utilisant donc l’information temporelle des descripteurs) offre de nouvelles perspectives et cette idée se justifie pour plusieurs raisons. Tout d’abord, dans une classification à la trame, chaque trame est étudiée indépendamment les unes des autres. Or, les signaux audio présentant naturellement une forte temporalité, la connaissance de l’évolution des propriétés du signal peut être instructive.

Aussi, certains phénomènes audio peuvent s’établir sur des modalités temporelles qui dépassent celles de la trame. Une analyse à la trame ne saurait rendre compte de tels phénomènes (ex. vibrato).

Enfin, comme nous l’avons déjà évoqué, de nombreux systèmes de classification audio, construits ini- tialement selon un paradigme de classification à la trame, voient leurs performances améliorées en passant à une classification par segment.

Dans ce chapitre, toujours dans le cadre de la classification parole/musique/mix, nous allons étudier en détail le cas de la classification par segment. Les descripteurs audio issus de chaque trame ne sont plus considérés comme indépendants les uns des autres mais seront traités sous forme de séquences. Tout l’enjeu sera de faire apparaître l’information la plus pertinente possible à partir de l’évolution temporelle des descripteurs.

Dans l’expérience du chapitre précédent, nous avons surtout eu recours à la moyenne et à la variance pour caractériser les séquences temporelles des descripteurs. Ici, nous présenterons d’autres méthodes envisageables. L’effet du processus d’intégration temporelle dans le cadre d’une classification faible latence sera également étudié.

6.2 Quelles méthodes pour traiter l’information temporelle ?

Dans le domaine de l’audio, plusieurs auteurs se sont intéressés de près aux apports de l’intégration temporelle pour des problématiques de classification audio. On notera particulièrement les travaux d’An- ders Meng portant sur la reconnaissance du genre musical (Meng et al. 2005), (Meng 2006), (Meng et al. 2007), les travaux de Ntalampiras et al. dédiés à la reconnaissance d’émotions dans la voix et à

l’identification de sons domestiques (Ntalampiras et al. 2009), (Ntalampiras & Fakotakis 2012)

et enfin l’étude de Joder et al. (Joder et al. 2009) consacrée à la reconnaissance des instruments de

musique. Tous ces travaux proposent une évaluation détaillée des différentes manières d’exploiter l’information temporelle.

De manière générale, on peut distinguer deux approches pour utiliser l’information temporelle : l’in- tégration temporelle effectuée sur les descripteurs et l’intégration temporelle opérée par le classifieur. On retrouve les termes de early integration pour désigner le premier cas et late integration pour le second.

L’intégration temporelle sur les descripteurs se fait grâce à des fonctions d’intégration temporelle. Ces fonctions permettent de mettre en évidence des caractéristiques temporelles d’une suite de descripteurs, et ces caractéristiques constitueront alors les nouvelles données exploitées par le classifieur. Les descripteurs intégrés seront remplacés en lieu et place des descripteurs originaux. On peut donc voir l’intégration temporelle des descripteurs comme une étape de pré-traitement au niveau de descripteurs.

Là où dans la première approche, l’intégration temporelle se fait via le choix de fonctions d’intégration appropriées, dans la seconde approche, c’est le classifieur lui-même qui va inférer la structure temporelle des données. Le classifieur ne va plus exploiter les vecteurs d’observation indépendamment les uns des autres, mais va cette fois-ci considérer des séquences de descripteurs. Ces deux approches sont illustrées figure 6.1, avec sur la partie gauche l’intégration temporelle sur les descripteurs et sur la partie droite, l’intégration temporelle effectuée par le classifieur.

On note également que l’intégration temporelle peut se faire au niveau des décisions de classification. Cette approche peut être vue comme un post-traitement des décisions, dont le but étant de corriger d’éventuelles erreurs de classification en partant du principe que les séquences de décisions son relati- vement homogènes au cours du temps. Par exemple, pour un problème bi-classe (classe “A” et classe “B”), il serait possible de corriger la séquence de décision AAABAA par : AAABAA → AAAAAA. Ici, l’apparition de la classe B est considérée comme une erreur marginale au vue de la séquence complète. Les méthodes utilisées pour corriger les fluctuations des décisions comprennent par exemple le filtrage moyenneur, le filtrage médian, ou bien une modélisation par HMM.

Dans un premier temps, nous ne retiendrons que les deux premières approches, à savoir l’intégration temporelle des descripteurs via des fonctions d’intégration et l’intégration temporelle via le classifieur. Ces deux approches semblent les plus prometteuses puisqu’elles tentent de tirer le meilleur de l’évolution temporelle des descripteurs. Une mise en œuvre adaptée de l’une de ces approches peut conduire à une amélioration des performances mais également une meilleure compréhension du problème. En revanche, l’approche d’intégration temporelle des décisions, elle, ne permet que de corriger d’éventuelles disconti- nuités des décisions et ne permet donc pas d’avoir accès aux mécanismes de classification.

6.3 Fonctions d’intégration temporelle des descripteurs trame Signal Décision Xn-6 Xn-5 Xn-4 Xn-3 Xn-2 Xn-1 Xn

Z

n Classifieur

f ( )

Fonction d’intégration temporelle

Nouveaux descripteurs intégrés

trame Signal

Décision

Xn-6 Xn-5 Xn-4 Xn-3 Xn-2 Xn-1 Xn

Classifieur

Intégration temporelle des descripteurs

(Early integration) Intégration temporelle par le classifieur(Late integration)

Figure 6.1 – Schéma décrivant deux manières de faire de l’intégration temporelle : l’intégration tempo- relle au niveau des descripteurs (early integration), et l’intégration temporelle au niveau de l’algorithme de classification (late integration). À gauche, les caractéristiques temporelles des descripteurs originaux sont extraites via des fonctions d’intégration. Cette opération va créer de nouveaux descripteurs, tradui- sant le comportement temporel des descripteurs, et seront par la suite utilisés par le classifieur. À droite, les descripteurs sont directement exploités par le classifieur qui va par de lui-même inférer les propriétés temporelles des données.

On présente par la suite les techniques employées dans les deux approches, à savoir les fonctions d’intégration pour l’approche d’intégration temporelle sur les descripteurs et les méthodes de classification permettant de prendre en compte la dimension temporelle des données.

6.3 Fonctions d’intégration temporelle des descripteurs

On note x[k], un vecteur d’observation contenant D descripteurs, issus de la trame k, tel que x[k] = x1[k] x2[k] . . . xD[k]. Le processus d’intégration temporelle des descripteurs peut être exprimé par la biais d’une fonction f , prenant une séquence de L vecteurs d’observation et retournant un nouveau vecteur, zk, de dimension M tel que M peut être différent de D. On se place dans le cas où, afin d’avoir la latence la plus faible possible, seules les informations issues de la trame courante et des trames précédentes sont exploitées. Dans ce cas de figure, une intégration temporelle effectuée sur une fenêtre temporelle de

L trames s’exprime par :

zk= f (x[k − L + 1], . . . , x[k]). (6.1) L’objectif de l’intégration temporelle des descripteurs est d’offrir une nouvelle information pertinente en se basant sur l’évolution temporelle de ces derniers. Les fonctions d’intégration doivent donc permettre de mettre en évidence des caractéristiques temporelles qui seront par la suite utiles au processus de classification.

Dans les sections suivantes, on présente formellement les techniques d’intégration que l’on retrouve dans la littérature.

6.3.1 Regroupement (stacking)

La technique d’intégration la plus simple consiste à regrouper les observations issues de différents instants au sein d’un même vecteur, soit :

fStack(x[k − L + 1], . . . , x[k]) =

x[k − L + 1]T · · · x[k]T T

. (6.2)

Aucune transformation n’est effectuée et la dimension du vecteur final sera DL. (Scaringella & Zoia 2005).

6.3.2 Statistiques

L’usage de statistiques est très courant pour mettre en évidence des caractéristiques temporelles. L’association de la moyenne et de la variance est certainement la méthode la plus souvent rencontrée

(Le Blouch & Collen 2005), (Scheirer & Slaney 1997).

Ici, nous définissons les fonctions d’intégration basées sur la moyenne et la variance par :

fMoyenne(x[k − L + 1], . . . , x[k]) = µk = 1 L k X d=k−L+1 x[d], (6.3) fVar(x[k − L + 1], . . . , x[k]) = diag(Σk), (6.4) avec Σk = 1 L − 1 k X d=k−L+1 (x[d] − µk) T (x[d] − µk), (6.5)

et diag(Σk) est le vecteur contenant les valeurs de la diagonale de la matrice Σk.

On note également dans (Ntalampiras et al. 2009) et (Ntalampiras & Fakotakis 2012) l’uti-

lisation comme fonction d’intégration des paramètres de position tels que la médiane, le premier et le troisième quartile. On note qi_k le ie quartile estimé à l’instant k :

fQuartile(x[k − L + 1], . . . , x[k]) = qik. (6.6) On ajoute également l’utilisation du coefficient de régression linéaire, permettant de caractériser la tendance de la série de données. La fonction de transformation est notée :

fReg(x[k − L + 1], . . . , x[k]) = βk, (6.7) où β_k est le vecteur de dimension D contenant les coefficients de régression linéaire obtenus par résolution du problème de régression linéaire suivant :

arg min βi,αi k X d=k−L+1 xi[d] − βid − αi 2 for all i = 1, . . . , D (6.8)

avec βi et αi, respectivement les coefficients de regression et les constantes de regression pour la ième dimension.

Il convient de préciser que les statistiques décrites dans cette section, à l’exception de la régression linéaire, ne capturent pas le lien qui peut exister entre les valeurs successives d’une série temporelle. En effet, la permutation des valeurs conduirait aux mêmes résultats.

6.3.3 Caractéristiques spectrales

Une autre manière de décrire les propriétés d’une série temporelle est d’exploiter son contenu spectral

(McKinney et al. 2003), (Meng et al. 2007). Le spectre de Fourier à N points est ici calculé à partir

de la série temporelle des descripteurs issus d’un segment tel quel :

fSpectre(x[k − L + 1], . . . , x[k]) = sk[0] · · · sk N 2 , (6.9)

6.3 Fonctions d’intégration temporelle des descripteurs

avec sk[n] = s1,k[n], · · · sD,k[n]. De la même manière que pour l’extraction de descripteur audio, on peut alors calculer les quatre moments spectraux, ici calculés pour la dimension i :

Centroïde mi,k= 2 N N X n=0 si,k[n], (6.10)

Etalement spectral vi,k= 2 N N X n=0 (si,k[n] − mi,k)2, (6.11) Asymétrie γi,k= 2 N v3 i,k N X n=0 (si,k[n] − mi,k)3, (6.12) Kurtosis κi,k= 2 N v4 i,k N X n=0 (si,k[n] − mi,k)4. (6.13)

Dans (Joder et al. 2009), les auteurs se basent également sur la description de l’allure du spectre

avec l’emploi de la fréquence de coupure du spectre, la pente spectrale et le taux de décroissance spectrale.

6.3.4 Modèles autorégressifs

Dans (Meng et al. 2007), les auteurs proposent l’utilisation du modèle autorégressif pour caractériser

l’évolution temporelle des descripteurs. Le modèle autorégressif multivarié d’ordre P , noté M AR(P ), est défini par : x[k] = w + P X n=1 x[k − n]An+ k, (6.14)

où An est la matrice de dimension D × D contenant les coefficients de prédiction, w est le vecteur des constantes de régression de taille D et k le vecteur de taille D de bruit blanc. La fonction d’intégration temporelle associée au processus autorégressif multivarié est alors :

fMAR(x[k − L + 1], . . . , x[k]) = ˆw vec( ˆA1) . . . vec( ˆAP), (6.15) où ˆw et { ˆAn}n=1,...,P sont les estimations des paramètres de modélisation et vec désigne la concaté- nation de toutes les lignes d’une matrice en un seul vecteur. Le vecteur d’intégration final est donc de dimension D(DP +1), ce qui peut être excessif lorsque D devient grand ou pour des ordres de modélisation élevés.

Pour éviter ce problème, on préfèrera utiliser le modèle autorégressif diagonal (DAR) qui est similaire au modèle autorégressif multivarié à la différence que cette fois-ci les descripteurs sont considérés comme indépendants les uns des autres. La matrices Ansont alors diagonales et le vecteur d’intégration temporel devient :

fDAR(x[k − L + 1], . . . , x[k]) = ˆw diag( ˆD1) . . . diag( ˆDP)

(6.16) avec ˆDn les estimations des matrices An en prenant en compte l’indépendance des descripteurs. Le vecteur d’intégration final est désormais de dimension D(P + 1).

6.3.5 Autres modélisations

Dans le cadre de la reconnaissance du genre musical, Meng et al. (Meng et al. 2005) emploient

également comme fonction d’intégration temporelle des méthode destinées à obtenir une information sur le tempo des extraits musicaux. Les techniques utilisées sont le Beat Spectrum et le Beat Histogram, pré- sentées respectivement dans (Foote & Uchihashi 2001) et (Tzanetakis & Cook 2002). Cependant,

cette information n’a de sens que pour du contenu musical et non pour des signaux de parole par exemple. De plus, cette intégration temporelle se fait sur un horizon d’observation d’environ 10 secondes, ce qui est trop important dans notre contexte.

6.4 Modèles d’apprentissage pour des données temporelles

L’identification de structure temporelle peut être embarquée au niveau du classifieur. Les deux approches qu’on retrouve le plus couramment sont l’utilisation des Modèles de Markov Cachés (HMM), présentés chapitre 2, section 2.4.1, et l’emploi de noyaux temporels couplés au SVM.

6.4.1 Modèles de Markov Cachés (HMM)

Lors d’une utilisation des modèles de Markov cachés, on fait l’hypothèse que chaque classe audio à distinguer possède une signature temporelle, c’est-à-dire que les descripteurs ont un comportement temporel caractéristique qui peut être utilisé pour discriminer les signaux audio. Les HMM permettent de capter cette structure en décrivant les séries temporelles par une suite d’états finis, dont l’évolution au cours du temps dépend des probabilités de transitions, propre au phénomène observé.

Lors de la phase d’apprentissage, un modèle HMM par classe est entraîné. Une séquence inconnue est alors associée à la classe du modèle présentant la plus grande vraisemblance d’avoir généré cette séquence. La modélisation par HMM s’est montrée efficace pour de nombreuses tâches de classification audio :

(Kimber & Wilcox 1997), (Ajmera et al. 2002), (Zhang & Kuo 1999a), (Huang et al. 2005).

Dans le document Classification audio sous contrainte de faible latence (Page 82-87)