Intégration temporelle à horizon variable

6.7 Evaluation Parole/Musique/Mix

6.7.3 Intégration temporelle à horizon variable

Jusqu’à présent le processus d’intégration temporelle des descripteurs a été appliqué en utilisant une seule et même fenêtre d’intégration, quels que soit les descripteurs et fonctions d’intégration utilisés. De la même manière que les méthodologies évaluées précédemment montrent que les descripteurs doivent être choisis en accord avec les fonctions d’intégration qui seront employées, on peut également supposer que l’horizon d’intégration peut être variable selon chaque descripteur et fonction d’intégration. Un descripteur pourrait alors se révéler plus pertinent lorsqu’il est intégré sur un horizon d’observation court alors que d’autres seraient plus expressifs en considérant une séquence plus longue.

Aussi, dans le cadre d’une intégration temporelle sur une fenêtre fixe, la taille optimale de cette fenêtre peut être grande. Comme nous l’avons vu, une intégration temporelle opérée sur des séquences trop importantes peut être problématique pour la réactivité d’un système temps réel. À titre d’exemple, on redonne figure 6.5 l’évolution des différents scores (globale, transition et stable) lorsque les 40 meilleurs descripteurs sont intégrés avec la fonction Moyenne + Variance + Regression (méthodologie B) suivant des fenêtres de tailles différentes. On constate que le meilleur score global est obtenu pour une fenêtre de taille L = 25 trames (ce qui a été utilisé jusqu’à présent), puis au-delà, les performances décroissent. Cependant, on remarque également que plus la fenêtre d’intégration augmente et plus le score au niveau des transitions diminue.

0 5 10 15 20 25 30 35 40 50 55 60 65 70 75 80 85 90

Taille de la fenêtre d’intégration (en trames)

F−mesure (%)

Global Zones stables Zones de transition

Figure 6.5 – Influence de la taille de la fenêtre d’intégration pour le score global et les scores au niveau des transitions et des zones stables. Le test est réalisé ici en suivant la méthodologie B, avec comme fonction d’intégration Moyenne + Variance + Regression.

Dans le but de trouver le meilleur compromis entre performance globale et réactivité, on reprend la méthodologie D (mélangeant les meilleurs descripteurs pour les zones stables et les zones de transitions), sauf que cette fois-ci, plusieurs fenêtres d’intégration seront utilisées. On illustre cette approche avec la figure 6.6. On suppose que le sous-ensemble optimal de descripteurs peut être construit à partir de descripteurs temporellement intégrés suivant des fonctions d’intégration différentes et selon des modalités temporelles différentes. Ici, un descripteur peut être intégré sur 3 trames seulement ou bien sur 15 trames par exemple. On note cependant que les fenêtres d’intégration sont toujours “synchronisées” par rapport à la trame courante.

Concrètement, les meilleurs descripteurs pour les zones stables et les zones de transition sont sélection- nés à partir des descripteurs instantanés et intégrés sur des fenêtres de tailles L = {3, 5, 7, 11, 13, 15, 20, 25}

trame Signal … Xn-1 Xn

Z

_n Descripteur A Descripteur B Descripteur C

Figure 6.6 – Intégration temporelle en utilisant des fenêtres d’intégration multiples. On autorise le fait que les descripteurs puissent être intégrés sur des horizons temporels plus ou moins longs. Par exemple, ici un descripteur A est intégré sur 3 trames, un descripteur B sur 7 trames et un descripteur C sur 5 trames. Tous ces descripteurs intégrés suivant des tailles variables forment, comme précédemment, le nouveau descripteur Zn.

Méthode d’intégration Dimension Zones de transition Zones stables Global

% (±CI95) %(±CI95) % (±CI95)

5 Stable / 35 Transition 40 65.8(0.5) 87.9(0.2) 86.3(0.2)

10 Stable / 30 Transition 40 63.4(0.6) 88.2(0.5) 86.4(0.4)

22 Stable / 18 Transition 40 62.1(0.3) 89.5(0.2) 87.6(0.2)

35 Stable / 5 Transition 40 57.2(0.3) 88.8(0.3) 86.6(0.3)

Table 6.2 – La méthodologie D* est une variante de la méthodologie D, dans laquelle on teste différents ratios entre les meilleurs descripteurs pour les zones stables et les zones de transition, en autorisant une intégration temporelle sur des fenêtres de {3, 5, 7, 11, 20, 25} trames.

trames. Les résultats de ces expériences sont donnés table 6.2.

Dans cette configuration, les meilleurs résultats ont été obtenus pour un mélange de 22 descripteurs associés aux zones stables et 18 descripteurs associés aux zones de transition. Les descripteurs retenus pour les zones de transitions sont majoritairement composés de descripteurs instantanés ou intégrés sur des fenêtres courtes (entre 3 et 7 trames) alors que les descripteurs sélectionnés pour les zones stables sont intégrés sur des fenêtres longues (20 ou 25 trames). Bien que le score global soit proche de celui obtenu avec la méthodologie D (87.6% et 87.5% respectivement), l’amélioration provient ici du score au niveau des transitions qui passe de 59.2% pour la méthodologie D à 62.1%. Cela montre encore une fois qu’une mise en œuvre appropriée du processus d’intégration temporelle peut conduire à de bonnes performances, sans pour autant négliger la réactivité du système.

6.8 Conclusions

Dans le cadre de la classification audio, le processus d’intégration temporelle peut prendre plusieurs formes. L’information temporelle peut être soit extraite des descripteurs via des fonctions d’intégration, exprimant chacun des propriétés de la séquence temporelle des descripteurs, soit via le classifieur directe- ment qui va déduire de lui-même le comportement temporel des descripteurs. Nous avons choisi de retenir la première approche puisque dans ce cas, l’intégration temporelle peut être vue comme une étape de pré-traitement des descripteurs et ne conditionne pas le choix d’un classifieur particulier.

L’état de l’art sur l’intégration temporelle des descripteurs a permis de montrer d’une part qu’aucune étude détaillée n’était consacrée au problème de classification sous contraintes de faible latence et d’autre part que la manière d’exploiter l’intégration temporelle pouvait varier. En effet, les choix d’utilisation font parfois état d’hypothèses fortes concernant la manière de sélectionner les descripteurs ou encore sur le choix des fonctions d’intégration.

Afin d’évaluer l’impact de l’intégration temporelle dans un cadre de classification faible latence, ainsi que pour tester les différentes hypothèses sur la mise en œuvre de l’intégration temporelle, on propose quatre méthodologies qui sont évaluées pour la tâche de classification parole/musique/mix. Les expé- riences montrent que les performances peuvent varier de manière significative selon les méthodologies.

En résumé, il apparaît important d’établir le lien qui existe entre les descripteurs et les fonctions d’intégration : lors du processus de sélection, les descripteurs doivent être choisis en regard avec les fonctions d’intégration qui seront utilisées. Ensuite, il y a un intérêt à exploiter des fonctions d’intégration diversifiées. Là où dans des études antérieures, l’intégration temporelle est souvent utilisée de manière naïve grâce à une simple combinaison de la moyenne et de la variance, on montre qu’on peut tirer de combinaisons plus poussées de fonctions d’intégration temporelle. Enfin, nous avons pu constater l’influence du processus d’intégration temporelle sur la réactivité du système de classification : au niveau des changements de classes audio (zones de transition), on peut noter une baisse de performance, signe d’une latence de la décision. Toutefois, grâce aux méthodologies mises en place, on montre qu’il est possible d’améliorer les performances globales mais également les performances au niveau des transitions, et donc de gagner en réactivité.

Ces travaux ont fait l’objet d’une publication (Flocon-Cholet et al. 2014a) :

• Flocon-Cholet, J., Faure, J., Guérin, A., & Scalart, P. (2014). An investigation of temporal inte- gration for a low-latency classification. In Aud. Eng. Soc. (AES) 137th Convention.

Les travaux menés dans ce chapitre révèlent une partie du potentiel que représente le processus d’intégration temporelle. La méthodologie d’utilisation a une importance, mais d’après les différents résultats, on observe que les fonctions d’intégration jouent également un rôle décisif sur les performances obtenues : les différentes fonctions d’intégration n’ont pas toutes la même efficacité. En conséquence, afin d’améliorer un peu plus les résultats, il faudrait donc chercher à utiliser ou créer les fonctions d’intégration temporelle les plus adaptées aux descripteurs.

Pour aller dans ce sens, une partie des recherches de cette thèse a été consacrée à la construction automatique de méthodes d’intégration temporelle. Nous nous sommes inspirés pour cela des travaux d’Ingo Mierswa (Mierswa & Morik 2005), (Mierswa 2009), et de Zils et Pachet (Zils & Pachet 2003), dédiés eux, à la construction automatique de descripteurs audio. Le principe repose sur l’utilisation

d’opérateurs élémentaires pouvant être combinés à l’aide de la programmation génétique afin de créer des descripteurs audio. La phase de construction et de sélection des descripteurs ainsi créés sont guidées par les performances de classification.

En transposant ces idées au problème d’intégration temporelle, nous avons mis en place un système permettant de combiner des fonctions d’intégration élémentaires à l’aide d’un algorithme génétique. En associant le classifieur dans le processus de sélection, on pouvait donc au final obtenir un ensemble de descripteurs optimal où le choix du descripteur, ainsi que la fonction d’intégration construite spécifique- ment pour ce descripteur, étaient pris en compte. Malheureusement, cette tentative ne s’est pas révélée totalement viable. Tout d’abord, les performances obtenues étaient sensiblement les mêmes que celles obtenues avec les méthodologies d’intégration proposées dans ce chapitre. Ensuite, les fonctions d’inté- gration ainsi générées pouvaient souffrir d’une grande complexité. Cette complexité rendait d’autant plus difficile l’interprétation de ces nouvelles fonctions d’intégration.

Chapitre 7

Intégration temporelle par

représentation symbolique

Sommaire

7.1 Introduction . . . . 85

Dans le document Classification audio sous contrainte de faible latence (Page 96-100)