• Aucun résultat trouvé

Intégration temporelle sur une fenêtre fixe

6.7 Evaluation Parole/Musique/Mix

6.7.2 Intégration temporelle sur une fenêtre fixe

Dans cette section on présente les résultats selon les différentes méthodologies lorsque l’intégration temporelle se fait sur une seule fenêtre d’intégration de taille fixe. Ici les descripteurs sont intégrés sur une fenêtre de 500 ms, ce qui correspond à L = 25 trames. On rappelle également que cette intégration est faite en ne prenant en compte que la trame courante et les L − 1 trames précédentes, comme défini équation 6.1.

Les résultats sont donnés dans le tableau 6.1, décomposé en cinq parties, A, B, C, D et HMM, corres- pondant aux quatre méthodologies et la modélisation par HMM. Ce tableau donne la dimensionnalité de l’ensemble de descripteurs final, les F-mesures pour les zones de transitions, les zones stables et la mesure globale, ainsi que les intervalles de confiance à 95% pour chaque mesure.

Dans la partie A, on donne les résultats lorsque les 40 meilleurs descripteurs instantanés sont sélection- nés à partir de l’ensemble complet des descripteurs Ω, puis sur lesquels on applique différentes fonctions d’intégration. On note donc qu’ici les fonctions d’intégration sont appliquées sur le même sous-ensemble de 40 descripteurs.

Tout d’abord, on remarque qu’à l’exception de la fonction d’intégration Regression, l’utilisation de toutes les fonctions d’intégration donnent de meilleures performances globales que l’emploi des descrip- teurs instantanés uniquement, noté NoInt. Cela confirme que les descripteurs dans leur forme instantanée ne sont pas suffisants pour discriminer correctement les signaux de parole, musique et mix. À l’inverse, l’intégration temporelle se révèle plus fiable. Toutefois, il est important de noter que lorsqu’on utilise les fonctions d’intégration, les performances au niveau des transitions chutent de manière significative. Aussi, il n’est pas très surprenant que la méthode d’intégration Regression ne donne que de faibles résultats : la seule information que l’on conserve sur les descripteurs est une information concernant leur tendance. On perd alors toute autre information relative à la dynamique des descripteurs. En revanche, une fois utilisée en association avec une autre méthode d’intégration, l’information de régression linéaire semble plus pertinente.

Alors qu’il est possible de comparer l’effet des différentes fonctions d’intégration appliquées sur le même sous-ensemble de descripteurs, on constate que la dimensionnalité du jeu de descripteurs final varie selon les fonctions d’intégration utilisées. La combinaison de fonctions, telles que Moyenne + Variance ou Moyenne + Variance + Regression produisent naturellement un ensemble de descripteurs plus grand que l’utilisation des fonctions individuelles. Cependant, cette augmentation de la dimensionnalité n’est pas synonyme de gain en performance. En effet, même à dimensionnalité inférieure, certaines méthodes fonctionnent mieux que d’autres. On observe que la combinaison Moyenne + Variance + Regression (85.1%) surpasse l’utilisation de la modélisation autorégressive DAR(3) (81.6%), ou encore que Variance

+ Regression et Moyenne + Variance sont tous les deux au-dessus de DAR(3) (83.0%, 85.0% et 81.6%

6.7 Evaluation Parole/Musique/Mix

Dans la partie B du tableau, on retrouve les résultats obtenus lorsque le processus d’intégration temporelle est inclus dans la phase de sélection des descripteurs. On applique tout d’abord une fonction d’intégration sur l’ensemble complet des descripteurs Ω. On sélectionne par la suite les 40 meilleurs descripteurs intégrés. De cette manière on évite d’avoir des dimensionnalités variables étant donné qu’on ne conserve que 40 descripteurs.

Lorsqu’on compare l’utilisation de différentes fonctions d’intégration entre les méthodologies A et B, on remarque qu’il y a une certaine amélioration. Par exemple, avec la fonction d’intégration Moyenne

+ Variance où nous obtenions un score global de 85.0% avec la méthodologie A, le score est désormais

de 86.1% en suivant la méthodologie B. Aussi, on remarque que la fonction d’intégration Moyenne +

Variance + Regression donne de meilleures performances en passant de la méthodologie A à la métho-

dologie B, alors que dans ce cas, seulement 40 descripteurs sont utilisés, contre 120 dans A. Ces résultats montrent qu’inclure le processus d’intégration temporelle dans la phase de sélection des descripteurs peut donner des résultats supérieurs ou équivalents à dimensionnalité inférieure. L’interprétation que l’on peut donner de ce phénomène est que dans la méthodologie A, on sélectionne des descripteurs pertinents dans leur forme originale (instantanés) mais qui se révèlent peu porteurs de sens une fois intégrés.

Dans la partie C du tableau, les résultats sont cette fois-ci obtenus lorsqu’on recherche les meilleurs descripteurs, toutes fonctions d’intégration confondues, selon les descripteurs instantanés et les fonctions d’intégration Moyenne, Variance, Regression et DAR(3). Le jeu final de descripteurs contient donc des descripteurs intégrés selon différentes fonctions. Les résultats obtenus surpassent les performances des méthodologies A et B (à la fois pour le score global que pour le score des zones de transition), ce qui montre qu’on tire avantage à utiliser des méthodes de description temporelle variées plutôt que de se limiter à des groupes de fonctions.

Cependant, en utilisant la méthodologie C, on remarque que l’ensemble de descripteurs final n’est composé que de descripteurs intégrés. Les descripteurs instantanés n’ayant pas été retenus. D’après les résultats donnés jusqu’à présent, on peut voir que les descripteurs instantanés donnent de meilleures per- formances sur les zones de transitions (résultats pour NoInt) alors que les descripteurs intégrés donnent eux, de meilleurs résultats pour les zones stables. Du fait que dans notre base de données, il y ait une plus grande proportion de zones stables que de zones de transitions, il est normal que l’algorithme de sélection s’oriente naturellement vers les descripteurs intégrés. Avec la dernière méthodologie (D), on souhaite toutefois distinguer les meilleurs descripteurs pour les zones stables et les meilleurs descripteurs pour les zones de transitions. De cette manière, on cherche à voir s’il n’est pas possible d’obtenir un compromis entre performance globale et réactivité. On présente donc les résultats pour les différents ratios entre les meilleurs descripteurs pour les zones stables et les meilleurs descripteurs pour les zones de transitions. On peut alors constater qu’il est possible d’améliorer le score de classification autour des zones de transition, tout en conservant des performances globales satisfaisantes, en privilégiant les descripteurs instantanés aux descripteurs intégrés.

Enfin, à titre de comparaison la dernière ligne du tableau contient les résultats obtenus grâce à une modélisation par HMM. Bien que nous ayons orienté cette étude en faveur de l’intégration temporelle sur les descripteurs par rapport à la modélisation temporelle par un classifieur, la modélisation par HMM représente en quelque sorte un standard pouvant servir de point de référence et permettre de situer les résultats donnés précédemment. Un modèle par classe est construit, chacun à partir de séquences de

L = 25 trames, afin de conserver le même cadre d’utilisation que les méthodologies précédentes. En

procédant ainsi, on suppose qu’il existe une structure temporelle spécifique à chaque classe audio. Cette structure sera captée par le modèle HMM et permettra d’identifier une séquence inconnue simplement en étudiant son évolution temporelle. Les 40 meilleurs descripteurs instantanés sont utilisés ici et les probabilités d’observations sont modélisées par un GMM. Les résultats donnés ici sont obtenus en utili- sant les meilleurs paramètres, à savoir le nombre d’états, choisis parmi l’ensemble N = {3, 4, 5, 6, 7} et le nombre de composantes du mélange de gaussiennes M = {2, 4, 8, 16, 32}. Les performances obtenues sont convenables mais restent en deçà des résultats obtenus en adoptant les méthodologies C et D par exemple. Les évaluations ont été conduites en s’appuyant sur une sélection de D = 40 descripteurs. Afin de rendre compte des performances obtenues avec l’utilisation d’un nombre plus faible de descripteurs, on dresse figure 6.4 les scores obtenus en appliquant la méthodologie C pour un nombre de descripteur D allant de 5 à 40.

Méthode d’intégration Dimension Zones de transition Zones stables Global

% (±CI95) %(±CI95) % (±CI95)

A NoInt 40 75.9(0.6) 76.5(0.2) 76.4(0.2) Mean 40 49.9(0.5) 85.5(0.5) 83.1(0.5) Var 40 52.8(0.4) 84.5(0.2) 82.3(0.2) regress 40 53.8(0.6) 68.8(0.1) 67.8(0.1) mean+Var 40 × 2 51.4(0.8) 87.2(0.7) 85.0(0.6) mean+Reg 40 × 2 56.4(0.4) 86.3(0.2) 84.2(0.2) Var+Reg 40 × 2 57.7(0.6) 84.9(0.3) 83.0(0.3) mean+Var+Reg 40 × 3 55.2(0.3) 87.6(0.4) 85.1(0.3) DAR(3) 40 × 4 54.3(0.7) 83.7(0.3) 81.6(0.3) B NoInt 40 76.7(0.2) 76.8(0.3) 76.7(0.2) Mean 40 49.5(0.5) 85.9(0.7) 83.4(0.6) Var 40 54.4(0.5) 84.4(0.2) 82.4(0.2) regress 40 53.7(0.5) 67.1(0.4) 66.2(0.3) mean+Var 40 52.4(1.0) 88.6(0.3) 86.1(0.4) mean+Reg 40 53.2(0.4) 86.4(0.4) 84.1(0.3) Var+Reg 40 57.2(0.7) 85.0(0.3) 83.1(0.3) mean+Var+Reg 40 55.3(0.8) 88.3(0.4) 86.2(0.4) DAR(3) 40 53.8(0.2) 82.9(0.2) 80.9(0.2) C Meilleurs descripteurs 40 57.1(0.2) 89.7(0.3) 87.3(0.3) D 10 Stable / 30 Transition 40 60.7(0.9) 86.7(0.1) 84.8(0.2) 15 Stable / 25 Transition 40 60.0(0.8) 88.0(0.4) 86.1(0.4) 25 Stable / 15 Transition 40 59.2(0.5) 89.6(0.3) 87.5(0.2) 35 Stable / 5 Transition 40 56.8(0.6) 88.1(0.3) 85.9(0.3)

HMM Meilleurs desc. instantanés 40 52.1(0.3) 84.1(0.5) 82.3(0.5)

Table 6.1 – Tableau de résultats des quatre méthodologies pour l’intégration temporelle des descripteurs (fenêtre d’intégration de 500ms, soit 25 trames). Pour chaque méthodologie, on donne le type de fonction d’intégration utilisé, la dimensionnalité de l’espace de description et les performances globales, pour les zones de transition et les zones stables.

D = 5 D = 10 D = 15 D = 20 D = 25 D = 30 D = 35 D = 40 78 79 80 81 82 83 84 85 86 87 88 D meilleurs descripteurs F−mesure (global)

Figure 6.4 – Performances obtenues en faisant varier le nombre de descripteurs utilisé : D = {5, 10, 15, 20, 25, 30, 35, 40}. C’est la méthodologie C qui est appliquée ici : on sélectionne les D meilleurs descripteurs parmi les descripteurs instantanés et intégrés.

6.7 Evaluation Parole/Musique/Mix

On constate alors que même à dimension inférieure, grâce à ce protocole il est possible de faire aussi bien, voire mieux, que les résultats obtenus pour la méthodologie A et parfois B, alors que dans ces cas-là, 40 descripteurs étaient employés. Par exemple, pour D = 20, on obtient un score global qui dépasse ou est du même niveau que les résultats obtenus avec A. En passant à D = 25, on se situe à peu près au même niveau que les scores issus de la méthodologie B.