• Aucun résultat trouvé

Corpus audio pour la classification parole/musique/mix

5.2.1 Classes audio . . . 60 5.2.2 Construction de la base audio . . . 60 5.3 Protocole . . . . 61 5.3.1 Descripteurs audio et système de classification . . . 61 5.3.2 Mesures de performances . . . 61 5.4 Comparaison des paradigmes de classification . . . . 62 5.4.1 Classification à la trame . . . 62 5.4.2 Classification sur segment . . . 63 5.5 Conclusions . . . . 66

5.1

Introduction

Le paradigme de classification sur une trame semble être la solution la plus logique lorsqu’on souhaite mettre en place un système de classification faible latence. L’application sur la protection acoustique, qui s’apparente à la catégorie de temps réel strict, en est un exemple : il est possible d’obtenir de bonnes performances et une haute réactivité.

Cependant, cette approche fonctionne car on suppose que les signaux sont discriminables en se ba- sant simplement sur l’observation d’une trame audio. Au sein de la trame, il suffit alors de construire les descripteurs ad hoc permettant de mettre en évidence les signaux. On peut toutefois s’interroger sur la généralisation de cette hypothèse : est-ce que toute tâche de classification peut être traitée efficace- ment en suivant une classification à la trame ? On peut déjà émettre des réserves sur cette théorie en constatant par exemple que, comme nous l’avons vu chapitre 3, la majorité des systèmes de classifica- tion à la trame répondent à des problèmes ne faisant intervenir qu’un nombre limité de classes audio : discrimination de la parole seule contre la musique seule, détection des signaux gênants dans le cas de la protection acoustique etc. On peut donc se demander si, en se basant sur l’observation d’une trame uniquement, il serait possible de distinguer une plus grande variété de signaux audio. De plus, certains phénomènes acoustiques peuvent s’établir sur des durées plus grandes que celle d’une trame. Dans ce cas, la solution naturelle serait de passer d’une classification à la trame à une classification sur segment. Seule- ment, cette agrégation d’information sur un segment serait susceptible d’induire un retard sur la décision. Afin de comparer l’utilisation de la classification à la trame et de la classification sur segment, nous allons, à partir de ce chapitre et jusqu’à la fin de ce document, changer de tâche de classification. Le pro- blème qui sera désormais traité sera la classification parole/musique/mix, la classe Mix étant un mélange de parole avec un fond musical (la parole étant toujours dominante par rapport à la musique). Le choix de ce problème de classification se fait pour plusieurs raisons. Tout d’abord la distinction de manière au- tomatique entre les signaux de parole, de musique et de parole sur de la musique constitue un défi. Bien que la discrimination parole/musique soit, elle, considérée comme résolue (eXchange (MIREX 2015)

eXchange (MIREX 2015)), l’ajout de la classe Mix apporte une difficulté supplémentaire qui n’est

pas évidente à surmonter. Enfin, les signaux de parole et de musique étant omniprésents, la constitution d’un corpus audio fiable sera d’autant plus aisée.

Dans ce chapitre, après une description du corpus audio et de l’ensemble du protocole d’évaluation, nous allons comparer l’utilisation de la classification à la trame et de la classification sur segment. Le but étant d’évaluer les performances des deux approches mais également leur comportement vis-à-vis d’une classification faible latence.

5.2

Corpus audio pour la classification parole/musique/mix

5.2.1

Classes audio

La classe Parole représente les échantillons audio contenant des extraits de parole non bruités. Les enregistrements utilisés ici sont issus d’un corpus utilisé dans les instances de normalisation pour valider la qualité des codecs audio. Ces enregistrements ont donc été réalisés en studio et les phrases prononcées présentent la particularité d’être phonétiquement équilibrées. Par ailleurs, plusieurs langues sont repré- sentées : français, anglais, italien, espagnol, portugais, allemand, mandarin, japonais, et chacune de ces langues est parlée par des femmes et des hommes.

La classe Musique regroupe des extraits musicaux variés apparentés à des styles divers : musique classique, pop, rock, jazz, funk, country etc. Les extraits musicaux peuvent être soit instrumentaux, soit avec voix chantée. Les extraits utilisés sont en partie issus d’un corpus dédié à la normalisation des codecs audio et en partie tirés de bases musicales libres.

La classe Mix fait référence à des extraits audio contenant de la parole sur un fond musical. La parole sera toujours mise en avant ici. Il n’y a donc pas de cas où on aurait de la musique plus forte qu’un signal de parole. Pour construire la base Mix, on mélange des clips de parole avec des clips de musique de manière à obtenir un rapport “Parole à Musique”, tel que P/M = 10 · log10( PP arole

PM usique), compris entre

+5 dB et +10 dB, avec PP arole la puissance d’une clip de parole et PM usique la puissance d’un clip de musique. Ce ratio nous a semblé donner une sensation d’écoute convenable pour décrire la situation d’un signal de parole sur un fond musical : la parole est dominante sans que le fond musical soit sur- ou sous-exposé. On précise également que les signaux de parole et de musique utilisés pour créer la classe

Mix sont différents de ceux utilisés pour la classe Parole et Musique.

5.2.2

Construction de la base audio

Tous les signaux audio utilisés sont échantillonnés à 16 kHz sur 16 bits. La construction du corpus audio repose sur la concaténation de clips audio de 4 secondes appartenant aux trois classes Parole, Mu-

sique, Mix. Les clips de 4 secondes sont tirés aléatoirement à partir d’une grande collection de signaux

de parole et d’extraits musicaux. Les clips de la classe Mix sont eux, créés en mélangeant deux clips de 4 secondes, l’un de parole, l’autre de musique, afin d’obtenir le ratio Parole à Musique souhaité. Aussi, on précise que chaque clip audio voit son niveau normalisé afin d’avoir un corpus audio avec un niveau global homogène. Les trames silencieuses sont également supprimées.

Au final, le corpus audio sur lequel nous travaillerons par la suite est constitué de 630 clips de 4 secondes, ce qui représente une durée totale de 42 mn. Les classes Parole, Musique, Mix sont réparties de manière uniforme, soit 210 clips par classes.

Fs Nombre de clips par classe Nombre total de clips Durée totale

16000 Hz 210 630 42 mn

Table 5.1 – Éléments caractéristiques du corpus audio.

Travailler à partir d’extraits audio courts de quelques secondes présente plusieurs avantages. Tout d’abord, cela permet d’offrir une grande diversité au corpus final. Au lieu d’exploiter des enregistrements plus longs contenant les mêmes sources (même locuteur pour la parole ou même extrait audio pour la musique), l’utilisation des clips permet plus facilement de faire varier le contenu du corpus. On aura alors une plus grande diversité de locuteurs, de langues et d’extraits musicaux. Ensuite, cette démarche nous

5.3 Protocole

permet de contrôler exactement, et à la trame près, la nature des sources. En d’autres termes, l’annota- tion du corpus sera plus fiable puisqu’on connaît les classes présentes dans chaque clip. L’annotation à la main de signaux audio est une tâche laborieuse qui peut être de plus source d’erreurs. Ici, l’annotation est générée en même temps que la construction du corpus.

Bien que la base audio ainsi constituée puisse sembler de taille réduite comparée à d’autres corpora, notamment ceux utilisés pendant la campagne ESTER (pour Évaluation des Systèmes de Transcription

Enrichie d’Émissions Radiophoniques), (Galliano et al. 2005), (Ramona 2010), qui comptabilise

plusieurs dizains d’heures d’enregistrement, on considère que notre base d’étude représente un bon outil pour cette tâche de classification. En effet, on peut par exemple reprocher aux corpora ESTER d’être très largement dominés par les signaux de parole (déséquilibre des classes), de présenter une forte redondance (longs extraits avec le même type de musique ou le même locuteur) et de présenter quelques erreurs d’annotations. Dans notre cas, même avec une base audio plus réduite, on est tout de même capable d’offrir une certaine diversité de contenu et une fiabilité d’annotation. Il est également nécessaire d’insister sur l’importance de l’annotation puisqu’elle a de grandes conséquences sur l’apprentissage et l’évaluation d’un modèle statistique.

5.3

Protocole

5.3.1

Descripteurs audio et système de classification

On utilise les descripteurs audio suivants (et leur dimension entre parenthèses) déjà évoqués dans le chapitre 2, section 2.2 : les quatre moments spectraux (4), le flux spectral (1), la fréquence de coupure (1), la pente spectrale (1), la décroissance spectrale (1), les mesures de platitude d’amplitude spectrale (Spectral Flatness Measure et Crest Factor Measure) calculées sur 6 bandes d’octaves (12), les coefficients OBSI et OBSIR calculés dans 8 bandes d’octave (15), le taux de passage par zéro (1), les coefficients MFCC (25), les coefficients LPC (24), les coefficients LSF (24), la fréquence fondamentale (1) et la mesure d’apériodicité (1). Cela nous amène à un total de 124 coefficients. Chaque descripteur est calculé sur une trame de 20 ms, sans recouvrement.

L’algorithme de classification est un SVM avec un noyau gaussien. Trois classes audio sont considérées ici : la classe Parole, la classe Musique et la classe Mix. Le corpus audio est divisé en trois sous-ensembles de même taille : une base d’apprentissage, une base de validation et une base d’évaluation. Le modèle est appris en tirant aléatoirement un tiers des échantillons disponibles dans la base d’apprentissage. Les hyperparamètres du SVM sont déterminés par validation croisée sur ce même sous-ensemble. Le modèle final est ensuite testé sur la base d’évaluation. Cette procédure est répétée cinq fois.

5.3.2

Mesures de performances

Les résultats sont exprimés selon les F-mesures, en considérant les trois classes de manière distincte. Cette précision est due au fait que dans d’autres études, le problème de classification parole/musique/mix est traité en considérant deux classes, parole et musique, pouvant se superposer pour former la classe mix. Cette approche est notamment utilisée dans la campagne d’évaluation ESTER (Galliano et al. 2005), (Ramona & Richard 2008). Bien que cette conception du problème soit parfaitement justifiable d’un

point de vue acoustique, on préfère toutefois traiter les trois classes de manière distincte afin d’avoir une mesure de performance pour chaque classe. À noter que de cette manière, la mesure de performance est plus pénalisante que la mesure utilisée pour les campagnes ESTER.

Enfin, en plus de la mesure de performance globale, estimée à partir de la base d’évaluation dans son intégralité, on s’intéressera aux performances autour des zones de transition, définies comme le voisinage d’un changement de classe audio (figure 5.5). Cette mesure pourra nous donner une indication de la réactivité du système de classification vis-à-vis des changements acoustiques. En effet, nous avons déjà pointé le fait qu’une des différences majeures entre les approches de classification à la trame et sur segment pouvait être la latence induite par le processus d’intégration temporelle lors d’une classification par trame. La décision opérée à l’instant courant est déduite des observations courantes et passées. En conséquence, on regarde dans le passé pour prendre une décision à l’instant courant. La mesure de performance au niveau des transitions nous permettra d’avoir une mesure objective de ce phénomène.

Classe B

Classe A

Zones de transition

Figure 5.1 – Illustré ici pour un problème à deux classes (A et B), les zones de transition correspondent au voisinage de chaque transition d’une classe à une autre. Les zones stables, elles, concernent les sections ne comportant pas de transition.

Les zones de transitions sont définies comme les 15 trames avant et après chaque transition. En complément, on donnera également les mesures pour les zones stables, qui sont par conséquent les segments audio non concernés par les zones de transition.