• Aucun résultat trouvé

Segmentation en sources

24.1 Pr´esentation du probl`eme

24.1.1 Introduction

Le but ici est de segmenter des bandes son de films, ou des programmes radiophoniques enre-gistr´es, en parties o`u nous sommes en pr´esence de voix parl´ee et en parties o`u nous sommes en pr´esence de musique (voix chant´ee et/ou musique instrumentale). Ceci notamment pour aider au codage (choix du codeur le plus adapt´e `a la parole ou de celui le plus adapt´e `a la musique : pour le codage perceptif, voir [Pai92], [Phi95], [BS94], [PMMS92], [Col94]...), mais aussi parce que les techniques pr´esent´ees dans les parties pr´ec´edentes pour segmenter en notes ou en phones ou plus g´en´eralement en parties stables ne s’appliquent qu’`a la musique.

D’autres cat´egories de sons seront consid´er´ees par la suite (il s’agit de perspectives) : voix chant´ee seule, bruits de machines, bruits de rue...

Pour le moment, nous nous limitons `a ces deux cat´egories : • voix parl´ee

• musique, c’est-`a-dire musique instrumentale ou voix chant´ee seule (nous classons dans cet expos´e la voix chant´ee seule, c’est-`a-dire la voix a cappella, avec les instruments de musique) ou les deux ensemble

Un programme, appel´e sources, a ´et´e d´evelopp´e en c, sous unix. Qui accompagne ce programme, une interface graphique a ´et´e d´evelopp´ee. Elle a pour but de nous aider `a l’interpr´etation.

L’analyse se d´ecompose en deux ´etapes :

• Des caract´eristiques de base sont extraites qui essaient de mettre en ´evidence les propri´et´es sp´ecifiques de chaque classe. Des fonctions d’observation sont calcul´ees `a partir de ces ca-ract´eristiques de base afin de faire ressortir ces diff´erences. Elles sont pr´esent´ees dans la deuxi`eme section (section 24.2) de ce chapitre.

• Nous classifions les ´echantillons des fonctions d’observation : les m´ethodes de classification utilis´ees sont pr´esent´ees dans la troisi`eme section (section 24.3) de ce chapitre. La clas-sification se fait ici apr`es un entraˆınement. Remarquons que les techniques utilis´ees jusqu’`a pr´esent, notamment lors de la segmentation en zones stables telle qu’elle est pr´esent´ee dans cet expos´e (voir les parties pr´ec´edentes), ne n´ecessitent pas d’entraˆınement.

Quelques performances obtenues avec des signaux r´eels sont donn´es dans la quatri`eme section (section 24.4) de ce chapitre. Elles sont comment´ees.

Les corr´elations entre les caract´eristiques de base sont ´etudi´ees dans la cinqui`eme section (section 24.5) de ce chapitre. La plupart des techniques d´ecrites dans ce chapitre jusqu’`a cette sec-tion 24.5 sont tir´ees de la litt´erature concernant la segmentasec-tion en sources (principalement [SS97]).

`

calcul des corr´elations), de nouvelles fonctions d’observation sont propos´ees, visant `a mieux mettre en lumi`ere les diff´erences entre la classe (( parole )) et la classe (( musique )).

Les corr´elations entre les fonctions d’observation sont donn´ees dans la sixi`eme section (section 24.6) de ce chapitre.

L’interface graphique du programme sources est tr`es rapidement pr´esent´ee dans la septi`eme section (section 24.7) de ce chapitre. Nous indiquons dans quelle mesure elle peut nous aider `a l’interpr´etation.

24.1.2 Les sons utilis´es

Pour les performances montr´ees dans cet expos´e, nous avons utilis´e quatre fichiers sons : • musique1wav.sf : 625 secondes de musique enregistr´ee `a la radio (quelques secondes

d’ac-cord´eon seul, puis les Rita Mitsouko, puis L´eo Ferr´e, puis Zazie)

• parole1wav.sf : 656 secondes de voix parl´ee enregistr´ee `a la radio (informations, discussions (( sages )), toux, rires, po`emes scand´es ; 4 voix d’hommes, 1 voix d’homme au t´el´ephone, 4 voix de femmes)

• musique2wav.sf : 761 secondes de musique enregistr´ee `a la radio (Oph´elie Winter, puis quelques secondes de jazz, puis Michel Delpech, puis Susan Vega : voix a cappella parfois, puis Michel Sardou)

• parole2wav.sf : 599 secondes de voix parl´ee enregistr´ee `a la radio (discussions moins (( sages )) : personnes qui parlent ensemble, rires, publicit´e sans musique : homme ; 5 femmes, 1 homme) Un (( jeu de sons )) correspond `a `a peu pr`es 20 minutes de son enregistr´e `a la radio, dont environ 10 sont de la musique et environ 10 de la voix parl´ee. Chaque jeu de sons est form´e de la r´eunion d’un fichier de voix parl´ee et d’un fichier de musique. Les deux jeux de sons sont : musique1wav.sf + parole1wav.sf, et musique2wav.sf + parole2wav.sf.

24.2 Les fonctions d’observation

24.2.1 Introduction

Les fonctions d’observation utilis´ees sont bas´ees sur l’extraction de caract´eristiques (( de base )). Ces caract´eristiques de base sont le flux spectral, le centro¨ıde, le taux de passage par 0, le flux entre le spectre d’amplitude et le spectre d’amplitude reconstruit apr`es liftrage et le (( spectral rolloff point )). Dans la litt´erature, d’autres caract´eristiques de base ont ´et´e mises en place : voir les articles [Sau96], [SS97], [SBZD99], [WE99] et [ZWG99] (ce dernier article a ´et´e ´ecrit par des gens qui viennent du traitement de la parole).

Il sera n´ecessaire d’en d´evelopper de nouvelles quand nous segmenterons en plus de deux classes. Les caract´eristiques de base sont calcul´ees pour des trames temporelles larges de quelques dizaines de millisecondes. Chaque caract´eristique de base nous donne une valeur (un scalaire) pour chaque trame. Ensuite, les fonctions d’observation sont calcul´ees pour des segments d’une seconde, `a partir des valeurs des caract´eristiques de base obtenues pour les trames de ce segment.

24.2.2 Les caract´eristiques de base

24.2.2.1 Le flux spectral

La premi`ere caract´eristique de base est le flux spectral calcul´e avec les spectres d’amplitude. Le (( flux spectral )) a d´ej`a ´et´e d´ecrit, par exemple dans la section 2.4.3 de la partie II. Les flux spectraux calcul´es avec les enveloppes spectrales n’ont pas ´et´e utilis´es ici.

Le flux spectral est plus grand dans les parties non vois´ees de la voix que dans les parties vois´ees. En effet, les spectres d’amplitude de deux trames successives de bruit peuvent varier ´enorm´ement. Pour la musique il vaut toujours sensiblement la mˆeme chose. Tous les flux spectraux devraient r´eagir ainsi.

24.2.2.2 Le centro¨ıde

Le centro¨ıde est le centre de gravit´e g du spectre d’amplitude (calcul´e avec la fft pour chaque trame), c’est-`a-dire : g = PtF F T/2 i=0 i S(i)ˆ PtF F T/2 i=0 S(i)ˆ o`u Sˆ

est le spectre d’amplitude et tF F T la taille de la fft (`a comparer avec (( HF C )), d´efini dans la section 2.5.5).

Le centro¨ıde est plus grand pour les trames non vois´ees de la voix que pour les trames vois´ees. Dans le premier cas, en effet, le spectre d’amplitude contient plus d’´energie dans les hautes fr´equences (le signal est du bruit, blanc ou color´e) que dans le second (l’´energie est concentr´ee principalement dans les premiers harmoniques, c’est-`a-dire dans les basses fr´equences). Pour la musique il vaut toujours sensiblement la mˆeme chose.

24.2.2.3 Le taux de passage par 0 (TPPZ)

Le taux de passage par 0 est le nombre de fois que le signal dans le domaine temporel franchit 0 au cours d’une trame. Les N ´echantillons de la trame courante s’´ecrivent : [x1. . . xN]. La d´etection d’un passage par 0 s’effectue ainsi :

si xi== 0|| (xi+1> 0 && xi< 0)|| (xi+1< 0 && xi> 0) alors il y a passage par 0

Dans une trame de bruit (correspondant `a une portion d’une consonne non vois´ee), le nombre de passage par 0 est plus grand (pr´esence de hautes fr´equences) que dans une trame de voix vois´ee. Pour la musique il vaut toujours sensiblement la mˆeme chose.

24.2.2.4 Le flux entre le spectre d’amplitude et le spectre d’amplitude reconstruit apr`es liftrage

Cette ´etude a fait l’objet d’un stage d’un mois, effectu´e en septembre 1998 par un ´etudiant roumain, Dragos Spataru, qui est actuellement en quatri`eme ann´ee `a l’Universit´e Polytechnique de Bucarest (voir [Spa98]).

Le principe de la m´ethode est le suivant :

• Nous calculons le cepstre ˆC pour une trame x :

ˆ C = Partie r´eelle    FFT−1    loge    |FFT(x)| | {z } |Sˆ|             (FFT−1 correspond `a la FFT inverse).

Dans [Tem96] (page 268), nous trouvons une justification de certains termes utilis´es dans cet expos´e. Nous donnons le passage qui nous concerne : (( ...the authors of the first pa-per devoted to this method [cepstrum], (Bogert et al. 1963) introduced a number of new terms: the spectrum-of-the-(logarithm)-spectrum is called the cepstrum, the variable along the horizontal axis is designated by the word quefrency,... while the word filter is replaced by lifter... )).

Indiquons de plus que le cepstre r´eel ˆC est sym´etrique par rapport `a la qu´efrence 0. Nous les num´erotons ainsi :



tF F T2 + 1 tF F T 2



(voir la page 13, o`u nous donnons des notations similaires pour les spectres).

• Nous ne gardons que les n coefficients de ˆC correspondant aux plus petites qu´efrences posi-tives, le coefficient correspondant `a la qu´efrence 0, et les n coefficients du cepstre correspon-dant aux plus petites qu´efrences n´egatives en valeur absolue. La valeur des autres est mise `a 0. Ceci correspond `a un (( liftrage )).

Nous obtenons ˆC0.

Dans le cas d’un son vois´e, les coefficients de num´ero d’ordre ´elev´e (entre n + 1 et tF F T 2 et entre −n − 1 et −tF F T2 + 1) nous permettent de remonter, apr`es transform´ee inverse, au train d’impulsions qui est ´emis par la source. La p´eriodicit´e de ces impulsions correspond `a la p´eriode fondamentale.

Les plus petites qu´efrences en valeur absolue (de num´eros d’ordre−n `a n) nous permettent de remonter, apr`es transform´ee inverse, `a la r´eponse impulsionnelle du filtre qui filtre ce train d’impulsions (passage dans la gorge, entre les l`evres...). Il s’agit de ce que nous voulons obtenir ici.

En ce qui nous concerne, nous gardons 99 (les 50 premiers coefficients positifs et les 49 premiers coefficients n´egatifs) coefficients pour tF F T = 2048. Dans le programme sources, la position de ce seuil SCest fixe. Elle a ´et´e choisie compl`etement empiriquement. Il s’agit d’un param`etre libre `a fixer.

Des am´eliorations sont envisageables : il faudrait utiliser une fenˆetre de pond´eration avant de calculer le cepstre ; et une autre fenˆetre de pond´eration, moins s´ev`ere que la fenˆetre rectangulaire utilis´ee, pour s´electionner les coefficients qui servent `a la reconstruction de la r´eponse impulsionnelle du filtre. Il s’agit de perspectives.

• La transform´ee inverse est calcul´ee, mais pas jusqu’`a obtenir le signal dans le domaine tem-porel y : nous nous arrˆetons au spectre d’amplitude reconstruit apr`es liftrage

Sˆ0 : Sˆ0 = exp  FFTCˆ0 • La caract´eristique (( de base )) est alors :

F O = tF F T 2 X i=0 S(i)ˆ 0S(i)ˆ

Ainsi, le spectre d’amplitude d’un bruit (voix non vois´ee) est mieux approxim´e que le spectre d’amplitude d’un signal harmonique (voix vois´ee) : voir pour s’en convaincre l’exemple donn´e page 520 du livre d’Oppenheim et Schafer, (( Digital Signal Processing )) ([OS75]). Pour la musique il vaut toujours sensiblement la mˆeme chose.

En fait, pour un son vois´e, nous obtenons une sorte d’enveloppe spectrale, mais surbaiss´ee. Nous pouvons remonter `a l’enveloppe spectrale `a partir de ce spectre d’amplitude reconstruit apr`es liftrage : voir la th`ese de Hall´e ([Hal85]).

24.2.2.5 Le (( Spectral Rolloff Point ))

Le (( Spectral Rolloff Point )) est la position p de l’´echantillon fr´equentiel tel que 95 % (cas g´en´eral : x %, x ´etant un param`etre libre `a fixer) de l’´energie du spectre d’amplitude soit comprise entre le premier ´echantillon fr´equentiel (pour lequel f = 0) et cet ´echantillon fr´equentiel p (voir la figure 24.1). Nous distinguons ainsi encore une fois les parties vois´ees (pour lesquelles l’´energie est concentr´ee dans les basses fr´equences : p est petite) des parties non vois´ees (pour lesquelles l’´energie est plus uniform´ement r´epartie sur tout le spectre d’amplitude : p est plus grande). Pour la musique il vaut toujours sensiblement la mˆeme chose.

Cette caract´eristique de base n’est pas impl´ement´ee dans le programme sources.

24.2.3 Fonctions d’observation

Ces caract´eristiques (( de base )) sont calcul´ees pour des trames (des portions) temporelles larges de quelques dizaines de millisecondes (disons, commun´ement, 20, ce qui, nos signaux ´etant

(( rolloff point )) 95 % de l’´energie fe 2 du spectre 5 % de l’´energie du spectre

spectre