• Aucun résultat trouvé

R´ esum´ e des performances du syst` eme complet pour les sons des bases de donn´eessons des bases de donn´ees

Quelques performances

6.4 R´ esum´ e des performances du syst` eme complet pour les sons des bases de donn´eessons des bases de donn´ees

6.4.1 Sons de l’ircam

Voir les tableaux 6.3 et 6.4. Dans la troisi`eme colonne, nous donnons la dur´ee du son consid´er´e ; dans la quatri`eme, le nombre de transitions `a d´etecter ; dans la cinqui`eme, le nombre de transitions d´etect´ees, appel´e dans le tableau (( nbre de bd )) (bd pour (( bonnes d´etections ))) ; et dans la sixi`eme, le nombre de fausses alarmes, appel´e dans le tableau (( nbre de fa )) (fa pour (( fausses alarmes ))). Faisons quelques remarques :

• L’extrait de flˆute est un son (( simple )). Ce son a ´et´e enregistr´e en salle an´echo¨ıque, donc la r´everb´eration est tr`es r´eduite. De plus, ce son est parfaitement harmonique et monophonique, et il est quasi non modul´e. Utiliser plusieurs fonctions d’observation permet de diminuer le nombre de fausses alarmes.

• L’extrait de clarinette est un son (( simple )). Il comprend des notes extrˆemement courtes. • L’extrait de violon ayant ´et´e enregistr´e `a un niveau tr`es faible, il est tr`es bruit´e. Un vibrato

est pr´esent. De plus, nous entendons le bruit des feuilles de partition quand elles sont tourn´ees (le signal n’est plus tout `a fait monophonique). Le nombre de fausses alarmes passe de 15 `a 2. L’apport de la fusion des r´esultats obtenus avec plusieurs fonctions d’observation est montr´e. • Pour l’extrait de voix chant´ee, un vibrato tr`es important est pr´esent. La mˆeme voyelle est chant´ee tout du long de l’extrait. Pour obtenir les r´esultats du tableau 6.3, nous utilisons la valeur absolue de la d´eriv´ee du trajet de f0 sans suppression du vibrato (la (( suppression du vibrato )) est pr´esent´ee dans la partie III, chapitre 15). Pour obtenir les r´esultats du tableau 6.4, nous segmentons avec les fonctions d’observation bas´ees sur f0 une fois que le vibrato a ´et´e supprim´e. L’apport de la suppression du vibrato sur le trajet de f0 est montr´e : nous passons de 9 fausses alarmes `a 0.

• La note de piano n’est pas tout `a fait harmonique. Le bruit de l’´etouffoir quand il se referme sur la corde `a la fin de la note est audible. Remarquons que les d´eriv´ees de l’´energie nous permettent de d´etecter cet instant.

• L’extrait de castagnettes n’est pas harmonique. Pour segmenter, nous n’avons pas utilis´e les fonctions d’observation bas´ees sur le trajet de f0. Les d´eriv´ees de l’´energie et le flux spectral donnent de bons r´esultats.

6.4.2 Sons du cd Sqam

Voir les tableaux 6.5 et 6.6. Dans la troisi`eme colonne, nous donnons la dur´ee du son consid´er´e ; dans la quatri`eme, le nombre de transitions `a d´etecter ; dans la cinqui`eme, le nombre de transitions d´etect´ees ; et dans la sixi`eme, le nombre de fausses alarmes. Faisons quelques remarques :

• Ce son de gong artificiel est form´e de douze fois la mˆeme note. Chaque note est compos´ee d’une seule sinuso¨ıde, amortie exponentiellement avec le temps. La fr´equence de cette sinuso¨ıde est f0= 100 Hz. Les notes sont rassembl´ees en quatre groupes de trois notes tr`es rapproch´ees.

type dur´ee nbre de transitions nbre de bd nbre de f a flˆute harmonique 13,685 s 21 21 0 clarinette harmonique 20 s 31 31 3

violon harmonique 15 s 16 16 2

voiceP voix chant´ee 25,572607 s 21 20 0 piano harmonique 4,458219 s 2 2 0 castagnettes percussion 7,72512 s 43 42 0

Tab. 6.4 – Performances de la segmentation avec le syst`eme complet – Sons de l’ircam

Les groupes sont s´epar´es par des silences de dur´ee 1 s. Pour chaque groupe, nous avons 4 transitions `a d´etecter. La dur´ee de chaque note est 1,3 s. Les indices d’inharmonicit´es ne peuvent pas ˆetre utilis´es, puisque chaque note n’est form´ee que d’une seule sinuso¨ıde. • Ce son de gong artificiel est form´e de huit fois la mˆeme note. Chaque note est compos´ee d’une

seule sinuso¨ıde, amortie exponentiellement avec le temps. La fr´equence de cette sinuso¨ıde est f0 = 475 Hz. Un vibrato est pr´esent. L’amplitude du vibrato est 20 Hz. La dur´ee de chaque note est 1,3 s. Un silence de 0,5 s s´epare deux notes successives. Ainsi, nous avons 16 transitions `a d´etecter. Les indices d’inharmonicit´es ne peuvent pas ˆetre utilis´es, puisque chaque note n’est form´ee que d’une seule sinuso¨ıde.

• Pour cet extrait de violon, un vibrato, tr`es petit, est pr´esent. Les notes jou´ees (arp`eges) vont du sol2(f0= 196 Hz) au sol5 (f0= 1568 Hz).

• Les notes jou´ees par la contrebasse sont tr`es graves : les fr´equences fondamentales sont com-prises entre 61,7 Hz (si0) et 392 Hz (sol3).

• Les notes jou´ees par le hautbois sont plutˆot aigu¨es (les fr´equences fondamentales sont com-prises entre 293,66 Hz (r´e3) et 1174,64 Hz (r´e5).

• L’extrait de clarinette (arp`eges) est un son simple. Les notes sont longues. Aucun probl`eme. • L’extrait de clarinette basse (arp`eges) est un son simple. Les notes sont longues. Aucun probl`eme. La marque manquante quand nous utilisons le syst`eme complet est la derni`ere, c’est-`a-dire celle correspondant `a la fin de la derni`ere note, dont la chute est lente.

• L’extrait de contre-basson (arp`eges) est un son simple. Il est compos´e de notes tr`es graves : entre 32,7 Hz (do0) et 130,8 Hz (do2). La taille tSIG des fenˆetres d’analyse doit ˆetre choisie plus grande : pour le do0, tSIG doit ˆetre de l’ordre de 80 millisecondes.

• L’extrait de saxophone (arp`eges) est un son simple. Les deux fausses alarmes qui apparaissent quand nous segmentons seulement avec la (( valeur absolue de la d´eriv´ee de f0)) ont lieu lors de la derni`ere note, o`u un l´eger vibrato est pr´esent.

• L’extrait de saxophone (m´elodie) est un son simple. Pour les deux extraits de saxophone, la chute de la derni`ere note est tr`es lente, il est donc difficile de d´eterminer `a quel moment elle finit. Les r´esulats donn´es par le logiciel f0 deviennent de plus en plus chahut´es. Pour cet extrait, l’une des fausses alarmes qui apparaˆıt quand nous segmentons seulement avec la (( valeur absolue de la d´eriv´ee de f0 )) est due `a cette d´ecroissance lente.

• L’extrait de grosse caisse est compos´e de six coups s´epar´es par environ trois secondes. Seules les (( valeurs absolues des deux d´eriv´ees de l’´energie )) sont utilisables. Chacune des deux fonctions d’observation nous donne un grand nombre de fausses alarmes. Une fois la fusion de donn´ees faite, elles sont ´elimin´ees.

• L’extrait de piano est compos´e de dix notes. Les indices d’inharmonicit´e sont inutilisables. • L’extrait de timbale est compos´e de dix coups s´epar´es par au moins une seconde et demie.

Nous entendons une hauteur, mais aussi des battements : certaines sinuso¨ıdes ont donc des fr´equences tr`es proches. Il y a des partiels perturbateurs. Le programme f0 ne parvient pas `a nous donner une fr´equence fondamentale. Seules les valeurs absolues des deux d´eriv´ees de l’´energie sont utilisables. Chacune des deux fonctions d’observation nous donne un grand nombre de fausses alarmes. Une fois la fusion de donn´ees faite, elles sont ´elimin´ees.

• L’extrait d’accord´eon est compos´e de vingt-quatre notes, dont certaines sont tr`es courtes (moins de 100 millisecondes). Les (( valeurs absolues des d´eriv´ees de l’´energie )) et le (( flux spectral )) sont inutilisables.

type dur´ee nbre de transitions nbre de bd nbre de fa gong ´electronique 1 harmonique 27 s 16 16 0 gong ´electronique 2 harmonique 23 s 16 16 0 violon (arp`eges) harmonique 13 s 11 11 10 contrebasse (arp`eges) harmonique 14 s 11 11 4

hautbois (arp`eges) harmonique 9,7 s 8 8 9 clarinette (arp`eges) harmonique 8 s 8 8 0 clarinette basse (arp`eges) harmonique 9 s 8 8 5 contre-basson (arp`eges) harmonique 8,5 s 8 8 4 saxophone (arp`eges) harmonique 6,5 s 10 10 2 saxophone (m´elodie) harmonique 11 s 8 8 4

grosse caisse percussif 24 s 6 6 6

timbale percussif 26 s 10 10 5

piano (arp`eges) quasi harmonique 14,5 s 11 11 20 accord´eon (m´elodie) harmonique 9,1 s 25 23 3

orgue (arp`eges) harmonique 10 s 8 8 3 Tab. 6.5 – Performances de la segmentation avec une seule fonction d’observation (valeur absolue de la d´eriv´ee de f0 pour les sons harmoniques et la voix chant´ee ; valeur absolue de la d´eriv´ee de l’´energie pour les percussions) – Sons du cd Sqam

• L’extrait d’orgue (arp`eges) est compos´e de sept notes. Seules les fonctions d’observation bas´ees sur le trajet de f0 ((( valeurs absolues des d´eriv´ees de f0 )), (( somme des valeurs absolues des indices de voisement premi`ere forme ))) sont utilisables.

6.5 Conclusion

En premier lieu, les performances de ce syst`eme pour segmenter en zones stables sont bonnes, mais devront ˆetre ´etudi´ees pour plus de sons, et surtout pour plus de types de sons. Ensuite, tel qu’il a ´et´e construit, ce syst`eme ne peut pas nous donner la position de chaque transition – ou de chaque centre de transition – avec une pr´ecision temporelle sup´erieure `a 10 millisecondes (ceci correspond `a la p´eriode d’´echantillonnage des fonctions d’observation). Pour am´eliorer cette pr´ecision, il faudrait soit ne plus travailler avec des portions d´ecal´ees, c’est-`a-dire changer de mod`ele de signal (utiliser la rupture de mod`eles, etc.) ; soit ajouter un (( post-traitement )), c’est-`a-dire une cinqui`eme ´etape `a l’analyse segmentation en zones stables. Enfin, en troisi`eme perspective, il s’agirait de calculer une barre d’erreur sur la position de chaque transition.

type dur´ee nbre de transitions nbre de bd nbre de fa gong ´electronique 1 harmonique 27 s 16 16 0 gong ´electronique 2 harmonique 23 s 16 16 0 violon (arp`eges) harmonique 13 s 11 11 1 contrebasse (arp`eges) harmonique 14 s 11 11 0 hautbois (arp`eges) harmonique 9,7 s 8 8 3 clarinette (arp`eges) harmonique 8 s 8 8 0 clarinette basse (arp`eges) harmonique 9 s 8 7 0 contre-basson (arp`eges) harmonique 8,5 s 8 8 0 saxophone (arp`eges) harmonique 6,5 s 10 10 0 saxophone (m´elodie) harmonique 11 s 8 8 0

grosse caisse percussif 24 s 6 6 0

timbale percussif 26 s 10 9 1

piano (arp`eges) quasi harmonique 14,5 s 11 11 0 accord´eon (m´elodie) harmonique 9,1 s 25 25 1 orgue (arp`eges) harmonique 10 s 8 8 0 Tab. 6.6 – Performances de la segmentation avec le syst`eme complet – Sons du cd Sqam

Chapitre 7

Corr´elations entre les fonctions