Prise de d´ ecision pour chacune des fonctions d’observation

3.1 Introduction

Les fonctions d’observation impl´ement´ees dans le programme segmentation sont au nombre de dix. Il s’agit de :

• la (( valeur absolue de la dérivée de la fréquence fondamentale ))

• la (( valeur absolue de la dérivée relative de la fréquence fondamentale )) • la (( valeur absolue de la dérivée de l’énergie ))

• la (( valeur absolue de la dérivée relative de l’énergie ))

• la (( somme (moyenne arithmétique) des valeurs absolues des dérivées des indices d’inharmo-nicité ))

• le (( produit (moyenne géométrique) des valeurs absolues des dérivées des indices d’inharmo-nicité ))

• la (( somme des valeurs absolues des dérivées des indices de voisement première forme )) • le (( flux spectral, calculé soit à partir de deux spectres d’amplitude, soit à partir de deux

enveloppes spectrales du type ar, la fonction d’att´enuation de l’oreille ´etant prise en compte ou non ))

• l’(( écart entre deux modèles statistiques, méthode utilisée sur le trajet de f0 ))

• la (( détection de rupture de modèles utilisant la modélisation auto-régressive, méthode utilisée elle aussi sur le trajet de f0 ))

Seule la dernière fonction d’observation est basée sur un algorithme de décision. Pour les autres, il nous faut discriminer les pics qui ont un sens, c’est-à-dire ceux qui correspondent à une transition, de ceux qui correspondent à du bruit, c’est-à-dire qui sont présents dans les parties stables du signal. Ceci est la deuxième étape de l’analyse segmentation en zones stables.

Dans la deuxième section (section 3.2) de ce chapitre, est présentée la méthode de seuillage qui a été retenue.

Dans la troisi`eme section (section 3.3) de ce chapitre, nous discutons de la normalisation des fonctions d’observation, cette normalisation ayant pour but d’´eviter le seuillage.

Nous donnons une conclusion dans la quatri`eme section (section 3.4) de ce chapitre. Nous donnons aussi quelques perspectives.

3.2 Seuillages

3.2.1 Calcul automatique de la valeur des seuils

Chaque fonction d’observation correspond à une variable aléatoire dont les échantillons se répartissent en deux classes : une qui correspond à du bruit (dans les zones stables) ; l’autre aux pics à détecter (aux moments des transitions). Il s’agit de discriminer ces deux classes, c’est-à-dire de poser un seuil. Il existe un grand nombre de méthodes pour seuiller automatiquement. Elles sont présentées, non exhaustivement, dans l’annexe B. Leurs qualités et leurs défauts respectifs sont discutées dans cette même annexe. Elles viennent principalement du traitement des images : voir notamment [SSW88].

Dans notre cas, les pics dus aux transitions sont très rares et leur variance est grande. Nous mon-trons dans l’annexe B que les performances des méthodes de seuillage sont énormément dégradées quand la probabilité a priori d’une classe est très petite et quand la variance de cette même classe est très supérieure à la variance de l’autre classe.

La méthode implémentée dans le programme segmentation est la méthode des 3σ. Si nous considérons que le bruit suit une loi normale, nous pouvons estimer σ, l’écart-type, en retenant par exemple n = 90% (la méthode est relativement robuste à la valeur arbitrairement fixée n, comme il est indiqué dans l’annexe B, sur la figure B.56) des plus petits échantillons de la fonction d’observation. Alors, la valeur du seuil est 3σ. C’est-à-dire qu’il est décidé que les pics plus grands que 3σ sont des pics correspondant à des transitions.

Il y a une justification théorique à ce seuil, avec le (( seuil universel )) ((( universal threshold ))), défini par Donoho dans [Don94] et [DJ94]. Ce seuil est égal à σ^p2 log_e(M ), où M est la taille du signal en nombre d’échantillons. Donoho prouve que quand M tend vers l’infini la probabilité qu’un échantillon de bruit dépasse ce seuil tend vers 0. Et σ^p2 log_e(M ), pour un M de valeur (( raisonnable )) pour nous, c’est-à-dire de l’ordre de 10001, par exemple, est très proche de 3 (3,72).

Le seuillage nous donne pour chaque fonction d’observation une fonction de décision qui vaut 0 (nous parcourons une zone stable) ou 1 (une transition a été détectée).

3.2.2 Quelques remarques

Actualisation des seuils Le seuillage est local : les seuils sont calculés, pour chacune des fonc-tions d’observation, sur des porfonc-tions glissantes larges de n secondes. n est un paramètre libre. Dans l’avenir (il s’agit d’une perspective), nous actualiserons les seuils toutes les 10 secondes, ou nous déterminerons automatiquement quand il doit l’être (grâce au niveau de segmentation en caractéristiques : voir la partie III).

Cette actualisation automatique des seuils n’a pas été implémentée dans le programme segmen-tation. Ce programme a été testé pour des sons dont la longueur est de l’ordre de la dizaine ou, au plus, de la vingtaine de secondes (voir le chapitre 6).

Contrˆole des seuils Dans le programme segmentation, l’utilisateur peut modifier la valeur des seuils `a la main.

3.3 Normalisation des fonctions d’observation

Les (( flux spectraux )) (voir la section 2.4.3) sont calculés à partir de deux (( spectres )) (deux spectres d’amplitude, ou deux enveloppes spectrales) normalisés en énergie, c’est-à-dire que l’intégrale de chacun d’eux entre f = 0 et f = ^fê

2 ^{est égale à 1. Donc, la valeur maximale de la} plupart des (( flux spectraux )) est de 2, valeur obtenue dans le cas extrême (et fort improbable) où les supports fréquentiels des deux (( spectres )) sont disjoints : voir la figure 3.1. Ainsi, la plupart

1. Les fonctions d’observation étant le plus souvent échantillonnées à 100 Hz, M = 1000 échantillons correspond `

des (( flux spectraux )) sont déjà normalisés (entre 0 et 2). Ne le sont pas ceux basés sur un spectre d’amplitude et une enveloppe spectrale.

second

fe 2

spectre

premier

spectre

Fig. 3.1 – Exemple de spectres d’amplitude à supports disjoints. En abscisse : la fréquence en Hz ; en ordonnée : l’amplitude des échantillons fréquentiels

Le problème ne se pose pas pour les fonctions d’observation basées sur la rupture de modèles (voir la section 2.2.6), puisqu’en fait nous obtenons directement des fonctions de décision.

Les fonctions d’observations basées sur l’écart entre deux modèles statistiques (voir la section 2.2.5) sont elles aussi normalisées (entre 0 et 1), puisqu’elles correspondent à la mesure d’une probabilité.

Ce n’est pas le cas pour les autres fonctions d’observation, c’est-à-dire notamment pour toutes les valeurs absolues des dérivées et des dérivées relatives.

Par exemple, la valeur absolue de la dérivée à l’instant d’échantillonnage i de la fonction f est égale à :

|df(i)| = |f(i + a) − f(i − 1)| et la valeur absolue de la dérivée relative à :

|δf(i)| = ^{|f(i + a) − f(i − 1)|}_{f (i)}

(a, ici, peut être égal à 0 ou à 1)

Nous définissons une autre dérivée, que nous appelons la dérivée normalisée. Elle est égale à :

|∆f(i)| = _{max [f (i + a) f (i}^{|f(i + a) − f(i − 1)|} − 1)]

où l’opérateur max nous donne la plus grande valeur du tableau à deux éléments [. .].

Puisque les fonctions d’observations avant dérivation (trajet de f0, trajet de l’énergie, indices d’inharmonicité, indices de voisement, centro¨ıde, coefficients d’auto-corrélation...) sont toujours positives, nous sommes sûr que leur dérivée normalisée est toujours comprise entre 0 et 1. Le cas le plus défavorable est quand f (i + a) = f (i− 1) = 0 : alors, la valeur de ∆f(i) doit être imposée à 0. Donc, ces fonctions d’observation sont normalisables.

Le test de Brandt ne donne pas une fonction d’observation normalisée. La fonction d’obser-vation décrite dans la section 14.5 de la partie III n’est pas non plus normalisée.

3.4 Conclusion et perspectives

3.4.1 Perspectives

3.4.1.1 Seuiller ou ne pas seuiller

Pourquoi normaliser les fonctions d’observation ? Les méthodes de seuillage proposées dans l’annexe B sont adaptées à des variables aléatoires normales. Nous avons testé ces méthodes de

seuillage en supposant que nous étions en présence de telles variables aléatoires, ce qui ne correspond pas à la réalité. Le bruit suit plutôt une loi de Rayleigh et les pics dus aux transitions une loi normale. Ainsi, la prise décision automatique par seuillage automatique n’est pas forcément efficace pour notre cas. Il faudrait donc :

• ou bien adapter les méthodes de seuillage à nos données • ou bien nous affranchir du seuillage automatique

Consid´erons la seconde solution :

Premièrement, cette normalisation nous donne la possibilité d’utiliser des classifieurs, comme les k plus proches voisins (kppv ; ou kNN, pour (( k Nearest Neighbours ))) ou les réseaux de neurones (la normalisation est nécessaire aussi bien pour les kppv que pour les réseaux de neurones : voir à ce sujet le rapport [Rap95]), pour prendre les décisions. Ceci pour chaque fonction d’observation, mais aussi pour la prise de décision finale (voir le chapitre 4), puisqu’elle travaille avec les fonctions de décision, qui par définition sont comprises entre 0 et 1. Il faut entraˆıner les classifieurs. Pour le faire correctement les réseaux de neurones, ainsi que les k plus proches voisins, il faut avant tout utiliser une grande base de sons.

Deuxièmement, si nous utilisons des fonctions d’observation normalisées, nous pouvons, pour chaque fonction d’observation, étudier la position optimale du seuil à appliquer. Cette position optimale est déterminée après avoir étudié le comportement de chaque fonction d’observation sur une base de sons conséquente. Ainsi, après cet entraˆınement, nous n’avons plus besoin de déterminer automatiquement un seuil. Cette méthode nous permettrait, après entraˆınement, de détecter les pics qui nous intéressent sans avoir à déterminer automatiquement la position d’un seuil et sans avoir à utiliser de classifieur.

Ainsi, d’autres méthodes que le seuillage automatique devront être testées (réseaux de neurones, k plus proches voisins...). Au sujet de la segmentation avec l’aide des réseaux de neurones, voir l’article [KHM96]. Nous avons vu qu’il existe beaucoup de fonctions d’observation. Avant d’intégrer d’autres fonctions d’observation dans le programme segmentation, nous nous attacherons à l’étude d’autres techniques de prises de décision automatiques. Indiquons-le de nouveau : il s’agit de pers-pectives.

Cependant, comme il a été dit, un réseau de neurones ou les kppv doivent être entraˆınés, et l’un de nos objectifs est de construire un programme de segmentation le plus automatique possible. Aussi, le seuillage automatique est conservé.

3.4.1.2 Une fonction de coˆut

Nous présentons dans cette section une dernière perspective. Junqua et Wakita, dans l’article [JW88], définissent une fonction de coût C pour chaque marque de segmentation trouvée, utilisable directement pour une grande partie de nos fonctions d’observation. Soient val(i) la valeur de la fonction d’observation au moment i considéré, pour lequel nous avons détecté une marque de seg-mentation ; tila localisation temporelle de la marque ; t_i−1celle de la marque précédente ; valmax la valeur maximale de cette fonction d’observation ; et min la valeur de la fonction d’observation dans le creux (minimum local le plus petit) précédent la marque en i. Nous avons alors :

C(i) = ^val valmax

val− min

val + min^(tⁱ− ti−1)

Ainsi, les trop petits pics sont pénalisés (premier terme du produit) ; les pics pas assez prononcés sont rejetés (deuxième terme) ; et les pics trop proches sont pénalisés aussi (troisième terme). Junqua et Wakita donnent une autre fonction de coût pour les (( plateaux )) (c’est-à-dire les (( zones stables )) pour nous), prenant en compte leurs longueurs : il ne faut pas qu’ils soient

trop longs. Mais, comme nous l’avons mentionné dans l’introduction, nous ne voulons pas faire d’hypothèse sur la longueur des notes. De plus, de nouveaux paramètres libres sont introduits, et il faudrait seuiller C.

3.4.2 Conclusion

Cependant, ce problème de prises de décisions automatiques est compliqué par le fait que les fonctions d’observation ne réagissent pas exactement aux mêmes moments, du fait que les transitions ne sont pas instantanées. Dans ce chapitre, nous avons considéré la prise de décisions d’un point de vue local : pour chaque instant d’échantillonnage i des fonctions d’observation, sans considérer ce qui a été obtenu aux instants voisins ; il faut relâcher cette contrainte. Ceci est discuté dans le chapitre suivant.

Chapitre 4

Dans le document Segmentation et indexation des signaux sonores musicaux (Page 66-71)