• Aucun résultat trouvé

Prise de d´ ecision pour chacune des fonctions d’observation

3.1 Introduction

Les fonctions d’observation impl´ement´ees dans le programme segmentation sont au nombre de dix. Il s’agit de :

• la (( valeur absolue de la d´eriv´ee de la fr´equence fondamentale ))

• la (( valeur absolue de la d´eriv´ee relative de la fr´equence fondamentale )) • la (( valeur absolue de la d´eriv´ee de l’´energie ))

• la (( valeur absolue de la d´eriv´ee relative de l’´energie ))

• la (( somme (moyenne arithm´etique) des valeurs absolues des d´eriv´ees des indices d’inharmo-nicit´e ))

• le (( produit (moyenne g´eom´etrique) des valeurs absolues des d´eriv´ees des indices d’inharmo-nicit´e ))

• la (( somme des valeurs absolues des d´eriv´ees des indices de voisement premi`ere forme )) • le (( flux spectral, calcul´e soit `a partir de deux spectres d’amplitude, soit `a partir de deux

enveloppes spectrales du type ar, la fonction d’att´enuation de l’oreille ´etant prise en compte ou non ))

• l’(( ´ecart entre deux mod`eles statistiques, m´ethode utilis´ee sur le trajet de f0 ))

• la (( d´etection de rupture de mod`eles utilisant la mod´elisation auto-r´egressive, m´ethode utilis´ee elle aussi sur le trajet de f0 ))

Seule la derni`ere fonction d’observation est bas´ee sur un algorithme de d´ecision. Pour les autres, il nous faut discriminer les pics qui ont un sens, c’est-`a-dire ceux qui correspondent `a une transition, de ceux qui correspondent `a du bruit, c’est-`a-dire qui sont pr´esents dans les parties stables du signal. Ceci est la deuxi`eme ´etape de l’analyse segmentation en zones stables.

Dans la deuxi`eme section (section 3.2) de ce chapitre, est pr´esent´ee la m´ethode de seuillage qui a ´et´e retenue.

Dans la troisi`eme section (section 3.3) de ce chapitre, nous discutons de la normalisation des fonctions d’observation, cette normalisation ayant pour but d’´eviter le seuillage.

Nous donnons une conclusion dans la quatri`eme section (section 3.4) de ce chapitre. Nous donnons aussi quelques perspectives.

3.2 Seuillages

3.2.1 Calcul automatique de la valeur des seuils

Chaque fonction d’observation correspond `a une variable al´eatoire dont les ´echantillons se r´epartissent en deux classes : une qui correspond `a du bruit (dans les zones stables) ; l’autre aux pics `a d´etecter (aux moments des transitions). Il s’agit de discriminer ces deux classes, c’est-`a-dire de poser un seuil. Il existe un grand nombre de m´ethodes pour seuiller automatiquement. Elles sont pr´esent´ees, non exhaustivement, dans l’annexe B. Leurs qualit´es et leurs d´efauts respectifs sont discut´ees dans cette mˆeme annexe. Elles viennent principalement du traitement des images : voir notamment [SSW88].

Dans notre cas, les pics dus aux transitions sont tr`es rares et leur variance est grande. Nous mon-trons dans l’annexe B que les performances des m´ethodes de seuillage sont ´enorm´ement d´egrad´ees quand la probabilit´e a priori d’une classe est tr`es petite et quand la variance de cette mˆeme classe est tr`es sup´erieure `a la variance de l’autre classe.

La m´ethode impl´ement´ee dans le programme segmentation est la m´ethode des 3σ. Si nous consid´erons que le bruit suit une loi normale, nous pouvons estimer σ, l’´ecart-type, en retenant par exemple n = 90% (la m´ethode est relativement robuste `a la valeur arbitrairement fix´ee n, comme il est indiqu´e dans l’annexe B, sur la figure B.56) des plus petits ´echantillons de la fonction d’observation. Alors, la valeur du seuil est 3σ. C’est-`a-dire qu’il est d´ecid´e que les pics plus grands que 3σ sont des pics correspondant `a des transitions.

Il y a une justification th´eorique `a ce seuil, avec le (( seuil universel )) ((( universal threshold ))), d´efini par Donoho dans [Don94] et [DJ94]. Ce seuil est ´egal `a σp2 loge(M ), o`u M est la taille du signal en nombre d’´echantillons. Donoho prouve que quand M tend vers l’infini la probabilit´e qu’un ´echantillon de bruit d´epasse ce seuil tend vers 0. Et σp2 loge(M ), pour un M de valeur (( raisonnable )) pour nous, c’est-`a-dire de l’ordre de 10001, par exemple, est tr`es proche de 3 (3,72).

Le seuillage nous donne pour chaque fonction d’observation une fonction de d´ecision qui vaut 0 (nous parcourons une zone stable) ou 1 (une transition a ´et´e d´etect´ee).

3.2.2 Quelques remarques

Actualisation des seuils Le seuillage est local : les seuils sont calcul´es, pour chacune des fonc-tions d’observation, sur des porfonc-tions glissantes larges de n secondes. n est un param`etre libre. Dans l’avenir (il s’agit d’une perspective), nous actualiserons les seuils toutes les 10 secondes, ou nous d´eterminerons automatiquement quand il doit l’ˆetre (grˆace au niveau de segmentation en caract´eristiques : voir la partie III).

Cette actualisation automatique des seuils n’a pas ´et´e impl´ement´ee dans le programme segmen-tation. Ce programme a ´et´e test´e pour des sons dont la longueur est de l’ordre de la dizaine ou, au plus, de la vingtaine de secondes (voir le chapitre 6).

Contrˆole des seuils Dans le programme segmentation, l’utilisateur peut modifier la valeur des seuils `a la main.

3.3 Normalisation des fonctions d’observation

Les (( flux spectraux )) (voir la section 2.4.3) sont calcul´es `a partir de deux (( spectres )) (deux spectres d’amplitude, ou deux enveloppes spectrales) normalis´es en ´energie, c’est-`a-dire que l’int´egrale de chacun d’eux entre f = 0 et f = fe

2 est ´egale `a 1. Donc, la valeur maximale de la plupart des (( flux spectraux )) est de 2, valeur obtenue dans le cas extrˆeme (et fort improbable) o`u les supports fr´equentiels des deux (( spectres )) sont disjoints : voir la figure 3.1. Ainsi, la plupart

1. Les fonctions d’observation ´etant le plus souvent ´echantillonn´ees `a 100 Hz, M = 1000 ´echantillons correspond `

des (( flux spectraux )) sont d´ej`a normalis´es (entre 0 et 2). Ne le sont pas ceux bas´es sur un spectre d’amplitude et une enveloppe spectrale.

second

fe 2

spectre

premier

spectre

Fig. 3.1 – Exemple de spectres d’amplitude `a supports disjoints. En abscisse : la fr´equence en Hz ; en ordonn´ee : l’amplitude des ´echantillons fr´equentiels

Le probl`eme ne se pose pas pour les fonctions d’observation bas´ees sur la rupture de mod`eles (voir la section 2.2.6), puisqu’en fait nous obtenons directement des fonctions de d´ecision.

Les fonctions d’observations bas´ees sur l’´ecart entre deux mod`eles statistiques (voir la section 2.2.5) sont elles aussi normalis´ees (entre 0 et 1), puisqu’elles correspondent `a la mesure d’une probabilit´e.

Ce n’est pas le cas pour les autres fonctions d’observation, c’est-`a-dire notamment pour toutes les valeurs absolues des d´eriv´ees et des d´eriv´ees relatives.

Par exemple, la valeur absolue de la d´eriv´ee `a l’instant d’´echantillonnage i de la fonction f est ´egale `a :

|df(i)| = |f(i + a) − f(i − 1)| et la valeur absolue de la d´eriv´ee relative `a :

|δf(i)| = |f(i + a) − f(i − 1)|f (i)

(a, ici, peut ˆetre ´egal `a 0 ou `a 1)

Nous d´efinissons une autre d´eriv´ee, que nous appelons la d´eriv´ee normalis´ee. Elle est ´egale `a :

|∆f(i)| = max [f (i + a) f (i|f(i + a) − f(i − 1)| − 1)]

o`u l’op´erateur max nous donne la plus grande valeur du tableau `a deux ´el´ements [. .].

Puisque les fonctions d’observations avant d´erivation (trajet de f0, trajet de l’´energie, indices d’inharmonicit´e, indices de voisement, centro¨ıde, coefficients d’auto-corr´elation...) sont toujours positives, nous sommes sˆur que leur d´eriv´ee normalis´ee est toujours comprise entre 0 et 1. Le cas le plus d´efavorable est quand f (i + a) = f (i− 1) = 0 : alors, la valeur de ∆f(i) doit ˆetre impos´ee `a 0. Donc, ces fonctions d’observation sont normalisables.

Le test de Brandt ne donne pas une fonction d’observation normalis´ee. La fonction d’obser-vation d´ecrite dans la section 14.5 de la partie III n’est pas non plus normalis´ee.

3.4 Conclusion et perspectives

3.4.1 Perspectives

3.4.1.1 Seuiller ou ne pas seuiller

Pourquoi normaliser les fonctions d’observation ? Les m´ethodes de seuillage propos´ees dans l’annexe B sont adapt´ees `a des variables al´eatoires normales. Nous avons test´e ces m´ethodes de

seuillage en supposant que nous ´etions en pr´esence de telles variables al´eatoires, ce qui ne correspond pas `a la r´ealit´e. Le bruit suit plutˆot une loi de Rayleigh et les pics dus aux transitions une loi normale. Ainsi, la prise d´ecision automatique par seuillage automatique n’est pas forc´ement efficace pour notre cas. Il faudrait donc :

• ou bien adapter les m´ethodes de seuillage `a nos donn´ees • ou bien nous affranchir du seuillage automatique

Consid´erons la seconde solution :

Premi`erement, cette normalisation nous donne la possibilit´e d’utiliser des classifieurs, comme les k plus proches voisins (kppv ; ou kNN, pour (( k Nearest Neighbours ))) ou les r´eseaux de neurones (la normalisation est n´ecessaire aussi bien pour les kppv que pour les r´eseaux de neurones : voir `a ce sujet le rapport [Rap95]), pour prendre les d´ecisions. Ceci pour chaque fonction d’observation, mais aussi pour la prise de d´ecision finale (voir le chapitre 4), puisqu’elle travaille avec les fonctions de d´ecision, qui par d´efinition sont comprises entre 0 et 1. Il faut entraˆıner les classifieurs. Pour le faire correctement les r´eseaux de neurones, ainsi que les k plus proches voisins, il faut avant tout utiliser une grande base de sons.

Deuxi`emement, si nous utilisons des fonctions d’observation normalis´ees, nous pouvons, pour chaque fonction d’observation, ´etudier la position optimale du seuil `a appliquer. Cette position optimale est d´etermin´ee apr`es avoir ´etudi´e le comportement de chaque fonction d’observation sur une base de sons cons´equente. Ainsi, apr`es cet entraˆınement, nous n’avons plus besoin de d´eterminer automatiquement un seuil. Cette m´ethode nous permettrait, apr`es entraˆınement, de d´etecter les pics qui nous int´eressent sans avoir `a d´eterminer automatiquement la position d’un seuil et sans avoir `a utiliser de classifieur.

Ainsi, d’autres m´ethodes que le seuillage automatique devront ˆetre test´ees (r´eseaux de neurones, k plus proches voisins...). Au sujet de la segmentation avec l’aide des r´eseaux de neurones, voir l’article [KHM96]. Nous avons vu qu’il existe beaucoup de fonctions d’observation. Avant d’int´egrer d’autres fonctions d’observation dans le programme segmentation, nous nous attacherons `a l’´etude d’autres techniques de prises de d´ecision automatiques. Indiquons-le de nouveau : il s’agit de pers-pectives.

Cependant, comme il a ´et´e dit, un r´eseau de neurones ou les kppv doivent ˆetre entraˆın´es, et l’un de nos objectifs est de construire un programme de segmentation le plus automatique possible. Aussi, le seuillage automatique est conserv´e.

3.4.1.2 Une fonction de coˆut

Nous pr´esentons dans cette section une derni`ere perspective. Junqua et Wakita, dans l’article [JW88], d´efinissent une fonction de coˆut C pour chaque marque de segmentation trouv´ee, utilisable directement pour une grande partie de nos fonctions d’observation. Soient val(i) la valeur de la fonction d’observation au moment i consid´er´e, pour lequel nous avons d´etect´e une marque de seg-mentation ; tila localisation temporelle de la marque ; ti−1celle de la marque pr´ec´edente ; valmax la valeur maximale de cette fonction d’observation ; et min la valeur de la fonction d’observation dans le creux (minimum local le plus petit) pr´ec´edent la marque en i. Nous avons alors :

C(i) = val valmax

val− min

val + min(ti− ti−1)

Ainsi, les trop petits pics sont p´enalis´es (premier terme du produit) ; les pics pas assez prononc´es sont rejet´es (deuxi`eme terme) ; et les pics trop proches sont p´enalis´es aussi (troisi`eme terme). Junqua et Wakita donnent une autre fonction de coˆut pour les (( plateaux )) (c’est-`a-dire les (( zones stables )) pour nous), prenant en compte leurs longueurs : il ne faut pas qu’ils soient

trop longs. Mais, comme nous l’avons mentionn´e dans l’introduction, nous ne voulons pas faire d’hypoth`ese sur la longueur des notes. De plus, de nouveaux param`etres libres sont introduits, et il faudrait seuiller C.

3.4.2 Conclusion

Cependant, ce probl`eme de prises de d´ecisions automatiques est compliqu´e par le fait que les fonctions d’observation ne r´eagissent pas exactement aux mˆemes moments, du fait que les transitions ne sont pas instantan´ees. Dans ce chapitre, nous avons consid´er´e la prise de d´ecisions d’un point de vue local : pour chaque instant d’´echantillonnage i des fonctions d’observation, sans consid´erer ce qui a ´et´e obtenu aux instants voisins ; il faut relˆacher cette contrainte. Ceci est discut´e dans le chapitre suivant.

Chapitre 4