• Aucun résultat trouvé

Figure7.2 – Les deux situations posturales à partir desquelles sont collectés les sons du corpus de l’étude. Les sons perçus ronds sont extraits de la situation naturelle. Leurs équivalents perçus décharnés chez un même violoncelliste sont extraits de la situation d’immobilisation physique complète par le buste et la tête.

7.2 Caractérisation par masque de Gabor

Afin de capturer les différences essentielles entre les sons rond et décharné de chaque paire du corpus, nous avons utilisé un outil mathématique appelé masque de Gabor [Depalle 2006, Sciabica 2012]. Cet outil a par exemple été employé par [Olivero 2010] pour réaliser un morphing acoustique entre deux sons musicaux, sur la base de leurs transformées de Gabor. Dans notre cas, le masque de Gabor calculé entre un son rond et son équivalent décharné peut permettre de caractériser les écarts intrinsèques entre les contenus spectro-temporels des deux signaux.

7.2.1 Construction mathématique des masques de Gabor

7.2.1.1 Transformées de Gabor

L’analyse par transformée de Gabor est basée sur une transformée de Fourier à court terme (STFT), utilisant des gaussiennes comme fenêtres d’analyse, couramment appelées atomes de Gabor ou Gaborettes. En reprenant l’équation 4.2 qui décrit la STFT, on décompose cette fois le signal en une combinaison linéaire de Gaborettes, localisées de façon optimale dans le plan temps-fréquence. A partir du pavage du plan temps-fréquence en M canaux fréquentiels et N pas temporels, la famille d’atomes de Gabor s’obtient par modulation m et translation n d’une fenêtre d’analyse mère, notée g :

gm,n= e2i⇡mb(l na)g(l na), (7.1)

avec l une variable temporelle discrète, et a, b > 0 les deux tailles de pas (ou constantes d’échantillonnage) en temps et en fréquence respectivement.

7.2. Caractérisation par masque de Gabor 176 La transformée de Gabor d’un signal correspond à sa décomposition sur ce maillage temps-fréquence à pas fixes, telle que si L est la longueur du signal, on ait : L = Mb = Na [Søndergaard 2012]. Ainsi, pour un signal x 2 CL, sa transformée de Gabor s’écrit comme les coefficients cm,n 2 CM⇥N de l’expansion du signal dans la famille d’atomes de Gabor gm,n :

cm,n=hx, gm,ni =

L 1

X

l=1

x(l)e 2i⇡mb(l na)g(l na)) (7.2)

avec n 2 [0, N 1], m 2 [0, M 1].

Si les constantes d’échantillonnage a, b du maillage temps-fréquence et la fenêtre d’analyse mère g sont bien choisies, il est possible de rendre la transformée de Gabor inversible, et de reconstruire ainsi parfaitement le signal original x. En choisissant par exemple une gaussienne comme fenêtre d’analyse g, on peut utiliser h, sa fenêtre duale pour effectuer l’opération de resynthèse :

x =hcm,n, hm,ni =X m,n cm,nhm,n = M 1X m=1 N 1X n=1 hx, gm,nihm,n, (7.3) 7.2.1.2 Multiplicateurs et masques de Gabor

Connaissant deux signaux source et cible respectivement dénommés x1, x2 2 CL, la théorie des multi-plicateurs de Gabor tente d’approcher la cible x2 par une transformation linéaire de x1. Cette opération consiste à effectuer dans l’espace du signal la convolution de x1 par un opérateur linéaire Mm tel que :

x2 =Mmx1+ ", (7.4)

avec " un résiduel ou bruit additif gaussien.

Grâce à la représentation des signaux dans le plan temps-fréquence, on peut définir cette opération linéaire comme une simple multiplication point à point de la transformée de Gabor du signal source x1 par un masque m, c’est-à-dire une image temps-fréquence spécifique, plus ou moins filtrante pour l’approximation du signal cible x2. L’opérateur Mm se nomme alors multiplicateur de Gabor de masque m:

x2 ' Mmx1 =X

m,n

mm,ncm,n(x1)hm,n, (7.5)

où cm,n(x1) est la transformée de Gabor de x1, et hm,n est la fenêtre de synthèse utilisée pour sa recons-truction.

Le masque de Gabor, noté mm,n, est une fonction de transfert temps-fréquence entre les signaux x1

et x2, mesurant de façon compacte leur dissimilarité spectro-temporelle. A partir de cette définition, on devrait simplement pouvoir l’exprimer comme un rapport entre les transformées de Gabor des deux signaux (cm,n(x2)/cm,n(x1)), mais cette solution n’est pas bornée et n’empêche pas les divisions par zéro. Pour contourner ce problème, il faut plutôt partir de l’équation7.4, caractérisant l’opérateur linéaire Mm

dans l’espace signal, et chercher sa solution comme la résolution d’un problème aux moindres carrés. On peut alors estimer le masque de Gabor m associé au multiplicateur Mm par minimisation du critère des moindres carrés :

(m) = kx2 Mmx1k2+ d(m), (7.6)

où d(m) est un terme de régulation, dont l’influence sur la solution est contrôlée par le paramètre de Lagrange 2 R+.

Le choix du paramètre de régulation a été fait selon la même stratégie que [Olivero 2010], considé-rant qu’aucune transformation n’est appliquée au signal source x1 lorsque le masque de Gabor m = 1.

7.2. Caractérisation par masque de Gabor 177 Cela revient à poser : d(m) = km 1k2. En transposant le problème dans l’espace temps-fréquence, la minimisation du critère des moindres carrés s’exprime désormais :

(m) = kcm,n(x2) Mmcm,n(x1)k2+ km 1k2, (7.7) A partir de cette équation, on obtient finalement l’expression directe du masque de Gabor, comme une solution estimée du problème aux moindres carrés :

m = kcm,n(x1)kkcm,n(x2)k + kcm,n(x1)k2+ =

C1C2+ C2

1 + (7.8)

avec C1, C2 les modules des transformées de Gabor des signaux x1, x2 respectivement. Cette solution présente l’avantage d’être plutôt simple à évaluer numériquement. Par ailleurs, le paramètre de régulation permet de construire des masques à différentes échelles entre les deux signaux x1 et x2, ce qui lui donne finalement le rôle de loupe grossissant les différences spectro-temporelles selon plus ou moins de détails.

7.2.2 Implémentation d’un masque de Gabor

Maintenant que les principes de construction d’un masque de Gabor ont été posés, nous allons les appliquer à notre étude du décharnement acoustique. Une paire de sons rond/décharné est extraite du corpus3. Pour pouvoir construire un masque de Gabor entre ces deux sons, une première étape consiste à les aligner dans le plan temps-fréquence. Sur l’axe fréquentiel, les deux signaux sont déjà alignés, car ils possèdent le même pitch (fondamentale de la note Mi3). En revanche, sur l’axe temporel, ils n’ont pas la même durée, et il faut donc les synchroniser sans que cela n’altère leur pitch ni leur structure formantique. A cette fin, nous avons utilisé le logiciel Adobe Audition, et calé la durée du signal le plus long sur celle du plus court de la paire.

L’implémentation du masque de Gabor entre les deux signaux nécessite de bien définir au préalable le maillage temps-fréquence, sur lequel seront calculés les coefficients de leurs transformées de Gabor. Effectivement, en raison du principe d’incertitude d’Heisenberg, il faut trouver le bon compromis de précision entre les localisations temporelle et fréquentielle du masque. En pratique, nous avons opté pour une taille de fenêtre glissante composée de M = 2048 échantillons, ce qui correspond à une résolution fréquentielle d’une vingtaine de hertz entre chaque maille. Concernant la résolution temporelle, un taux de recouvrement (overlap) de facteur 8 a été choisi entre chaque fenêtre, ce qui correspond à un pas temporel de a = M/8 = 256 échantillons (environ 6 ms). Les transformées de Gabor des deux signaux ont été calculées sur la base de ce maillage temps-fréquence grâce aux primitives de la LTFAT Toolbox [Søndergaard 2012]. Puis le masque de Gabor s’est construit en définissant le son rond de la paire comme signal source x1 et le son décharné associé comme signal cible x2. A partir de l’équation 7.8, plusieurs masques de Gabor ont été générés par variation des valeurs du paramètre de régulation , afin de visualiser les différences entre les deux signaux, des plus grossières ( >= 1) aux plus fines ( ! 0).

La figure 7.3 présente le masque de Gabor calculé avec un paramètre de régulation = 1. Il s’agit d’une représentation temps-fréquence en noir et blanc des dissimilarités les plus flagrantes conduisant du son rond au son décharné. Ainsi, on peut déjà observer que les variations d’énergie spectrale sont essentiellement localisées sur des bandes fréquentielles multiples de la fondamentale de la note étudiée Mi3 (⇡ 330 Hz). Cela signifie que les renforcements (en blanc) et atténuations (en noir) d’énergie portent avant tout sur les composantes harmoniques de la note, et non sur d’autres partiels. Ensuite, la grosse bande blanche à 1650 Hz révèle un renforcement d’énergie très net du 5eharmonique, un G]5 (330⇥5 = 1650 Hz), du son décharné par rapport au son rond. Comme l’énergie des harmoniques adjacentes est aussi renforcée,

3. L’écoute de cette paire de sons est disponible sur la page web associée à l’article JASA décrit dans ce chapitre :

7.3. Identification des descripteurs du décharnement 178

Documents relatifs