• Aucun résultat trouvé

𝑃(𝑖, 𝑠|𝑓, 𝑡) = 𝑃(𝑖, 𝑡, 𝑠)𝑃 (𝑓 − 𝑖|𝑠) 𝑃(𝑓, 𝑡) , 𝑃(𝜇, 𝑠|𝑓, 𝑡) = 𝑃(𝑓 − 𝜇, 𝑡, 𝑠)𝑃 (𝜇|𝑠) 𝑃(𝑓, 𝑡) .

Lors de l’étape E, on maximise 𝑄Λ en fonction des paramètres (l’équation (2.20) est utilisée

pour la mise à jour de 𝑃 (𝑖, 𝑡, 𝑠) tandis que l’équation (2.21) est utilisée pour celle de 𝑃 (𝜇|𝑠)), sous contrainte que les probabilités somment à un :

𝑃(𝑖, 𝑡, 𝑠) ∝∑︁ 𝑓 𝑉𝑓 𝑡𝑃(𝑖, 𝑠|𝑓, 𝑡), (2.22) 𝑃(𝜇|𝑠) ∝∑︁ 𝑓,𝑡 𝑉𝑓 𝑡𝑃(𝜇, 𝑠|𝑓, 𝑡). (2.23)

On peut également fusionner les étapes E et M, et proposer les règles de mises à jour suivantes :

𝑃(𝑖, 𝑡, 𝑠) ∝ 𝑃 (𝑖, 𝑡, 𝑠)∑︁ 𝑓 𝑉𝑓 𝑡 𝑃(𝑓, 𝑡)𝑃(𝑓 − 𝑖|𝑠), (2.24) 𝑃(𝜇|𝑠) ∝ 𝑃 (𝜇|𝑠)∑︁ 𝑓,𝑡 𝑉𝑓 𝑡 𝑃(𝑓, 𝑡)𝑃(𝑓 − 𝜇, 𝑡, 𝑠), (2.25) 𝑃(𝑓, 𝑡), étant défini dans l’équation (2.18). On rappelle que les valeurs des paramètres à droite

du signe ∝ sont fixées (valeurs à l’itération 𝑙). S’il permet facilement de prendre en compte d’éventuelles variations continues de fréquence fondamentale pour une note de musique donnée, le modèle SIPLCA ne considère pas que son enveloppe spectrale puisse évoluer au cours du temps. Les modèles originaux que nous présentons dans cette thèse (partie III) permettent de s’adapter à ces deux types de non-stationnarités simultanément.

2.3

La transformée à Q constant et ses avantages

Pour le moment, nous avons parlé de RTF, sans jamais préciser celle que nous utilisons dans le cadre de cette thèse. Une RTF qui semble bien adaptée aux signaux musicaux est la transformée à Q constant (CQT pour Constant-Q Transform) [Bro91, FP12, Pra11]. Cette représentation possède une échelle logarithmique des fréquences, contrairement à la transformée de Fourier à court terme (TFCT) classique. De plus, la résolution fréquentielle est inversement proportionnelle à la fréquence d’analyse. En fait, la CQT peut être considérée comme un banc de filtres dont les fréquences résonnantes sont espacées de manière logarithmique, et dont chaque filtre a un facteur de qualité 𝑄 constant. Ces deux caractéristiques présentent un avantage considérable pour les signaux de musique. D’abord, l’espacement entre les partiels d’une note harmonique reste identique, quel que soit sa fréquence fondamentale. Ensuite, pour les signaux

Temps Fréquences TFCT Temps Log−fréq uences

TFCT (échelle logarithmique des fréquences)

Temps

Log−fréq

uences

CQT

Figure 2.2 – Trois RTF+différentes : l’amplitude d’une TFCT classique, d’une TFCT avec une

échelle logarithmique des fréquences et d’une CQT. Le signal d’entrée correspond à l’enregistrement de trois notes de violoncelle.

localement stationnaires, l’étalement spectral d’un partiel est défini par la valeur du facteur de qualité, et non par sa fréquence, ce qui ne serait pas le cas en utilisant une analyse de Fourier avec une échelle logarithmique. Aussi, une variation de fréquence fondamentale d’une note peut être considérée comme une translation en fréquence de ses harmoniques. Tous les modèles de RTF que nous présentons profitent de cette caractéristique. Afin d’illustrer les propriétés de la CQT, l’amplitude de trois représentations différentes de signaux audio est montrée sur la figure 2.2 : une TFCT classique, une TFCT avec une échelle logarithmique des fréquences et une CQT. Un dernier avantage de cette dernière représentation est que l’on sait l’inverser, au moins approximativement [SK10, Pra11], sinon parfaitement [DHGV11], ce qui permet de l’utiliser pour des problèmes de séparation de sources via masquage temps-fréquence [FLBR12]. Nous verrons en effet au chapitre 9 comment les modèles de RTF+ que nous présentons peuvent

directement s’appliquer à ce problème.

La CQT possède cependant quelques inconvénients, essentiellement dus à la taille des fe- nêtres d’analyse trop grandes dans les basses fréquences. Aussi, quand dans des fréquences plus aigües, le signal peut être considéré comme localement stationnaire (à l’échelle de la taille de la fenêtre d’analyse), ce n’est pas forcément le cas dans les graves. Cela se traduit par deux effets indésirables dans le bas du spectre : un étalement temporel des débuts et fins des évènements sonores, ainsi qu’un étalement fréquentiel des partiels d’une note quand celle-ci n’est pas parfai- tement stationnaire. Deux autres problèmes d’ordre plus pratique avec la CQT sont d’une part son temps de calcul élevé et d’autre part la nécessité d’utiliser des pas temporels très faibles si l’on veut garder la propriété d’inversibilité : le pas temporel doit en effet rester plus petit que la fenêtre d’analyse de la plus haute fréquence, qui est généralement très courte (de l’ordre d’une ou deux millisecondes pour une fréquence maximum ne dépassant pas 16 kHz !). On se retrouve alors à manipuler de très grandes matrices, conduisant à une augmentation significative du temps calcul et de la mémoire nécessaire lors de l’exécution d’un algorithme de séparation du sources.

Dans cette thèse, nous avons utilisé l’implémentation de Jacques Prado [Pra11] pour le calcul de la CQT et de son inverse, téléchargeable gratuitement en ligne [Webb]. Sauf dans le chapitre 9 consacrée à la séparation de sources, pour tous les exemples, et tous les algorithmes que nous

38 2.3. La transformée à Q constant et ses avantages proposerons, la RTF+d’entrée 𝑉 d’un signal temporel se calcule de la manière suivante :

( la CQT (complexe) 𝑋 d’un signal monophonique est calculée avec 3 points fréquentiels par demi-ton, pour des fréquences allant de 27, 5 Hz à 7040 Hz (ce qui correspond à 8 octaves, on a donc 𝑓 ∈J1, 𝐹 K où 𝐹 = 3 × 8 × 12 = 288),

( le pas temporel utilisé est de 10 ms, ce qui signifie que la CQT d’une seconde de signal sera constituée de 𝑇 = 100 colonnes,

( on prend enfin la racine carrée de la valeur absolue (𝑉𝑓 𝑡 = √︁

|𝑋𝑓 𝑡|) : prendre la racine carrée équivaut à appliquer une légère compression sur l’ensemble des coefficients et l’expérience nous a montré que les algorithmes d’analyse que nous proposerons dans ce document donnent en général de meilleurs résultats.

Deuxième partie

Chapitre 3

Ajout d’aprioris

3.1

Introduction

Comme évoqué précédemment, un premier moyen d’introduire de l’information sur la nature des RTF+ à analyser, afin d’assurer une décomposition significative, est de réduire l’espace dans

lequel les paramètres d’un modèle de RTF+ peuvent évoluer. Cette idée peut être facilement

mise en pratique par exemple pour définir un sous-espace des solutions possibles pour les spectres de base, mais elle ne peut hélas pas répondre à tout type d’information que l’on souhaiterait ajouter au modèle. De plus, trop restreindre le sous-espace des paramètres peut avoir comme effet de multiplier le nombre de maxima locaux de la vraisemblance des observations en fonction des paramètres, et rendre ainsi l’algorithme EM inefficace. Heureusement, il existe un moyen d’introduire des contraintes douces pour intégrer de la connaissance sur la nature des signaux, et cela peut être effectué via l’introduction d’aprioris sur les paramètres dans le cas de la PLCA. Ce chapitre y est consacré.

L’ajout d’un apriori sur les paramètres, quel qu’il soit, peut permettre deux choses. La pre- mière est de rendre le problème plus identifiable. En effet, pour un modèle de RTF+ donné, il

peut exister des situations où les observations peuvent être modélisées de plusieurs manières dif- férentes, avec plusieurs jeux de valeurs pour les paramètres. L’ajout d’un apriori permettra alors de choisir la solution la plus vraisemblable. La deuxième est qu’il peut empêcher l’algorithme EM de rester bloqué dans un maximum local non pertinent. Dans ce chapitre nous introduisons un certain nombre d’aprioris dans le cadre de la PLCA classique, ou la SIPLCA, mais ces aprio- ris sont génériques et peuvent être appliqués à n’importe quel modèle de RTF+ comme nous le

ferons plus tard aux modèles de la partie III. Ainsi, nous allons tenter d’utiliser des notations les plus générales possibles.

Considérons n’importe quel modèle d’observation 𝑃 (𝑓, 𝑡), dépendant d’un ensemble de pa- ramètres (représentant des distributions de probabilité) Λ = {𝜃, Λ}, où 𝜃 est un sous-ensemble

de Λ. On peut alors remarquer que la fonction 𝑄Λ à maximiser lors de l’étape M de l’algorithme

42 3.2. Aprioris de parcimonie