• Aucun résultat trouvé

1.4 Les outils mathématiques

1.4.2 Cadres probabilistes

Plutôt que d’envisager le problème d’estimation des paramètres d’un modèle de RTF+comme

un problème analytique d’optimisation, il est possible de le considérer comme un problème d’inférence statistique. Les formulations probabilistes dans la littérature sont très nombreuses, mais reposent généralement sur un même schéma : les observations 𝑉 sont le fruit d’un processus

26 1.4. Les outils mathématiques génératif, dépendant des paramètres Λ du modèle ^𝑉 posé. Le but est alors de trouver les valeurs

des paramètres qui « expliquent » au mieux les observations, et cela peut s’effectuer par exemple grâce à l’estimation du maximum de vraisemblance (MV) : on tentera de trouver Λ tel que

𝑃(𝑉 |Λ) soit maximum.

Parmi les cadres probabilistes que l’on peut trouver, citons :

( les modèles de NMF probabilistes : les cas poissonien [VCG08], gaussien complexe [FBD09], de bruit additif gaussien [SL08] ou encore de bruit multiplicatif gamma [FBD09] ;

( l’analyse probabiliste en composantes latentes (PLCA) et sa version avec invariance par translation [Sha07, SRS08b, MS09] : c’est le cadre mathématique utilisé dans cette thèse ; ( les processus gaussiens [SL08] ;

( les factorisations généralisées de tenseurs couplés (GCTF) [YCS11] ; ( les modèles bayésiens non-paramétriques [NLK+11].

( la NMF probabiliste couplée avec des modèles de Markov cachés [OFC09], ou encore le modèle de Markov caché factoriel et non-negatif [Mys10] permettant de modéliser des structures temporelles.

Les intérêts d’utiliser des cadres probabilistes sont multiples, et chacun d’entre eux peut présen- ter des avantages propres. Nous tentons ici d’établir un rapide tour d’horizon des bénéfices et caractéristiques de ces cadres probabilistes.

Justification de la fonction de coût. Un premier intérêt est qu’un modèle probabiliste peut permettre de justifier l’utilisation d’une certaine distance ou divergence comme fonction de coût. En effet, on se rend compte dans un certain nombre de cas qu’estimer le MV équivaut à minimiser par exemple une des trois divergences (EUC, KL ou IS) entre les observations 𝑉 et le modèle ^𝑉. Aussi, pour les modèles de bruit gaussien additif, le MV correspond au minimum de

la distance EUC, tandis que dans les cas gaussien complexe et de bruit multiplicatif gamma, le MV correspond au minimum de la divergence IS. Le MV dans les cadres de NMF poissonienne ou de PLCA correspond quant à lui au minimum de la divergence KL. Savoir que ces divergences ont une signification dans un certain cadre probabiliste permet de les légitimer.

Utilisation d’algorithmes génériques. Un deuxième intérêt est que l’on peut disposer des algorithmes génériques existants pour les problèmes d’inférence. Les modèles génératifs dépendent généralement de variables cachées, et on pense donc particulièrement aux algo- rithmes permettant de trouver le MV en présence de telles variables : les algorithmes Espérance- Maximisation (EM) et EM généralisé (GEM) [Dem77, Sha07, OF10, Mys10], l’algorithme SAGE (Space Alternating Generalized EM) [FH94, FBD09], le Fisher scoring [JS76, YCS11] ou encore les méthodes bayésiennes variationnelles [Bea03, NLK+11] sont autant d’algorithmes qui sont

Incorporation d’aprioris. Dans le cas analytique, nous avons vu que l’ajout d’une contrainte douce sur les paramètres pouvait s’effectuer via un terme de pénalité. Dans le cas probabiliste, cela peut se faire grâce à l’ajout d’un apriori 𝑃 (Λ) sur les paramètres. Les paramètres pourront alors être estimés grâce à l’estimateur du maximum a posteriori (MAP), qui consiste a maximiser

𝑃(Λ|𝑉 ). Là encore les algorithmes génériques d’inférence statistique présentés précédemment

pourront être utilisés, ce qui rend l’ajout de contraintes douces plutôt simple.

Caractéristiques propres. Certains cadres ont des caractéristiques propres qui font qu’ils seront préférablement utilisés dans certains cas, ou pour certaines applications. On donne ici quelques exemples.

( Pour des applications de séparation de sources, il est plus justifié d’utiliser la NMF gaus- sienne complexe et les processus gaussiens car ils permettent de modéliser (directement ou indirectement) la TFCT complexe (le modèle de décomposition positive s’applique alors aux variances de chaque point temps-fréquence). Ainsi, après l’estimation des pa- ramètres d’un modèle, il est possible d’estimer la TFCT complexe et le signal temporel correspondant de chaque source via filtrage de Wiener [OF10, LBR11].

( Pour des modèles de RTF+convolutifs, c’est-à-dire quand le modèle inclue des convo- lutions entre atomes et activations, alors la PLCA est particulièrement bien adaptée [SRS08b] pour dériver des algorithmes d’estimation de paramètres, comme nous le com- prendrons au chapitre suivant. Il est cependant également possible de trouver des algo- rithmes d’estimation de paramètres pour ce type de modèles dans d’autres cadre mathé- matiques.

( Les GCTF permettent quant à eux de gérer facilement des modèles ou plusieurs observa- tions de natures différentes sont décomposées conjointement, en utilisant des paramètres en commun. Dans [SC12] par exemple, on joint au spectrogramme à décomposer une base de données de spectres de notes isolés, considérée aussi comme une observation. Les paramètres à estimer devront alors en même temps servir à décomposer le spectro- gramme et à décrire les notes isolées. C’est une manière alternative de contraindre la décomposition.

( Enfin, le dernier exemple que nous donnons concerne les méthodes non paramétriques, qui permettent l’utilisation d’un nombre indéfini d’atomes [NLK+11].

Chapitre 2

Outils mathématiques et

représentations utilisées

Dans ce chapitre, nous exposons et étudions les outils utilisés dans le cadre de cette thèse. Nous commencerons par présenter la PLCA avec son modèle le plus classique qui est le cadre mathématique dans lequel s’inscrivent les recherches que nous avons effectuées dans cette thèse. Ensuite nous étudierons la manière dont la PLCA peut permettre d’estimer les paramètres d’un modèle convolutif de RTF+. Enfin nous présenterons la transformée à Q constant, qui est le

type de RTF utilisé par la suite.

2.1

L’analyse probabiliste en composantes latentes

Nous présentons ici le principe général de la PLCA ainsi que son modèle classique. Les calculs sont volontairement très détaillés, puisqu’ils serviront de guide à ceux de la partie III.