• Aucun résultat trouvé

C.2 Méthode de la fonction auxiliaire

10.2 Perspectives

10.2.1 Transformées multi-résolutions pour la reconstruction de phase

Les résultats du chapitre 4 ont montré que la technique de déroulé linéaire appliquée "à l’aveugle" (sans tenir compte d’une information supplémentaire comme la phase du mélange

dans le cadre de la séparation de sources) avait tendance à créer deux types d’artéfacts : le bruit musical et la perte de précision au niveau des transitoires. Ces artéfacts sont étroitement liés aux paramètres de la TFCT utilisés, et la recherche d’un compromis entre ces deux types de perturbations fait écho au compromis fondamental de l’analyse temps-fréquence entre résolution temporelle et fréquentielle. Pour pallier ce problème inhérent à la TFCT, des transformations alternatives ont été proposées. Elles reposent sur le principe de multi- résolution : c’est le cas par exemple de la transformée à Q-constantFillon et Prado(2012), adaptée à l’audio, de la transformée en ondelettesMallat(1998), ou encore de la TFCT à fenêtre variableKwok et Jones (2000).

Il pourrait donc être intéressant de calculer la "phase" de mélanges de sinusoïdes dans de telles représentations. Des algorithmes similaires au notre pourraient être obtenus, mais appli- qués à des représentations TF qui permettent de s’affranchir de cette recherche de compromis entre résolutions. Des versions sophistiquées du vocodeur de phase existent, et sont basées sur le fait de traiter spécifiquement les transitoires d’attaque afin de réduire le phénomène de phasiness Röbel(2003b). Ainsi, un cadre multi-résolution semble approprié pour lever ce type de verrous, et pourra notamment être utilisé pour la reconstruction de phase.

10.2.2 Phases dans les trames d’attaque

Modèles d’attaque Les résultats obtenus dans le chapitre 4 sur la reconstruction des phases de transitoires d’attaque étaient prometteurs, mais il apparaît clairement qu’il existe une nette marge de progression pour cette tâche. En effet, le modèle que nous avons proposé (impulsion) reste peu expressif de la diversité rencontrée dans les signaux réels. Il pourrait être intéressant d’étudier un modèle de mélange d’impulsions, dont il faudrait alors détecter les "temps d’attaque" multiples. Plus généralement, modéliser les dépendances entre canaux fréquentiels dans les trames d’attaque par filtrage ARMA Leglaive et al. (2016a) est une idée intéressante qui généralise le modèle d’impulsion.

Une approche différente pourrait également se trouver dans l’acoustique musicale, où les relations de phase entre partiels ont été étudiéesGalembo et al.(2001), et appliquées avec de bons résultats préliminaires à la séparation de sources par NMF complexe contrainteKirch-

hoff et al.(2014). Notons enfin qu’il serait intéressant d’étudier la pertinence de la phase des

attaques en tant que descripteur du timbre : on sait en effet que les attaques sont un élément fondamental de la perception du timbre d’un instrument, aussi il pourrait être judicieux d’en étudier spécifiquement la phase, afin d’évaluer si celle-ci joue ou pas un rôle prépondérant dans la reconnaissance des instruments.

Enfin, les modèles que nous avons proposés dans cette thèse n’étaient pas dédiés aux sons percussifs. Nous avons constaté, dans les expériences du chapitre4, que combiner un modèle d’impulsion avec celui de mélange de sinusoïdes ne donnait pas de résultats satisfaisants. Une direction intéressante pour traiter ces sons est d’utiliser des atomes spectraux avec un modèle de NMF convolutive, comme c’est proposé dansLaroche et al.(2017). Cette approche permet de rendre compte du caractère fortement non-stationnaire de ces signaux. En étendant ces modèles à des atomes complexes, donc en prenant en compte la phase de ces signaux, on peut espérer améliorer la qualité des résultats obtenus.

Répétition des phases d’attaque Outre la modélisation des transitoires d’attaque dans le domaine TF, nous avons également proposé d’utiliser leur caractère répétitif pour contraindre la phase (cf. chapitre6). Ce modèle a donné quelques bons résultats dans le cas Oracle où les amplitudes sont égales à la vérité terrain, mais n’a pas vraiment amélioré les performances par rapport à une approche non contrainte dans un cas réaliste, celui du chapitre 7, où les amplitudes ne sont plus connues. Ce modèle pourrait être affiné en tenant compte du fait

que l’attaque ne concerne en réalité pas qu’une seule trame, mais plusieurs (en raison du caractère redondant de la TFCT). Ainsi, nous pourrions mettre au point un modèle inspiré de la notion de consistance "locale" (au niveau des attaques), qui serait contraint par un modèle de répétition.

10.2.3 Données non-négatives

Les distributions PαS introduites dans le chapitre 9 sont un outil prometteur pour la modélisation et la séparation de données non-négatives. Néanmoins, nous nous sommes limités, pour les applications pratiques, à la distribution de Lévy, qui est la seule à posséder une densité exprimable analytiquement. Cependant, nous pourrions envisager de mettre en place un modèle plus général de somme de sources PαS, dont les paramètres seraient par la suite estimés grâce à des techniques plus avancées, comme les méthodes MCMC Simsekli et al. (2015).

Dans une direction quelque peu similaire, on pourrait s’intéresser aux distributions inverse- gamma, dont la loi de Lévy est également un cas particulier. Cette famille de distributions, qui modélise des données non-négatives, a une densité qui s’écrit analytiquement de façon simple dans le cas général, néanmoins elle n’est pas additive. Aussi, des méthodes d’inférence variationnelle pourraient être mises en oeuvre pour estimer ces modèlesKounades-Bastian

et al. (2016).

Plus spécifiquement en audio, il est pertinent de s’interroger non seulement sur la distri- bution la plus appropriée pour modéliser les données, mais également sur la nature même de ces données : la problématique du choix de l’exposant optimal de spectrogramme Voran (2015) résume bien cette question. Des expériences plus poussées pourraient être conduites pour obtenir une combinaison optimale (en ce qui concerne la fidélité aux données) d’une puissance de spectrogramme et d’un paramètre de forme de distribution (comme l’exposant α pour les lois stables). Cette problématique rejoint d’ailleurs une perspective précédente sur le travail sur une représentation multi-résolution, et plus généralement sur une représentation TF alternative à la TFCT. On sait notamment que la MDCT donne de bons résultats en audio, et que modéliser des coefficients MDCT de signaux audio par des lois de Student est un choix relativement précis Févotte et Godsill (2005). Aussi, il est prometteur de s’in- téresser à des représentations de signaux audio alternatives à la TFCT, dans lesquelles nous avons une meilleure maîtrise du comportement de ces données.

10.2.4 Modèle de sources complexes à phase non-uniforme

Afin de mettre au point un modèle complet de sources décrivant aussi bien les phases que les amplitudes, on pourra reprendre l’idée du chapitre8, qui consiste à supposer que la phase suit une loi de Von Mises (donc non-uniforme). On pourra compléter ce modèle en supposant alors que les amplitudes ne sont plus déterministes, mais sont à présent des variables aléatoires dont il deviendra nécessaire d’estimer les paramètres.

Modèle gaussien anisotrope Une première approche consiste à considérer que les am- plitudes suivent une loi de Rayleigh. Ce choix est naturel car le modèle gaussien isotrope classique Févotte et al. (2009) revient à considérer une phase uniforme et une amplitude de Rayleigh. Nous proposons de conserver la modélisation de l’amplitude par une loi de Ray- leigh, mais en modélisant à présent la phase par une loi de Von Mises. Cela conduit à un modèle dans lequel on ne sait pas exprimer analytiquement les densités des sources, aussi il est approché par un modèle gaussien anisotrope. On illustre sur la figure10.1la comparaison entre modèle originel (Rayleigh+Von Mises) et approché (gaussien anisotrope).

-1 0 1 2 3 -1 -0.5 0 0.5 1 1.5 2 2.5 3 -1 0 1 2 3 -1 -0.5 0 0.5 1 1.5 2 2.5 3

Figure 10.1 – Histogrammes en 2D d’échantillons générés par le modèle Von Mises + Rayleigh (gauche) et modèle équivalent gaussien (droite), pour σ = 1, µ = π/3 et κ = 100. Les intersections

des lignes en pointillés correspondent aux valeurs moyennes.

Dans ce nouveau modèle, les distributions des sources Xk dépendent de paramètres θk= {µk, Wk, Hk} où µk est le paramètre de localisation de la variable de phase, et Wk, Hk cor- respondent aux paramètres du modèle NMF qui est utilisé pour structurer les paramètres de dispersion des lois de Rayleigh. Afin d’estimer les paramètres de ce modèle, on peut adop- ter une approche SAGE (Space-Alternating Generalized EM ), similairement àBertin et al. (2010), qui fournit les mises à jour suivantes :

θk← arg max θk

Qk(θk, θ), (10.1)

où le critère Qk est défini par Qk(θk, θ) = EXk|X,θ(log p(Xk|θk)). L’étape E consiste à calculer ce critère (ce qui revient à déterminer les moments à postériori des variables latentes Xk, ce qui est relativement aisé à faire dans le cas d’un modèle gaussien), et l’étape M consiste à maximiser celle-ci. Afin d’introduire un à priori sur la forme du paramètre de localisation µk, on pourra plutôt considérer le critère suivant :

QM APk (θk, θ) = EXk|X,θ(log p(Xk|θk)) + log p(µk), (10.2) l’à priori sur ce paramètre étant donné par une structure en chaînes de Markov, afin de garantir que la phase reste "proche" du modèle de déroulé linéaire. Il est à noter que ce modèle dépend de certains paramètres λ et ρ similaires à ceux du chapitre 8 qui reflètent la forme des distributions choisies (Von Mises et Rayleigh). Aussi, on pourrait aboutir à un modèle tout à fait similaire en modélisant les amplitudes non plus comme des variables de Rayleigh, mais comme des variables de Poisson ou Inverse-Gamma, et les phases comme des variables gaussiennes circulaires ou Cauchy circulaires : seules les expressions de λ et ρ changeraient.

Nos premiers calculs nous ont permis d’aboutir aux règles de mises à jour sur les paramètres θk. Par la suite, nous implémenterons celles-ci et effectuerons un certain nombre d’expériences pour attester du potentiel de ce modèle.

Modèle robuste de sources La mise au point d’un modèle de sources complexes dans le domaine de la TFCT peut être effectuée, comme on l’a proposé, en modélisant les phases (par une loi de Von Mises) et les amplitudes (par une loi de Rayleigh). Néanmoins, la loi de Rayleigh n’est peut-être pas le meilleur candidat pour représenter des spectrogrammes d’amplitude car ce n’est pas une distribution à queue lourde. Ainsi, la perspective précédente est intéressante car elle conduit à un modèle dans lequel on peut aisément effectuer un certain nombre de

calculs, mais n’est cependant pas la piste la plus prometteuse en matière de robustesse et de fidélité aux données.

On pourrait donc inclure les distributions stables dans ce contexte : les amplitudes sui- vraient alors une loi PαS. Cela pose néanmoins plusieurs problèmes. En particulier, dans ce modèle, on ne sait pas exprimer analytiquement la densité du mélange. Même les méthodes de type MCMC deviennent compliquées à mettre en oeuvre pour estimer ces modèles, dans lesquels on ne connaît pas la loi des variables latentes. En outre, si on souhaite approcher ce modèle par un modèle gaussien anisotrope, on se heurte au fait que l’on ne sait pas calculer les moments de lois PαS : il est donc impossible d’obtenir de cette façon les paramètres du modèle gaussien équivalent. Enfin, l’intérêt des distributions PαS est initialement de modé- liser les données d’amplitudes de façon robuste : en approchant notre modèle par un modèle gaussien, on perd cette propriété de robustesse.

Aussi, on pourrait s’intéresser à une autre famille de distributions : les lois stables multiva- riées, ou lois elliptiques. Celles-ci sont aux lois normales multivariées ce que les lois stables sont aux gaussiennes classiques. Elles sont notamment paramétrées par une matrice de forme non- nécessairement diagonale : ainsi, en structurant cette matrice de forme, on pourrait obtenir un modèle de sources qui soit à la fois stable par additivité, robuste et à phase non-uniforme. Il s’agit là d’une piste intéressante car elle pose la question de la justification physique d’une structuration de la matrice de forme, et également de l’estimation des paramètres du modèle.

Documents relatifs