• Aucun résultat trouvé

La première des extensions de ce travail est une validation expérimentale de l'architecture d'archivage.

9.2.1 Archivage semi-automatique de ux radiophoniques

On peut envisager un cas d'utilisation pratique précis, par exemple l'archivage de ux radio- phoniques comme eectué par l'INA pour le dépôt légal. Actuellement, l'indexation des ux (c'est à dire quel contenu est diusé à quel moment) est eectué manuellement, à la fois par la station émet- trice et des annotateurs. Le stockage de ces ux est eectué de façon indépendante. En particulier, les annotations ne sont pas utilisées pour réduire le stockage en regroupant les éléments redondants du ux, et cela principalement parce que les annotations manuelles ne sont pas assez précises.

Le système de détection de motifs récurrents présenté dans cette thèse peut fournir un découpage rapide et précis du ux en objets redondants qui faciliterait grandement le travail des annotateurs. Ceux-ci n'auraient plus qu'à annoter chaque objet découvert par l'algorithme. Une telle approche semi-automatique peut améliorer grandement la précision des annotations, en particulier la position exacte des redondances peut être déterminée.

Connaissant les localisations des diérentes occurrences d'un objet, il n'est plus nécessaire de stocker les parties du ux concernées. Sous réserve que l'objet soit répété sans trop d'altérations, beaucoup d'espace de stockage peut être économisé en ne codant qu'une seule fois le signal et en

9.2. Perspectives 157 conservant (par exemple dans une table) l'information de localisation des occurrences du motifs dans

le ux.

Le codage du motif peut, en outre, être réalisé ecacement en poursuivant la décomposition démarrée pour le calcul de l'empreinte, mais en changeant le critère de sélection des atomes (plus de pénalisation pour voisinage temps-fréquence d'atomes déjà sélectionnés) et en utilisant une séquence de sous-dictionnaires.

Amélioration des empreintes Nous avons présenté dans ce travail une méthode de calcul d'em- preintes acoustiques basique. Sans même considérer de changer de dictionnaire, on peut déjà mention- ner deux axes d'amélioration des empreintes :

( La construction de clefs plus robustes, dans l'esprit des paires de pics utilisées dans les méthodes de l'état de l'art [Wan06, FRG11].

( L'adoption d'autres critères de sélection des atomes. Dans ce travail, nous avons utilisé un critère énergétique (maximum de la valeur absolue des projections du résiduel sur les atomes du dictionnaire) pénalisé par un masque temps-fréquence construits à partir des atomes déjà sélectionnés. Cette solution ad hoc donne des résultats déjà intéressants, mais il serait plus satisfaisant de pouvoir formaliser cette pénalisation comme une contrainte, par exemple, de maximisation de l'information apportée par le choix d'un atome, étant donnés ceux sélectionnés précédemment.

Un modèle de parcimonie structurée sur le support des décompositions supercielles doit alors être proposé. Si les modèles de type Machine de Boltzmann proposés récemment [PEE12, DHD12] nous semblent prometteurs, de très fortes contraintes pratiques restreignent pour l'instant leur utilisation directe sur des problèmes de grande dimension, telles que ceux qui nous intéressent dans cette étude.

9.2.2 Amélioration des codeurs basés sur des représentations parcimonieuses

Un codeur audio complet se caractérise généralement par une structure à deux étages :

1. Un étage d'analyse du signal, qui prend en entrée le signal numérique (p.ex. une forme d'onde) et rend en sortie un ensemble de paramètres et coecients calculés sur le signal (p.ex. les coecients d'une représentation parcimonieuse dans un dictionnaire redondant)

2. Un étage de codage de source, qui transforme les paramètres et coecients d'analyse en un ux binaire prêt à être transmis ou stocké. Cette étape contient également la phase de quantication. Dans cette thèse, nous nous sommes concentrés sur la première étape et avons utilisé un codage de source naïf (quantication uniforme, codage uniforme des coecients) pour illustrer expérimentale- ment la validité de SASMP. Une évaluation équitable avec, par exemple le codeur proposé par Ravelli nécessite d'utiliser un codage de source plus ecace. En particulier, il sera important d'introduire un modèle psycho-acoustique.

En eet, nous avons dans ce travail uniquement considéré que le critère d'erreur (le terme d'attaches aux données entre notre modèle et le signal d'entrée) était une simple norme Euclidienne, mais cette mesure n'est pas toujours pertinente pour évaluer la qualité d'un codage de scène sonore. Des mesures perceptives objectives sont souhaitables pour pouvoir juger de la qualité d'une approche. Dans une seconde phase, des tests d'écoute subjectifs pourront être menés.

( L'absence de mécanisme de contrôle de pré-écho ([SSDR08, RRD08]). Ce type d'artefacts appa- rait fréquemment lorsqu'on utilise des dictionnaires dont les atomes sont peu ou prou des cosinus modulés par une fenêtre symétrique.

( Une complexité accrue par rapport aux codeurs existants. De gros eorts d'optimisation doivent être conduits dans l'implémentation de la méthode pour permettre son utilisation pratique. ( L'extension au cas stéréophonique et multicanal. Nous nous sommes dans cette étude, cantonnés

au cas monophonique, mais la plupart des scènes sonores rencontrées actuellement sont au moins stéréophoniques. Des redondances fortes entre les canaux sont à attendre, et leur exploitation au travers de méthodes telles que proposées dans ce travail peut être intéressante. Mais il faudra, dès lors se comparer aux méthodes de codage audio multicanal.

Chacune de ces limitations doit être prise en compte avant qu'un codeur réellement compétitif puisse être développé.

Codage distribué de scènes sonores répétitives En audio, la grande majorité des techniques de codage joint portent sur le codage de signaux multicanaux. Une vue d'ensemble des techniques actuelles de codage spatial audio se trouve dans l'article de Elfriti et al [EGK11]. Bien que le cadre théorique soit tout à fait pertinent, le théorème de Slepian-Wolf est rarement utilisé dans ces travaux. De même, les quelques travaux portant sur le codage audio distribué (p.ex. les travaux de Roy et Vetterli [RV07] ou encore de Matta et Creusere [MC09]) sont centrés sur le cas de redondances spatiales, généralement l'acquisition d'une scène par un réseau de microphones.

Nous avons vu dans ce travail un cadre diérent où le codage audio distribué peut s'appliquer, celui des redondances temporelles. Ce type de compression de scènes sonores répétitives est relativement nouveau. Dans certains cas (p.ex. les musiques électroniques et techno), la redondance temporelle est très importante. Une réduction substantielle du débit est alors possible. Le codage joint des parties répétitives est un axe d'amélioration des codeurs bas-débit qui nous parait très prometteur. Les gains en débit potentiels sont, selon nous, d'un ordre de grandeur plus importants que ceux qu'il est encore possible d'obtenir par codage traditionnel, où les scènes sonores sont découpées en trames codées indépendamment.

Malheureusement, cette compression est conditionnée à la détection ecace de ces redondances temporelles. Un système de codage audio distribué de scènes sonores répétitives ne peut s'aranchir de ce pré-traitement.

9.2.3 Séparation de sources répétitives

Dans le même temps, nous avons vu qu'une décomposition parcimonieuse jointe des diérentes occurrences d'un motif redondant pouvait permettre une séparation de la composante commune et des sources variables. Là aussi, on trouve principalement dans l'état de l'art ce type de méthode pour des problèmes multicapteurs (par exemple de débruitage [LT06, TGS06] ou de séparation de sources spatiales dans un cadre multicanal [Gri02, GRS07]).

En utilisant la mesure de similarité proposée au chapitre 7 et l'algorithme de séparation de sources du chapitre 8, il doit être possible de proposer un système capable de séparer la voix dans une piste complète de musique populaire, dans l'esprit de l'algorithme REPET proposé par Rafii [RP11a] et amélioré dans [LRB+12].

9.2. Perspectives 159 Parallèlement, il reste à déterminer des moyens de réduction des artefacts induits par la séparation

par synthèse parcimonieuse dans des dictionnaires redondants.

Dé-construction de musiques électroniques Une part importante (et en progression) de la musique populaire produite actuellement est construite à l'aide de sons très courts (appelés samples par les musiciens électro) apparaissant régulièrement et de façon rigoureusement identique dans un morceau. Dans certains cas, la piste entière peut se comprendre comme, une superposition dans le temps et l'espace d'un nombre limité de samples. Dans ce genre de cas, il doit être possible à partir de la piste de mélange, de détecter diérents niveaux de redondance et d'en déduire les samples.

Ce cas particulier peut permettre de constituer une base d'évaluation de méthodes de séparation bien maîtrisée. Il présente de plus une application susceptible d'intéresser un large public.

A plus longue échéance..

Si l'on considère le déluge de données auquel les archivistes contemporains sont (et seront de plus en plus) confrontés, la nécessité de trier ce qui, parmi ces données, constitue de l'information, ne peut que croître dans les prochaines années. Certes, la puissance de calcul et les ressources disponibles aug- menteront, mais le principal atout de l'archiviste devra être sa compréhension de l'organisation intrin- sèque des données. Toutes les scènes sonores (musique, voix, cris d'animaux, sons environnementaux etc..) sont construites et structurées sur diérents niveaux. Les modèles de parcimonie, notamment structurée, et des méthodes appropriées nous permettent de déconstruire les signaux, et d'expliciter ces niveaux structurels.

Mais plus profondément encore, les enregistrements de scènes sonores sont comme les paroles gelées imaginées par Rabelais, ils capturent une expérience, ils gent une part de la réalité du monde et peuvent la restituer. Ce niveau ultime de structure, le plus complexe, c'est celui du langage. Les scènes sonores décrivent le monde dans une langue qu'il nous reste encore à apprendre.

Quatrième partie

Annexes

Annexe A

Modélisation des poursuites à l'aide de

statistiques d'ordre

A.1 Statistiques d'ordre

Commençons par introduire quelques outils fournis par la théorie des statistiques d'ordre. Le lecteur intéressé trouvera des détails par exemple dans [Nag90, GNP72]. Soit z1, z2, ..zn, n échantillons i.i.d

d'une variable aléatoire continue Z de densité de probabilité fZ et de fonction de répartition FZ. On

dénote par Z1:n, Z2:n, .., Zn:n les statistiques d'ordre de Z. Zi:n est une variable aléatoire continue

représentant le ii`emeplus petit élément parmi les n échantillons. La densité de probabilité de Z i:nest

dénotée fZ

i:net son expression est donnée par :

fZ i:n(z) = n! (n− i)!(i − 1)!FZ(z) i−1f Z(z)(1− FZ(z))n−i (A.1.1)

La densité du maximum se déduit de cette formule : fZ

n:n(z) = nFZ(z)n−1fZ(z) (A.1.2)

Enn le moment d'ordre m de Zi:n est noté µ (m) i:n : µ(m)i:n = E(Z m i:n) = ˆ ∞ −∞ zmfZ i:n(z)dz (A.1.3)

Dans un souci de clarté on notera directement l'espérance par µi:n= µ (1) i:n.