• Aucun résultat trouvé

Traitements des distorsions pour la restauration audio

1.5 Etat de l’art

1.5.2 Traitements des distorsions pour la restauration audio

Le premier exemple remarquable de traitement num´erique du signal pour la restauration audio date du d´ebut du XX-`eme si`ecle et concerne la distorsion lin´eaire due aux syst`emes d’enregistrements sur disques de cire [Stockham et al., 1975]. La r´eponse du syst`eme - le pavillon principalement - est mod´elis´ee par une op´eration de filtrage lin´eaire. Le traitement suppose qu’une caract´eristique du signal original avant distorsion est connue pour estimer la r´eponse en fr´equence du filtre. C’est le spectre moyen de l’enregistrement non-distordu qui est utilis´e en faisant appel `a une interpr´etation moderne de l’enregistrement `a restaurer. La m´ethode propos´ee pour la restauration est int´eressante car elle permet de faire une post-´egalisation du spectre du signal mais elle repose sur l’hypoth`ese que deux enregistrements d’un mˆeme partition musicale poss`edent en moyenne, les mˆemes caract´eristiques spectrales, ind´ependamment de l’influence des interpr`etes et/ou des conditions d’enregistrements.

Dans cette section, nous pr´esentons deux exemples de traitement des distorsions non-lin´eaires pour la restauration des enregistrements audio. Les m´ethodes de traitement correspondantes, proposent des solutions bas´ees seulement sur l’observation du signal distordu. Elles comportent donc :

– La sp´ecification d’un mod`ele param´etrique de la distorsion non-lin´eaire des signaux audio. – Une technique d’estimation des param`etres de la mod´elisation `a partir de la donn´ee d’un

signal audio distordu.

– Une m´ethode de restitution du signal audio quand les param`etres du mod`ele sont connus. Dans ces travaux, [Mercer, 1993] et [Troughton, 1999], le choix de la mod´elisation n’est pas justifi´e par une approche exp´erimentale pour la caract´erisation des effets non-lin´eaires d’enregis- trement/lecture. La question du choix de la mod´elisation n’est pas r´esolue. En revanche, les tech- niques propos´ees permettent d’extraire de fa¸con autodidacte les param`etres de la mod´elisation d’une part, puis d’autre part, de reconstruire un signal audio original.

1.5.2.1 Approche par mod´elisation AR-MNL

Suivant les notations du diagramme 1.3, le processus de distorsion d’un signal audio est caract´eris´e par une non-lin´earit´e instantan´ee, dite en anglais Memoryless NonLinearity (MNL). Celle-ci est repr´esent´ee par un polynˆome de degr´e d, d´efini par la forme (1.6). Par hypoth`ese, le signal audio avant distorsion est suppos´ee stationnaire auto-r´egressif d’ordre m :

Zk=

m

X

i=1

θiZk−i+ ek (1.11)

o`u e1, . . . , et sont des variables ind´ependantes, identiquement distribu´ees, de loi gaussienne

centr´ee et de variance not´ee σ2

e [Mercer, 1993]. et (1 − Pm i=1θiz−i)−1 Pd i=0αi(.)i - Z-t - Xt

Diag. 1.3 – Transmission d’un signal auto-r´egressif AR(m) `a travers une non-lin´earit´e polyno-

miale de degr´e d.

L’hypoth`ese AR(m) sur le signal Z1, . . . , ZN `a reconstruire est utilis´ee dans le contexte de

pour l’interpolation des valeurs manquantes [O’Ruanaidh and Fitzgerald, 1996]. En pratique, ce mod`ele est seulement acceptable si on consid`ere des s´equences de signal audio de longueur suffisamment courte pour supposer que les coefficients lin´eaires θ1, . . . , θm de la mod´elisation

AR(m) sont constants.

La m´ethode de traitement propos´ee dans [Mercer, 1993] utilise directement un d´eveloppement de la fonction polynomiale inverse r´eciproque de la non-lin´earit´e (1.6). La relation entre le signal

Zt avant distorsion et le signal distordu est exprim´ee sous la forme Zk= r X j=1 ˜ αjXkj k = 1, . . . , N

o`u ˜α1, . . . , ˜αr sont les coefficients du polynˆome inverse de degr´e fini r. Dans ces conditions,

la restitution du signal original Zt `a partir de l’enregistrement distordu Xt est directement

d´etermin´ee par l’estimation des r coefficients ˜α1, . . . , ˜αr inverses de la non-lin´earit´e.

Plusieurs techniques d’estimation des param`etres θ1, . . . , θmet des coefficients ˜α1, . . . , ˜αrsont

´etudi´ees, `a savoir, la m´ethode des moindres carr´es et la solution du maximum de vraisemblance. D’un cˆot´e, la m´ethode des moindres carr´es est bas´ee sur la minimisation de l’erreur quadratique moyenne J(θ1, . . . , θm, ˜α) d´efinie par,

J(θ1, . . . , θm, ˜α) = (N − p)1 N X k=p+1 e2k = 1 (N − p) N X k=p+1 Ã (Xk m X i=1 θiXk−i)˜>α(X˜ k− m X i=1 θiXk−i) !

o`u ˜α = (˜α1. . . ˜αr) et Xk = (XkXk2. . . Xkr)>. D’un autre cˆot´e, la solution du maximum de

vraisemblance est construite autour de l’expression de la densit´e de probabilit´e conditionnelle

p(Xp+1, . . . , XN | ˜α, θ, σe2) des observations Xp+1, . . . , XN sachant les coefficients ˜α de la non-

lin´earit´e inverse et les param`etres θ = (θ1, . . . , θm)> et σe2 de la mod´elisation AR(m). Plus

pr´ecis´ement, la vraisemblance p(Xp+1, . . . , XN | ˜α, θ, σ2

e) se met sous la forme pe(ep+1, . . . , eN) = 1 (p2πσ2 e)(N −p) exp − 1 2 e   XN k=p+1 e2k  

La recherche des solutions est effectu´ee par des algorithmes it´eratifs de minimisation du crit`ere

J(θ1, . . . , θm, ˜α) ou de la fonction de vraisemblance.

En pratique, les performances d’estimation obtenues par la m´ethode du maximum de vrai- semblance du mod`ele AR-MNL permettent d’am´eliorer la qualit´e per¸cue sur des exemples simul´es de non-lin´earit´es instantan´ees. Cependant malgr´e ces r´esultats, cette approche est trop restric- tive car la caract´erisation du processus de transmission comme une non-lin´earit´e instantan´ee de type polynomiale est trop simple pour repr´esenter des exemples r´ealistes de la distorsion non-lin´eaire sonore.

1.5.2.2 Approche par mod´elisation AR-NAR

Dans l’approche par mod´elisation AR-NAR, d´evelopp´ee par [Mercer, 1993] puis [Troughton, 1999], le signal Xt est repr´esent´e par l’´egalit´e

Xt= Zt+ νβ X i=1 i X j=1 βi,jbijXt−iXt−j+ νβ X i=1 i X j=1 j X k=1

βi,j,kbijkXt−iXt−jXt−k+

32 CHAPITRE 1. CONTEXTE ET OBJECTIFS

o`u la variable νβ est le retard maximum des effets de m´emoire de la non-lin´earit´e du mod`ele. Les coefficients bβ = {bijk}, sont les param´etres du mod`ele NAR, dit en anglais Nonlinear autoregressif et β = {βi,j,k} sont des variables indicatrices des termes dans la s´erie. L’utilisation

des variables indicatrices β permet d’´eviter un sur-param´etrage du processus et de s´electionner un sous-ensemble parmi tous les termes polynomiaux de la s´erie. Chaque βi,j,k prend une valeur discr`ete 0 ou 1 selon que le terme d’indice i, j, k apparait ou non dans la somme (1.12).

et -(1 −Pmi=1θiz−i)−1 Z-t NAR(bβ, β, νβ) - Xt

Diag. 1.4 – Le mod`ele AR-NAR.

Le signal Zt en entr´ee est suppos´e autor´egressif d’ordre m et v´erifie une ´egalit´e de la

forme (1.11). Le mod`ele d’observation du signal distordu Xtest repr´esent´e par le diagramme 1.4.

Le mod`ele NAR est un cas particulier du mod`ele param´etrique NARMAX (Nonlinear Autore-

gressif Moving Average with eXogeneous input) qui repr´esente la formulation la plus g´en´erale

des mod`eles param´etr´es de transmission non-lin´eaire bruit´ee [Leontaritis and Billings, 1985a], [Leontaritis and Billings, 1985b]. L’avantage principal du mod`ele NAR dans le contexte de la res- tauration est que l’inverse de la transmission non-lin´eaire est directement d´eduite des param`etres de la transmission (1.12). De ce fait, le traitement est ramen´e `a un probl`eme d’estimation des param´etres bβ, β et νβ de la mod´elisation NAR. La restitution du signal Ztquand les param`etres

sont connus, est simplement r´ealis´ee par le calcul et la soustraction des termes non-lin´eaires `a partir du signal Xt.

La vraisemblance du mod`ele repr´esent´e par le sch´ema 1.4, est d´eduite de la densit´e de pro- babilit´e jointe de la s´equence d’innovation gaussienne. [Mercer, 1993] propose une proc´edure de r´egression par ´etape pour choisir et d´eterminer les param`etres de la mod´elisation. La for- mulation du mod`ele NAR est un peu diff´erente et n’utilise pas les variables indicatrices β de la s´erie (1.12). Plus pr´ecis´ement, la technique d´etermine le maximum de vraisemblance quand le nombre de terme de la s´erie, les ordres νβ et m sont connus. Le choix final du meilleur en-

semble de param`etres estim´es, est ensuite d´etermin´e selon un crit`ere de maximum d’entropie, de type AIC entre les diff´erents ordres de param`etrage possible. En revanche, [Troughton, 1999] propose une approche bay´esienne hi´erarchique, impl´ement´ee avec les m´ethodes de Monte-Carlo par chaˆınes de Markov (MCMC). Chaque param`etre du mod`ele AR, y compris l’ordre m de la r´egression, et de la s´erie NAR(bβ, β) est alors, muni d’une loi a priori (loi gaussienne, de

bernouilli ou inverse gamma). Dans ces conditions, on peut expliciter la densit´e de probabilit´e

a posteriori jointe des param`etres du mod`ele AR-NAR sachant les observations X1, . . . , XN. L’estimation des param`etres est alors effectu´ee par un algorithme MCMC de Gibbs hybride `a sauts r´eversibles qui simule conjointement les transitions entre les valeurs de l’ordre m du mod`ele AR [Troughton and Godsill, 2001], [Green, 1995].

L’approche bay´esienne pour l’estimation du mod`ele AR-NAR permet d’am´eliorer signifi- cativement la qualit´e des effets per¸cus sur des exemples simul´es de distorsions non-lin´eaires caract´eris´ees par la relation (1.12). La technique n´ecessite cependant la mise en oeuvre d’algo- rithmes stochastiques coˆuteux en temps de calcul. De plus, [Troughton, 1999] indique que les performances sont insuffisantes pour traiter des effets sonores sur des enregistrements r´eels et de ce fait, aucun exemple d’application de la m´ethode ne permet de valider la mod´elisation de type NAR propos´ee.