Exploitation de la corrélation inter-trame (AK1)

3.3 Décodage source à entrées souples

3.3.2 Structure de la probabilité a posteriori

3.3.2.3 Exploitation de la corrélation inter-trame (AK1)

Comme présenté en Annexe A, le codage parole est confronté à un certain nombre de limitations pratiques comme la complexité, le délai maximal admissible ou encore les risques de propagation d’erreur en cas d’erreur de transmission. De part ces limitations, les paramètres quantifiés (ou de

manière équivalente les index associés) présentent une redondance résiduelle. Une part importante de cette redondance est représentée par la corrélation temporelle entre les trames (ou sous-trames) successives de paramètres. Différents modèles ont été proposés pour modéliser cette corrélation dans le cadre du décodage source à entrées souples.

3.3.2.3.a Processus de Markov

La corrélation temporelle de la suite des index de quantification transmis est entièrement représentée par la probabilité conditionnelle

(

n 1,..., n

)

p i i i ₋₁ . On modélise ici cette corrélation en se limitant à un processus de Markov d’ordre 1 :

(

n 1,..., n 1

)

(

)

p i i i ₋ =p i i_n _n−₁ (3.12) c’est-à-dire qu’on ne considère que la corrélation entre trames (ou sous-trames) adjacentes [Sayood et

al., 1991]. Les probabilités de transition a priori p i i

(

n n−1

)

entre index (ou paramètres quantifiés) sont

apprises sur une base de données de parole et doivent être stockées au décodeur.

Considérons à nouveau la transmission de l’index de quantification i selon le schéma illustré Figure 3.2. La suite des indices en sortie du canal discret sans mémoire et de probabilités de transition

n n j ( _n _n p j i n i )

}

−

peut être décrite par une Chaîne de Markov Cachée d’ordre 1 [Miller et al., 1998]. Les états de cette chaîne correspondent aux différentes valeurs i de l’index de quantification

et l’observation associée à chaque état est décrite par la probabilité de transition

{

0,1,...,2M 1

∈

( _n _n

p j i ) du canal discret.

Le calcul de la probabilité a posteriori p i j

(

n 1,...,jn

)

s’apparente alors à celui de la variable forward

(ou induction avant) α_n( )i dans un treillis, définie par :

(

_n ₁,..., _n

)

( )

p i =i j j =C α_n i (3.13)

avec α_n( )i =p j

(

₁,..., ,j i_n _n =i

)

(3.14)

et C est une constante de normalisation.

Cette variable peut se calculer de manière itérative comme suit :

( ) ( )

( ) (

)

( ) 1 0 n n n n n n i i i p j i i i p i i i i i α α α

π

− − ′ ′ ′ = = = = =

∑

1 _(3.15)

Cette récursion est à la base des modèles proposés par [Phamdo et al., 1994], [Fingscheidt et al., 1997], [Miller et al., 1998]. On désignera par AK1 (first-order a priori knowledge), cet algorithme exploitant un a priori d’ordre 1 (plus exactement, la corrélation temporelle à l’ordre 1).

(n n 1)

p i i ₋

tem ps (tram es)

n 1 n − Canal équivalent p j(n=j in=i) Source (indices de Q V ém is)

Sortie de canal équivalent (indices reçus)

Index i

Index j

Figure 3.4 : Interprétation de la sortie du canal comme une Chaîne de Markov Cachée

La complexité de calcul de la probabilité a posteriori p i j

(

_n ₁,...,j_n

)

selon l’équation (3.15) est de l’ordre où est la taille du dictionnaire de quantification. Cette complexité apparaît rédhibitoire pour un codeur tel que l’EFR puisque la taille des dictionnaires de quantification peut être aussi élevée que N pour certains paramètres

(

O N _{N =} 2M

512

= 35_.

La complexité élevée de l’algorithme AK1 vient du fait qu’on ne fait aucune hypothèse sur les valeurs

précédentes de l’index i_n dans le calcul dep i j

(

_n ₁,...,j_n

)

. Des approches sous-optimales ont été introduites pour réduire la complexité. Elles reposent sur l’idée d’une prédiction de l’index i

uniquement à partir des valeurs précédemment estimées. Plus précisément, on peut décomposer la probabilité n

(

_n ₁,...,

)

p i j j_n de la façon suivante :

(

)

(

)

( )

(

) (

1 1 1 1 1,..., 1 1 1 n n n n n n n n n p i j j p i C p j i p i p − − − − = =

∑

i j i 1

)

1 n n i j (3.16)

où 1

[

]

1 1,..., n n i i − − =

i ₁ désigne la séquence d’index pour les instants précédents et C est une constante de normalisation (sachant l'index reçu j_n).

Suivant le critère d’optimalité (MAP ou MMSE) employé pour l’estimation du paramètre, on peut alors simplifier l’équation (3.16) de deux façons.

• Critère MAP :

On cherche à maximiser l’expression (3.16), on peut alors utiliser l’approximation dite de la

séquence dominante, c’est-à-dire qu’on réduit la sommation sur toutes les séquences dans

(3.16) à la séquence la plus probable. C’est la séquence ˆ en sortie de l’estimateur MAP. Une telle approximation est valable pour les faibles taux d’erreur mais entraîne une divergence dès que le taux d’erreur s’élève.

1 1 n− i 1 1 n− i • Critère MMSE :

Une approximation de la probabilité (3.16) peut être obtenue en remplaçant la probabilité marginale obtenue par sommation sur toutes les séquences par une « probabilité prédictive » conditionnée aux valeurs du paramètre précédemment estimées selon le critère MMSE :

1 1 n− i

(

₁n

)

( )

₍

₁

₎

,...,

₍

₎

n n n n n p i j p j i p i E v j ₋ E v j1

)

(3.17)

C’est cette approximation qui est utilisée dans les modèles basés sur la prédiction linéaire présentés dans ce qui suit.

3.3.2.3.b Prédiction Linéaire

On modélise ici la corrélation temporelle du paramètre et non plus celle de l’index de quantification . Ainsi, [Gerlach, 1993] et [Fingscheidt et al., 1997] décrivent v à partir d’un processus auto- régressif d’ordre r : n v n i _n

[

]

. ,..., T n = n− n r− v A v v +wn n r (3.18)

où A est la matrice des coefficients de prédiction linéaire et w le signal d’erreur. Les coefficients A sont fixes et doivent être appris à l’avance sur une base de données. Comme le paramètre v est rarement un processus auto-régressif gaussien, la distribution du signal d’erreur doit également être apprise puis stockée au décodeur.

( )

p_w w

Le décodeur utilise le modèle a priori (3.18) pour prédire une valeur du paramètre v d’après les précédentes valeurs estimées au sens du MMSE :

n ( ) ( ) ( ) 1 ˆ ,...,ˆ T PL MMSE MMSE n =  n− −  v A v v (3.19)

(

)

( )

(

n n 1 n 1 ,..., n r n r

)

( )i

(

)

p i =i E − j − E − j − =

∫

_∈Ω pw n − d

v v v v v (3.20)

où _Ω( )i _{désigne la cellule de quantification associée à l’index i.}

La probabilité a posteriori

(

n n p

p i j₋

)

s’obtient alors à partir de l’équation (3.17).

On remarquera que l’emploi d’une prédiction linéaire fixe à partir des données précédemment estimées risque également d’entraîner une propagation d’erreurs36_.

3.3.2.3.c Chaîne de Markov Cachée

Un autre défaut inhérent à la description de l’index de quantification par une chaîne de Markov est la très grande dimension prise par la table des probabilités de transition

(

n n 1

)

p i i ₋ dès que la résolution du quantificateur augmente.

En fait, lorsque la résolution du quantificateur est élevée, ce qui est le cas du GSM, il est beaucoup plus pertinent de décrire i à l’aide d’une chaîne de Markov Cachée. Ce type de modélisation est d’ailleurs utilisé pour les paramètres spectraux en reconnaissance de la parole. En utilisant une chaîne de Markov Cachée, la relation entre l’index i et les états finis de la chaîne de Markov est beaucoup plus souple. En effet, un état q de la chaîne n’est plus lié de manière déterministe à une valeur donnée prise par l’index i mais définit une distribution

n p i(n qn =q) de l’index i à l’instant n. Ceci permet

de réduire la dimension de la chaîne de Markov. Cependant, la difficulté dans le cas du décodeur souple est que les états q sont doublement cachés puisque l’index i est lui-même inobservable et que l’on ne dispose que de sa vraisemblance

(

p j_n i_n) d’après les index reçus en sortie du canal. En fait, ce processus équivaut à une chaîne de Markov Cachée dont les lois d’observation associées aux états q sont données par :

( _n _n ) ( _n _n ) (_n _n

p j q =q =

∑

p j i =i p i =i q =q) (3.21) Ce calcul nécessite l’intégration sur l’ensemble du dictionnaire de quantification, ce qui demeure d’une

complexité assez élevée. Une simplification est possible si l’on dispose d’une expression analytique de la loi p j i( _n _n) puisque l’équation (3.21) peut alors être résolue analytiquement en utilisant un modèle multi-gaussien pour la loi p i q(_n _n). C’est la démarche utilisée par [Ligdas et al., 1997].

A partir des lois d’observation calculées selon l’équation (3.21), on peut utiliser la récursion avant entre les états q du treillis pour obtenir la probabilité a posteriori des états p q j

(

n n,...,j1

)

. La

probabilité a posteriori d’avoir transmis l’index i à l’instant n s’obtient ensuite comme la somme des lois p i(_n =i q_n) pondérées par la probabilité des états p q j

(

n n,...,j1

)

36_{On peut rapprocher ceci du fait qu’on emploie, au codeur parole, une prédiction MA des LSF et non un modèle}

(

_n _n,..., ₁

)

,...,(_n _n )

(

_n _n ₁

p i =i j j =C

∑

p i =i q =q p q =q j j

)

(3.22)

L’idée sous-jacente à cette approche, qui est de réduire la dimension de la chaîne de Markov en introduisant des « états » intermédiaires, rejoint l’approche que nous avons développée et que nous exposons au Chapitre 5.

Dans le document Speech quality enhancement for mobile radio systems by using a priori information at the receiver side (Page 66-71)