Extensions du modèle de prédiction - Speech quality enhancement for mobile radio systems by usi

Nous revenons ici sur la modélisation par multi-gaussiennes de la loi jointe p

(

v vn, n−1

)

afin de lui

donner une interprétation plus physique. En effet, l’intérêt de cette modélisation ne réside pas uniquement dans la réduction de complexité. Elle effectue naturellement une classification dans l’espace joint

(

v vn, n−1

)

en « états » définis par une gaussienne ou un regroupement de gaussiennes.

Ceci est parfaitement visible sur la Figure 5.12 où on a représenté le calcul de la loi prédictive (5.12) à partir de la loi a posteriori p i

(

n−1 jn−1,..., ,j1 λ

)

et de la loi jointe p

(

v vn, n−1

)

. Le centre de chaque gaussienne est représenté par un point de largeur proportionnelle au poids w de la gaussienne. On y distingue un état « voisé » associé à une valeur du gain de pitch proche de l’unité et un état « non- voisé ». 0 0.5 1 0 0.2 0.4 0.6 0.8 1 1.2 Gain pitch(t-1) G a in pi tc h( t)

Gain pitch : correlation entre sous-trames

0 0.2 0.4 0.6 0.8 1 0.35 0.4 0.45 0.5 Probabilite Predictive à t Gain pitch(t) 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Gain pitch(t-1) Probabilite A Posteriori à t-1 état « voisé » état « non-voisé »

Figure 5.12 : Prédiction de la loi à l’instant n (haut – droite) à partir de la loi a posteriori à l’instant

Il pourrait être intéressant d’exploiter cette information de classification au niveau des autres paramètres. Par exemple, le comportement des LSF n’est pas le même selon que la trame de parole est voisée ou non et un codeur comme le G.729 exploite cette information de classification lors du masquage [ITU-T, G.729]. D’autre part, on peut généraliser la notion « d’état » de la parole en y incluant d’autres attributs que la seule information « voisé » / « non-voisé ».

5.4.1 Modélisation par HMM

Une manière de procéder serait de définir un état S en l’associant à un jeu de probabilités a priori des gaussiennes de chacune des lois jointes des paramètres définis par le Tableau 5.1 :

état

{

(

(LSFk)

)

(

(gc)

)

(

(gp) m _m _m p g p g _′ p g _′′ ↔ S S

)}

S S (5.27) où ₍ ( ) m

p g x _S_{) désigne le poids de la gaussienne g (conditionnellement à l’état S) dans la GMM} modélisant la loi jointe

(

n, n 1

)

p v v ₋ du paramètre v.

L’état S introduit ainsi une dépendance entre les lois modélisant la corrélation temporelle p

(

v vn, n−1

)

des différents paramètres, par l’intermédiaire du poids de leurs gaussiennes. Plus précisément, en prenant l’exemple d’une modélisation en états « voisés » et « non-voisés » de la parole :

On introduit deux états et S associés respectivement à « voisé » et à « non-voisé » et définissant chacun un jeu de probabilité a priori des gaussiennes dans les lois

S ₁

(

n, n 1

)

p v v ₋ , pour tous les paramètres v dont on souhaite prendre en compte la dépendance à l’état voisé / non-voisé.

Le modèle doit être complété par les probabilités a priori des états S et S ainsi que par les probabilités de transition entre états :

0 1

( )

(

)

{ } 0 0 1 1 ; , 0,1 ij i j p p a p i j π π = = = ∈ S S S S (5.28)

Un tel modèle peut être appris par un algorithme de type segmental K-mean [Rabiner, 1989] où la segmentation voisé / non-voisé initiale est obtenue d’après un modèle a priori. Ce modèle a priori peut par exemple être fourni par la classification voisé / non-voisé obtenue à partir de la loi p gp gp

(

_n, _n₋₁

)

illustrée Figure 5.12.

Les développements qui précèdent n’ont pas d’autre ambition que d’ouvrir une perspective et mériteraient un approfondissement. On pourra remarquer cependant que le modèle de HMM obtenu ici correspond à une proposition de [Wellekens, 1987] pour prendre en compte la corrélation temporelle dans une HMM en modélisant la loi d’émission associée à chaque état par une loi jointe.

5.5 Conclusion

Les méthodes de décodage souple généralisent au niveau du décodeur parole, une approche déjà répandue dans tous les autres éléments de la chaîne de réception. Cette approche consiste à utiliser des entrées souples et, si possible, à générer des sorties souples, de manière à limiter les erreurs de décision. Cependant, l’application de cette approche au décodeur parole se révèle très complexe en raison de la taille des dictionnaires de quantification à parcourir.

Après avoir vérifié l’existence d’une redondance résiduelle laissée par le codeur de parole EFR, nous avons proposé une méthode permettant de réduire d’un facteur 10 la complexité par rapport aux approches de l’état de l’art. De plus, cette méthode, basée sur une modélisation par mélange de gaussiennes de la distribution a priori des paramètres, offre un meilleur conditionnement des estimateurs. Les performances des algorithmes ainsi proposés permettent un gain de l’ordre de 0,4 MOS par rapport à la procédure de masquage classique de l’EFR pour des niveaux de C/I compris entre 2dB et 4dB, tout en convergeant vers la qualité nominale de l’EFR dans le cas où le canal n’introduit pas d’erreur.

Cependant, le modèle de prédiction fixe AK1 utilisé pour exploiter la corrélation inter-trame n’est pas pertinent et limite le gain relatif observé par rapport à l’algorithme AK0 exploitant la seule non- uniformité. En fait, la prise en compte de la corrélation inter-trame n’est vraiment intéressante que pour les niveaux de C/I intermédiaires, c’est-à-dire entre 3dB et 6dB. Pour les niveaux inférieurs de C/I, seule l’information de non-uniformité (AK0) est exploitable puisque la faible confiance dans les

données reçues limite l’information réellement apportée par la prédiction inter-trame. Or le modèle de prédiction fixe utilisé par l’algorithme AK1 s’inspire des modèles (invariants) d’extrapolation de trame perdue, c’est-à-dire de procédures développées pour les bas niveaux de C/I. Il est nécessaire de

chercher un modèle de prédiction mieux adapté au comportement non-stationnaire des paramètres de la parole afin d’obtenir un gain significatif de qualité perçue pour les niveaux de C/I intermédiaires.

Une voie d’amélioration de la prédiction inter-trame pourrait être la modélisation par « états » introduite en fin de ce chapitre.

Chapitre 6

Décodage canal contrôlé par la source :

Principe et état de l’art

6.1 Introduction

Les méthodes de décodage souple de parole étudiées aux chapitres précédents visent à exploiter la redondance résiduelle des paramètres du codeur parole pour lutter contre les erreurs de transmission en sortie d’un canal équivalent qui, dans le cas du GSM, inclut un décodeur canal. Il semble naturel d’essayer d’exploiter cette redondance résiduelle de source directement au niveau du décodeur canal,

c'est-à-dire conjointement avec la redondance systématique introduite par le codeur canal. C’est l’idée à la base des techniques de décodage de canal contrôlé par la source.

Si la démarche peut sembler parallèle avec celle du décodeur souple de parole, le point de vue avec lequel la redondance résiduelle est exploitée diffère sensiblement entres ces deux approches. Dans le cas du décodage canal contrôlé par la source (SCCD), l’objectif est celui de la correction d’erreur binaire, l’information a priori issue de la redondance étant exploitée au niveau des bits. En revanche, le décodeur souple de parole, lorsqu’il réalise l’estimation des paramètres au sens du MMSE, peut être vu comme un intermédiaire entre la correction d’erreur et le masquage, la redondance étant alors utilisée

pour minimiser l’impact perceptif des erreurs plutôt que pour les annuler.

Un des arguments en faveur du décodage de canal contrôlé par la source (SCCD) est qu’il est sensé être plus robuste pour les niveaux d’interférences C/I intermédiaires, pour lesquels la correction d’erreur binaire est effective alors que les paramètres estimés par le décodeur souple sont, eux, déjà biaisés. D’autre part, les approches SCCD et décodage de parole souple peuvent être complémentaires même si ce point reste à vérifier.

Nous analysons dans ce chapitre les différentes techniques proposées dans le domaine du décodage canal contrôlé par la source. Nous évaluerons tout particulièrement leur pertinence vis-à-vis de la modélisation de la redondance résiduelle du codeur parole et vis-à-vis des contraintes imposées par la stratégie de codage canal du GSM.

6.2 Principe du décodage canal contrôlé par la

Dans le document Speech quality enhancement for mobile radio systems by using a priori information at the receiver side (Page 117-121)