• Aucun résultat trouvé

Analyse de la redondance résiduelle au niveau bit

7.2 Etude de la prédiction au niveau des bits individuels

7.2.1 Analyse de la redondance résiduelle au niveau bit

Au chapitre 4, nous avons caractérisé la redondance résiduelle en sortie du codeur parole au niveau des paramètres (ou plus exactement, des index de quantification associés). Il est clair qu’une partie de l’information de redondance est perdue en passant d’un modèle a priori exploitant une loi jointe (bits codant un même paramètre) à un modèle basé sur des lois marginales (bits individuels), néanmoins on a noté précédemment que pour certaines configurations, comme une quantification scalaire ou une indexation optimisée (Index Assignment), une redondance significative pourrait demeurer au niveau des bits individuels. Nous cherchons ici à mesurer cette redondance dans le cas du GSM EFR. Les bits étudiés sont ceux codant les paramètres principaux de l’EFR, ils sont rappelés par le Tableau 7.1.

( )

k m

lsf bit de poids m codant l’index de QV du kième jeu de résidus LSF

( )

k

gp m bit de poids m codant le gain de dictionnaire adaptatif (sous-trame k)

( )

k

gc m bit de poids m codant le résidu de gain de dictionnaire fixe (sous-trame k)

( )

k

lag m bit de poids m codant le délai de pitch (sous-trame k)

Les bits codant le dictionnaire d’excitation ne sont pas étudiés, leur redondance étant a priori très faible71. On rappellera que les paramètres spectraux (LSF) sont quantifiés conjointement (QV) par jeux de 5 paires après avoir été (partiellement) décorrélés par une prédiction MA. Une quantification

scalaire (QS) est par contre utilisée pour les gains72 et le délai de pitch. La table d’allocation des bits pour ces paramètres est donnée en Annexe A.

Pour caractériser la redondance au niveau des bits individuels, nous avons exploité un extrait de la base de parole présentée au chapitre 4. Les données considérées ici ne sont plus les index de quantification en sortie du codeur parole mais les trames binaires d formées par multiplexage des bits codant les index et tri décroissant selon leur sensibilité (Table 6 de la norme GSM EFR). On considérera ici uniquement les 80 premiers bits de cette trame ordonnée par sensibilité, c'est-à-dire les bits pour lesquels l’impact subjectif d’une erreur est le plus important. Les corrélations inter-trame et intra-trame sont mesurées sur 6000 trames correspondant à des périodes d’activité vocale uniquement. Plus exactement, on calcule les corrélations normalisées suivantes :

Inter-trame : , 1, 1 1 N k n k n r d d N − = =

n k (7.1) Intra-trame : , , 1 1 i j i j N k k n k n k n r d N = =

d, (7.2)

désigne le bit de position k dans la trame et N est le nombre de trames utilisées pour l’estimation. Ces expressions supposent que le bit d est à valeur dans { }

,

n k

d dn

,

n k + −1, 1

Les résultats de cette analyse sont illustrées Figure 7.1 et Figure 7.2 pour les corrélations inter-trame et intra-trame, respectivement. Le Tableau 7.2 présente, pour les bits les plus corrélés, les correspondances entre les positions des bits sur ces figures (position dans la trame d ordonnée par sensibilité) et leur signification, c'est-à-dire leur poids dans l’index de quantification associé.

Sensibilité (position k dans la trame réordonnée d) Poids dans l’index de quantification associé

1,2,3,4,5,6 lag1(8, 7, 6, 5, 4, 3) 7,8,9,10,11,12 lag3(8,7,6,5,4,3) 13,14 et 15,16 lag2(5, 4) et lag4(5, 4) 17, 19, 58, 59 gpk( )3 ; 1,.., 4k = 25, 26, 51 lsf1(5,4,6) (18, 62) – (20, 63) – (60, 64) – (61,65) gck(4, 3 ; 1,.., 4) k = Tableau 7.2 : Correspondance entre position et signification des bits les plus corrélés

71 Le dictionnaire d’excitation représente la partie non-modélisable de la parole, autrement dit « aléatoire ». 72 Dans le cas du gain de dictionnaire fixe, c’est le résidu de prédiction MA dans le domaine logarithmique qui est

En ce qui concerne la corrélation temporelle, on constate que les bits les plus corrélés correspondent majoritairement aux bits de poids forts des index issus d’une quantification scalaire. Un seul bit associé aux LSF apparaît vraiment corrélé, il s’agit du bit de poids fort de l’index du premier jeu de résidus LSF.

On remarquera que la corrélation temporelle est essentiellement positive, ce qui signifie qu’elle correspond à l’invariance des bits entre deux trames successives. La modélisation de cette corrélation par l’intermédiaire de la probabilité de changement de signe, proposée par Hagenauer, est donc pertinente dans ce cas.

délai pitch gain dico fixe LSF1

Figure 7.1 : Corrélation normalisée entre bits de trames successives du GSM EFR

Pour la corrélation intra-trame également, les bits les plus corrélés sont ceux associés à une quantification scalaire. Il s’agit alors des bits de poids forts d’un même index de quantification ou encore des bits de même signification à l’intérieur de sous-trames successives. Dans le premier cas, la corrélation entre bits traduit la non-uniformité de la distribution de l’index de quantification73, dans le second cas, elle correspond à la corrélation temporelle entre sous-trames. En revanche, les bits associés à des paramètres distincts sont peu corrélés entre eux. Ceci rejoint l’analyse de redondance faite au chapitre 4 qui montrait notamment que les gains (dictionnaires fixe et adaptatif) étaient peu corrélés entre eux. Les seuls paramètres présentant une corrélation intra-trame significative sont les LSF

}

73 La non-uniformité de la distribution d’un index implique que les bits codant cet index ne sont pas équiprobaux

dans . La non-uniformité d’un index résulte du fait que les cellules de quantification ne sont pas « adaptées » à la distribution du paramètre. C’est notamment le cas pour la quantification scalaire du gain du dictionnaire fixe comme l’illustre la table 4.4 présentée au Chapitre 4.

(relation d’ordre) mais cette corrélation n’apparaît plus au niveau des bits après quantification vectorielle.

En conclusion, la corrélation observée au niveau des bits individuels pour le GSM EFR concerne essentiellement les gains et le pitch. La redondance des paramètres spectraux (LSF) n’est que très partiellement prise en compte à ce niveau. Ceci semble limiter a priori les possibilités de rehaussement de la qualité perçue par des méthodes exploitant la corrélation entre bits. Cependant, on rappellera que selon le point de vue « correction d’erreur » qui est celui de SCCD, l’existence de bits redondants peut permettre une correction des autres bits situés dans une région proche du treillis (en raison de l’effet mémoire du codeur). Or, comme les bits sensibles sont regroupés en début et fin de trame, l’exploitation de la redondance des bits associés aux gains et au pitch pourrait induire une correction des bits codant les LSF.

délai pitch

Gains

LSF1

7.2.2 Prédiction inter et intra-trame au niveau bit pour le