• Aucun résultat trouvé

L’objectif de cette partie n’est pas de faire un état de l’art exhaustif des méthodes proposées pour la détection de dégradations à partir d’un modèle de parole. Nous cherchons plutôt à en dégager les principaux axes, en mettant en évidence les potentialités et les limitations de cette stratégie et en nous replaçant dans la problématique plus large du post-traitement. Nous tentons notamment d’analyser les conditions et la pertinence d’une mise en œuvre de telles méthodes couplées à des procédures de masquage des dégradations en aval de la chaîne de réception GSM.

2.4.1 Modèles pour la détection de dégradations

Nous présentons ici différentes techniques de détection des artefacts de la parole à partir d’un modèle

a priori de la parole. On distinguera les méthodes qui exploitent uniquement la non-uniformité d’un paramètre extrait de la parole et les méthodes qui prennent en compte la corrélation temporelle de la suite de ses valeurs.

2.4.1.1 Exploitation de la non-uniformité des paramètres de la parole

La technique la plus simple consiste à considérer la valeur d’un paramètre à un instant donné indépendamment de ses valeurs passées. On décide alors de la présence d'un artefact lorsque la valeur observée est très peu probable pour la parole. Ceci n'est évidemment possible que si certaines valeurs sont nettement moins probables que d'autres sous l'hypothèse de la parole. Autrement dit, on exploite la non-uniformité de la distribution du paramètre pour la parole.

Cette distribution a priori des paramètres de la parole peut être apprise à partir d’une base de donnée de parole. Ainsi, pour évaluer les dégradations audibles, [Bayya et al., 1996] mesurent une distance entre les spectres LPC estimés sur le signal de parole analysé et ceux appris par l’algorithme de la K- moyenne (cf. Annexe A) sur une base de donnée de parole.

Le modèle a priori des paramètres peut également correspondre à un modèle physique de production de la parole. Une dégradation est alors détectée comme étant une configuration inadmissible du modèle de production. Ainsi, une paramétrisation du conduit vocal, obtenue à partir des coefficients de corrélation partielle PARCOR (cf. Annexe A) de la parole, peut être utilisée pour caractériser une dégradation associée à une violation des contraintes physiques du conduit vocal [Gray et al., 2000]. On peut s’interroger sur la pertinence de telles méthodes dans le cas de la parole codée par le GSM EFR puisque les paramètres spectraux reçus (LSF) sont toujours les éléments d’un dictionnaire de quantification vectorielle (QV) appris sur la parole. On rappelle cependant que la quantification des coefficients LSF n’est pas conjointe pour des raisons de complexité. Plus précisément, dans le cas du GSM EFR, les coefficients LSF sont divisés en cinq sous-ensembles quantifiés chacun par un index

transmis séparément (cf. Annexe A). Ainsi, il n’y a aucune garantie que les coefficients LSF utilisés par le décodeur correspondent à une configuration admissible pour la parole.

2.4.1.2 Exploitation de la corrélation temporelle des paramètres de la

parole

Pour certaines dégradations, les valeurs prises isolément au cours du temps par les différents paramètres de la parole peuvent sembler vraisemblables mais c'est la séquence de ces valeurs au cours du temps qui ne l'est pas. Pour détecter ce type de dégradations, le modèle a priori doit prendre en compte les observations passées.

Ce principe a notamment été mis en œuvre pour une détection d’erreur sur les paramètres reçus au niveau du décodeur parole26. Les méthodes proposées méritent d’être exposées ici car elles sont facilement transposables à une approche de type post-traitements. Ainsi, dans le cas d'un codeur de type CELP, [Görtz, 1997] montre que des paramètres comme le délai LTP, le gain d'excitation, et la 1ère LSF exhibent une forte corrélation temporelle. Cette corrélation temporelle est exploitée pour une détection d'erreur complémentaire au niveau du décodeur parole. Le principe utilisé consiste simplement à comparer les variations des paramètres reçus à un seuil et à décider qu'il s'agit d'une erreur dès que le seuil est franchit. De la même façon, [Hindelang et al., 1997] améliorent la détection d'erreur au niveau décodeur GSM FR en observant les variations de l'énergie (estimée dans ce contexte à partir des paramètres du codeur parole) et en comparant ces variations à des seuils moyens pour la parole. Ces méthodes basées sur une statistique des variations de paramètres ont l’avantage de la simplicité, cependant elles conduisent toutes à des taux de fausse alarme élevés.

Les approches se situant au niveau du signal de parole lui-même peuvent exploiter des modèles plus globaux de la parole car ils ne sont pas assujettis aux paramètres spécifiquement calculés par un codeur. Des modèles de corrélation entre vecteurs successifs de coefficients spectraux extraits du signal de parole peuvent être appris sur une base de parole et utilisés pour la détection de séquences d’erreurs. Ainsi, [Lindblom et al., 2000] modélisent la loi jointe de l’ensemble des coefficients LSF extraits sur deux trames successives de parole. Cette loi jointe est représentée par un modèle multi- gaussien [Hedelin et al., 2000] ce qui permet de réduire la complexité de l’apprentissage. Enfin, les modèles de production de la parole peuvent à nouveau être exploités, notamment pour prendre en compte les contraintes articulatoires dans la détection d’erreurs par séquences [Gray et al., 2000] .

2.4.2 Pertinence d’une mise en œuvre aval de ces modèles

Le bref aperçu qui a été dressé des méthodes exploitant un modèle de parole pour la détection de dégradations permet néanmoins de dégager des conclusions quant à leur intérêt dans le contexte du post-traitement de la parole transmise par le GSM.

On a présenté au paragraphe 2.2, les caractéristiques qui rendent ces méthodes particulièrement intéressantes pour la détection des dégradations observées en aval d’une chaîne de réception :

• La possibilité de détecter une large classe de dégradations puisque le modèle a priori porte sur la parole et non sur les dégradations.

La possibilité d’utiliser le modèle a priori sur les paramètres de la parole pour un masquage ultérieur des dégradations. Ceci est surtout le cas des méthodes exploitant la corrélation temporelle des paramètres.

Cependant, il apparaît que les paramètres modélisés par ces méthodes sont essentiellement les paramètres spectraux (ou les caractéristiques du conduit vocal). Ceci n’est pas étonnant car ces paramètres, qui sont les plus importants vis-à-vis de la perception, sont aussi les plus redondants. Ils correspondent à une description de la parole à une échelle la plus grossière, qui est celle de l’enveloppe

spectrale. Or ces paramètres sont aussi ceux qui sont les plus protégés par le codage canal du GSM

(Classe 1a) et pour lesquels une procédure de substitution est mise en œuvre en cas d’erreur détectée. La portée de ces méthodes se voit ainsi réduite au cas où la détection d’erreur mise en œuvre aux décodeurs est défectueuse. Cette situation, qui était assez fréquente pour le GSM FR, est beaucoup plus rare pour le GSM EFR dont les mécanismes de détection d’erreur ont été améliorés (cf. Annexe B).

Autrement dit, les méthodes de détections basées sur un modèle de parole apparaissent séduisantes mais le décodeur GSM limite d’emblée leur utilité pour un post-traitement en ne transmettant pas les principales dégradations qu’elles seraient susceptibles de traiter.

La mise en œuvre de procédures de détection de défauts demeure intéressante pour traiter toutes les dégradations à un niveau d’échelle plus fin du signal de parole, et qui sont associées aux erreurs de transmission introduites sur les paramètres considérés moins sensibles par le codeur. Certaines de ces dégradations ont été recensées au Chapitre 1. Outre le problème lié à leur détection, la principale gageure est alors le masquage de ces dégradations. En effet, toute procédure de masquage par substitution de trame est à exclure puisqu’elle serait plus préjudiciable à la qualité et à l’intelligibilité de la parole que les dégradations que l’on cherche à masquer. Un schéma de type « Analyse – Modification – Synthèse » [Laroche, 1995] semble une approche pertinente dans ce cas puisqu’il permet des modifications non-linéaires du signal et que les dégradations à traiter sont elles-mêmes de type non-linéaire.