Modélisation spectrale et compression de parole à bas débit

(1)

UNIVERSITE DE SHERBROOKE

Faculte des sciences appliquees

Departement de genie electrique et informatique

MODELISATION SPECTRALE ET COMPRESSION

DE PAROLE A BAS DEBIT

These de doctoral

Specialite: genie electnque

Milan JELINEK

Sherbrooke (Quebec), CANADA

Octobre 1998

(2)

1*1

National Library of Canada Acquisitions and Bibliographic Services 395 Wellington Street OHawaON K1AON4 Canada Bibliotheque nationale du Canada Acquisitions et services bibliographiques 395, rue Wellington Ottawa ON K1AON4 Canada

Your file Volre reference Our file Notre reference

The author has granted a

non-exclusive licence allowing the

National Library of Canada to

reproduce, loan, distribute or sell

copies of this thesis m microform,

paper or electronic formats.

The author retains ownership of the

copyright in this thesis. Neither fhe

thesis nor substantial extracts from it

may be printed or otherwise

reproduced without the author's

permission.

L'auteur a accorde une licence non

exclusive permettant a la

Bibliofheque nationale du Canada de

reproduire, preter, distribuer ou

vendre des copies de cette these sous

la forme de microfiche/film, de

reproduction sur papier ou sur fonnat

electronique.

L'auteur conserve la propriete du

droit d'auteur qui protege cette these.

Ni la these ni des extraits substantiels

de celle-ci ne doivent etre imprimes

ou autrement reproduits sans son

autonsation.

(3)

RESUME

Les techniques modernes du codage de la parole a debit reduit cherchent a bien modeliser 1'evolution du contenu spectral du signal de parole au lieu de representer la

forme d'onde temporelle. Le spectre a court terme laisse voir une enveloppe et, pour des sons voises, une structure fine periodique. L'evolution du spectre de la parole est

generalement lisse.

Cette these presente trois projets concemant la modelisation du spectre pour Ie

codage de parole a bas debit. Dans Ie premier projet, on introduit une nouvelle modelisation de Penveloppe spectrale a partir des harmoniques de pitch. Comme la methode de prediction lineaire, cette methode represente Ie filtre de synthese sous la forme d'un filtre tout-pole. On peut ainsi utiliser les algorithmes de quantification

efficaces developpes pour la PL. La performance de cette methode, evaluee par des tests d'ecoute informels, a ete jugee en generale meilleure que la performance de la PL.

Le deuxieme projet conceme Ie probleme de 1'interpolation des parametres decrivant 1'enveloppe spectrale pour des codeurs ACELP. Traditionnellement, les

parametres spectraux sont interpoles une fois par sous-trame. Dans ce travail, on introduit une technique d'interpolation des parametres spectraux aux intervalles plus petits que ceux de la sous-trame, ce qui permet une evolution plus lisse de Fenveloppe spectrale. La

qualite de la parole synthetisee a etc evaluee par des tests objectifs et subjectifs. Bien que Ie RSB ait diminue, la qualite subjective a etc jugee legerement superieure quand on

(4)

interpolait des parametres spectraux aux intervalles plus courts que la longueur de

sous-trame.

Le troisieme projet presente une modification de la transformation SAW. Cette

transformation a pour effet une mise en forme du bmit de quantification de fagon qu'il

soit masque non seulement par Fenveloppe spectrale de la parole mais aussi par la stmcture fine du spectre. La methode modifiee supprime une faible distorsion introduite par Ie traitement par la SAW et la SAW inverse et diminue en meme temps Ie delai de

(5)

REMERCIEMENTS

Avant tout, je tiens a remercier mon directeur de recherche, Dr. Jean-Pierre Adoul, qui m'a accepte dans son groupe de recherche et comme auxiliaire d'enseignement de son cours, pour tous ses conseils professionnels durant mes etudes doctorales et pour 1'orientation de mon travail.

Faimerais remercier tous les membres du groupe de codage de parole de PUniversite de Sherbrooke, Dr. Redwan Salami, M. Claude Laflamme, Dr. Roch Lefebvre et M. Bmno Bessette, pour leur soutien et leurs conseils dans mon travail de recherche. J'aimerais aussi remercier Dr. Roch Lefebvre pour son soutien durant ma charge de cours de Signaux et systemes. Je voudrais remercier mon collegue Ridha Matmti pour son amitie et Dr. Jean-Michel Le Roux pour son accueil amical a mon arrivee au Quebec.

Je remercie les membres de mon jury. Ie president Dr. Jean-Pierre Adoul, Ie rapporteur Dr. Redwan Salami et les correcteurs Dr. Roch Lefebvre et Dr. Jean Rouat pour Pattention qu'ils ont bien voulu accorder a mon travail.

J'aimerais remercier M. Robert Rousseau et les autres membres du Programme quebecois de bourses d'excellence pour la gestion de ma bourse et pour 1'amabilite avec laquelle Us ont toujours ete prets a repondre a mes questions.

Enfin, j'aimerais remercier Stephanie et tous mes amis sans lesquels mon sejour au Quebec n'aurait jamais ete une aussi belle experience, et les membres de ma famille pour leur comprehension et leur soutien pendant mon sejour a 1'etranger.

(6)

TABLE DES MATIERES

l.BNTRODUCTION...^

2. CODAGE DE PAROLE A BAS DEBIT...3

2.1 MODULES DE PRODUCTION ET DE PERCEPTION DU SIGNAL DE PAROLE...3

2.2 CLASSIFICATION DESCODEURS DE PAROLE A BASD^BIT ...4

2.3 EVALUATION DE QUALITC DE LA PAROLE SYNTH6TISEE...8

2.4 ETATDEL'ARTDUCODAGEABAS DEBIT...9

3. CODAGE DU SPECTRE POUR LES CODEURS A BAS DEBIT...13

3. IMODfeLETOUT-POLE... 13

3.2 PREDIOTIONLIN^AIRE ...^ 3.3 LIMITATIONS ETAJUSTEMENTS DE LA PREDICTION LIN^AIRE... 18

3.4 MODULE TOUT-P6LE DERIVE DESHARMONIQUESDU SPECTRE ...22

3.5 QUANTIHCATION ET INTERPOLATION DES PARAMETRES DU FILTRE TOUT-POLE... 23

3.6 TECHNIQUES DE MOBILISATION SPECTRALE AUTRES QUE PAR LE RLTRE TOUT-POLE... 25

3.7 ASPECT PERCEFTUEL DE LA MOD6LISATIONSPECTRALE...27

3.8 INTRODUCTION AUX TECHNIQUES D6VELOPPEES DANS CETTE THESE...32

4.CODEURSACELPETHSX...34

4.1 CODEURACELP...34

4.2 CODEUR HSX ...^ 5. MODELISATION DE L'ENVELOPPE BASEE SUR LA TFD ...45

5 JMOTF^ATIONS ...4

5.2 PRINCIPE DE LA METHODE...51

5.3 ANALYSE DETAILL^E...53

5.3.1 Estimation du pitch... 53

5.3.2 TFDpitch-synchrone... 57

5.3.3 Recherche des maxima du spectre d'amplitude...59

5.3.4 Extrapolation desharmoniques...61

5.3.5 Interpolation des harmoniques...64

5.3.6 TFDinverse...66

5.4 R6SULTAT DE LA MODELISATIONET ANALYSE DE LA COMPLEXITY...68

(7)

5.5.2 Resultats des tests subjectifs...75

5.6 DESCRIPTION DE L'ENVELOPPE PAR LECEPSTRER^EL...78

5.7 APPLICATION SURLECODEURACELP...80

5.7.7 CodeurACELPavec un filtretout-pole...81

5.7.2 CodeurACELPavec un filtreRIF...82

5.8 DISCUSSIONS...86

6. INTERPOLATION DES LSF PLUSIEURS FOIS PAR SOUS-TRAME DANS LES CODEURS

ACELP... 6.1 MOTIVATIONS ...88

6.2 MATRICE DE CONVOLUTION^n,...90

6.3 RECHERCHE DANS LEDICTIONNAIREALG6BRIQUE...93

6.3.1 Utilisation directe de la matrice Hw...•....—...—.—...—....—...—...——..——..—...93

6.3.2 Approche par une base, composee des reponses aux conditions initiates... 94

6.4 EVALUATION DE LA COMPLEXITE...97

6.5 R^SUI^ATS ...^ 6.6 DISCUSSIONS... 101

7. FILTRAGE PAR LA TRANSFORMATION SAW... 103

7.1 INTRODUCTION... 103

7.2 LA TRANSFORMATION SAW... 104

7.3 ANALYSE DESEFFETS DE LA TRANSFORMATION SAW... 106

7.4M6THODE«OVERLAP-SAVE>>...110

7.5 LA TRANSFORMATION SAW MODIFIEE...Ill 7.6 DISCUSSIONS...115

8.CONCLUSION...117

9. LISTEDES FIGURES ...119

10.LISTEDESTABLEAUX...121

(8)

1. INTRODUCTION

Depuis les annees 80, un progres considerable a ete realise dans Ie domaine du codage de la parole numerique, dans la bande telephonique. Le developpement de codeurs de parole de haute qualite, fonctionnants a debit faible, a ete motive par Ie marche croissant des systemes digitaux de telecommunications et d'enregistrement, ou les applications les plus importantes sont les systemes de radiocommunications avec les mobiles, les systemes de communications par satellite, les systemes de communications pour les multimedia, la telephonie par Internet et la visiophonie. Ce progres a ete rendu possible grSce aux nouveaux processeurs rapides de traitement du signal, gr^ce a la meilleure comprehension des processus de production et de perception du signal de parole et finalement gr^ce au developpement d'algorithmes efficaces de codage.

Tout systeme de codage de parole realise un compromis parmi plusieurs contraintes. Idealement, on voudrait un systeme capable de representer Ie signal de parole avec un debit tres faible, produisant un signal synthetise d'une qualite transparente (c'est-a-dire Ie signal decode indiscemable du signal original) et ceci m^me en presence de differentes formes de bruit de fond lors de la prise de son. Ce codeur utiliserait en plus un algorithme de faible complexite et de faible demande en memoire. Pour les applications de telecommunications, il faudrait aussi maintenir Ie delai du codage tres court et assurer une parfaite robustesse centre les erreurs de transmission.

La realisation des codeurs de haute qualite fonctionnant a bas debit exige un traitement par blocs qui sont codes comme une unite. Ces blocs sent appeles des trames et leur longueur varie habituellement entre 80 et 240 echantillons pour la frequence d'echantillonnage de 8 kHz. L'accumulation des echantillons necessaires pour Ie traitement par trame augmente en general Ie delai de codage, la complexite de 1'algorithme et aussi la demande en memoire. La plupart des codeurs de parole modemes realisent une modelisation parametrique du signal sous la forme d'un signal d'excitation passant au travers d'un filtre, en exploitant d'une certaine maniere les proprietes de la

(9)

perception humaine. Le filtre, appele flltre de synthese, est generalement modelise par la prediction lineaire (PL). Le plus souvent, il s'agit d'un filtre autoregressif pur.

Ce travail conceme la compression du signal de parole numerique de bande telephonique (200-3400 Hz) pour les debits entre 2.4 et 8 kb/s. On va s'interesser en particulier aux codeurs avec un debit de transmission autour de 4 kb/s et avec un objectif

de qualite telephonique du signal synthetise (qualite de parole analogique en bande

telephonique). Ce debit etant trop bas pour une representation fidele de la forme d'onde temporelle, les techniques du codage cherchent a bien modeliser 1'evolution du contenu spectral du signal de parole. Cette these presente la description et les resultats de trois projets concemant la modelisation du spectre pour Ie codage de parole a bas debit. U s'agit d'une nouvelle methode de modelisation de Fenveloppe spectrale, plus perfonnante que la PL pour les sons voises, cTune technique d'interpolation des parametres spectraux pour des codeurs ACELP et d'une nouvelle fa9on de calculer la transformation SAW pour Ie masquage frequentiel du bmit de quantification.

La these est organisee de maniere suivante: Le deuxieme chapitre introduit les aspects du codage de parole a faible debit utiles pour les chapitres suivants. Le troisieme chapitre resume les methodes de modelisation du spectre dans les codeurs de parole a bas

debit. Au chapitre 4, on introduit les codeurs ACELP (Algebraic Code Excited Linear

Prediction) et HSX (Harmonic Stochastic Excitation) qui ont servi de plate-formes pour tester les techniques developpees aux chapitres suivants. Au chapitre 5, on presente la modelisation de Penveloppe spectrale basee sur la transformee de Fourier discrete synchrone avec Ie pitch et sa mise en oeuvre dans les codeurs ACELP et HSX. La description et les resultats de 1'interpolation des parametres spectraux plusieurs fois par sous-trame dans un codeur ACELP sont donnes au chapitre 6. Au chapitre 7, on presente la transformation SAW et son application pour Ie codage a bas debit. Finalement, Ie chapitre 8 contient une recapitulation des travaux effectues ainsi qu'une discussion des resultats obtenus et des perspectives.

(10)

2. CODAGE DE PAROLE A BAS DEBIT

2.1 Modeles de production et de perception du signal de parole

Pour atteindre une bonne qualite du signal synthetise a un debit aussi bas que 4 kb/s, il est necessaire de prendre en consideration Ie mode de production du signal de parole de m8me que les limites du systeme auditif humain. Ceci permet de construire des modeles qui enlevent la redondance, presente dans Ie signal de parole, et qui ne parametrisent que Finformation perceptuellement importante.

Le signal de parole est cree par une excitation passant au travers du conduit vocal. Cette excitation est generee par la pression d'air sortant des poumons a travers les cordes vocales. Pour des sons voises, les cordes vocales vibrent a une certaine frequence, appelee frequence fondamentale ou pitch. L'excitation est alors quasi periodique et son spectre de puissance a une structure harmonique. La frequence fondamentale varie typiquement entre 75 et 400 Hz [Kleijn 95b]. Pour des sons non-voises, les cordes vocales ne vibrent pas et Ie spectre de Fexcitation ressemble a un spectre de bmit blanc. Pour certaines regions de parole, Ie spectre de 1'excitation contient la stmcture harmonique dans les basses frequences et une structure du bruit dans les frequences hautes. Le conduit vocal joue Ie r61e d'une caisse de resonance et c'est lui qui ajoute une enveloppe, caracteristique d'un son, au spectre de 1'excitation. Les maxima de cette enveloppe sont appeles les formants. Un modele simple de production de la parole consiste alors en un signal cTexcitation passant au travers d'un systeme qui represente Ie conduit vocal.

La propriete de la perception humaine la plus exploitee est probablement Ie masquage frequentiel. Le masquage frequentiel peut rendre un signal inaudible par la presence d'un autre signal de niveau plus eleve si les deux signaux sont dans Ie m8me voisinage spectral et si Ie niveau du signal masque se trouve sous Ie seuil de masquage

(11)

[Veldhuis 95], [Lefebvre 95]. Parmi d'autres proprietes importantes de la perception,

rappelons 1'insensibilite de 1'oreille a la phase du signal per9U et sa meilleure resolution pour des frequences basses que pour des frequences hautes.

Les codeurs efficaces doivent alors tirer profit de la periodicite du signal de parole voise, de la correlation a court terme des echantillons de parole (modelisee par ex. par Ie filtre de synthese) et des proprietes de la perception. Pour pouvoir analyser Ie signal de parole, il est d'abord necessaire d'en memoriser une certaine partie qu'on peut supposer stationnaire. Une approximation raisonnable consiste a considerer Ie signal de parole comme localement stationnaire sur des intervalles de temps de 1'ordre de 10 a 30 ms

[Moreau 91], [Kleijn 95b]. Ceci correspond aux interyalles de 80 a 240 echantillons pour

la frequence d'echantillonnage de 8 kHz.

2.2 Classification des codeurs de parole a bas debit

On separe habituellement les codeurs de parole en deux classes: les codeurs de forme d'onde et les codeurs parametriques. On peut definir les codeurs de forme d'onde comme des codeurs dans lesquels Ie signal synthetise converge vers Ie signal original quand Ie debit augmente et les codeurs parametriques lorsque Ie signal synthetise ne

converge pas vers Ie signal original [Kleijn 95b].

Les codeurs de forme d'onde s'efforcent de reconstmire Ie signal de parole en minimisant un critere de difference entre Ie signal original et Ie signal synthetise. Pour Ie codage a debit reduit, les seuls codeurs de forme d'onde qui ont« survecu » a la baisSe de

debit sont les codeurs de type CELP (Code Excited Linear Prediction). Le codeur CELP

utilise Ie modele de production ou Ie signal synthetise est genere en passant un signal d'excitation au travers d'un (ou plusieurs) filtres. Ce filtre, appele Ie filtre de synthese, modelise 1'enveloppe spectrale du signal de la parole. D s'agit d'un filtre autoregressif obtenu par la prediction lineaire. Le signal d'excitation est compose d'un ou plusieurs

(12)

vecteurs et il est code au moyen de la quantification vectorielle (QV). Les vecteurs (candidats du signal d'excitation) sont enregistres dans un ou plusieurs dictionnaires. Chacun des vecteurs est passe au travers du filtre de synthese et compare avec Ie bloc de parole originale selon un critere de ressemblance. Ainsi, la synthese de parole est effectuee deja au codeur pour chaque excitation possible et c'est pour cette raison que Ie codeur CELP est classe dans la famille des codeurs dits d'analyse-par-synthese. Le critere de ressemblance est habituellement un critere quadratique qui minimise Ferreur entre Ie bloc de la parole originale et les vecteurs filtres. Avant 1'evaluation du critere, Ie signal d'erreur est filtre par un filtre perceptuel qui prend en compte Ie masquage frequentiel. La periodicite des sons voises peut 8tre reproduite de deux fa9ons: par un filtre a long-terme mis en cascade avec Ie filtre de synthese ou au moyen d'un dictionnaire adaptatif contenant les excitations passees du filtre de synthese [Moreau 91]. La partie non-periodique de 1'excitation est modelisee par un vecteur issu d'un dictionnaire fixe. Le dictionnaire fixe peut contenir des sequences aleatoires ou il peut etre stmcture pour minimiser la complexite et 1'exigence de memoire [Adoul 87], [Un 86].

Les codeurs de type CELP dominent Ie codage de la parole a bas debit au-dessus d'environ 5 kb/s et en general ils atteignent une meilleure performance que les codeurs parametriques pour d'autres signaux que la parole (musique, bruit,...). Comme Ie debit descend en bas de 5 kb/s, Ie nombre de bits commence a etre insuffisant pour decrire la forme d'onde du signal de parole et ce sont les codeurs parametriques qui deviennent plus efficaces. Au chapitre 4, on presente un des codeurs de la famille CELP, Ie codeur ACELP, car ce codeur a ete une des plates-formes pour tester les methodes developpees aux chapitres 5, 6 et 7.

Les codeurs parametriques utilisent Ie modele de production et les caracteristiques de la perception humaine pour decrire Ie signal de parole par un jeu de parametres. Ce jeu ne permet pas de reconstmire la forme d'onde mais il permet de synthetiser un signal perceptuellement similaire au signal d'origine. Ainsi, en augmentant Ie debit, Ie signal synthetise ne converge pas vers la forme du signal original et sa qualite est limitee par la precision du modele. Comme ces codeurs reposent fortement sur Ie modele de

(13)

production de la parole, leur performance est d'habitude tores faible pour d'autres signaux. Les codeurs parametriques peuvent etre classes en trois groupes: les vocodeurs, les codeurs sinusoidaux et les codeurs par interpolation de forme d'onde.

Les vocodeurs les plus utilises sont sans doute ceux pour lesquels Ie conduit vocal est modelise par un filtre autoregressif obtenu par la prediction Uneaire. Les vocodeurs bases sur la prediction lineaire different principalement dans la maniere de constmire Ie signal d'excitation. Le plus simple des codeurs a prediction lineaire (LPC) est Ie codeur pour lequel 1'excitation est generee par un train d'impulsions espacees de periodes de pitch pour les sons voises et par un bruit aleatoire pour les sons non-voises [Atal 71]. Cette decision binaire pour modeliser Ie signal d'excitation devient trop simple quand il s'agit du codage des transitions de voisement ou du codage de la parole faiblement voisee. Le modele de 1'excitadon mixte a ete propose par Makhoul [Makhoul 78]. Dans ce modele, Ie signal d'excitation est compose d'un train d'impulsions dans les frequences basses et d'un bruit dans les frequences hautes. Ce modele a ete elabore par McCree et

Bamwell dans Ie coder MELP (Mixed Excitation Linear Prediction) ou Ie melange de la

composante harmonique et de la composante de bmit se fait a 1'aide de deux flltres RBF (reponse impulsionnelle finie) variables dans Ie temps [McCree 93]. Un autre vocodeur a PL, Ie codeur HSX, utilise un train d'impulsions limitees en bande pour modeliser la partie harmonique de 1'excitation [Laflamme 96]. Une version de ce codeur, utilisee pour les tests, sera detaillee au chapitre 4.

Les codeurs sinusoidaux synthetisent la parole par une somme de sinusoides dont les amplitudes decrivent Ie spectre a court terme du signal de parole. Pour les bas debits, uniquement les amplitudes sont quantifiees et les frequences des sinusoides sont habituellement harmoniques. Pour les debits plus eleves, 1'information concemant les phases et les frequences des sinusoides peut etre transmise. Ce modele convient particulierement au codage de la parole voisee ou Ie signal synthetise est reconstmit par une combinaison lineaire des sinusoi'des de frequences harmoniques avec la frequence fondamentale. Les sons non-voises peuvent etre synthetises avec Ie m8me modele en utilisant des phases aleatoires. Les representants les plus importants des codeurs

(14)

sinusoidaux sont Ie codeur STC (Sinusoidal Transform Coder) et Ie codeur MBE (Multiband Excitation). Une des variantes du codeur STC utilise une representation cepstrale pour modeliser 1'enveloppe spectrale avec possibilite d'un spectre mixte. Dans ce cas Ie spectre a une structure harmonique jusqu'a une certaine frequence de coupure et une structure de bmit pour les frequences superieures [McAulay 92]. D'autres variantes du codeur STC out ete developpees avec une representations tout-pole de 1'enveloppe

spectrale [McAulay 91] ou avec un codage direct du spectre en echelle de Bark [Tasaki

95]. Le codeur MBE modelise Ie spectre de parole comme Ie produit du spectre d'excitation et de Fenveloppe spectrale. L'enveloppe spectrale est decrite par les valeurs correspondant aux harmoniques de pitch. Le spectre d'excitation est divise en plusieurs bandes ou chaque bande contient une composante harmonique ou une composante de bmit selon Ie voisement [Brandstein 91]. Une version du codeur HSX permet de modeliser la composante periodique de 1'excitation par des generateurs harmoniques [Laflamme 96] et on peut alors la classer aussi parmi des codeurs sinusoi'daux.

Le demier groupe de codeurs parametriques comprend les codeurs par interpolation de forme d'onde (WI pour Waveform Interpolation). Dans ces codeurs, une forme d'onde caracteristique est extraite du signal a intervalles reguliers et ses parametres sont interpoles d'une trame a 1'autre [Kleijn 93]. Plus recemment, une decomposidon de la forme d'onde caracteristique a ete proposee. Deux formes d'onde sont alors extraites et transmises - une representant la composante periodique et Fautre la composante aleatoire du signal de parole [Kleijn 95a]. Un autre algorithme base sur 1'interpolation de forme d'onde, appele TFI (Time-Frequency Interpolation), a ete propose par Shoham [Shoham 93]. Bien que la technique WI soit generalement appliquee dans Ie domaine du signal d'excitation du filtre de la PL, elle a ete aussi employee dans Ie domaine du signal de parole [Marston 97].

En general, les codeurs parametriques sont utilises pour les debits au dessous de 5 kb/s et on peut dire qu'ils ont une meilleure performance que les codeurs de type CELP en bas de 4 kb/s. Avec la pression pour reduire les couts de transmission, il est probable que dans les annees a venir, l'inter€t principal sera dirige vers les codeurs parametriques.

(15)

Au moment present, il n'existe aucun codeur parametrique capable de foumir une qualite telephonique du signal synthetise.

2.3 Evaluation de qualite de la parole synthetisee

La qualite de la parole synthetisee peut etre evaluee par des criteres objectifs et subjectifs. Les cnteres objectifs les plus repandus sont Ie rapport signal sur bmit (RSB), qui mesure la distorsion moyenne entre la forme d'onde du signal original et du signal synthetise, et Ie RSB segmentaire [Spanias 94]. Le RSB segmentaire, defini comme la moyenne des RSB calcules sur de courts intervalles, permet de mieux prendre en compte la distorsion dans des intervalles de faible niveau. Le RSB et Ie RSB segmentaire ont ete largement utilises pour evaluer des codeurs fonctionnant a des debits plus eleves.

Ces criteres peuvent etre employes jusqu'a un certain point pour evaluer la qualite des codeurs de type CELP, car ces codeurs tentent encore de reconstmire la forme d'onde de la parole originale. Pour considerer Ie fait que la minimisation du critere de ressemblance dans les codeurs CELP se fait dans Ie domaine perceptuel (Ie signal d'erreur est filtre par un filtre qui prend en compte Ie masquage frequentiel), on mentionne parfois Ie RSB perceptuel et Ie RSB segmentaire perceptuel. Dans ces criteres, Ie signal original et Ie signal synthetise sont filtres par un filtre perceptuel (voir la section 3.7) variable dans Ie temps avant de calculer Ie RSB.

Les seuls criteres capables d'evaluer globalement la qualite de la parole synthetisee des codeurs a bas debit sont les criteres subjectifs ou la parole synthetisee est ecoutee et evaluee par des humains. Les tests subjectifs sont necessaires en particulier pour les codeurs parametriques ou les mesures de comparaison de formes d'onde n'ont aucun sens. Le critere subjectif Ie plus utilise est Ie test MOS (Mean Opinion Score) ou la qualite est evaluee sur une echelle de 1 a 5; 1 pour la qualite mediocre et 5 pour la qualite excellente [Jayant 84]. Dans la phase de developpement d'un algorithme, les mesures

(16)

comparatives informelles constituent un outil important pour decider si une nouvelle methode donne de meilleurs resultats.

2.4 Etat de P art du codage a bas debit

Actuellement, la qualite telephonique peut etre atteinte avec des codeurs operant entre 6 et 7 kb/s. En 1995, FUET (Union Intemationale des Telecommunications) a accepte un nouveau standard (G.729) de codage de parole a 8 kb/s de qualite telephonique con9U en premier lieu pour les applications de telephonie sans fil [Salami 98]. En 1996, une annexe de complexite reduite (G.729A) a ete ajoutee pour des applications de transmission simultanee parole et donnees (DSVD for Digital Simultaneous Voice and

Data) des multimedia [FTU-T 95a], [Salami 97]. Les deux standards sont bases sur la

technique CS-ACELP (Conjugate-Stmcture ACELP). En 1995,1'Un a accepte un autre standard (G.723.1) d'un delai plus long, prevu pour les applications de visiophonie [FTU-T 95b], [Cox 97]. Ce codeur fonctionne a deux debits, 6.3 et 5.3 kb/s. D emploie

Palgorithme MP-MLQ (Multi-Pulse Maximum Likelihood Quantization) pour Ie debit

superieur et 1'algorithme ACELP pour Ie debit inferieur.

En telephonie cellulaire, la premiere generation de normes se fait presentement remplacer par des codeurs de qualite telephonique. Ainsi, en Amerique du Nord, IS-54 VSELP (Vector-Sum Excited Linear Prediction) [Gerson 91] a 7.95 kb/s, selectionne par

Ie TIA (Telecommunications Industry Association) en 1989 pour la telephonie cellulaire

TDMA (Time Division Multiple Access) a ete remplace par une version modifiee du codeur G.729. Ce nouveau standard (IS-641), accepte en 1996, opere a 7.4 kb/s

[Honkanen 97]. Pour la telephonie cellulaire CDMA (Code Division Multiple Access), Ie

codeur QCELP (Qualcomm CELP) [Gardner 93] a debit variable avec un debit maximum

de 8 kb/s s'est fait remplacer par Ie codeur EVRC (Enhanced Variable Rate Coder), base

(17)

similaire. En 1987, Ie Groupe Special Mobile (GSM), un organisme de standardisation faisant partie de 1'ETSI (The European Telecommunications Standards Institute), a accepte Ie codeur RPE-LTP (Regular-Pulse Excitation with Long-Term Predictor) comme standard pour la telephonie cellulaire [Vary 88]. En 1996, un nouveau standard GSM

EFR (GSM Enhanced Full Rate) de qualite telephonique a ete approuve. Ce codeur,

operant a 12.2 kb/s, est base sur la technologie ACELP [Jamnen 97]. Au Japon, Ie premier standard en telephonie cellulaire TDMA ressemble au IS-54 [Gerson 91]. La performance de ce codeur n'atteint pas la qualite telephonique, elle est meme inferieure aux perfonnances de IS-54. Ce codeur opere a 6.7 kb/s et il est refere comme

JDC-VSELP (Japanese Digital Cellular JDC-VSELP).

Pour doubler la capacite des systemes cellulaires en Europe et au Japon, la TCH-HS (successeur de GSM) et RCR ont decide d'adopter des systemes a debit reduit de moitie en acceptant une qualite inferieure a la qualite telephonique. En Europe, un codeur

VSELP a 5.6 kb/s a ete standardise [Gerson 92]. Au Japon, PSI-CELP (Pitch

Synchronous Innovation CELP) a ete accepte [Ohya 94] fonctionnant a 3.45 kb/s.

D'autres standards de qualite inferieure a la qualite telephonique ont ete adoptes pour des applications specifiques. Ainsi, Inmarsat (International Maritime Satellite

Corporation) a standardise un codeur IMBE (Improved MBE) a 4.15 kb/s pour les

communications de bateaux vers la terre par satellite en 1990[Hardwick 91]. Le meme codeur a ete standardise par Optus/Aussat (Australian Satellite) pour les applications de la telephonie mobile par satellite. Une version de ce codeur a ete aussi acceptee par TIA comme Ie standard APCO pour les Canaux civils d'urgence en 1992 [Cox 95]. Une

version amelioree AMBE (Advanced MBE) a 2.4 kb/s fait partie du systeme global de

communications des mobiles par satellite DUDIUM. En Europe, un codeur ACELP a 4.6 kb/s a ete accepte par ETSI comme la norme TETRA (Trans European Tmnked Radio System) pour les applications des radiocommunications mobiles privees [ETSI 94].

Pour des communications securitaires, on accepte une degradation de qualite encore plus importante et on peut alors atteindre des debits encore plus bas. En 1984, Ie

(18)

Departement de la defense des Etats Unis a accepte Ie standard LPC-10 (FS 1015)

[Federal 84]. B s'agit d'un vocodeur LPC operant a 2.4 kb/s. Pour augmenter la performance, un nouveau standard a ete accepte en 1991. Ce standard, FS 1016, utilise 1'algorithme CELP et opere a un debit de 4.8 kb/s [Campbell 89]. Finalement, un codeur

MELP a 2.4 kb/s de qualite comparable a FS 1016 a ete standardise en 1997 [Supplee 97]

pour remplacer les deux codeurs precedents, PS 1015 et FS 1016.

En 1994, rUFT a issu un document decrivant de nouvelles exigences pour la standardisation d'un codeur de qualite telephonique operant a 4 kb/s et prevu pour les applications de la videotelephonie a tres bas debit, les communications personnelles et les communications avec les mobiles par satellite [Cox 95]. Au mois de juin 1996, cinq codeurs ont ete soumis a UFT comme candidats pour Ie standard a 4 kb/s. Aucun des codeurs n'a passe toutes les exigences. La standardisation a ete reprise en mars 1997. Quatre codeurs ont ete alors presentes mais aucun if a ete retenu [Matmti 97]. Au mois de janvier 1998, sept candidats ont ete presentes et a nouveau, aucun n'a ete retenu [TTU-T 98]. Panni ces sept codeurs, quatre etaient de type CELP et trois etaient des codeurs parametriques. Chacun des candidats a presente les resultats des tests subjectifs effectues en deux experiences. Dans la premiere experience, la performance a ete evaluee pour une transmission sans erreurs, pour differents niveaux du signal d'entree, pour une transmission avec des erreurs aleatoires (BER), pour une transmission avec des effacements de trames (PER) et pour la condition de tandem. Dans la deuxieme experience, les codeurs ont ete testes en presence de bmit de fond et en presence d'un locuteur interferant. Les resultats sont resumes dans Ie TABLEAU 2.1. On peut remarquer en general qu'une amelioration importante reste encore a obtenir en particulier pour les conditions de bmit et d'erreurs de transmission.

(19)

TABLEAU 2.1 VERIFICATION DU TEST DE QUALIFICATION DES CODEURS A 4 KB/S,

JANVffiR 1998. Siom-cill Homsat^

KIattiusK

Mitsubis

Niilii

QtosBHI&il

^^OKW^Ui

mi

Param.

3ELP

Param.

:ELP

Param.

EXPl;lil

^iv^auil nolmanatS Oui Oui Gui

^MM

iiia

Oui Gui Oui

^ia||

-ii'i3%

< •^•^^^yy'^'^, Gui Gui Gui Gui Oui BER,

a

''scss^mse Gui

•

j!KW!

IINI

Oui Gui landeni; ^i^^"^^^ lltl^^^:;^^ Oui Gui Gui Oui Oui Gui

XR^

»i;: Gui Gui V'leliieulle Oui

tftterii

ai

Gui Gui

itifsi

Oui

(20)

3. CODAGE DU SPECTRE POUR LES CODEURS A BAS DEBIT

3.1 Modele tout-pole

La structure physiologique du systeme de production de la parole se reflete dans les proprietes du signal de parole. Son spectre de puissance a court temie laisse voir une enveloppe et, pour des sons voises, une structure fine periodique. La stmcture de Fenveloppe est determinee par la forme du conduit vocale. La stmcture fine provient de la vibration quasi periodique des cordes vocales et elle correspond, dans Ie domaine temporel, a la periodicite du signal d'excitation. A part la structure fine pour les sons voises et une pente generale, Ie signal de 1'excitation ne manifeste aucune enveloppe spectrale caracteristique.

Comme mentionne auparavant, un modele simple derive des proprietes de la production de parole consiste en un signal d'excitation passant au travers d'un filtre. Le signal d'excitation est souvent modelise par un train d'impulsions pour des sons voises, par du bruit blanc pour des sons non-voises et par un melange des deux pour les sons mixtes. Le filtre est habituellement realise comme une filtre autoregressif (AR) dont la fonction de transfert est donnee par

(D ff(z) = -^ = —?J— .

A(z) i+i^-z-t

_{h ^}

k=l

Ce flltre est souvent refere comme Ie filtre de synthese.

L'utilisation d'un filtre tout-pole pour la description de Penveloppe spectrale du signal de parole est justifiee par la correspondance avec Ie modele acoustique du conduit vocal [Rabiner 78] et aussi par Ie fait qu'elle est relativement simple. L'efficacite du filtre tout-pole diminue si la fonction de transfert du systeme correspondant au conduit vocal

(21)

comporte des zeros . C'est Ie cas par exemple pour les sons nasaux et fricatifs. Pour pouvoir modeliser efficacement ce type de sons, beaucoup d'etudes ont ete faites sur la modelisation p61e-zero [Atal 78], [Miyanaga 82]. La modelisation p61e-zero necessite la resolution d'un systeme d'equations non-lineaires [Makhoul 75] et malgre qu'il existe un grand nombre de methodes efficaces sous-optimales, la modelisation tout-pole reste la methode dominante pour Ie codage de parole. Pour surmonter Ie probleme de modelisation des zeros dans un modele AR , il suffit d'augmenter suffisamment 1'ordre du filtre tout-p61e parce que tout zero peut 8tre approxime par un certain nombre de p61es. L'ordre des filtres AR utilises dans les codeurs de parole a bas debit varie typiquement entre 8 et 16.

La modelisation du conduit vocal par un filtre AR est presente dans tous les types de codeurs a bas debit et elle predomine largement pour les codeurs de type CELP et les vocodeurs. La precision de la reconstmction de 1'enveloppe spectrale est moins importante pour les codeurs de type CELP parce que Ie codage en boucle fermee [Kleijn 95b] du signal d'excitation peut corriger les defauts de la modelisation de 1'enveloppe. Par contre, pour les codeurs parametriques, une tres bonne reconstruction de 1'enveloppe spectrale est cruciale, car 1) information transmise pour Ie signal d'excitation est souvent tres sommaire. Le filtre de synthese est generalement obtenu a 1'aide de la prediction lineaire. L'estimation de 1'enveloppe par la PL repose sur 1'hypothese que Ie signal de parole peut 8tre modelise par une sortie du filtre H(z) dont 1'entree est soit une impulsion, soit un bruit blanc [Makhoul 75]. Comme cette hypothese n'est pas exactement verifiee pour Ie signal de parole, la PL presente certains defauts, discutes dans les sections suivantes. Une autre methode consiste a calculer Ie spectre d'amplitude du signal de parole, specifier d'une certaine maniere son enveloppe et ensuite faire correspondre Ie filtre tout-pole a cette enveloppe.

(22)

3.2 Prediction lineaire

Dans la methode de la PL, chaque echantillons s[n] du signal de parole est approxime par une combinaison lineaire des echantillons precedents. L'erreur de prediction e[n] 1'erreur entre 1'echandllon du signal original et son approximation -s'ecrit alors

p

(2) e[n] = s[n] + ]T <3^ • 5[n - ^],

*=1

ou P est 1'ordre de la prediction et a/c sont les coefficients du filtre A(z) . Pour obtenir les coefflcients Ok, on minimise 1'erreur quadratique moyenne sur un intervalle de temps, ou on peut supposer Ie signal s[n] stationnaire:

(3) rmn{ ^ e[nf \.

^

L'operation decrite dans 1'equation (2) correspond au filtrage du signal de parole par un filtre tout-zero avec la fonction de transfert A(z). La minimisation de 1'erreur quadratique (3) determine les coefficients a^ de maniere a ce que les correlations entre P echantillons adjacents du signal e[n] soient minimisees. Ainsi, Ie signal e[n] - resultat du filtrage du signal de parole par Ie filtre A(z) - aura un spectre plat. Ce signal est connu sous Ie nom Ie signal residuel. Si 1'on effectue maintenant une operation inverse, c'est-a-dire Ie filtrage d'un signal avec un spectre plat par Ie filtre H(z) (1), on obtient un signal synthetise qui aura la meme enveloppe spectrale que Ie signal de parole original. D'ou la conclusion qu'on peut utiliser la prediction lineaire pour obtenir Ie filtre modelisant Fenveloppe spectrale du signal de parole.

Selon la plage pour la variable n dans la relation (3), deux methodes pour determiner les coefficients a^ sont generalement utilisees: la methode d'autocorrelation et la methode de covariance [Makhoul 75]. La methode d'autocorrelation utilise une fenetre pour limiter la longueur du signal a analyser et la plage de la variable n est ensuite definie

(23)

sur 1'intervalle (-00, oo). La minimisation en (3) mene a 1'equation de Yule-Walker qu'on peut ecrire sous la notation matricielle

(4) R a = r,

ou a = [a\,...,apY est Ie vecteur des coefficients cherches du filtre A(z), r = [ r[l],..., r[P]} et R est une matrice de Toeplitz symetrique composee des termes r[0],..., r[P-l] . Les termes r[k] sont des estimations des premiers P+l coefficients d'autocorrelation du signal s[n] qui a ete limite par une fenetre [Kleijn 95b]. La fen8tre utilisee dans la methode d'autocorrelation est typiquement une fen8tre de Hamming de longueur de 240 echantillons. La methode d'autocorrelation a Ie grand avantage de garandr un flltre H(z) stable. Son inconvenient est 1'application de la fen8tre qui a une influence sur 1'exactitude de 1'estimation des parametres du processus AR.

Dans la methode de covariance, 1'erreur quadratique moyenne est minimisee sur un intervalle de longueur flnie et il n'est done pas necessaire d'utiliser la fenetre [Makhoul 75]. La methode de co variance ne garantit pas un filtre stable et elle est un peu plus complexe que la methode d'autocorrelation. C'est pourquoi elle est moins utilisee que la methode d'autocorrelation malgre qu'elle foumisse des parametres du filtre modelisant 1'enveloppe spectrale avec une precision legerement meilleure.

En utilisant (1), la transformee en z de 1'equation (2) peut 8tre exprimee de la fa9on suivante:

(5) E(z) = ^

H(zV

A 1' aide du theoreme de Parceval [Van Den Enden 92], on peut ecrire pour 1'erreur quadratique (methode d'autocorrelation):

S(e")\

(6) SeM2 = ^Jra:^Tde'

_iTt

(24)

ou 0 est la frequence relative sur 1'intervalle fondamental {-7T,7U). L'equation (6) montre que la minimisation de Ferreur quadratique (1'energie du signal residuel) correspond dans Ie domaine spectral a la minimisation de 1'integrale du rapport entre Ie spectre de puissance du signal original et Ie spectre de puissance du filtre tout-pole. Autrement dit, la prediction lineaire s'efforce de faire correspondre Ie spectre de puissance du filtre de synthese au spectre de puissance du signal de parole.

Le spectre de puissance d'un signal est lie a sa fonction d'autocorrelation au moyen de la transfomiee de Fourier. Dans Ie domaine de 1'autocorrelation, la minimisation de (6) resulte en la correspondance des premiers P+l coefficients de la fonction d'autocorrelation du signal de parole avec les premiers P+l coefficients de

Pautocorrelation de la reponse impulsionnelle du filtre H{z) [Makhoul 75].

Dans Ie domaine temporel, la minimisation de Ferreur quadratique est plus severe pour les grandes erreurs et moins severe pour les erreurs petites. Dans Ie domaine frequentiel, 1'estimation du spectre est en moyenne aussi precise pour les frequences de haute energie que pour des frequences de basse energie. Cependant, 1'equation (6) montre que la correspondance des deux spectres sera meilleure aux endroits ou Ie spectre de puissance de la parole a une plus grande amplitude que Ie spectre du filtre. Au contraire, la modelisation sera moins precise aux endroits ou 1'amplitude du spectre de la parole est plus petite que Ie spectre du filtre. Par consequent, Ie spectre du filtre va mieux modeliser les formants, perceptuellement importants, que les regions entre formants. Cette propriete est aussi responsable du fait que, pour les sons voises, la prediction lineaire modelise bien mieux les harmoniques que les endroits entre harmoniques et done qu'elle modelise effectivement Venveloppe spectrale du signal. Une autre conclusion resulte de 1'equation (6): 1'erreur, quand Ie spectre du signal est superieur au spectre du filtre, a la tendance d'annuler Perreur quand Ie spectre du signal est inferieur au spectre du filtre. Cette propriete peut produire des oscillations parasites dans Ie spectre du filtre de synthese

(25)

3.3 Limitations et ajustements de la prediction lineaire

Dans cette section, on resume les faiblesses de la prediction lineaire et des nombreuses modifications proposees dans la litterature pour ameliorer sa performance. On a montre dans la section precedente que la PL suppose que Ie signal de parole resulte d'un processus autoregressif avec un signal de spectre blanc a 1'entree. Sous ces hypotheses, Ie filtre obtenu par la PL est bien adapte a la modelisation de 1'enveloppe spectrale du signal. Comme mentionne dans la section 3.1, ces hypotheses ne sont pas exactement verifiees pour Ie signal de parole.

L'hypothese de 1'entree blanche du filtre AR n'est pas verifiee pour des sons voises ou 1'excitation se presente sous la forme d'un train d'impulsions glottales. Le spectre de Fexcitation a alors une stmcture harmonique avec des maxima aux frequences multiples de la frequence fondamentale. La stmcture harmonique se reflete dans Ie spectre du signal de parole. Dans ce cas-la. Ie critere (6) ne correspond pas vraiment a ce qu'on desire. Ce critere essaye de minimiser la difference entre Ie spectre de puissance du filtre tout-p61e et Ie spectre de puissance du signal de parole tandis qu'on voudrait que Ie filtre modelise Venveloppe spectrale de la parole. Comme la PL modelise bien mieux les harmoniques que les endroits entre les harmoniques, ceci n'est pas trop grave dans la mesure ou 1'espacement des harmoniques reste suffisamment petit et Fordre du filtre n'est pas trop eleve.

L'inexactitude de 1'estimation de 1'enveloppe augmente pour les signaux de parole avec une courte periode de pitch (au-dessous de 50 echantillons pour la frequence cTechantillonnage de 8 kHz), c'est-a-dire pour des locuteurs feminins en particulier. L'espacement des harmoniques devient alors trop grand et la minimisation du critere (6) force 1'enveloppe a faire des excursions entre ces harmoniques. Ceci peut produire une apparition de faux formants ayant une tendance a 8tre biaises vers les hamioniques de pitch. La largeur des formants est souvent sous-estimee et elle est generalement affectee plus serieusement que leur frequence. Si, au moment de la synthese, la frequence fondamentale s'ecarte du vrai pitch, 1'imprecision de 1'estimation de 1'enveloppe conduit

(26)

a un spectre de la parole synthetisee different du spectre de la parole originale [Miyanaga

82].

Plusieurs methodes ont ete proposees afin d'eviter 1'influence de la periodicite de Fexcitation sur 1'estimation du filtre de synthese. L'approche de la prediction lineaire selective dans Ie temps consiste a ne prendre en consideration dans Ie calcul des coefficients du filtre que des echantillons du signal de la parole qui correspondent a une entree blanche du processus autoregressif. On ne considere alors qu'une seule periode de pitch du signal de parole et on exclut, dans Ie calcul des coefficients, la partie correspondant a 1'ouverture de la glotte (la partie du signal qui correspond a la region

autour de 1'impulsion glottale dans Ie signal residuel) [Steiglitz 77]. Le reste du signal

d'excitation a une structure de bmit aleatoire et Fhypothese de 1'entree blanche est alors mieux verifiee. L'inconvenient de cette technique est 1'intervalle trop court pour P estimation des coefficients, en particulier pour les locuteurs feminins. Ce probleme peut 8tre sunnonte si 1'on ne tient compte que des echantillons du signal correspondant a la fenneture de la glotte, mats cette fois-ci sur plusieurs periodes de pitch [Miyoshi 87]. La PL robuste [Lee 88] peut etre consideree comme une generalisation des methodes de la PL selective. Elle remplace la minimisation de la somme du signal residuel au carre en (3) par une procedure qui minimise la somme du residuel pondere de fa9on que Ie residuel soit desaccentue autour des impulsions glottales.

Une autre approche pour eviter 1'influence de la periodicite du signal d'excitation sur la determination du filtre H{z) consiste a tenir compte de la nature de 1'excitation dans Ie critere de minimisation (3). Le train d'impulsions est d'abord estime a partir du signal de parole et cette estimation de 1'entree est ensuite utilisee pour determiner les parametres

du modele [Miyanaga 82], [Singhal 83]. Une autre possibilite consiste a calculer une

approximation du signal d'excitation a partir du signal residuel du filtre de la PL et ensuite utiliser cette approximation dans Ie critere a minimiser pour obtenir de nouveaux coefficients du flltre [Zad-Issa 97]. L'approche de 1'integration de la nature non-Gaussienne de 1'excitation dans Ie critere a minimiser est egalement presente dans la PL

(27)

robuste dans Ie sens qu'on considere 1'excitadon composee de deux parties - 1'une de distribution nomiale et 1'autre d'une distribution inconnue [Lee 88].

Concemant Ie probleme de la sous-estimation de la largeur de bande des formants par 1'algorithme de la PL classique, il existe deux methodes simples. La premiere consiste a appliquer une fenetre de forme Gaussienne sur Ie signal d'autocorrelation [Tohkura 78]. Ceci correspond a la convolution du spectre de puissance avec une fanction Gaussienne et par consequent a 1'elargissement des formants. L'autre methode multiplie les coefficients

Ok du filtre A(z) par un facteur / [Viswanathan 75], avec ytypiquement entre 0.988 et

0.996. Cette multiplication a pour effet de decaler les p61es vers Ie centre du cercle de rayon 1 dans Ie plan z et done une expansion de largeur de bande des p61es.

Deux autres problemes de la PL, lies a la nature periodique du signal d'excitation des sons voises, sont la sensibilite du modele a 1'ordre de la PL et la sensibilite a la position de 1'interyalle d'analyse. H s'ensuit de Fequation (6) qu'un ordre trop eleve de PL aurait pour consequence que Ie spectre de puissance du filtre commencerait a suivre les creux entre les harmoniques dans Ie spectre du signal. C'est une des raisons pour laquelle 1'ordre du filtre A(z) est souvent limite a 10. La sensibilite de la PL a la position de 1'intervalle d'analyse se manifeste par des fluctuations des parametres du filtre de synthese. Elle est plus importante si 1'intervalle d'analyse est court. Pour la methode d'autocorrelation, elle est due principalement au fenetrage et elle peut etre attenuee par un pretraitement a 1'aide d'un filtre passe-haut du premier ordre [Rabiner 77]. Pour la methode de covariance, elle est due au fait qu'un nombre variable d'impulsions glottales se trouve dans 1'intervalle d'analyse (en fonction de sa position) et elle peut etre attenuee par un pretraitement a 1'aide d'un filtre passe-tout [Rabiner 77]. Une autre possibilite afin de reduire la sensibilite de la PL a la position de 1'intervalle d'analyse consiste a appliquer une fenetre (par ex. de Hamming) sur Ie carre de 1'erreur e[n] avant la

sommation dans (3) [Singhal 84]. La sensibilite a 1'ordre de la PL et a la position de

1'intervalle d'analyse est aussi reduite au moyen de la PL selective [Miyoshi 87], [Lee

(28)

Une autre faiblesse importante de la prediction lineaire est causee par la grande dynamique du spectre de parole. La disparite entre amplitudes des hautes frequences et des basses frequences est encore accentuee par Ie filtrage passe-bas avant la conversion analogique-numerique. La bande transitoire du flltre passe-bas est habituellement tres abmpte et 1'amplitude du spectre de parole est par consequent tres faible dans les hautes frequences. Ceci produit une matrice de covariance (d'autocorrelation) presque singuliere. Les coefficients du flltre A(z) sont alors grands et ils varient substantiellement d'une trame a 1'autre. La dynamique du spectre est diminuee par 1'application d'une fenetre de fomie Gaussienne sur Ie signal cTautocorrelation, discutee plus haut. Cette fenetre attenue 1'amplitude des formants. Pour corriger Famplitude du spectre dans les hautes frequences, on peut additionner a la matrice de covariance une autre matrice, proportionnelle a la matrice de covariance d'un bmit blanc filtre passe-haut [Atal 79]. Cette procedure est souvent simplifiee en ajoutant une petite valeur a la diagonale principale de la matrice de covariance [Chen 95]. Une autre fa9on d'augmenter les hautes frequences est une pre-ampliflcation du signal de parole par un filtre passe-haut du

premier ordre [Makhoul 75].

Le probleme, discute pour les hautes frequences dans Ie paragraphe precedent se produit aussi dans les frequences basses. Le filtre calcule au moyen de la PL a souvent des difficultes a bien modeliser la grande dynamique du spectre generalement presente en basses frequences. Comme pour les frequences hautes, cette erreur est diminuee si 1'on additionne une valeur a la diagonale principale de la matrice de covariance.

Dans les codeurs parametriques, une bonne representation de 1'enveloppe spectrale est perceptuellement tres importante. Pour corriger Fimprecision de 1'estimation de 1'enveloppe par la PL, on peut transmettre, en plus des coefficients du filtre H(z), une information supplementaire concemant Ie spectre du signal residuel. Etant donne que la sensibilite de 1'oreille diminue avec la frequence, 1'information sur Ie spectre du signal residuel est souvent limitee aux basses frequences [Nagaratnam 95], [Duk 98].

(29)

3.4 Modele tout-pole derive des harmoniques du spectre

Les problemes resultant de 1'influence de la periodicite du signal sur 1'estimation des parametres du filtre tout-pole peuvent etre evites par une modelisation dans Ie domaine frequentiel. Le principe consiste a specifier cTune certaine maniere 1'enveloppe du spectre de puissance a partir des harmoniques du pitch. Conune les echantillons donnes par les harmoniques sont la seule information disponible sur 1'enveloppe spectrale, il est necessaire de faire une hypothese du comportement de 1'enveloppe entre ces harmoniques. En general, on suppose que 1'enveloppe spectrale est lisse entre les points specifies par les harmoniques.

A partir d'une representation lisse de 1'enveloppe, les coefficients d'autocorrelation sont determines au moyen de la transformee de Fourier inverse. Les coefficients du flltre sont ensuite obtenus a 1'aide de 1'equation de Yule-Walker (4). La transformee de Fourier relie ici les coefflcients d'autocorrelation avec la representation lisse de I'enveloppe spectrale du signal de parole et non avec son spectre de puissance, comme c'etait Ie cas de la prediction lineaire. On peut alors voir cette methode comme une PL appliquee a un signal pour lequel la periodicite a ete supprimee.

Cette technique a ete largement utilisee dans les codeurs sinusoidaux oii elle a ete aussi appliquee a la parole non-voisee [McAulay 95]. Apres avoir determine les hannoniques pour des sons voises ou des pics pour des sons non-voises, 1'enveloppe est modelisee par une inteq)olation cubique dans Ie domaine du logarithme de spectre d'amplitude. A partir de 1'enveloppe, des coefficients d'autocorrelation et ensuite des coefficients du filtre sont estimes. Cette methode a ete employee par exemple dans Ie codeur EMBE (Enhanced MBE) [Teague 97]. D'autres formes d'interpolation pour modeliser 1'enveloppe, comme 1'interpolation lineaire ou 1'interpolation parabolique, ont ete aussi utilisees [Hermansky 84].

Dans la methode de la modelisation tout-pole discrete, Ie spectre de la parole voisee est approxime par un spectre discret aux harmoniques de pitch [El-Jaroudi 91]. Le

(30)

spectre discret represente 1'echantillonnage de 1'enveloppe du signal et il correspond a une fonction d'autocorrelation periodique. Si 1'espacement des harmoniques n'est pas suffisamment fin, on est confronte au probleme de repliement dans la fonction d'autocorrelation. Pour eviter Ie probleme de repliement, on utilise une mesure qui compare Ie spectre de puissance discret avec Ie spectre de puissance echantillonne du filtre tout-p61e. Cette mesure cherche a faire correspondre les P+l premieres valeurs de Fautocorrelation repliee de 1'enveloppe spectrale avec les P+l premieres valeurs de Fautocorrelation du filtre tout-p61e, repliee de la m8me maniere. La minimisation de cette mesure requiert la resolution d'un systeme d'equations non-lineaires qui doivent etre resolues a 1'aide d'algorithmes iteratifs.

La methode de la Reponse de variance minimum sans distorsion (MVDR) presente une voie alternative pour obtenir la representation tout-pole de 1'enveloppe spectrale [Murthi 97]. Pour des sons voises de frequence fondamentale elevee, cette methode est plus precise que la modelisadon au moyen de la PL. L'enveloppe spectrale du filtre tout-pole est forcee a modeliser au mieux Ie spectre de puissance aux frequences harmoniques du pitch. Si 1'ordre P de la modelisation est suffisamment grand (P >. 2L-1, ou L est Ie nombre d'harmoniques), la reponse du filtre MVDR correspond exactement au spectre de puissance pour les frequences des harmoniques.

3.5 Quantification et interpolation des parametres du filtre tout-pole

Les coefficients du filtre tout-p61e ne sont pas quantifies directement, car des erreurs de quantiflcation relativement petites des a^ (1) peuvent produire de grandes erreurs dans Ie spectre du filtre et meme une instabilite du filtre. fl est done necessaire de les transformer dans une autre representation qui contient la meme information mais qui

possede de meilleures proprietes pour Ie codage [Paliwal 95]. A part la possibilite de

(31)

nouveaux parametres forment un ensemble ordonne ce qui peut etre utilise pour developper des algorithmes de quantification efficaces.

Des coefficients largement utilises dans Ie passe etaient les coefficients de reflexion [Markel 76]. Ces coefficients sont moins sensibles aux erreurs de quantification que les coefficients ajc, ils forment un jeu ordonne et la stabilite du filtre peut etre facilement contr61ee en verifiant si chacun de ces coefficients se trouve dans 1'intervalle (-1, 1). Cependant, la sensibilite des coefficients de reflexion n'est pas uniforme et elle augmente considerablement pour les valeurs proches de ±1 quand ces coefficients representent des p61es de bande etroite. Get inconvenient peut etre surmonte au moyen d'une transformation non-lineaire pour obtenir une sensibilite spectrale uniforme. Une transformation optimale a ce point de vue mene aux coefficients LAR [Makhoul 75].

Presentement, les parametres les plus utilises sont les LSF (Line Spectmm

Frequencies) [Sugamura 86]. Si 1'on definit deux polyn6mes

(7) P(z) = A(z)+z-(p+l)-A(z-1)

(8) Q{z) = A(z)-z-(p+l).A(z-1),

les LSF sont les racines de P(z) et <2(z). Pour un filtre A(z) stable, il sufflt que tous les

zeros de P(z) et Q^z) soient situes sur Ie cercle unite et que les zeros de P(z) et <2(z)

altement. Les LSF ont 1'avantage d'avoir une relation simple avec les formants et ils sont plus faciles a trouver que les poles du filtre A(z) parce que la recherche d'une racine LSF est une operation unidimensionnelle. De fa9on general, plus petite est la distance entre deux frequences LSF voisines, plus grande est 1'amplitude de 1'enveloppe spectrale entre ces frequences. Cette propriete permet de quantifier les LSF en exploitant certaines caracteristiques de la perception humaine.

Les parametres du flltre refletent la forme du conduit vocal. La frequence de leur mise a jour devrait correspondre a la vitesse de ses changements. Les parametres sont mis a jour typiquement une fois par trame, soit toutes les 20 a 30 ms. Cette mise a jour lente

(32)

peut resulter en de grandes variations de la reponse du filtre d'une trame a 1'autre et par consequent en des transitions perceptibles dans la parole synthetisee. Si les coefficients sont estimes au moyen de la prediction lineaire, les differences du spectre de trames adjacentes sont encore plus importantes a cause de la sensibilite de la PL a 1'emplacement de 1'intervalle d'analyse par rapport aux impulsions glottales. Une interpolation lineaire des parametres est souvent utilisee pour rendre revolution du spectre du filtre tout-p61e plus lisse. L'interpolation lineaire est generalement effectuee pour chaque sous-trame d'environ 5 ms. De nombreuses etudes ont ete faites sur I'efflcacite des differentes representations des coefficients du filtre A(z) pour 1'interpolation. Ce sont les LSF qui foumissent en general la meilleure performance [Sugamura 86], [Paliwal 95].

La technique dite de remplissage de trame peut etre consideree comme une generalisation de 1'interpolation des parametres durant les inter^alles entre estimations [McAulay 95]. Ici, on transmet une information supplementaire pour specifier comment reconstmire les jeux de parametres intermediaires. Une evolution plus lisse des parametres du filtre tout-p61e resulte aussi de 1'utilisation de methodes plus sophistiquees comme celles ou on prend en consideration la nature non-Gaussienne du signal d'excitation [Zad-Issa 97] ou de methodes qui corrigent la sensibilite de la PL a la position de 1'intervalle d'analyse (section 3.3).

3.6 Techniques de modelisation spectrale autres que par Ie filtre tout-pole

Le filtre tout-pole represente une modelisation de Fenveloppe spectrale qui est relativement simple et qui est economique pour la quantification aussi longtemps que Ie signal de parole peut etre considere comme Ie resultat d'un processus autoregressif. Diverses autres modelisations plus generales ont ete developpees. Dans la section 3.1, la modelisation pole-zero a ete discutee. Une autre generalisation conceme la prediction non-lineaire. Malgre que des ameliorations importantes aient ete rapportees [Townshend

(33)

91], la prediction non-Uneaire n'est pas couramment utilisee, principalement a cause de sa grande complexite.

Une description simple de 1'enveloppe spectrale du signal de parole consiste en une quantification directe des amplitudes du spectre. Cette methode a ete employee en particulier dans des codeurs sinusoidaux. Les maxima de logarithme du spectre d'amplitude (souvent des harmoniques de pitch) sont d'abord interpoles pour augmenter la resolution. L'enveloppe ainsi obtenue est ensuite filtree passe-bas et sous-echantillonnee a une dimension fixe pour la quantification. Dans Ie codeur SEEVOC

[Paul 81], la quantification se fait au moyen de la technique DPCM (Differential

Pulse-Code Modulation). Pour augmenter 1'efficacite du codage, 1'axe des frequences peut etre transforme selon une echelle perceptuelle [McAulay 91]. Une autre fa9on de coder la representation sous-echantillonnee de 1'enveloppe est la quantification vectorielle [Das 95]. La quantification directe des amplitude du spectre a ete aussi utilisee dans Ie codeur

MBE [Hardwick 88]. Dans Ie domaine du logarithme, les differences entre les amplitudes

des harmoniques de la trame courante et de la trame precedente sont d'abord determinees. Ensuite, ces differences sont regroupees en blocs et quantifiees apres la transformee en cosinus discrete.

La modelisation cepstrale est une autre maniere de representer 1'enveloppe spectrale du signal de parole. Le logarithme naturel du module de 1'enveloppe est alors modelise par une somme de cosinus:

At

(9) ln|5(^e)| = c[0]+2-^ c[m]-cos(fc0),

m=l

ou B(eje') est 1'estimation de 1'enveloppe, M est Fordre de la modelisation cepstrale, 0 est la frequence relative et c[m] sont des coefficients du cepstre reel. Les coefficients du cepstre reel peuvent etre obtenus par exemple par un fUtrage homomorphique [Chung 89] ou en minimisant une erreur quadratique dans Ie domaine logarithmique entre les maxima du spectre d'amplitude du signal de parole (T un cote et les valeurs de 1'approximation de

(34)

Penveloppe par (9) (evaluee aux memes frequences) de 1'autre c6te [Cappe 96]. Les coefficients cepstraux peuvent etre ensuite quantifies directement [Chung 89] ou etore transformes sous une autre forme.

La description par Ie cepstre reel, derivee a partir de 1'enveloppe representee par une interpolation cubique, a ete employee dans les codeurs sinuso'idaux [McAulay 95]. La modelisation cepstrale a ete aussi utilisee dans des codeurs de forme d'onde. Une analyse cepstrale qui se sert d'une echelle de frequence MEL (section 3.7) a ete implantee dans un codeur avec la structure CELP [Koishida 95]. Le filtre de synthese, derive de la description cepstrale, est approxime par un filtre a reponse impulsionnelle infinie. Le

vocodeur homomorphique utilise une configuration semblable [Chung 89]. La principale

difference, mis a part la fagon de calculer les coefficients cepstraux, consiste en un filtre de synthese realise comme un filtre RIF.

3.7 Aspect perceptuel de la modelisation spectrale

Pour pouvoir constmire des codeurs efficaces operant a bas debit, il est necessaire de considerer les caracteristiques du systeme auditif humain et ne transmettre que P information perceptuellement importante. Une des caracteristiques, largement employee dans les codeurs parametriques, est 1'insensibilite de Poreille a la phase du signal per9u. Ainsi, uniquement Ie spectre d'amplitude est quantifie. Dans les vocodeurs, 1'enveloppe spectrale du signal de parole est modelisee habituellement par un filtre tout-pole. Le modele simplifie de 1'excitation consiste en un bmit aleatoire pour les sons non-voises et en un train d'impulsions espacees de la periode de pitch pour les sons voises. Ce modele ne foumit aucune information sur les phases du signal original. Les codeurs sinusoidaux synthetisent la parole par une somme de sinusoides. Pour les bas debits, les phases des sinusoides ne sont pas transmises. Elles sont reconstmites en s'assurant, dans Ie cas de la

(35)

parole voisee, de leur continuite d'une trame a 1'autre. Une approche similaire de reconstmction des phases s'applique aussi aux codeurs WI.

Une autre propriete importante du systeme auditif est Ie fait que 1'oreille est plus sensible dans les basses frcquences que dans les frequences hautes. Cette propriete est utilisee par exemple dans les systemes ou une representation parametrique de 1'enveloppe spectrale est trouvee a partir des points correspondant aux harmoniques. Avec Ie meme ordre de modelisation, on peut alors obtenir une representation perceptuellement plus efficace si 1'on modelise plus precisement les basses frequences que les frequences hautes. Pour ce faire, il suffit de trouver une transformation de 1'echelle des frequences qui resulte en une echelle pour laquelle la sensibilite de 1'oreille reste constante selon certains criteres. Si 1'on utilise ensuite cette nouvelle echelle a la place de 1'echelle lineaire, on obtient une representation de 1'enveloppe qui est perceptuellement aussi bonne dans les frequences basses que dans les frequences hautes.

U existe plusieurs transformations de 1'echelle des frequences en echelle pour laquelle la sensibilite de Foreille reste a peu pres constante. La propriete commune de ces

transformations est la linearite jusqu'a environ 500 a 800 Hz [Veldhuis 95], [McAulay

95] et une caracteristique logarithmique pour les frequences superieures. L'echelle de Bark peut etre approximee analytiquement par [Zwicker 80]

(10) z, = 13-arctan| 0.76 •— 1+3.5-arctan_{~"~~| ~"~ 1000}

r__T

7.5•1000

\ "~ ---- y

ou / est la frequence en Hz et Zc est Ie taux de bandes critiques en Bark. Cette echelle, normalisee entre 0 et 4000 Hz est presentee dans la Figure 3.1. L'echelle de Bark a ete employe par exemple par Cappe pour la representation de 1'enveloppe spectrale par un cepstre discret [Cappe 95]. Une autre echelle, plus pres de 1'echelle lineaire, est 1'echelle MEL [Fant 73]. Une approximation de cette echelle a ete employee par exemple dans un codeur de type CELP [Koishida 95]. Une echelle avec une preponderance pour les basses frequences plus severe que dans Ie cas de Fechelle de Bark est 1'echelle ERB (Equivalent

(36)

Rectangular Bandwidth) [Veldhuis 95]. L'echelle ERB modifiee a ete employee par

Thyssen pour une quantification plus efficace de la composante SEW dans un codeur WI [Thyssen 97]. D'autres echelles peuvent etre employees selon les applications. Dans la Figure 3.1, les trois echelles discutees sont dessinees ainsi qu'une quatrieme echelle de faible non-linearite, utilisee dans les codeurs sinusoidaux [McAulay 95]. Toutes ces echelles sont normalisees entre 0 et 4000 Hz pour fins de comparaison.

4000 3500 ±-3000 •g 2500 c

I

82000 500 1000 1500 2000 2500 3000 3500 4000 Frequence [Hz]

Figure 3.1 Differentes transformations de 1'echelle des frequences. Du haut vers Ie bas: ERB, Bark, MEL, McAulay.

La propriete de la sensibilite de 1'oreille variable en fonction de frequence est aussi exploitee pour la quantification des parametres spectraux. A cause de leur relation avec Ie spectre d'amplitude, 1'application des criteres perceptuels au codage des LSF est relativement simple, fl suffit de trouver une fonction de ponderation qui attribue plus d'importance aux premiers coefficients LSF qu'aux demiers [Cohn 97]. D'autres proprietes de la perception peuvent etre egalement prises en compte pour la quantification. C'est Ie cas par exemple d'une ponderation adaptative ou les poids sont proportionnels a la valeur du spectre de puissance du filtre de synthese. On arrive ainsi a

(37)

une meilleure quantification dans la region des formants, perceptuellement plus

importante [Paliwal 95].

Le masquage frequentiel est la propriete du systeme auditif la plus largement exploitee. Elle est employee couramment dans les codeurs de forme d'onde ou Ie bmit de quantification est filtre de telle maniere que son spectre soit masque par Ie spectre du signal de parole. Le filtre perceptuel est souvent derive a partir du filtre A(z) sous la forme

generale [Salami 94]:

(11)

W(z) = A(z/y.)

A(z//,)

avec 0<'}^<^^l.Le flltre W(z) sert a modifier Ie spectre du bmit de quantification de

fa^on a ce qu'il suive Ie spectre du filtre A(z) et done 1'enveloppe spectrale du signal de parole. Une des applications possibles du filtre perceptuel est montree a la Figure 3.2,

pour un codeur APC (Adaptive Predict! ve Coding) [Atal 82]. Les regions de 1'enveloppe

spectrale avec une grande energie (les formants) sont desaccentuees avai..; Ie codage par Ie filtre W(z). Apres Ie decodage, Ie filtrage par W(z) force Ie bmit a suivre 1'enveloppe spectrale du signal de parole.

Figure 3.2 Codage APC avec 1c filtre perceptuel

A bas debit. Ie filtre perceptuel est utilise surtout dans les codeurs de type CELP. Dans la boucle de la recherche de la meilleure excitation (section 4.1), 1'erreur entre la parole synthetisee et la parole originale est filtree par Ie flltre W(z). Cela a pour effet une plus grande tolerance du critere de minimisation dans la region des formants et par consequent une plus grande erreur dans la parole synthetisee a ces endroits. A part les

(38)

filtres derives du filtreA(z) (11), d'autres filtres perceptuels ont ete developpes. Un filtre RIF base sur un modele de perception simplifie et sur Ie calcul du seuil de masquage en fonction de la frequence a ete employe dans un codeur CELP [Drogo de lacovo 91]. Un autre filtre RIF, derive du cepstre, a ete utilise dans un codeur homomorphique [Chung

89].

Les filtres perceptuels discutes jusqu'ici n'exploitent que 1'enveloppe spectrale du signal de parole pour masquer Ie bmit. Pour les sons voises, et specialement pour les sons de frequence fondamentale elevee, la stmcture fine du spectre de parole peut etre aussi utilisee pour Ie masquage. Un filtre perceptuel compose (Tune cascade d'un filtre de type (11) et d'un filtre perceptuel hannonique a ete developpe pour un codeur CELP [Gerson 92]. Une autre technique de masquage harmonique est liee a la transformee de Fourier discrete (TFD) du signal de parole. Des poids, derives a partir d'une puissance negative du carre du module de la TFD, servent a ponderer 1'erreur quadratique entre la TFD du signal original et la TFD du signal synthetise. Cette erreur est minimisee pour choisir la meilleure excitation dans un codeur de type CELP [Kwon 97].

Une ponderation spectrale derivee a partir d'une puissance du module de la TFD est employee aussi dans la transformation SAW [Lefebvre 97]. Le role de cette transformation correspond au r61e du filtre W(z) de la Figure 3.2 avec la difference, qu'en plus d'exploiter 1'enveloppe du spectre de la parole pour masquer Ie bmit, la transformation SAW exploite aussi sa structure fine. Cette transformation n'a besoin de transmettre aucune information supplementaire et elle est completement separee du codeur. Elle peut done etre facilement utilisee avec des codeurs deja existants. Son inconvenient principal est d'aj outer un grand delai. La transformation SAW a ete developpee pour Ie codage de la parole et des signaux audio a bande elargie (50-7000 Hz). Elle sera discutee plus en detail dans Ie chapitre 7.

L'efficacite de filtres perceptuels du type W(z) est limitee par Ie fait qu'ils ne

peuvent que redistribuer Ie bmit en fonction de la frequence. Quand Ie debit du codage est relativement bas, il devient impossible de masquer tout Ie bruit. Dans ce cas, il est

(39)

important de garder son niveau suffisamment bas dans la region des formants, perceptuellement importants. Le bmit residuel entre les formants peut etre attenue au decodeur par un post-filtre [Chen 87]. Dans les codeurs les plus recents, Ie post-filtre est habituellement compose de plusieurs filtres. A part Ie post-filtre derive de 1'enveloppe spectrale, il y a souvent un post-filtre harmonique. Us servent a accentuer respectivement la structure des formants et la stmcture harmonique de la parole synthedsee [Salami 94].

3.8 Introduction aux techniques developpees dans cette these

Dans ce chapitre, les differents aspects de la modelisation du spectre pour Ie codage de la parole ont ete resumes. La plus grande attention a ete pretee a la representation de 1'enveloppe spectrale, obtenue habituellement par la prediction lineaire. Pour les sons voises, la PL manifesto certains defauts qui peuvent etre evites par une modelisation dans Ie domaine frequentiel a partir des harmoniques du pitch. Cette approche a ete utilisee dans la methode decrite au chapitre 5. Une des caracteristiques de cette methode est la modification des amplitudes des harmoniques en dehors de la bande telephonique pour diminuer les problemes de modelisation d'un spectre avec une grande dynamique.

Les parametres qui decrivent 1'enveloppe spectrale sont detemiines typiquement toutes les 20 a 30 ms. Dans un codeur de type CELP, cet intervalle correspond a la duree d'une trame (voir Ie chapitre 4). Pour rendre leur evolution plus lisse, les parametres spectraux sont habituellement interpoles pour chaque sous-trame d'environ 5 ms. Pour les codeurs de type CELP a debit aussi bas que 4 kb/s, la longueur de sous-trame est habituellement augmentee a 10 ms et les parametres spectraux peuvent alors varier significativement d'une sous-trame a 1'autre. Dans Ie chapitre 6, on introduit une technique d'interpolation des parametres spectraux pour les codeurs ACELP aux

(40)

intervalles plus courts que la longueur de la sous-trame, ce qui permet une evolution plus lisse de 1'enveloppe spectrale.

Pour coder Ie signal de parole d'une fa9on efficace, il est necessaire d'exploiter les limites du systeme auditif humain. La propriete la plus largement utilisee est Ie masquage frequentiel. La transformation SAW effectue une mise en forme du bmit de quantification de £09011 qu'il soit masque non seulement par 1'enveloppe spectrale de la parole mais aussi par la structure fine du spectre. Dans Ie chapitre 7, une modification de la transformation SAW est presentee. Cette modification supprime une faible distorsion introduite par Ie traitement par la SAW et par la SAW inverse et diminue en meme temps Ie delai de traitement.