Méthode hybride de modification de durée d'un signal audio

(1)

R l l UNIVERSITE DE

E l SHERBROOKE

Faculte de genie

Departement de genie electrique et genie informatique

METHODE HYBRIDE DE MODIFICATION DE

DUREE D'UN SIGNAL AUDIO

Memoire de maTtrise es sciences appliquees

Specialite : genie electrique

Patrick-Andre SAVARD

(2)

**1*1**

Library and

Archives Canada

Published Heritage

Branch

395 Wellington Street Ottawa ON K1A0N4 Canada

Bibliotheque et

Archives Canada

Direction du

Patrimoine de I'edition

395, rue Wellington Ottawa ON K1A0N4 Canada

Your file Votre reference ISBN: 978-0-494-43021-7 Our file Notre reference ISBN: 978-0-494-43021-7

NOTICE:

The author has granted a

non-exclusive license allowing Library

and Archives Canada to reproduce,

publish, archive, preserve, conserve,

communicate to the public by

telecommunication or on the Internet,

loan, distribute and sell theses

worldwide, for commercial or

non-commercial purposes, in microform,

paper, electronic and/or any other

formats.

AVIS:

L'auteur a accorde une licence non exclusive

permettant a la Bibliotheque et Archives

Canada de reproduire, publier, archiver,

sauvegarder, conserver, transmettre au public

par telecommunication ou par Plntemet, prefer,

distribuer et vendre des theses partout dans

le monde, a des fins commerciales ou autres,

sur support microforme, papier, electronique

et/ou autres formats.

The author retains copyright

ownership and moral rights in

this thesis. Neither the thesis

nor substantial extracts from it

may be printed or otherwise

reproduced without the author's

permission.

L'auteur conserve la propriete du droit d'auteur

et des droits moraux qui protege cette these.

Ni la these ni des extraits substantiels de

celle-ci ne doivent etre imprimes ou autrement

reproduits sans son autorisation.

In compliance with the Canadian

Privacy Act some supporting

forms may have been removed

from this thesis.

Conformement a la loi canadienne

sur la protection de la vie privee,

quelques formulaires secondaires

ont ete enleves de cette these.

While these forms may be included

in the document page count,

their removal does not represent

any loss of content from the

thesis.

Canada

Bien que ces formulaires

aient inclus dans la pagination,

il n'y aura aucun contenu manquant.

(3)

RESUME

Le domaine de recherche de la modification de duree d'un signal audio est actif depuis plus d'une quarantaine d'annees. Aujourd'hui, plusieurs applications en font usage: livres audio, synthese par echantillonnage, voix sur IP, postsynchronisation audio-video, etc. Dans la plupart des cas, l'objectif des techniques de modification de duree est de modifier le debit du signal tout en y affectant le moins possible ses caracteristiques perceptuelles (tel que la tonalite).

Plusieurs algorithmes de modification de duree ont ete proposes pour tenter d'atteindre ce but. Ceux-ci sont caracterises par des forces et faiblesses selon le type de signal traite. Dans le cas ou Ton tente de traiter un signal de type variable, l'ensemble des techniques proposees a ce jour exhibent des artefacts audibles qui affectent l'ensemble de la qualite subjective du signal d'origine.

Une etude approfondie de l'etat de l'art permet de constater que les algorithmes de modification de duree peuvent etre classes sous deux families, soit les techniques appliquees dans le domaine temporel et les techniques appliquees dans le domaine frequentiel. Selon le domaine de traitement choisi (temporel ou frequentiel), la qualite subjective obtenue prime sur un type de signal particulier. Par exemple, les techniques appliquees dans le domaine temporel ont la caracteristique d'etre efficaces sur des signaux monophoniques, tandis que les techniques appliquees dans le domaine frequentiel sont plus performantes sur des signaux polyphoniques ou bruites.

Ce constat permet d'etablir qu'il existe une complementarite entre les techniques appliquees dans le domaine temporel et le domaine frequentiel. Ceci motive la creation d'un algorithme de modification de duree qui en tire avantage, de facon a resoudre le probleme du traitement de signaux composes de plusieurs types.

Cet ouvrage presente une methode novatrice qui vise a exploiter la complementarite observee entre les techniques appliquees dans le domaine temporel et le domaine frequentiel. Cette methode introduit les contributions suivantes :

• Le choix de deux techniques de modification de duree, base sur une etude de la qualite du signal obtenu selon le type de signal traite.

• Une etape de classification du signal, appliquee trame par trame, permettant de choisir la technique appropriee.

(4)

• L'introduction de dispositions permettant la transition transparente entre les techniques choisies.

• La definition d'un ensemble de parametres regissant l'occurrence et la frequence des transitions entre les techniques.

• L'adaptation du codeur de phase ameliore, permettant d'obtenir un signal de synthese de longueur fixe.

La methode de modification de duree obtenue est caracterisee par une haute qualite subjective sur une large gamme de signaux.

(5)

REMERCIEMENTS

J'aimerais tout d'abord remercier mon directeur de recherche, le professeur Roch Lefebvre, qui m'a donne l'opportunite de participer en tant qu'etudiant gradue au sein du groupe de recherche sur la parole et l'audio. L'apport qu'il a amene au projet, comme directeur et comme chercheur, fut de grande importance.

Je souhaite aussi remercier mon co-directeur de recherche, le professeur Philippe Gournay, avec qui j'ai eu l'opportunite de travailler sur une base quotidienne. Sa creativite, son aide constante et sa grande disponibilite ont ete des atouts majeurs au succes de ce projet de recherche.

Je souhaite egalement remercier la corporation Voiceage, pour le soutient financier auquel j'ai eu droit tout au long de la duree de mes travaux.

(6)

TABLE DES MATIERES

CHAPITRE 1 Introduction 1 1.1 Applications 1 1.2 Definition du probleme 3 1.3 Brefhistorique 5 1.4 Contribution 6 1.5 Methodologie detests 7 1.6 Organisation du memoire 7 CHAPITRE 2 Techniques temporelles 9

2.1 SOLA 9 2.2 SOLAFS 13 2.2.1 Performance de SOLAFS 14 2.3 SAOLA 17 2.4 PAOLA 18 2.5 PSOLA 18 2.6 TDHS 20 CHAPITRE 3 Techniques frequentielles 22

3.1 Codeur de phase 23 3.1.1 Calcul de la phase ideale (theorique) du signal de synthese par l'utilisation du

modele sinusoidal 23 3.1.2 Analyse : Passer du signal d'entree a une representation temps-frequences 24

3.1.3 Modification de la representation temps-frequence 24 3.1.4 Synthese : Passer de la representation temps-frequence a un signal temporel 26

3.2 Problematique de phase 27 3.2.1 Coherence de phase 27 3.2.2 Phase d'entree et phase de sortie 29

(7)

3.2.3 Perte de coherence de phase verticale 31 3.3 Ameliorations apportees au codeur de phase 32

3.3.1 Reconstruction du signal de synthese par le spectre d'amplitude 33

3.3.2 Verrouillage approximatif de la phase 33 3.3.3 Verrouillage rigide de la phase 34 3.3.4 Recouvrement de la coherence de phase 37

3.4 Performance du codeur de phase 38 CHAPITRE 4 Methode hybride de modification de duree 43

4.1 Classification 44 4.2 Parametres 46 4.3 Algorithme haut-niveau 47

4.4 Transitions inter-techniques 51 4.4.1 Transition de SOLA vers le codeur de phase 51

4.4.2 Transition du codeur de phase vers SOLAFS 54 CHAPITRE 5 Evaluation des performances de la methode hybride 58

5.1 Evaluation de la complexity 58 5.2 Evaluation de la qualite subjective 61

5.2.1 T e s t l 62 5.2.2 Test 2 64 5.2.3 Test 3 65 5.2.4 Test 4 66 5.2.5 Analyse globale 67

ANNEXE A Analyse et synthese par l'usage de la TFCT 70

A.1 Modele banc de filtres 71 A.2 Modele bloc par bloc 73 ANNEXE B Processus de deroulement de la phase 75

(8)

LISTE DES FIGURES

Figure 1.1 Effet de la modification de la duree d'un signal audio sur le spectre d'amplitude.... 4

Figure 2.1 Exemple du processus de l'algorithme SOLA [8] 11 Figure 2.2 Autocorrelation pour (a) parole voisee (b) musique polyphonique 12

Figure 2.3 Exemple du processus de l'algorithme SOLAFS [8] 14 Figure 2.4 Modification d'un signal monophonique par la technique SOLAFS 15

Figure 2.5 Modification d'un signal polyphonique par la technique SOLAFS 16 Figure 2.6 Exemple de marquage de pitch pour un signal monophonique 19 Figure 2.7 Illustration du processus de TDHS pour (a] la compression d'un signal (b)

l'expansion d'un signal (illustration tiree de [16]] 21 Figure 3.1 Spectrogramme pour un signal sinusoidal de frequence ascendante 23

Figure 3.2 Relation entre la coherence de phase horizontale et verticale 28 Figure 3.3 Detection de pics et determination des regions d'influence 35 Figure 3.4 Modification d'un signal monophonique par la technique du codeur de phase 39

Figure 3.5 Superposition des spectres d'amplitude obtenus avec le codeur de phase et

SOLAFS sur un signal monophonique 40 Figure 3.6 Modification d'un segment polyphonique par la technique du codeur de phase ....41

Figure 3.7 Superposition des spectres d'amplitude obtenus avec le codeur de phase et

SOLAFS sur un signal polyphonique 42 Figure 4.1 Variation du maximum de la correlation croisee de SOLAFS (parole) 45

Figure 4.2 Variation du maximum de la correlation croisee de SOLAFS (musique) 45 Figure 4.3 Algorithme utilise par la methode hybride de modification de duree 49

Figure 4.4 Commutation de SOLAFS au codeur de phase, ler cas 50

Figure 4.5 Commutation de SOLAFS au codeur de phase, 2e cas 50

Figure 4.6 Transition du signal de synthese de SOLAFS vers le codeur de phase 52 Figure 4.7 Somme normalised de fenetres de Hanning (au carre) chevauchees de 75% 53 Figure 4.8 Transition de SOLAFS vers le codeur de phase appliquee sur un signal artificiel...54 Figure 4.10 Transition du codeur de phase vers SOLAFS applique sur un signal artificiel 57

Figure 5.1 Capture d'ecran, logiciel test A/B 62 Figure 5.2 Histogramme des resultats presentes au Tableau 5.1 63

(9)

Figure 5.4 Histogramme des resultats presentes au Tableau 5.3 65 Figure 5.5 Histogramme des resultats presentes au Tableau 5.4 66

(10)

LISTE DES TABLEAUX

Tableau 2.1 EFFET DU FACTEUR a SUR LA DUREE DU SIGNAL 10 Tableau 5.1 RESULTATS, METHODE HYBRIDE VS L'ALGORITHME SOLAFS, a = 1.75 62

Tableau 5.2 RESULTATS, METHODE HYBRIDE VS LE CODEUR DE PHASE, a = 1.75 64 Tableau 5.3 RESULTATS, METHODE HYBRIDE VS L'ALGORITHME SOLAFS, a = 0.75 65 Tableau 5.4 RESULTATS, METHODE HYBRIDE VS LE CODEUR DE PHASE, a = 0.75 66

(11)

LEXIQUE

FFT: IP: PAOLA: PSOLA: SAOLA: SOLA: SOLAFS: TDHS: TFCT: TFCTI: WSOLA:

Fast Fourier Transform Internet Protocol

Peak-Alignment Overlap-Add Pitch Synchronized Overlap-Add

Synchronized and Adaptive Overlap-Add Synchronized Overlap-Add

Fixed Synthesis Synchronized Overlap-Add Time-Domain Harmonic Scaling

Transformee de Fourier a Court Terme

Transformee de Fourier a Court Terme Inverse Waveform Similarity Overlap-Add

(12)

CHAPITRE 1

Introduction

M

odifier la duree d'un signal audio est un processus qui est bien connu du public. A l'epoque ou les disques vinyles et les magnetocassettes etaient le media de choix pour ecouter de la musique, il etait simple de faire jouer un morceau plus rapidement ou plus lentement: il suffisait de faire tourner le disque ou le ruban magnetique a une vitesse differente pour obtenir un morceau dont la duree est modifiee. Les effets perceptuels obtenus sont aussi bien connus: un morceau lu plus rapidement a une tonalite plus aigue (souvent referee comme un effet « chipmunk ») tandis qu'un morceau lu plus lentement a une tonalite plus grave. Dans les deux cas, il est aussi aise de percevoir que l'intelligibilite integrate du morceau en est gravement affectee. En fait, pour un grand facteur de ralentissement ou d'acceleration, il est courant que cet effet soit utilise comme jeu de perception au sein de jeux-questionnaires televises! Dans le domaine numerique, il est possible d'obtenir ces memes effets en appliquant un sur-echantillonnage ou sous-echantillonnage sur le signal. Bien que le resultat obtenu peut etre utilise dans certaines applications particulieres, dans la majorite des applications on prefere preserver l'intelligibilite originale du signal.

Depuis plus d'une quarantaine d'annees, des chercheurs ceuvrant dans le domaine du traitement de signaux numeriques se sont efforces de concevoir des techniques qui permettent de modifier la duree d'un signal, tout en preservant les attributs perceptuels du signal original, tel que la tonalite. Ces recherches ont abouti a des techniques particulieres qui permettent d'atteindre ce but, et ce, dans une variete d'applications et de contextes.

1.1 Applications

La gamme d'applications faisant usage de la modification de duree est continuellement en expansion. Cette expansion est attribuable a deux facteurs principaux:

• L'augmentation de la capacite de traitement numerique des systemes embarques;

• L'amelioration de la qualite des signaux obtenus par les techniques de modification de duree.

Au fil des annees, plusieurs produits faisant usage de la modification de duree sont apparus, issus d'une variete de domaines. En voici une liste, non-exhaustive :

(13)

• Synthese par echantillonnage: Plusieurs synthetiseurs modernes utilisent une bibliotheque limitee d'echantillons sonores. L'espace memoire limite dont disposent ces appareils pour y stocker ces echantillons est a l'origine de ce probleme. Une solution possible permettant de recreer un eventail plus large de sonorites est de modifier les echantillons en tonalite (couramment nominee le pitch) ou en duree, en temps reel. • Compression de donnees: La modification de duree a ete appliquee au codage de la

parole a bas debit [1, 2]. La methode consiste a reduire la duree du signal a l'encodeur et de restaurer la duree originale au decodeur. II a cependant ete observe que la reduction de debit possible etait relativement limitee en utilisant cette technique, du aux artefacts introduits lors de la compression et de l'expansion du signal traite

• Voix sur IP {Voice over IP): Les systemes de voix sur IP sont particulierement sensibles au delai introduit par le reseau de communication. De facon a garantir une sortie audio continu au recepteur d'un flux de voix sur IP, la modification de duree est appliquee au signal recu en fonction du delai induit par le reseau IP [3].

• Livres audio: La lecture auditive permet de consulter des ouvrages litteraires par l'ecoute. L'augmentation de la vitesse de diction de l'ouvrage, tout en preservant l'intelligibilite, permet a l'auditeur de consulter des sections d'un ouvrage en survol. La lecture rapide de messages telephoniques est un exemple d'application similaire.

• Assistance d'interface graphique: Les systemes d'operations d'ordinateurs personnels permettent aux usagers ayant une accessibility reduite au contenu visuel d'utiliser une interface graphique a travers une interface audio. Les divers elements composant une interface graphique (telle l'etiquette d'un bouton ou le texte d'une page WEB) sont dictes a l'utilisateur a un rythme controle par l'utilisateur. L'utilisation d'une vitesse d'elocution variable, adaptee aux besoins individuels des utilisateurs, augmente la convivialite d'une telle interface.

• Apprentissage d'une langue etrangere: Dans cette situation, il est pratique de reduire artificiellement le debit de parole d'un locuteur s'exprimant dans la langue etrangere enseignee. Ceci facilite l'apprentissage des etudiants, qui peuvent mieux cerner le dialogue.

• Postsynchronisation audio-video: Dans le domaine de la production audio-video, la bande sonore d'un ouvrage peut-etre creee independamment du contenu video. La

(14)

modification de duree du signal permet de synchroniser a posteriori le contenu audio avec le contenu video.

• Mixage audio et composition musicale: Dans le domaine de la musique electronique, les musiciens utilisent la modification de duree de facon a synchroniser deux morceaux de musique de tempos differents, dans le but d'effectuer une transition plus transparente d'un morceau a l'autre. De plus, l'effet de modification de duree d'un signal ouvre la porte a une variete d'effets audio originaux qui peuvent enrichir une piece musicale.

Cette liste d'applications montre que les signaux traites par la modification de duree peuvent etre de types varies : il peut s'agir de parole, de musique, de bruit ou d'un melange de plusieurs types.

1.2 Definition du probleme

Pour bien situer le probleme, il est pertinent de montrer l'effet d'un sur-echantillonnage et d'un sous-echantillonnage sur un signal donne. Ceci permet de deduire ce que sont les objectifs d'une technique de modification de duree d'un signal.

Pour un signal x(t), la modification de sa duree selon un facteur de sur/sous echantillonnage constant a implique que les evenements ayant lieu au moment t ont lieu au moment at. Le signal de synthese resultant peut-etre defini tel que:

y(t) = x(at) (1.1)

ou y(t) est le signal dont la duree est modifiee.

Or, une propriete de la transformee de Fourier montre qu'une modification de l'echelle temporelle entraine une distorsion sur le spectre d'amplitude du signal:

y(t) =

x(at) «

K(n)

= f V (")

(1

'

2)

\a\ \a/

L'effet de la contraction temporelle (equivalent a un sous-echantillonnage) d'un court signal de parole est illustre a la Figure 1.1. La partie superieure de l'illustration presente le signal original, tandis que la partie inferieure montre le signal auquel un facteur de sous-echantillonnage egal a deux a ete applique. II est facile de remarquer que, pour un signal accelere (i.e. sous-echantillonne), le spectre d'amplitude du signal modifie est une version dilatee du spectre du signal original. A l'ecoute, on peut s'attendre a ce que le signal accelere ait une tonalite plus

(15)

elevee que le signal original, puisque les harmoniques du signal accelere sont plus eloignees les unes des autres. Dans le cas inverse, c'est-a-dire lorsque le signal original est decelere (i.e. sur-echantillonne), le spectre d'amplitude resultant sera « compresse », entrainant une tonalite plus basse. Domaine fr6quentiel 200 400 Echantillons 0.5 1 1.5 2 2.5 Frequence (Hz) 1Q«

Figure 1.1 Effet de la modification de la duree d'un signal audio sur le spectre d'amplitude

L'objectif commun des techniques de modification de duree est done de modifier la duree d'un signal, en minimisant les distorsions sur le spectre d'amplitude, tel qu'observe ici. Une analyse plus en profondeur du probleme demontrera que les techniques de modification de duree ont aussi avantage a minimiser les distorsions sur le spectre de phase.

Les techniques existantes de modification de duree d'un signal audio peuvent generalement etre classees en deux families, soit les techniques appliquees dans le domaine temporel et les techniques appliquees dans le domaine frequentiel1.

La majorite des techniques temporelles sont basees sur algorithme commun; le traitement du signal est accompli en dupliquant ou retirant de courts segments du signal original. Les

1 Les termes «techniques temporelles » et «techniques frequentielles » seront utilises pour identifier une

(16)

techniques individuelles se distinguent par des variantes permettant d'obtenir une meilleure qualite subjective ou un gain en complexite. II sera montre au chapitre 2 que les techniques operant dans le domaine temporel produisent des resultats de haute qualite sur des signaux monophoniques2.

Les techniques operant dans le domaine frequentiel modifient la representation temps-frequences du signal traite en faisant usage de la transformee de Fourier a court terme (TFCT). Cette representation temps-frequence (i.e. spectre de phase et d'amplitude variant dans le temps) est modifiee selon le facteur de modification de duree voulu. II sera montre au chapitre 3 que les technique frequentielles ont la caracteristique d'etre efficaces lorsqu'elles sont appliquees sur des signaux polyphoniques3 ou bruites, au prix d'etre plus lourdes en calcul.

La faiblesse des algorithmes temporels et frequentiels est bien apparente; leur efficacite est fortement dependante du contenu du signal traite. La modification de duree d'un signal mixte (c'est-a-dire un melange de segments monophoniques et polyphoniques) permet d'observer cette faiblesse.

L'introduction d'une methode hybride de modification de duree utilisant une approche par classification est alors necessaire afin de permettre l'obtention d'un signal de haute qualite subjective sur des signaux de types mixte.

1.3 Bref historique

Bien que les applications faisant usage de la modification de duree soient, pour la majorite, relativement recentes, les premieres recherches qui ont mene aux techniques utilisees aujourd'hui ont commence il y a longtemps. Des le debut des annees soixante, les travaux de Flanagan et al. [4] ont mene a la creation du codeur de phase, qui est aujourd'hui l'une des techniques frequentielles les plus utilisees commercialement.

II aura fallu attendre les annees quatre-vingt avant d'observer de nouvelles decouvertes dans le domaine. Le debut de cette decennie est marque par l'apparition des techniques de modification de duree par reconstruction iterative du spectre d'amplitude [5, 6]. Cependant, la charge de calcul importante necessaire a l'utilisation de ces techniques a freine leur utilisation commerciale. En 1985, Roucos et Wilgus [7] introduisent la technique SOLA (Synchronized Overlap-Add). Cette technique, operant uniquement dans le domaine temporel, est presentee

2 Un signal monophonique est defini comme etant compose d'une seule frequence fondamentale. 3 Un signal polyphonique est defini comme etant compose de plus d'une frequence fondamentale.

(17)

comme un moyen de reduire la complexity des techniques de reconstruction iterative. Sa grande simplicite ainsi que la haute qualite obtenue sur des signaux de parole a fait de SOLA l'une des premieres techniques commercialement populaires. En fait, cette technique fut l'objet de tant de ramifications qu'elle est maintenant consideree comme la mere des techniques de modification de duree operant dans le domaine temporel.

Les recherches des annees quatre-vingt-dix a maintenant ont ete majoritairement concentrees sur Amelioration des methodes existantes. La puissance de calcul disponible etant en haute croissance, les chercheurs ont maintenant l'opportunite de se concentrer sur l'obtention d'une meilleure qualite audio. Encore aujourd'hui, la qualite subjective des signaux dont la duree est modifiee est au cceur de nombreuses recherches.

1.4 Contribution

Les deux families de techniques de modification de duree presentent une certaine complementarite. D'un cote, les techniques temporelles ont la capacite de modifier efficacement la duree de signaux monophoniques. De l'autre, les techniques frequentielles sont plus efficaces sur les signaux polyphoniques ou bruites. Cette observation souleve un interet particulier, soit la creation d'une nouvelle methode de modification de duree basee sur un classificateur, capable de choisir une technique appropriee (temporelle ou frequentielle] selon le type de signal traite. Le chapitre 4 presente cette methode de modification de duree novatrice: elle introduit un classificateur qui a la capacite de discriminer les segments monophoniques des segments polyphoniques et bruites. Cette discrimination permet par la suite d'appliquer une technique de modification de duree appropriee.

Ainsi, la methode hybride proposee amene au domaine de la modification de duree de signaux les contributions suivantes:

• En faisant la selection de deux techniques existantes de modification de duree, basee sur un critere de qualite pour chaque type de segment traite;

• En introduisant une etape de classification trame par trame;

• En proposant un ensemble de parametres gerant la classification des signaux;

• En definissant des mecanismes de transitions transparentes entre les techniques utilisees;

(18)

• En adaptant l'algorithme du codeur de phase de facon a assurer un intervalle de synthese fixe.

L'explication detaillee des contributions enumerees ci-haut est donnee au chapitre 4. 1.5 Methodologie de tests

Un probleme particulier survient lors de la validation d'une methode de modification de duree donnee. II reside du fait qu'il n'existe pas de reference ideale, c'est-a-dire l'equivalent d'un signal dont la duree est modifiee sans induire d'artefacts ou de distorsion spectrale. Pour un signal de parole, il semble intuitif de tenter de comparer un signal dont la duree est modifiee a un signal ou le locuteur parle reellement plus lentement, mais en realite cela ne peut permettre une comparaison echantillon a echantillon de facon a mesurer la distorsion sur un signal modifie [tel que par la mesure de rapport signal a bruit).

Ainsi, la validation d'une methode de modification de duree se fait par deux approches : • Par l'analyse du comportement de la methode evaluee sur des segments a court terme. • Par l'entremise de tests d'ecoute ou un ensemble d'auditeurs evaluent la qualite

subjective obtenue sur des signaux modifies par la methode evaluee.

Ainsi, cet ouvrage evalue les techniques issues de l'etat de l'art ainsi que la methode hybride sont evalues selon les criteres definis ci-haut. Une attention particuliere est portee a demontrer la complementarite entre les techniques temporelles et frequentielles au point de vue de la qualite obtenue sur des types de signaux particuliers et comment la methode hybride reussi a obtenir de bons resultats sur l'ensemble des signaux etudies.

1.6 Organisation du memoire

Ce memoire est presente en trois sections majeures, soit: l'etat de l'art, la description de la methode hybride et finalement la validation de la methode hybride.

Le deuxieme chapitre fait etat des diverses techniques temporelles proposees dans la litterature. Chaque technique est evaluee au point de vue de la performance sur la base d'une observation temporelle et frequentielle d'un court segment monophonique et polyphonique. Le sujet de la complexite en calcul est aussi aborde.

(19)

Le troisieme chapitre aborde les techniques frequentielles, qui sont basees sur l'analyse et la synthese par transformed de Fourier a court terme. Le mode d'evaluation suit celui utilise pour les techniques temporelles.

Le quatrieme chapitre presente la methode hybride. Une description detaillee de l'approche de classification utilisee, de l'algorithme haut-niveau ainsi que des transitions inter-techniques est presentee. Les signaux utilises aux fins d'evaluation aux chapitres 2 et 3 sont reutilises pour evaluer la performance de la methode hybride, et une comparaison des signaux obtenus est exposee.

Finalement, le cinquieme chapitre evalue la performance de la methode hybride, tout d'abord par une analyse de complexity, puis par la discussion des resultats obtenus a la suite de tests subjectifs formels.

(20)

CHAPITRE 2

Techniques temporelles

L

es techniques appliquees au domaine temporel ont la caracteristique de manipuler le signal d'origine sans avoir recours a sa representation frequentielle. La preservation du contenu spectral est atteinte implicitement par l'usage d'operations sur le signal temporel. L'absence de transformation dans le domaine frequentiel fait en sorte que les techniques temporelles representent une solution a faible complexite au probleme de la modification de duree. Cependant, il sera montre au cours de ce chapitre que cette simplicite entraine certaines limites quant a la qualite subjective obtenue sur certains types de signaux. Les techniques abordees au cours de ce chapitre sont basees sur un modele commun : Le signal d'entree est generalement segmente en plus petits segments (appeles fenetres) qui sont traites un a un selon l'algorithme choisi, pour obtenir un signal de synthese dont la duree est modifiee, tout en tentant de preserver le contenu spectral original.

2.1 SOLA

L'algorithme Synchronized Overlap-Add (SOLA] [7] est une technique de modification de la duree d'un signal audio simple et d'une faible complexite. Depuis sa creation en 1985, plusieurs algorithmes bases sur cette technique ont ete proposes, et son utilisation commerciale est omnipresente. L'algorithme SOLA s'execute en deux etapes, soit l'analyse et la synthese.

A 1'etape d'analyse, le signal a traiter x(n) est segmente en fenetres inter-chevauchees, distancees les unes des autres selon un nombre d'echantillons defini par le parametre Sa :

xwK.m,n)-\_ Q a m e u r s j

ou m est la meme fenetre de taille WS0LA indique la taille d. A 1'etape de synthese, les fenetres

d'analyse sont superposees d'un nombre d'echantillons defini par le parametre Ss. Les

parametres Sa et Ss sont lies par le facteur de modification de dur6e a.

Ss = aSa (2.2)

(21)

Tableau 2.1 EFFET DU FACTEUR a SUR LA DUREE DU SIGNAL Valeur de a a< 1 a = l a> 1 Effet

Acceleration (compression) du signal Aucune modification de duree

Ralentissement (expansion) du signal

Par la suite, les fenetres de synthese consecutives sont synchronisers en ajoutant un delai A tel que la correlation croisee entre celles-ci soit maximale. La synchronisation diminue le risque d'exhibition d'artefacts dans le signal de synthese.

La correlation croisee entre deux fenetres consecutives x(m, ri) et x(m + 1, n) est donnee par:

L - d - l

Rd= V (xw(m,n + Sa + d) • xw(m + 1,n)), 0 < d < L - 1 (2.3)

n=0

ou Rd indique la correlation au delai d et L represente l'intervalle de recherche (c.-a-d. le delai de

correlation maximal) utilise. II est a noter que la premiere fenetre d'analyse (c'est-a-dire a m = 0) est copiee directement dans le signal de synthese.

Afin que la mesure de correlation soit adequate, L doit etre egal ou superieur a la plus longue periode de pitch du signal. Par exemple, les voix masculines tres graves peuvent atteindre une periode de 20 ms.

Le delai de correlation optimal est determine par:

A = argmaxd(/?d). (2.4)

Les fenetres de synthese chevauchees sont ponderees dans leur intervalle de chevauchement4,

puis additionnees5 de facon a obtenir le signal modifie. La ponderation du signal est

generalement lineaire, de facon a reduire les discontinuites pouvant survenir lors de l'etape d'addition.

4 Le terme « intervalle de chevauchement» (appele « overlap region » en anglais) refere a la region commune a deux fenetres qui se chevauchent d'un certain nombre d'echantillons.

(22)

Un exemple du processus de l'algorithme SOLA applique sur un signal de parole pour le cas ou

a = 0.7 est illustre a la Figure 2.1.

< WSOLA •

r^i- i

;

n

T~\

Signal original

/• A /• /• \ !• \ 't \

•4 Ss • ^ *~4—X X • Signal modifie

Figure 2.1 Exemple du processus de l'algorithme SOLA [8]

Cette illustration met en evidence certains defauts de cet algorithme. L'usage d'un intervalle de synthese dynamique (cause par l'ajout d'un delai de synchronisation variable A) peut creer des situations ou plus de deux fenetres se chevauchent. Ces situations complexifient le calcul d'un delai de synchronisation adequat ainsi que le maintien d'un gain unitaire.

L'usage de la correlation croisee est une mesure simple et peu couteuse en terme de calculs pour synchroniser les fenetres de synthese. Cependant, il s'agit d'une mesure peu robuste lorsque le signal a traiter presente un caractere polyphonique ou bruite. Dans le cas oil des fenetres successives ont un fort caractere monophonique, la correlation croisee obtenue contient un maximum dominant6, et le delai correspondant permet de les synchroniser adequatement. Dans

le cas ou des fenetres successives ont un caractere polyphonique ou bruite, le resultat de la correlation croisee n'a pas de maximum dominant. Le delai correspondant est alors generalement invalide, et la synchronisation qui s'ensuit produira des artefacts dans le signal de synthese, souvent percus comme du gresillement.

6 Un maximum obtenu d'un signal de correlation croise est considere dominant lorsque la valeur normalisee obtenue approche 1.

(23)

En d'autres mots, l'usage de la correlation croisee pour synchroniser les segments a la synthese suppose que les segments a court terme sont correles, ce qui n'est pas le cas pour les segments polyphoniques et bruites. Pour illustrer cela, la Figure 2.3 illustre l'autocorrelation calculee a partir d'un signal (a) de parole monophonique et (b) de musique polyphonique. II est possible d'observer que l'autocorrelation du signal monophonique presente des maximums importants pour des delais differents de zero (soit a des multiples de la periode de pitch du signal). De l'autre cote, l'autocorrelation du signal polyphonique ne presente pas de maximum dominant a des delais differents de zero.

0 0.02 0.04 0.06 0.08 0.1 Temps (s) 0.12 0.02 0.04 0.06 0.08 0.1 Temps (s) 0.12 -0.05 0 0.05 Delai (s) -0.05 0 0.05 Delai (s)

Figure 2.2 Autocorrelation pour (a) parole voisee (b) musique polyphonique

Cette figure illustre bien que l'algorithme SOLA peut avoir de la difficulte a synchroniser des segments polyphoniques. Sans maximum dominant, les signaux de synthese peuvent etre chevauches et additionnes a des delais qui entraineront des artefacts audibles.

Du point de vue de la qualite subjective, SOLA donne des resultats de haute qualite sur des signaux de parole, qui sont composes majoritairement de segments voises (pour des langues tel

(24)

que l'anglais et le francais). Par contre, l'algorithme produit des resultats de plus faible qualite sur les segments non-voises ou de nature polyphonique

Du point de vue de la complexity la technique SOLA est legere en charge de calculs puisqu'elle ne requiert pas le calcul de la representation temps-frequences du signal. Les calculs de correlation, de ponderation et d'addition de signaux sont aujourd'hui considered comme des operations pouvant etre accomplies sur des systemes embarques a faible cout.

2.2 SOLAFS

Pour eviter les problemes relies a l'utilisation de SOLA, l'algorithme Synchronized Overlap-Add

with Fixed Synthesis (SOLAFS) [9, 10] fut propose. Puisque l'usage d'un intervalle de synthese

dynamique est au cceur des problemes rencontres avec SOLA, SOLAFS contraint un intervalle de synthese fixe. Le calcul de la correlation croisee est done adapte de facon a ce que le delai d soit applique sur le signal d'analyse, plutot que sur le signal de synthese :

L-d-l

Rd = - 2_j {x(mSa +

+ d ) - x ( ( m + l ) 5a + n ) ) , 0<d<L-l (2.5) n=0

ou dprecrepresente le delai de synchronisation obtenu a l'iteration precedente de 1'algorithme. A

la premiere iteration, dp r e c = 0.

L'usage d'un intervalle de synthese statique facilite l'etape de synthese de l'algorithme SOLA puisque le cas ou plus de deux fenetres se chevauchent est elimine. Du meme fait, la qualite subjective obtenue par l'usage de SOLAFS est superieure a celle obtenue avec SOLA.

La Figure 2.3 illustre le processus de SOLAFS applique sur un signal de parole, pour le cas ou a = 0.7. On y voit que l'utilisation d'un intervalle de synthese statique facilite le controle du gain a la synthese.

(25)

<- WsOLA - •

r~\r~\ r~\ r^r^

< Sa X X • ^ • Signal original -4 Ss >~4 • ^ X • Signal modifie

Figure 2.3 Exernple d u p r o c e s s u s d e l ' a l g o r i t h m e SOLAFS [8]

Une approche equivalente a SOLAFS, nommee Waveform Similarity Overlap-Add (WSOLA), est proposee dans [11].

2.2.1 Performance de SOLAFS

L'algorithme SOLAFS est un candidat ideal quant a la modification de duree de signaux monophoniques et ce, pour deux raisons :

• Le calcul de la correlation croisee entre deux segments de synthese successifs assure que des segments monophoniques se chevaucheront sans induire d'artefacts dans le signal de synthese. De plus, ce calcul a une faible complexite.

• L'usage d'un intervalle de synthese statique assure un signal de synthese de haute qualite en limitant le nombre de fenetres chevauchees a un temps donne.

Pour bien montrer l'efficacite de SOLAFS sur un signal monophonique, un exernple de traitement d'un signal monophonique artificiel est illustre a la Figure 3.4. Le signal traite est la somme de cinq (5) harmoniques, avec une fondamentale a 440 Hz. Le choix de l'utilisation d'un signal purement harmonique permet d'observer plus facilement la performance de l'algorithme sur ce type de signal. L'illustration suivante montre le signal original, le signal modifie par SOLAFS par un facteur de ralentissement de deux, ainsi que les spectres d'amplitude des signaux respectifs.

(26)

Signal monophonique original

15 0.01 0.015 0.02 Temps (s)

Signal monophonique modifie par SOLAFS

1201-S 801-0.02 0.03 Temps (s) 1000 1500 2000 Frequence (Hz) 2500 3000

Figure 2.4 Modification d'un signal monophonique par la technique SOLAFS

Le resultat du traitement du signal monophonique par SOLAFS montre l'efficacite de cette technique sur ce type de signal. Les spectres d'amplitude chevauches montrent que les harmoniques sont bien preservees dans le signal de synthese. L'illustration du signal de synthese temporel montre aussi que l'enveloppe temporelle du signal original est preservee. Cet exemple demontre qu'un signal monophonique traite par 1'algorithme SOLAFS entraine un signal de synthese de haute qualite.

II est cependant important de considerer un autre cas, c'est-a-dire le traitement d'un signal polyphonique. La Figure 2.5 illustre les resultats obtenus du traitement d'un signal polyphonique artificiel, compose de deux ensembles de quatre harmoniques de meme niveau avec comme fondamentales 440 Hz et 520 Hz, respectivement.

(27)

Signal polyphonique original

1000 1500 Frequence (Hz)

Figure 2.5 Modification d'un signal polyphonique par la technique SOLAFS

Cette illustration met en evidence les problemes qui surviennent lorsque SOLAFS est applique sur un signal polyphonique. Tel qu'explique a la section 2.1, l'utilisation de la correlation croisee comme mesure de synchronisation des fenetres a la synthese suppose que le signal d'entree est hautement correle. C'est le cas pour les signaux monophoniques, mais pas pour les signaux polyphoniques. Ainsi, les maxima de correlations croisees calcules par SOLAFS correspondent a un des deux ensembles d'harmoniques du signal. Le delai obtenu est applique aux segments d'analyse et ne tient evidemment pas compte du fait qu'un second ensemble d'harmoniques est present. Cela se manifeste par le niveau de bruit eleve entre les harmoniques au signal de synthese. Consequemment, le chevauchement des segments a la synthese induit des artefacts dans le signal de sortie.

Une facon de reduire la presence d'artefacts consiste a utiliser une fenetre d'analyse de plus grande taille, de facon a obtenir quelques periodes de chaque frequence fondamentale. Ceci entraine cependant un cout en calculs supplemental du a l'augmentation du delai maximal utilise pour calculer la correlation croisee.

L'effet perceptuel entraine par l'utilisation de SOLAFS sur un signal audio polyphonique peut etre observe sur les spectres d'amplitude chevauches des signaux d'analyse et de synthese, tel

(28)

que presente a la Figure 2.5. En effet, les canaux avoisinant une harmonique sont parsemes de bruit, resultat du processus de chevauchement de signaux non correles. Subjectivement, ceci peut-etre observe comme un gresillement bien caracteristique aux techniques derivees de SOLA. Les exemples illustres ci-dessus montrent bien que 1'algorithme SOLAFS est un tres bon candidat quant au traitement de signaux monophoniques. Cependant, il est tout aussi evident qu'une alternative est necessaire quant au traitement de signaux polyphoniques (et consequemment de signaux bruites).

2.3 SAOLA

L'un des parametres utilise par SOLA qui est normalement determine a l'implementation est l'intervalle de recherche L de la correlation croisee. Tel qu'explique a la section 2.1, la valeur de L est contrainte par la plus longue periode de pitch du signal original. L'utilisation d'une valeur trop basse cause une reduction de la qualite subjective du signal de synthese, alors que l'utilisation d'une valeur trop haute ajoute une charge de calcul inutile.

La technique Synchronized and Adaptive Overlap-Add (SAOLA) [12] determine la distance entre deux fenetres d'analyse en fonction du facteur de modification de duree a et de la longueur de la fenetre d'analyse WS0LA :

N

Le choix dynamique de Sa assure que l'utilisation d'un intervalle de recherche defini par un delai

de correlation minimal dmin = 0 et un delai de correlation maximal dmax = — entralnera une

N

sortie de qualite subjective de haute qualite. L'intervalle de recherche L = — est done optimal. L'utilisation de SAOLA entraine un gain de qualite subjective significatif lorsque le facteur a est eleve. Dans ce cas particulier, cela entraine cependant une charge de calcul supplementaire importante : une valeur de a elevee fait en sorte que les fenetres d'analyse sont pres les unes des autres, resultant en plus d'iterations de ralgorithme SOLA pour traiter un signal donne.

De l'autre cote, pour une valeur de a < 1, le cout en calcul est reduit, et ce, sans reduire la qualite subjective du signal de sortie.

(29)

2.4 PAOLA

La technique Peak-Alignment Overlap and Add (PAOLA) [13] introduit une etape de detection de pics qui est appliquee sur les fenetres d'analyse du signal d'entree dans le but de synchroniser plus efficacement les fenetres a la synthese. Cette etape consiste simplement a calculer le maximum de chaque fenetre d'analyse; il n'y a done pas de detection de pitch explicite. Les maxima obtenus sont alors utilises a la synthese comme marqueurs qui permettent de synchroniser les fenetres a la synthese.

De plus, la technique proposee adapte l'espacement entre les fenetres d'analyse Sa et la longueur

d'une fenetre d'analyse WSOLA en fonction de a :

Lstat ~ L f 2 7 )

i a |1 -a\ l J

N = L + aSa [2.8)

ou Lstat represente la longueur stationnaire, e'est-a-dire la duree pour laquelle le signal d'entree

ne change pas de facon significative (approximativement 25 a 30 ms), etLest l'intervalle de recherche de la correlation croisee utilise par SOLA.

L'utilisation de PAOLA entratne un gain de qualite semblable au gain obtenu avec SAOLA. Cependant, la charge de calcul est grandement reduite par rapport a SAOLA, particulierement lorsque le facteur a est eleve.

2.5 PSOLA

Les techniques basees sur SOLA utilisent majoritairement la correlation croisee ou une detection de pics pour synchroniser les fenetres a la synthese. Or, pour un signal d'entree dont la nature est majoritairement periodique ou quasi periodique, il est possible d'utiliser la caracteristique du pitch pour accomplir la synchronisation.

La technique dite Pitch Synchronous Overlap-Add (PSOLA) [14] introduit une phase de detection de pitch, de facon a permettre la synchronisation par periode de pitch a la synthese. Tout comme avec SOLA, l'algorithme PSOLA fonctionne en deux etapes distinctes, soit une etape d'analyse et une etape de synthese.

(30)

Tout d'abord, un suiveur de pitch determine la variation de pitch du signal7. Pour chaque

maximum de periode de pitch, un marqueur est assigne, tel qu'illustre a la Figure 2.6. Pour les segments qui ne sont pas caracterises par un pitch, tels les segments de parole non voisee, les marqueurs sont places a des intervalles constants. De plus, la longueur des fenetres d'analyse est proportionnelle a la longueur de la periode de pitch.

0.005 0.01 0.015 Temps (s)

0.02 0.025

Figure 2.6 Exemple de marquage de pitch pour un signal monophonique

A la synthese, les marqueurs de pitch d'analyse sont convertis en marqueurs de synthese selon le facteur de modification de duree demande. Les marqueurs de synthese determinent le d£calage entre les fenetres de synthese qui sont par la suite chevauchees et additionnees pour former le signal de synthese final.

PSOLA produit des resultats de haute qualite pour des signaux caracterises par un pitch, mais comporte certains desavantages:

• II s'agit d'une technique ayant un plus haut niveau de complexite du a la phase de detection de pitch.

• Sur des signaux polyphoniques, le resultat obtenu est de plus faible qualite, puisque la phase de detection de fondamental suppose que le segment est monophonique. Les

7 Plusieurs methodes permettent d'obtenir la variation du fondamental. Le lecteur interesse peut consulter

(31)

marqueurs de fondamental obtenus pour un signal polyphonique ne permettent done pas de synchroniser le signal efficacement a la synthese.

Ainsi, tout comme avec SOLA et SOLAFS, PSOLA est un algorithme specialise pour le traitement de signaux composes majoritairement de segments monophoniques, tels que de la parole. Pour des signaux polyphoniques, telle que de la musique, une alternative est necessaire.

2.6 TDHS

L'algorithme Time Domain Harmonic Scaling [16,17] est une technique de modification de duree qui fait aussi usage de la notion de pitch.

L'algorithme commence par determiner la variation de pitch du signal d'entree. Cette variation est utilisee pour segmenter le signal d'entree en segments qui ont une longueur d'une periode de pitch (notee P). Evidemment, le signal d'entree se doit d'etre periodique ou quasi periodique pour que cette etape donne de bons resultats.

Les segments obtenus sont ensuite chevauches et additionnes de facon a accomplir la modification de duree. Par exemple, pour obtenir un facteur de modification de duree de 0.5, deux segments sont combines pour en former un seul. Pour obtenir un facteur de 1.5, trois segments sont combines pour former un segment d'une longueur de deux segments. Les segments chevauches sont fenetres par une fenetre W(m), permettant de combiner plusieurs periodes sans introduire de discontinuites dans le signal de synthese. Ce processus est illustre a la Figure 2.7.

Tout comme les autres techniques temporelles, l'algorithme TDHS suppose que le signal d'entree est periodique et monophonique. Le traitement de signaux polyphoniques ou bruites diminue 1'efficacite du suiveur de pitch, ce qui entraine des discontinuites perceptibles dans le signal de synthese.

(32)

s;n>

Jctnlj

- | (a)

«U">

Figure 2.7 Illustration du processus de TDHS pour (a) la compression d'un signal (b) 1'expansion d'un signal (illustration tiree de [16])

Les techniques presentees dans ce chapitre se concentrent sur le traitement du signal dans le domaine temporel. Les techniques presentees au chapitre suivant, appelees techniques frequentielles, modifient plutot la representation tempo-frequentielle du signal.

(33)

CHAPITRE 3

Techniques frequentielles

L

es techniques operant dans le domaine frequentiel utilisent une representation frequences pour modifier la structure temporelle d'un signal. La representation temps-frequences montre revolution du contenu frequentiel d'un signal a travers le temps, en faisant usage de transformees de Fourier a court terme (TFCT) sur des segments qui se chevauchent. La TFCT d'un signal x(ji) auquel on applique une fenetre glissante de longueur finie h(m — n) est donnee par:

00

X(m,nk)= y h(n)x(.m + n)e-Jn><n (3.1)

n=-oo

avec ilk = —— (3.2)

ou X(jn, flk) est le memespectre de la representation temps-frequences de N canaux et ftk

represents la frequence centrale du fceme canal. Une representation graphique du spectre

d'amplitude variant dans le temps se nomme le spectrogramme, tandis que la representation du spectre de phase se nomme le phasogramme. Un exemple de spectrogramme pour un signal sinusoidal dont la frequence varie lineairement de 5 a 100 Hz est presente a la Figure 3.1.

Traiter le signal dans le domaine frequentiel comporte un avantage important: la modification de duree peut etre appliquee sur chaque composante individuelle du signal (c-a-d. chaque canal de TFCT) ce qui permet de traiter des signaux complexes. Cependant, l'analyse et la synthese par TFCT est encore aujourd'hui considere par certains comme etant une methode couteuse en terme de calculs.

L'Annexe A presente certaines implementations connues de l'analyse et la synthese d'un signal par l'usage de la TFCT glissante.

(34)

Temps (s)

Figure 3,1 Spectrogramme pour uti signal sinusoidal de frequence ascendants;

3.1 Codeur de phase

Le codeur de phase [4,18,19] utilise le modele d'analyse et de synthese par la TFCT dans le but de modifier la duree d'un signal. La methode consiste a modifier la representation temps-frequences du signal original tel que le signal de synthese resultant (par l'usage de la transformed de Fourier a court terme inverse (TFCTI)) aie la duree desiree, tout en preservant les caracteristiques spectrales du signal original.

La technique du codeur de phase expliquee ici est implemented au sein d'un modele d'analyse et synthese par TFCT bloc par bloc (voir l'Annexe A).

3.1.1 Calcul de la phase ideale (theorique) du signal de synthese par I'utilisation du modele

sinusoidal

En se basant sur le modele sinusoidal [20], le signal d'entree est une somme de /(t) sinusoi'des8

dont les amplitudes Ait) et frequences instantanees a^(t) varient dans le temps :

at)

x ( t ) = V / li( t ) e - ' * f( t ) avec r3 3)

i = l

(35)

^ ( t ) = 0j(O)+ f cOiMdr (3-4)

•>0

ou (pi(t) designe la phase instantanee de l'ieme sinusoi'de. En se basant sur ce modele, la phase de

synthese ideale de la ieme sinusoi'de dont la duree est modifiee (pour un facteur de modification

de duree constant a) est definie par:

rmxs T (/)s(mRs) = 0S(O) + <*i {-) dx rmRa = 0S(O) + a I OJJ(T) dx Jn 0 = 0s(O) + a [ 0 i ( ^ a ) - 0 i ( O ) ] (3.5)

ou m est un entier positif, Ra et Rs sont respectivement le saut d'analyse et de synthese entre

deux spectres de phase consecutifs et #s(0) est une phase initiale de synthese arbitraire. Ra et Rs

sont lies par le facteur de modification de duree a tel que :

Ra = aRs (3.6)

3.1.2 Analyse : Passer du signal d'entree a une representation temps-frequences

L'etape d'analyse consiste a construire la representation temps-frequences du signal. L'equation (3.1) donne une representation temps-frequences nettement sur-echantillonnee: les representations frequentielles successives sont chevauchees de (.N — 1) echantillons alors qu'un chevauchement de Ra echantillons est requis. Pour y arriver, on sous-echantillonne le spectre du

signal original en le segmentant en fenetres espacees de Ra echantillons auxquelles on applique

la TFCT:

X(.mRa,Slk)= ^ h(n)x(.mRa + n)e-Jn"n. (3.7)

Or, la fenetre h(n) (generalement une fenetre de Hanning) a une taille N, ce qui entraine que la somme a calculer a un nombre fini de termes.

3.1.3 Modification de la representation temps-frequence

Le codeur de phase parvient a modifier la duree d'un signal en posant un intervalle de synthese different de l'intervalle d'analyse selon a, tel que defini a l'equation (3.6).

(36)

Cependant, la representation temps-frequences d'analyse doit etre modifiee de facon a obtenir une representation de synthese Y(mRs, flk) qui produira un signal de sortie dont la duree a ete

modifiee, mais qui conservera les caracteristiques spectrales du signal original.

Tout d'abord, 1'evolution temporelle des spectres d'amplitude est preservee, c'est-a-dire:

|X(mfla,nfc)| = iy(mKs,nk)|. (3.8)

De facon a ce que le signal de sortie ait la meme tonalite que le signal original, les spectres de phase doivent etre modifies de facon a preserver les frequences instantanees entre deux spectres de phase de synthese successifs. Pour y arriver, le codeur de phase utilise un processus appele deroulement de la phase, permettant de calculer le veritable increment de phase de chaque canal entre deux spectres de phase consecutifs9. Ce processus permet d'obtenir la

variation des frequences instantanees du signal d'analyse. L'objectif est alors de preserver cette variation dans le signal de synthese.

Ainsi, la premiere etape pour estimer la frequence instantanee a5k (mi?a) est le calcul de

l'increment de phase transpose:

AOk(m) = tX(mRa, ftk) - z*((m - l)Ra, nk) - Railk. (3.9)

L'increment de phase transpose designe l'increment de phase deroule entre les TFCT calculees aux instants m et (m — 1). Pour estimer la frequence instantanee aJk(mfia), on represente cet

increment sous sa forme enroulee10, notee Ap<P^(m) :

oJk(m/?a) = fife + — ApcDk(m). (3.10)

Ka

Le processus d'estimation de la frequence instantanee est appele deroulement de la phase puisque l'increment de phase reel (deroule) est calcule a partir des valeurs de phase principales (enroulees) de TFCT successives.

Une fois que les frequences instantanees entre deux spectres de phases d'analyse ont ete estimees, il est possible de calculer la valeur des phases de synthese a l'aide de la formule de propagation de phase:

9 La demonstration du processus du deroulement de la phase et des equations qui en decoule est

presentee a l'Annexe B.

(37)

£Y(mRs,nk) = £Y({m - l)Rs,^k) + Rs£fc("iRa)- P '1 1)

L'equation (3.11) garantit que la coherence de phase horizontale (soit la coherence de phase pour un canal donne entre deux TFCT consecutives) est preservee dans chaque sous-bande. Ainsi, pour une sinusoide de frequence constante, les fenetres de synthese resultantes se chevaucheront de facon coherente. Une facon d'expliquer ceci est que les canaux frequentiels du signal sont coherents dans le temps. II s'ensuit que si la coherence de phase horizontale est preservee darts chaque sous-bande, elle est preservee dans toute la largeur de bande, ce qui entraine un signal temporel qui n'exhibe pas de discontinuites, tel qu'observe avec les techniques du domaine temporel.

Ainsi, les phases de synthese £Y(mRs,nk) dependent de l'estimation des frequences

instantanees oJ^(m/?a) du signal d'analyse ( ). Or, le processus de deroulement de la phase

n'est efficace que sous certaines conditions:

• Le canal k n'est influence que par une seule sinusoide.

• La frequence de coupure de la fenetre d'analyse (ojh) est telle que Ra<^h < n

-En pratique, pour des fenetres d'analyse standard (telles Hanning et Hamming), cela contraint les fenetres d'analyse successives a se chevaucher de 75%. En appliquant cette contrainte aux parametres du codeur de phase, on obtient:

Sa < 0.25 • N (3.12)

ou N designe le nombre d'echantillons utilises pour calculer une TFCT.

3.1.4 Synthese : Passer de la representation temps-frequence a un signal temporel

L'etape de synthese consiste simplement a chevaucher et additionner les segments temporels obtenus par la TFCT inverse (TFCTI). On definit alors la me fenetre de synthese ym(.ri) tel que :

N - l

y

m

M = - ]T Y(mR

s

, a

k

) e ^

n

. (3.13)

k=0

Les segments de synthese ym(n) sont ensuite ponderes d'une fenetre de synthese (encore ici, la

fenetre de Hanning est generalement utilisee) puis chevauches et additionnes selon 1'intervalle de synthese Rs. La somme des segments ym(n)permet d'obtenir le signal de synthese final y(n).

(38)

La technique originale du codeur de phase presentee ici a fait l'objet de plusieurs variantes. Une implementation efficace faisant usage de la transformed de Fourier rapide [Fast Fourier

Transform, FFT) fut proposee dans [21]. Une methode alternative de mise a jour des phases, ne

faisant pas intervenir le deroulement de la phase, mais effectuant plutot une transformee de Fourier supplemental est proposes dans [22]. Finalement, une technique specialisee pour les signaux de parole est proposee dans [23].

3.2 Problematique de phase

En general, la modification de la duree d'un signal par un codeur de phase introduit un artefact caracteristique percu comme de la reverberation. Par exemple, pour un signal de parole, l'interlocuteur semble plus eloigne de la source d'enregistrement. Cependant, pour de la musique (ou le contenu frequentiel est en general plus charge), cet artefact est generalement moins audible.

Des recherches ont montre que la source de cet artefact est attribuable aux erreurs de propagation de phase [24, 25]. Cette section definit formellement quelle est la source des erreurs de propagation de phase, par une analyse detaillee du modele du codeur de phase original.

3.2.1 Coherence de phase

Le codeur de phase presente a la section precedente garantit que revolution temporelle du spectre de phase du signal de synthese preserve la coherence de phase horizontale (soit la coherence de phase pour un canal donne d'une fenetre a l'autre). Cependant, de facon a ce que la representation temps-frequences du signal de synthese soit valide, la coherence de phase

verticale (soit la coherence de phase entre les canaux d'une TFCT donnee) doit aussi etre

garantie. La relation entre la coherence de phase horizontale et verticale est illustree a la Figure 3.2.

(39)

« si c in n> T3 0) m j = Q . cu -a •Si

a

_a OS

£

:*. _{^ j} OJ LH 4-t U CU a. c/3 CO o •c o U <D (0 0] O -C a. a) • a o a) o c 0) O <D ^: o O

Coherence de phase horizontale

o

:D

o o o o o

_ J 1 I I I y

TFCT consecutives fml

Figure 3.2 Relation entre la coherence tie phase horizontale et verticale

Si la coherence de phase verticale n'est pas preservee dans une TFCT de synthese Y(rnRs,ilk), le

signal temporel correspondant exhibera des battements dans ses harmoniques, ce qui sera percu comme de la reverberation [25].

II est possible de definir la coherence de phase verticale pour un signal tres simple, soit en definissant les relations de phase entre un canal de TFCT contenant une sinusoide de frequence et d'amplitude constante et ses canaux voisins. La transformed de Fourier d'une sinusoide de frequence (i>i est simplement celle de la fenetre d'analyse utilisee, convoluee par la frequence de la sinusoide.

h(n) • eia)i-n «* H(ja - wt) (3.14)

En supposant que la fenetre h(n) est symetrique autour de zero, la transformed de Fourier de cette fenetre est uniquement composee d'un terme reel, ce qui amene un dephasage constant sur les canaux i tel que |flfe — a)[\ < o)h, ou a>h designe la frequence de coupure de h(n).. Ainsi, dans

un cas tres simple tel que celui decrit ici, les canaux flk avoisinant une sinusoide doivent avoir

une phase identique au canal contenant la sinusoide pour preserver la coherence de phase verticale.

(40)

Dans la majorite des applications pratiques, la fenetre n'est pas centree a zero, mais plutot non nulle pour 0 < n < L, ou L designe la longueur de la fenetre. Dans le cas ou L = N (ou N represente la taille de la TFCT de h(n)), les canaux adjacents doivent exhiber une difference de phase de ±n.

Pour des signaux plus complexes, il est plus difficile de definir rigoureusement la coherence de phase verticale. Pour une sinusoi'de variant lentement en frequence, les phases des canaux voisins de celui contenant la sinusoi'de sont presque identiques. Cependant, la litterature ne propose pas de solution analytique a ce probleme.

De plus, la definition existante de la coherence de phase ne decrit pas les relations de phase entre les canaux contenant des sinusoides faisant partie d'un meme ensemble d'harmoniques.

3.2.2 Phase d'entree et phase de sortie

La definition de la phase ideale d'un signal de synthese traite par le codeur de phase est donnee a l'equation (3.5). II est montre que la phase de synthese ideale depend de la phase de synthese initiale (f)s(0). La description originale du codeur de phase definit la phase de synthese initiale

comme etant arbitraire, or cette valeur induit un impact important sur la coherence de phase verticale.

Pour montrer cet impact, il suffit d'exprimer la phase de synthese en fonction de la phase d'analyse et de la phase de synthese initiale [25].

En iterant l'equation (3.11) pour des TFCT de synthese consecutives, on obtient:

m

zy(mf?

s

,n

k

) = zv(o,n

k

) + ^T K

s

a>

k

Gfl

a

) (3.15)

i = l

En appliquant la definition de l'estimation de la frequence instantanee (3.10), l'equation (3.15) devient:

m

tfsftk + ^Apt&kG) (3.16)

; = i Ka

(41)

m

+ a]T[z*GKaf ak) - zX((i - D«a.nf c) + 2TT (3.17) i = l

• u(i, /c)] , avec

In • u(i, k) = Ap*k(i) - A*k(i) (3.18)

ou u(.i, k) designe le facteur de deroulement de la phase pour le canal i. Ceci permet d'obtenir:

Z.Y(mRs, flfc) = /.Y(0, ilk) + a[£X(mRa, ttk) - AX(0, Hk)] (3.19) m

+ a y

2n • u(i, k)

i=l

L'equation (3.19) donne une expression de la phase de synthese a l'instant mRs, en fonction de la

phase initiale de synthese /.V(0, Hfc), de la phase initiate d'analysezjf(0,nfe), de la phase

d'analyse a l'instant mRa et de la somme des facteurs de deroulement de la phase. Dans [25], on

tire certaines conclusions de ces equations :

• L'equation (3.19) montre que la phase de synthese depend de la phase d'analyse a l'origine et a l'instant mRa. Ainsi, une mauvaise estimation de z_Y(mi?a,flk) ne creera pas

de biais de phase pour le reste du signal, en supposant que les facteurs de deroulement de la phase u(J., k) sont bien estimes.

• D'un autre cote, les erreurs de deroulement de la phase ont un effet cumulatif. Si une mauvaise estimation du facteur de deroulement de la phase u(i, k) a lieu, les phases de synthese subsequentes exhiberont un biais.

• Les erreurs de deroulement de la phase se presentent par des multiples de 2na. Or pour un facteur de modification de duree entier, les erreurs de deroulement de la phase sont transparentes puisqu'elles se manifestent par multiples de 2n. Ainsi, pour un facteur a entier, le terme a Yu=i 2TT • u(i,k) de l'equation (3.19) peut-etre retire, ce qui reduit significativement la charge de calculs de l'algorithme.

• Finalement, le choix des phases initiales d'analyse z_Y(0,ftk) et de synthese zK(0,fik) a

un effet direct sur l'ensemble des phases de synthese subsequentes.

L'equation (3.19) donne une base analytique solide pour determiner les facteurs qui limitent la coherence de phase verticale dans le codeur de phase standard.

(42)

3.2.3 Perte de coherence de phase verticale

A partir de l'equation (3.19), il est possible d'observer que la coherence de phase verticale depend de deux facteurs: les phases initiales et les erreurs accumulees de deroulement de la phase.

Tout d'abord, pour montrer l'effet des phases initiales sur la coherence de phase du signal de synthese, il est utile d'analyser l'equation (3.19) dans le cas ou un facteur de modification de duree entier est utilise. On suppose que le signal d'entree du codeur de phase est une sinusoi'de dont la frequence instantanee varie tranquillement a travers le temps, migrant d'un canal de TFCT a un autre. Ceci permet de reorganiser les termes de l'equation (3.19) tel que :

£Y(mRs, flk) = a^K{mRa, flk) + 9k, avec (3.20)

e

k

= zy(o, a

k

) - a£X(.o, n

k

). (3.21)

Puisque le facteur a est un entier, la somme des erreurs de propagation de phase a ete retiree, etant un multiple entier de 27T. Puis, en reorganisant les termes de l'equation de phase de synthese ideale (3.5), on obtient:

(f>s(mRs) = ccQitmRa) + xp, avec (3.22)

0 = 0,(0) - a<t>i(.0). (3.23) Cela permet de montrer que (3.20) differe de l'equation de phase de synthese ideale (3.5) du au

fait que le terme 6k n'est pas constant, mais varie en fonction du canal k. Ceci a deux

consequences:

• Les phases de synthese de canaux avoisinants peuvent varier significativement Or, selon la definition de la coherence de phase verticale, cela ne devrait pas etre le cas.

• Au moment ou la frequence instantanee de la sinusoide migre d'un canal k au temps mRa

a un canal k + 1 au temps (m + i)Ra, la phase de synthese subit un saut de 6k+1 — 6k.

Tel que montre a l'equation (3.21), les valeurs de 9k dependent uniquement des phases initiales

d'analyse et de synthese. Si, par exemple, la TFCT est appliquee sur un signal bruite, les phases des canaux affectes par le bruit seront aleatoires, et des variations de phases stgnificatives seront observees d'un canal a l'autre.

(43)

Tel que presente dans [25], l'objectif est alors d'initialiser les phases de facon a ce que 9k soit

une constante dans toutes les conditions :

6k = C (3.24)

ou C est une constante. Pour y arriver, il suffit d'initialiser les phases de synthese de facon telle que:

zK(0,nfc) = azX(0,flk). (3.25)

Ceci elimine les deux consequences enumerees plus tot, pour le cas ou un facteur de modification de duree entier est utilise (tres limitatif).

Lorsqu'un facteur de modification de duree non entier est utilise, un autre probleme apparait: l'introduction d'erreurs de propagation de phase. Ceci peut etre observe lorsque le signal d'analyse contient une sinusoi'de de frequence instantanee variant lentement au cours du temps. Pour preserver la coherence de phase verticale a la synthese, non seulement l'equation (3.25) doit etre respectee, mais la somme des facteurs de deroulement de la phase ZJ^i u(i, k) des canaux avoisinants a celui de la sinusoi'de doit etre egale a celle du canal contenant la sinusoi'de (ou modulo 27r). Le processus de deroulement de la phase n'induit pas d'erreurs dans ces canaux lorsque la distance entre deux fenetres d'analyse Ra est suffisamment petite. Par contre, il est

tres rare qu'une composante sinusoi'dale persiste sans interruption dans un canal pour toute la duree du signal d'entree; inevitablement, les canaux adjacents a celui de la sinusoi'de seront affectes par d'autres sinusoi'des ou du bruit. C'est a ce moment que les erreurs de propagation de phase s'accumulent, entrainant des termes E™ i u(j., k) differents dans les canaux adjacents et une perte de coherence de phase verticale [25].

Ainsi, la coherence de phase verticale n'est pas preservee pour un facteur de modification de duree non entier a moins que les composantes sinusoi'dales persistent sur toute la duree du signal d'entree. Evidemment, ce cas de figure n'apparait pas dans la majorite des signaux reels. 3.3 Ameliorations apportees au codeur de phase

La section precedente fait etat des problemes de coherence de phase qui sont a l'origine de l'effet de reverberation obtenu sur un signal dont la duree a ete modifiee par le codeur de phase standard. Plusieurs techniques ont ete proposees pour tenter de pallier a ce probleme.