• Aucun résultat trouvé

Encodage des signaux de parole par inversion des motifs d'excitation auditive

N/A
N/A
Protected

Academic year: 2021

Partager "Encodage des signaux de parole par inversion des motifs d'excitation auditive"

Copied!
156
0
0

Texte intégral

(1)

ENCODAGE DES SIGNAUX DE PAROLE

PAR INVERSION DES MOTIFS

D'EXCITATION AUDITIVE

Thèse de do torat

Spé ialité : génie éle trique

Khaled LAKHDHAR

(2)
(3)

Dire teur Éri PLOURDE Évaluateur Jean ROUAT Évaluateur Martin BOUCHARD Évaluateur

(4)
(5)

omplexité,de ompresseretdesynthétiserunsignalsonoreex lusivementdansledomaine

per eptuel.On traite l'appro he du odagepar inversion des représentations bio-inspirées

et on propose un odeur qui exploite la redondan e présente dans es représentations.

Le odeur proposé transforme es derniers en une représentation ompa te dépourvue

de redondan e per eptuelle e qui fa ilite la ompression tout en permettant une bonne

qualité subje tive de re onstru tion.

La première partie de ette thèse propose un nouveau ltre auditif à faible omplexité

quipeut non seulementmodéliserlesréponses mé aniques de lamembranebasilaire,

syn-thétiser les réponses impulsionnelles du nerf auditif mais aussi expliquer les expérien es

du masquage fréquentiel. La deuxième partie détaille l'exploitationde e même ban de

ltres auditifs pour la dis ipline de la ompression des signaux sonores. Des modèles de

masquage adaptés à e ban de ltres sont appliqués aux motifs d'ex itation auditives

pour obtenirdes représentations éparses. Desexpérien es montrentque e odeur permet

deréduire onsidérablementlaredondan edansledomaineper eptueltoutenmaintenant

une bonne qualité subje tive de synthèse.

Mots- lés : ltres auditifs, distribution binomiale, masquage, par imonie,

(6)
(7)

l'audio).Je lui suis aussi re onnaissant pour ses en ouragements et judi ieux onseils. Je

remer ie aussi Pr. Jean Rouat et Pr. Roger Goulet pour avoir fait partie de mon omité

de onseil. Leurs questions durant l'examende synthèse m'ont permis de mieux erner la

questiondere her he àlaquelle ettethèserépond.Mesremer iementss'adressent aussià

Danielle Poirier, se rétaire du groupe,pour m'avoirmaintes fois aidé ave les pro édures

administratives, pour sa bonne humeur etsa sympathie.

Je tiens aussi à remer ier plusieurs personnes de la ommunauté s ientique notamment

Ri hardF. Lyonpour avoirpartagélesdonnées expérimentales olle tées par Glasberg et

Moore et Roland Carrat pour avoir partagé son ouvrage l'oreille numérique avant sa

publi ation.

Je ne peux nir sans remer ier aussi la Mission Universitaire de Tunisie en Amérique

du Nord pour sa présen e tout au long de mon do torat et pour son support aussi bien

(8)
(9)

LISTE DES ACRONYMES 3

1 Introdu tion 5

1.1 Mise en ontexte . . . 5

1.2 Questions de re her hes et ontributions originales . . . 9

2 Les ltres binomiaux : un modèle original des réponses impulsionnelles du nerf auditif à faible omplexité 13 2.1 Les ltres binomiaux . . . 15

2.1.1 Motivation . . . 15

2.1.2 Dérivationdes ltres binomiaux . . . 17

2.1.3 Implementationdigitale des ltres binomiaux . . . 19

2.2 Adaptation des ltres binomiauxaux observations physiologiques . . . 21

2.2.1 Réponses impulsionnellesdu nerf auditif . . . 21

2.2.2 Modélisationdes réponses impulsionnellesdu nerfauditif . . . 26

2.3 Résultats expérimentaux . . . 28

2.3.1 L'ordre du modèle . . . 28

2.3.2 Résultats de modélisationde labre 25 de l'Unité 86100 . . . 29

2.3.3 Résultats de modélisationde l'Unité 86100 . . . 35

2.4 Comparaison ave d'autres ban de ltres auditifs . . . 37

2.5 Con lusion . . . 39

3 Nouveauban de ltresauditifsdynamiquesàbasedesltresbinomiaux 41 3.1 Ar hite ture du ban de ltresd'analyze etde synthèse . . . 41

3.2 Dérivationdes paramètresdu ban de ltres . . . 44

3.2.1 Le modèle du masquage fréquentiel . . . 44

3.2.2 Algorithme d'ajustement du ban de ltres . . . 46

3.2.3 Modélisationdu ltre auditif hez leshumains . . . 48

3.3 Résultats expérimentaux . . . 52

3.3.1 Compromis omplexitéet erreur d'apprentissage . . . 52

3.3.2 Choix de modèle : ompromis entre performan e etsurapprentissage 55 3.3.3 Compression et fréquen esinstantanées du modèle hoisi . . . 57

3.3.4 Con lusion . . . 58

4 Synthèse par inversion des motifs d'ex itations auditives 59 4.1 Extra tion des motifs d'ex itation auditives . . . 59

4.1.1 Modèle des ellules iliées internes . . . 60

4.1.2 Modèle neuronal simple . . . 60

(10)

4.2.1 Inversion des modèles neuronaux . . . 63

4.3 Ban de ltres de synthèse . . . 65

4.3.1 Synthèse sans modèles neuronaux . . . 66

4.3.2 Synthèse ave intégration du modèle neuronal . . . 73

4.4 Résultats expérimentaux . . . 74

4.5 Dis ussions . . . 79

4.6 Con lusion . . . 80

5 Masquage dans le domaine per eptuel 81 5.1 Masquage et par imonie . . . 81

5.2 Nouveau modèle simplede masquagesimultané . . . 84

5.2.1 Le as d'une impulsionde Dira . . . 84

5.2.2 Masquage post-stimuli . . . 86

5.2.3 Masquage pré-stimuli . . . 89

5.2.4 Masquage simultané . . . 91

5.3 Corre tion adaptative des amplitudes des impulsionsmasquantes . . . 93

5.4 Nouvelle stru ture du ode proposé . . . 94

5.5 Résultats expérimentaux . . . 97

5.5.1 Qualité du nouveau modèle du masquage . . . 98

5.6 Con lusion . . . 103

6 Compression des motifs d'ex itation auditive 105 6.1 Codage des positionsdes impulsions. . . 106

6.1.1 Transformations réversibles du traind'impulsions . . . 106

6.1.2 Résultats expérimentaux . . . 108

6.1.3 Dis ussions . . . 112

6.2 Codage des amplitudes des impulsions . . . 113

6.2.1 Modélisationdes amplitudes . . . 114

6.2.2 Résultats expérimentaux . . . 116

6.2.3 Dis ussions . . . 120

6.2.4 Complexité omputationnellede l'implémentation . . . 121

6.3 Con lusion . . . 123

7 Con lusion générale 125 7.1 Contributions originales . . . 125

7.2 Dis ussions ettravauxfuturs . . . 127

A Annexe 129 A.1 Signaux de parole . . . 129

(11)

1.3 Modélisations hématiquedu système auditifbiologique. . . 8

1.4 Modèle auditifproposé. . . 9

1.5 Codage proposé dans le domaineper eptuel. . . 10

2.1 Distribution binomialepour diérentes valeurs de ses paramètres . . . 17

2.2 Comparaison entre lesltres gaussiens etles ltres proposés. . . 19

2.3 Spe tre du ltre binomialpour diérentes valeurs des paramètres . . . 21

2.4 Réponse impulsionnelledu ltre binomialpour diérents ordresdu modèle. 22 2.5 Enveloppeestiméeàpartirdelaréponseimpulsionnelledel'Unité81000u25 [Carney et oll.,1999℄ (80 dBSPL). . . 23

2.6 Spe tres et réponses impulsionnellesdu ltre binomial. . . 24

2.7 Spe tres des réponses impulsionnellesdes ellulesde l'Unité 86100u25.. . . 25

2.8 Compromis entre ordredu ltre binomial(

n

)eterreur de modélisationdes réponses impulsionnellesdu nerfauditif. . . 29

2.9 Spe tres ettraje toiresdes fréquen es instantanées du ltre binomial om-pressif. . . 33

2.10 Réponsesimpulsionnellesdultrebinomial ompressifpourl'Unité86100u25. 34 2.11 Dépla ement des ples etzéros dans le plan zdu ltre binomial ompressif. 34 2.12 Réponses impulsionnellesdu ltrebinomial ompressif ainsi queles traje -toires de leurs fréquen es instantanées pour l'Unité86100. . . 36

2.13 Comparaison entre lespe tre du ltrebinomial et elui du ltre gammatone. 38 3.1 Stru ture en parallèledu ltre auditifproposé. . . 43

3.2 Adaptation des paramètres du ban de ltres ausignal d'entrée. . . 43

3.3 Déte tion de tonalité en présen e de bruit masquant. . . 44

3.4 Spe tres etlargeursde bandeéquivalentedu ban de ltres proposé quand le niveau d'ex itation est faible. . . 49

3.5 Spe tres et gains du ltre BITF

2

dynamique. . . 51

3.6 Erreur de déte tiondes tonalitéspour diérentes famillesde ban de ltres proposés. . . 53

3.7 Erreur de déte tion des tonalitéspar diérents modèles.. . . 53

3.8 Familles de ltres binomiaux (pour des niveaux d'ex itation diérents al-lant de 30 à 70 dBSPL) ajustées aux expérien es de masquage. La ligne dis ontinue représente lavaleur du paramètre

P

0

. . . 54

3.9 Erreurdegénéralisationvsl'erreurd'apprentissagepourdiérentes familles de ban de ltres proposées. . . 56

3.10 Spe tresettraje toiresdesfréquen esinstantanéesdultre BIT

2

pour des niveaux d'ex itation allantde 30à 70dB. . . 57

(12)

4.1 Représentation auditived'un segment audio voisé. . . 62

4.2 Fa teur de orre tion des valeursdes pi s du modèle neuronal. . . 65

4.3 Stru ture en parallèledu ltre auditifproposé. . . 67

4.4 Example d'ajout de délai aux réponses impulsionnelles. . . 68

4.5 Réponse impulsionnelleet fréquentielle du ban d'analyse-synthèse. . . 68

4.6 Réponse impulsionnelleet fréquentielle du ban d'analyse-synthèse. . . 71

4.7 Example d'analyse-synthèse d'une tramed'un signalde parole. . . 72

4.8 Stru tureenparallèledultreauditifproposéin luantlesmodèlesneuronaux. 74 4.9 Relation entre l'ODGet leSDG. . . 76

4.10 RSB et ODG moyens entre référen es et signaux synthétisés à partir de leurs motifs d'ex itation auditive pour diérents paramètres du système analyse-synthèse. . . 77

4.11 Examplede synthèsede signauxàpartirde leursmotifsd'ex itationauditive. 78 5.1 Motif d'ex itation réé par une impulsionde dira . . . 84

5.2 Example d'analyse synthèse pour une ex itationde dira . . . 85

5.3 Seuil de masquage post-stimuli. . . 87

5.4 Ex itations avant etaprès l'appli ation du masquage post-stimuli. . . 89

5.5 Seuil de masquage pré-stimuli. . . 91

5.6 Estimationduseuildemasquagetemporeletsimultanéàpartird'unetrame de signal de parole. . . 92

5.7 Diéren e d'ex itations entre trains d'impulsions avant at après masquage et appli ationde la orre tion adaptative. . . 95

5.8 Stru turedu ode proposé in luantlesmodèlesneuronaux etla orre tion d'amplitudesadaptative. . . 96

5.9 Example de synthèse de signaux à partir de leurs motifs d'ex itation audi-tive omplets et réduits. . . 98

5.10 Nombremoyend'impulsionsparé hantillonetODGmoyenspourdiérents paramètres du seuil de masquage. . . 100

5.11 ODG moyen de l'ensemble de test. . . 102

6.1 Example d'appli ationde latransformation de Burrows-Wheeler. . . 107

6.2 Probabilitédes distan es entre impulsions. . . 109

6.3 Nombre de bits/symbole et débit total né essaire à la transmission des positionsdesimpulsionsave etsans ompressionavantetaprèsappli ation du seuil de masquage.. . . 110

6.4 Auto orrélation entre distan es séparant les impulsionsmasquantes. . . 112

6.5 Probabilitédes amplitudes des impulsions. . . 113

6.6 Entropie et débitmoyens des amplitudes des impulsions. . . 114

6.7 Codage des diéren es entre valeurs des amplitudesmasquantes. . . 116

6.8 Auto orrélations des amplitudes des impulsionsmasquantes. . . 118

6.9 Erreur de prédi tion pour diérents nombre de bits. . . 119

(13)
(14)
(15)

im-2.1 Compromis entre l'ordre du modèle

n

, le nombre de oe ients du modèle et l'erreur de modélisation des réponses impulsionnelles de la bre 25 de

l'Unité 86100 pour 9 niveaux d'ex itation. . . 30

2.2 Erreurs de modélisationdes réponses impulsionnelles. . . 35

2.3 Comparaison entre lesfamilles des ltres auditifs. . . 38

3.1 Comparaison entre lesfamilles des ltres auditifs. . . 55

5.1 Interprétationdes valeurs de l'ODG. . . 99

5.2 Comparaison entre diérents systèmes de synthèse de signaux de parole à partir de leurs motifs d'ex itation auditive. . . 102

6.1 Débit né essaire à latransmission des positions des impulsions. . . 111

6.2 Comparaison entre diérents systèmes de synthèse de signaux de parole à partir de leursmotifs d'ex itation auditive. . . 121

6.3 Complexité omputationnelle de l'implémentationproposée. . . 122

(16)
(17)

impulsionnelles de lamembrane basilairede hats.

β

Paramètre ontrlant la position des ples de la fon tion de transfert donnée par l'équation (2.15).

e(f)

Erreur quadratique moyenne de modélisationdes réponses impulsionnelles de la membrane basilairede hats résultant de l'utilisationd'un modèle

f

.

f

0

fréquen e entralede latonalitéutiliséepour lesexpérien es du masquage fréquen-tiel.

f

Relationlinéaireutiliséepourmodéliserlesréponsesimpulsionnellesdelamembrane basilaire de hats.

G

i

i-ièmeltre de synthèse du ban de ltres.

γ

Paramètre ontrlant la position des zéros de la fon tion de transfert donnée par l'équation (2.15).

H

i

i-ième ltre d'analyse du ban de ltres.

H

transformée de Hilbert.

leJa obien d'unefon tion dierentiable.

K

onstante de déte tion dans l'équation (3.2).

L

transformée de Lapla e.

M

Modèle utilisé pour modéliserle ltre auditif.

M

Ve teur ontenant les oe ients dire teurs utilisés pour modéliser les réponses impulsionnelles de lamembrane basilairede hats en fon tion de

P

N

.

n

Ordre du ltre binomialtel quedé rit par l'équation (2.15).

τ

é h

Nombre d'impulsions par é hantillons audio (équation(5.20)).

N

0

niveau du bruit utilisé pour lesexpérien es du masquage fréquentiel.

(18)

P

N

Niveau d'ex itation sonore utilisé pour re ueillir les réponses impulsionnelles de [Carney et oll.,1999℄.

P

s

niveau de la tonalitéutilisée pour les expérien es du masquagefréquentiel.

ˆ

P

s

niveau de latonalitépréditpar lemodèle dansle as des expérien es du masquage fréquentiel.

P

x

Niveau d'ex itation sonorenormalisédonné par

P

N

-80.

ˆ

RI

f

(i)

I ème réponse impulsionnelle générée utilisant un modèle

f

onformément à l'équation (2.18).

s(n)

signal audioà l'entrée du ban de ltres d'analyse.

ˆ

s(n)

signal audioà la sortie du ban de ltres de synthèse.

τ

s

Taux de par imonie après lassi ation des impulsions en impulsions masquantes et masquées(équation (5.19)).

τ

mp

taux de ompression moyen des réponses impulsionnelles donné par l'équation

(2.20).

w

0

fréquen e de résonan e du ltre auditif.

ξ(M)

erreur de prédi tion des tonalités dans le adre des expérien es de masquage fréquentiel en utilisant un modèle

M

.

y

i

(n)

signal audio àl'entrée du i-ièmeltre du ban de ltres.

ˆ

y

i

(n)

signal audio àla sortie du i-ième ltre du ban de ltres.

(19)

APFC tout-pleen as ade, all-pole lter as ade.

APG gammatonetout-ple, all-pole gammatonelter.

BIT ltrebinomial, Binomial-tone lter.

BIT

2

ltre binomiald'ordre2.

BIT

3

ltre binomiald'ordre3.

BIT

n

ltre binomiald'ordre n,Binonial-tone lter.

BWT transformationde Burrows-Wheeler.

BIT ltrebinomial ompressif,Compressive Binonial-tonelter.

BIT

2

ltre binomial ompressif d'ordre

2

réalisant le ompromis entre erreur d'ap-prentissage etde généralisation.

BIT

2

ltre binomial ompressifd'ordre 2.

BIT

3

ltre binomial ompressifd'ordre 3.

BIT

n

ltre binomial ompressif d'ordren.

GC ltre gamma hirp ompressif, ompressive gamma hirp lter.

CI orrélation inversée.

CS a quisition omprimée, ompressive sampling.

DAPG gammatone tout-ple diéren ié, dieren iated all-pole gammatone.

DPCM odage par modulationdes diéren es, Dierentialpulse ode modulation.

DRNL Dual Resonan e Nonlinear Filterbank.

EQM l'erreur quadratiquemoyenne.

ERB largeur de bande re tangulaireéquivalente, equivalent re tangular bandwidth .

FI fréquen e instantanée.

GC ltre gamma hirp, gamma hirp lter.

(20)

MA moyennemobile, moving average.

MB membranebasilaire.

MDCT transformée en osinusdis rète modiée,modied dis rete osine transform.

MF meilleurefréquen e, best frequen y.

MP mat hing pursuit.

NA nerf auditif.

ODG diéren ede qualité obje tive,obje tive dieren e grade.

OZFC tout-pleen as ade ave un zéro, one-zero lter as ade.

OZG gammatoneà un zéro, one-zero gammatone lter.

PEAQ évaluation per eptuelle de la qualité audio, Per eptual evaluation of audio

quality.

PZFC ples-zéros en as ade, pole-zero lter as ade.

PZFC5 ples-zéros en as ade oùlesples etzéros se dépla ent par lemême taux.

RI réponse impulsionnelle.

RIF ltre àréponse impulsionnellenie.

RII ltres àréponse impulsionnelleinnie.

RII réponse impulsionnelleinnie.

RLE odage par plage (run length oding).

RSB rapportsignal sur bruit.

SDG diéren ede qualité subje tive, subje tive dieren e grade.

TFD transformée de Fourier dis rète.

TIMIT olle tionde signaux de parole olle téspar TexasInstruments et

Massa hu-setts Institute of Te hnology.

(21)

1.1 Mise en ontexte

L'introdu tiondu disque ompa t (CD,Compa t Dis )audébutdes annéesquatre-vingt,

apermis auxutilisateurs d'appré ierl'avantage de lareprésentation numérique du signal

sonoreétantdonnéque ette représentation estrobusteetpermet de onserverunebonne

qualité de re onstru tion. Ces avantages, ependant, ont été obtenus au détriment d'un

débittrèsélevé.Lesdisques ompa ts onventionnelsetlesrubansaudionumériques(DAT,

Digital Audio Tape) sont typiquement é hantillonnés à une fréquen e de 44.1 kHz ou

48kHzave unerésolutionde16bits.Ces ongurations,pourdessignauxmonophoniques,

donnent des débits très élevés d'en odage valant 705.6 kbps (kilo bits par se onde) par

anal pour une fréquen e d'é hantillonnage de 44.1 kHz et 768 kbps par anal pour une

fréquen e d'é hantillonnagede 48kHz [Painter etSpanias,2000℄.

Même très élevés, es débits d'en odage ont été bien adaptés aux appli ations

multimé-dias première-génération tels que le DAT ou le CD. Malheureusement, les appli ations

multimédias se onde-génération, et les systèmes sans l parti ulièrement, sont souvent

sujets à des restri tions relatives aux bandes passantes ou bien aux oûts de sto kage.

Ces ontraintes font en sorte que des algorithmes de ompression sont inévitables. Suite

au su ès onnu par les appli ations multimédia première-génération (CD et DAT ...),

les utilisateurs s'attendent à une qualité-CD pour tout média reproduis. Pour ette

raison,lesnouveaux systèmesd'en odageaudiodoiventréduirelesdébitsd'en odagesans

ompromettre laqualité de reprodu tion.

Ces onsidérationsontmotivéunere her heintensivedontlebutestdeformuleretréaliser

des s hémas d'en odage qui peuvent satisfaire des demandes oni tuellesd'un bas débit

et d'une reprodu tion transparente. La transparen e à l'é oute implique que les

utilisa-teursne pourraientdis erner lesignal originaldu signalen odé. De e fait, leste hniques

re her hées sont elles qui peuvent assurer une transparen e à l'é oute et non for ément

unemeilleure onservation du rapport signal aubruitpar exemple.L'oreillehumaine

pré-sentedes limitesque e soitparrapportàsarésolutionfréquentielle outemporelle[Andoh

et oll.,2005;Békésy,1953;Hartmannet oll.,2010;Koikeet oll.,2005;Kollmeieret oll.,

(22)

de masquage fréquentiel et temporel font en sorte que ertains sons ne sont pas perçus.

Cette inaptitude de l'oreille à dis erner des sons et plus parti ulièrement les bruits en

présen e d'autressons masquantsest la lédudéveloppementdes odeursave pertemais

psy hoa oustiquement transparents. Ave perte, par e que le signal en odé a un rapport

signal surbruit noninni,transparents par equ'entre lesignaloriginalet eluien odé, la

diéren e àl'é oute est souvent di ilementaudible.Le domainede lapsy hoa oustique

afait de grandspas envers la ara térisationde l'oreillehumaine.Danslebut d'étudier le

fon tionnement de l'oreille plusieurs expérien es ont été développées [Moore, 1987;

Zwi- ker et oll., 1982; Zwi ker et Terhardt, 1974℄. Même si les résultats de es études sont

disponibles,les synthétiser pour en faireun modèlegénérique de l'oreilleinterne se révèle

être unetâ he di ile.Eneet, diérentsphénomènesdoiventêtrepris en onsidération:

la haute non-linéarité de l'oreille interne, l'étalement de la réponse de la membrane

ba-silaire, les notions de battements... De e fait,les algorithmes d'en odage sont ontraints

de ompter sur des modèles simples, souvent simpli ateurs et impré is [Brandenburg,

1999; Morris,1995; Painter etSpanias,2000℄.Lesmodèlesa tuellementadoptéssont

sou-vent sujets à ertaines hypothèses simpli atri es telles que l'additivité des masquants,

la linéarité de l'oreille interne quant aux ex itations àfaibles niveaux et lanature des

si-gnauxmasquantslimitéeauxbruitsblan etauxtonalités.Bienquel'appli ationderègles

per eptuelles à l'en odage des signaux audio n'est pas une nouvelle idée, la plupart des

odeurs ré ents réalisent la ompression en exploitant le faitque l'informationinutile

est indéte table par l'oreille. L'informationinutile est généralement identiée durant une

étaped'analyse, et e, en in orporant dans le orps de l'en odeur plusieursprin ipes

psy- hoa oustiques tels que le seuil d'audition absolue, l'analyse par bandes ritiques et le

masquage simultané. La ombinaison de es prin ipes, ave eux de la quanti ation, a

mené aussi au développement de l'entropie per eptuelle [Painter et Spanias, 2000℄, une

estimation quantitativede la limitethéorique de la ompressiontransparentedes signaux

audio.

Plusieursfamillesde odeurs audioontnipar intégrerun modulepsy hoa oustique dont

la fon tion est de ontrler l'allo ationdu débit en fon tion de la pertinen e per eptuelle

de l'informationàtransmettre.Unes hémablo d'unetelleappro he estdonnéàlagure

1.1.

Dans es odeurs, lesignal audio est projeté dans deux espa es diérents. Lepremier est

souvent un espa e ompa te où le signal est transformé par example dans le domaine de

(23)

audio

et extra tion en odage entropique

dé odé

Modèle

per eptuel

Allo ation

de bits

Figure 1.1 S hémablo d'un odeur audio.

enunensembled'élémentsfa ilesà ompresser.Ledeuxièmeespa eestuneapproximation

du domaine per eptuel par example en utilisant la transformée de Fourier enveloppée,

wrappedFouriertransform (WFT)oùparltragesous-bandeétalésur uneé hellemimant

laséle tivitéfréquentielle del'oreillehumaine[Feldbauer etKubin,2003; MakuretMitra,

2001℄. Le blo de l'allo ations per eptuelle de bit implémente des règles per eptuelles et

di tele mode d'opérationdu blo de quanti ation.

Mêmesiunéventaildete hniquesestprésentetdétaillédanslalittérature,raressont elles

qui ont pu devenir des standards internationaux ou ommer iaux ar souvent d'autres

ontraintes s'additionnent à l'exigen e de la transparen e. Ces ontraintes sont d'autant

plus importantes et limitent en oreles odeurs quant aux hoix des te hniques d'analyse

oude traitement.Lesplus importantes sont lavitesse d'en odage etde dé odage,le délai

algorithmiqueet l'o upation de la mémoire.

La gure 1.2 présente une oupe transversale de l'oreille hez les humains. Le tout

om-Co hlée Nerf auditif Cellules iliées CCI CCE Oreille externe Oreille moyenne Oreille interne

(24)

auditif et vient frapper ontre le tympan. Ces vibrations sont transmises par lesosselets

au liquide setrouvant àl'intérieurde la o hlée. À l'intérieur de la o hlée, la membrane

basilaire réagit par des vibrations lo alisées. Ce mouvement est déte té par les ellules

iliées internes qui letransforment en u tuations de potentiel éle trique ontrlantainsi

lalibérationdesneurotransmetteurs auniveaude la onne tionsynaptique.De e faitdes

potentielsd'a tionssontgénérés auniveau de plusieursbresdunerf auditifquitransmet

ette informationautron érébral ensuiteau ortex auditif. Unes hématisationpossible

de e fon tionnement de l'oreille peut être représentée par la gure 1.3 où l'a tion du

système nerveux eérent est représentée par des lignes dis ontinues.

Système auditifpériphérique

Oreille externe etmoyenne Membrane basilaire Cellules iliées Synapse et Nerf Aud. Tron érébral Cortex auditif

Figure1.3 Modélisation s hématiquedu système auditifbiologique.

Le tableau 1.1dé rit lesmodèles omputationnels souvent utilisés pour modéliserles

dif-férents blo de lagure 1.3.

Oreille ext/moy Co hlée(MB) Cellules il. CCI-FNA

FiltreIIR

GammaTone

Non-linéarités

Trois réservoirs

FiltreFIR

GammaChirp

Filtrespass-bas

Équ. di

PZFC

Intégrateur à fuite

CAR-FAC

Carney et al.

DRNL

Tableau 1.1 Modèles omputationnels du système auditifpériphérique.

L'a tiondel'oreillemoyenneetexterneestsouventmodéliséeparunltrelinéaire.L'a tion

de la membrane basilaire est modélisée quant à elle par ban de ltres en parallèle pour

simuler la tonotopie de la o hlée. Parmi les ban s de ltres populaires on peut iter

par examples les ltres Gammatones [Patterson, 1986℄, les ltres Gamma hirps [Irino et

Patterson, 2006a℄ ou les ltres Dual Resonan e Nonlinear Filterbanks (DRNLs) [Meddis

et O'Mard,2005℄.

Les ellules iliées internes sont responsables de la trans ondu tan e mé hano-éle trique

(25)

Lalibérationde neurotransmetteursauniveau dela onne tion entre les ellules iliéeset

lesbres du nerf auditifest un pro essus sto hasti . Laprobabilité instantanéedé rivant

ette libération est fun tion de la on entration du Cal ium et le nombre des vési ules

disponibles. Meddis et O'Mard [2005℄ modélisent ette onne tion par des équations

dif-férentielles mais omme modéliser les impulsions individuelles est souvent

omputation-nellement très oûteux, Zilany et oll. [2009℄ proposent un modèle où ette onne tion

est modélisée omme une somme de lois de puissan e à deux onstantes de temps et un

pro essusgaussien fra tionnaire alimentantun pro essus de Poisson.

Dans le but d'obtenir un en odeur bio-inspiré per eptuellement transparent, un modèle

numérique dèle du système auditif périphérique humain s'impose. Parvenir à modéliser

numériquement une vraie oreille humaine ave des oûts omputationnels raisonnables

est une tâ he di ile. Même si ela est possible, exploiter e modèle pour ompresser

les signaux audio reste en ore une question sans réponses on luantes. On propose de

simplierles héma de lagure 1.3.

Filtre oreille externe etmoyenne Ban de ltres Loi de puissan e et redressement É hant. et masquage Motifs d'ex it. auditive

Figure 1.4 Modèle auditifproposé.

Dans le modèle de la gure 1.4, l'a tion de la membrane basilaire est modélisée par un

ban de ltres en peigne alors que les ellules iliées internes sont modélisées par une loi

de puissan e suivied'un redressementsimple alternan e.L'a tion des synapses etdu nerf

auditifest modélisée par un é hantillonnage adaptatif. Alors que ette ar hite ture n'est

pas nouvelle en tant que telle des problèmes reliés à la omplexité d'implémentation et

auxdélais des traitementsrestent en orenon résoluslimitantainsi l'exploitationde ette

appro he pour la dis iplinedu odage audio.

1.2 Questions de re her hes et ontributions originales

(26)

système auditif.Contrairementaux odeurs baséssur un modèle sour e,lesopérationsde

odage sefontdans ledomaineper eptuel: lesignalest transforméenmotifsd'ex itation

auditive épars.Une fois dans e domaineper eptuel, des modèles de masquage simultané

ettemporelsontutiliséspouréliminerlaredondan eper eptuelle.Ces motifsd'ex itation

réduits sont ensuite ompressés pour former un ux binaire. Le dé odeur onsomme e

ux binaireet re onstruit lesignal originalpar inversion des motifsd'ex itation auditive.

Cette appro he est diérente de elles souvent adoptées par les odeurs ités plus haut

oùun modèle psy hoa oustique est utiliséseulement pour di terl'allo ationdu débit. Un

s héma blo d'une telle appro he est donné par la gure1.5.

Modèle ré epteur Signal audio Transformations per eptuelles Quanti ationet en odage entropique Dé odage Signal dé odé

Figure1.5 Codage proposé dans ledomaine per eptuel.

Souvent les appro hes visant la ompression dans le domaine per eptuel se heurtent à

plusieurs dés [Feldbauer, 2005; Thiemann, 2011℄. Le premier dé on erne les

transfor-mations né essaires à la représentation d'un signal dans le domaine per eptuel : Quelles

transformations simples en implémentation peuvent être utilisées pour produire des

mo-tifs d'ex itation auditive? Le deuxième dé tou he à la synthèse du signal audio à partir

de ses représentations per eptuelles: Quellesappro hes simplesen implémentationsuivre

poursynthétiserlesignal audioà partirde es motifs?Le troisièmedé on erne la

om-pression entropique de es motifs où on se pose la question suivante : Jusqu'à quel taux

de ompression des motifs d'ex itation auditivespeut onespérer tout en maintenant une

bonne qualité de synthèse? Cette thèse fournit des réponses à es questions et montre

qu'il est possible de réaliser du odage par inversion des motifs d'ex itationauditive ave

une omplexité réduite à moyen débit sans dégradations per eptibles .Pour aboutir à e

résultat, ettethèseestorganiséeentroisgrandesparties ha unerépondantauxquestions

de re her he.

On ommen e dans la première partie par aborder la omplexité souvent itée dans la

littératurequandils'agitdemodéliserlesystèmeauditifhumain.Leban deltresauditifs

étant souvent la partie la plus omplexe à implémenter, le hapitre 2 introduit l'idée

(27)

du masquage fréquentiel hez les humains. On montre en utilisant les expérien es du

masquage des tonalités par du bruit blan à bandes étroites de [Baker et oll., 1998;

Glasberg et Moore, 2000℄ que les ltres binomiaux fournissent d'ex ellents modèles pour

prédire les résultats de telles expérien es. On ompare aussi es ltres aux familles de

ltres auditifs populaires détaillés dans la littérature : en ore une autre fois les ltres

binomiauxsedistinguentpar leurs omplexités d'implémentationréduitespourlesmêmes

performan es quand il s'agit de prédire le seuil de masquage des tonalités par un bruit

blan à bandes étroites.

Le hapitre4introduitlanotiondesynthèseparinversiondesmotifsd'ex itationauditives

etpropose une nouvelleappro he d'égalisationpermettantune re onstru tion parfaitedu

signal.Cetteappro he esttrèssimpleàimplémenteretpermetd'éviterla omplexité

inhé-renteauxappro hes d'analysepar synthèse appliquéesauproblème d'égalisationou elles

basées sur des re her hes exhaustives. Le hapitre 5 introduit des algorithmes e a es

de masquagedans ledomaineper eptuel.L'appli ation de es algorithmesrésulte en une

rédu tion du nombre d'impulsions et permet en utilisant un seul paramètre de ontrle

d'ajuster e nombre à la qualité de synthèse souhaitée. Pour ompenser la perte

d'éner-gie due à la mise des impulsionsmasquées à zéro, un algorithme adaptatif de orre tion

est proposé. Cet algorithme, opérant en bou le ouverte, permet de restaurer ette perte

d'énergie ave une oût omputationnel réduit.

Les motifs d'ex itation auditives étant épars, dans le hapitre 6 on introduit des

algo-rithmes de ompression ave et sans perte de es motifs. On opte pour une appro he où

lespositionsdesimpulsionsmasquantessont ompresséessanspertealorsqueleurs

ampli-tudessontquantiéesdefaçongrossière.Lesrésultatsobtenus onrmentqu'ilest possible

ave etteappro he d'obtenirdestauxde ompression ompétitifstout enmaintenantune

bonne qualité subje tive de synthèse. Finalement le hapitre 7 résume les travaux

origi-naux présentés dans ettethèse etexpose lesdés de la ompressiondes signaux éparsen

proposant des pistes permettant de ontourner es obsta les.

Cette thèse présente les algorithmes, les résultats de simulation et les on lusions

obte-nues permettant de on evoir etimplémenter un odeuraudio joignantla dis iplinede la

(28)

bande par inversiondes motifs d'ex itationauditiveet e àmoindre oût omputationnel

(29)

réponses impulsionnelles du nerf auditif à faible

omplexité

La réponse impulsionnelle (RI) de n'importe quel système linéaire peut être estimée en

utilisantla orrélation roisée.Ce ipeutêtreréaliséenutilisantla orrélation roiséeentre

laréponsedusystèmeetlaformed'ondedubruitàlargebandequiagénéré etteréponse.

Quandlesignald'ex itationest unbruitblan (stationnaireetergodique),laRIpeutêtre

estimée dire tement [De Boer et De Jongh, 1978℄. Cette te hnique est utilisée omme

une estimation indire te de la omposantelinéaire des réponses de la membranebasilaire

(MB) alors que la réponse à une ex itationsous forme de li est une estimation dire te

[deBoeretNuttall,1997℄.La orrélationinversée(CI)est uneextensionde laméthodede

orrélation roiséeetest utilisée ommeuneestimationindire tedela omposantelinéaire

de la RI du nerf auditif(NA) [de Boer et de Jongh, 1978℄. Plus de détails on ernant la

te hnique de laCIpeuvent être trouvés dans[DayanetAbbott, 2002;Theunissen et oll.,

2001℄.

Une fréquen e instantanée (FI) variable est présente dans les RIs de la MB ainsi que

elles des bres du nerf auditif [Carney et oll., 1999; de Boer et Nuttall, 1997; Tan et

Carney,2003℄.LesRIsdesbresontdesFIsdontlatraje toireestindépendanteduniveau

d'ex itation.C'estàdire quelestempsde passagepar zérodes RIssontindépendantsdes

niveaux d'ex itation. Cette traje toire est roissante pour des fréquen es supérieures à

1.5 kHz,relativement onstantepour des fréquen es omprises entre 750 Hzet1.5kHz et

auntauxdeglissementdé roissantpour lesfréquen esinférieuresà750Hz.Ceglissement

ae tenonseulementlastru turenedelaréponseduNA,maiségalementladéviationde

lameilleurefréquen e,bestfrequen y (MF)enfon tionduniveaudelapressiona oustique.

Les FIs des RIs du NA peuvent être estimées en utilisant la transformée de Hilbert par

example.Pourunsignalréel

s(t)

,lesignalanalytique

s

a

(t)

estdonnépar[Boashash,1992℄:

(30)

ˆ

s(t)

est la transformée de Hilbert du signal

s(t)

.On peut alors dans e as estimer la FI ommeétant ladérivée de la phase du signal analytique :

f i(t) =

dψ(t)

dt

(2.2)

Latraje toiredesFIsestdonnée ommeétantlapentequidé ritl'évolutiondelafréquen e

instantanée

f i

au ours du temps.

Diérents modèles ont essayé de simuler la RI 1

du NA tout en prenant en ompte de

l'enveloppe qui ressemble à une distribution gamma, de la traje toire des FIs et de la

ompression observée autour de la meilleurefréquen e.

Le modèleproposé par[Carney et oll., 1999;TanetCarney, 1999℄se ompose d'unltre

du 11 ème ordre simulant l'oreille moyenne mis en as ade ave un ltre ontrlé par

une fon tion non linéaire ombinée à un mé anisme de rétroa tion an d'introduire une

ompression non-linéaire. Ce dernier ltre a deux ples de huitième ordre et un ple de

quatrième ordre, leurs omplexes onjugués et un zéro purement réel du 11 ème ordre.

Cette ar hite ture a pour but de simuler la variation de la forme du ltre auditif en

fon tionduniveaudesimulationtoutenmaintenantdestraje toiresstablesdesfréquen es

instantanées.Zilany et al.dans [Zilany etBru e, 2006℄ réduisent de moitiéle nombre des

oe ientset étendent le modèle à des niveaux sonoresélevés.

IrinoetPatterson dans [IrinoetPatterson,1997℄ ontproposéun ltreauditifappeléltre

gamma hirp,gamma hirplter (GC).Leltregamma hirpanalytique,analyti al

gamma- hirp lter (AGC) aété présenté ommeune extension du ltre gammatone,gammatone

lter (GT)etaétélepremiermodèleàmodéliserexpli itementlatraje toiredesFIs.Dans

[Irino etPatterson, 2001℄,l'ar hite ture du GC a été revue an de prendre en ompte les

résultatspubliés par[Carney et oll., 1999℄.Leltre gamma hirp ompressif, ompressive

gamma hirp lter ( GC) est onstitué d'un ltre GT en as ade ave une fon tion

asy-métrique passe-bas as adée à un autre ltre passe-haut dont le gain dépend du niveau

d'ex itation.L'implémentationnumériqueduGC ompressifaétéréalisée ommeunltre

à réponse impulsionnelleinnie (RII) utilisant80 oe ientspar haîne auditive[Irinoet

Patterson, 2006a℄.

Lemodèleproposépar[Lyon,2011a℄aétéinspiréparlaméthodeWentzel-Kramers-Brillion

utiliséepourtrouverdes solutionsapproximativesdes équationsauxdérivées partiellesen

1. Les systèmes étudiés dans ette thèse sont non-linéaires. Cependant quand leniveau d'ex itation

(31)

est fon tion du niveau d'ex itation. An de préserver un taux de glissement indépendant

duniveaud'ex itation,lesplesetleszérossontlimitésàdesdépla ementproportionnels.

Ave ettedernière ontrainte, seuleslesFIsave lestauxdeglissement roissantspeuvent

être modélisés.

Laplupartdes modèles duNA ontadoptéladistributiongamma ommeétantun modèle

représentatif de l'enveloppe de la RI du NA. Le ltre GT (l'un des moins omplexes

en terme de des ription et implémentation) par exemple, est déni omme étant une

tonalité multipliée par une enveloppe ressemblant une distribution gamma. Même si la

des ription temporelle de ette dernière est ompa te, la representation fréquentielle du

ltre gammatone est omplexe e qui limite la possibilité d'une implementation digitale

e a e.

Dans e hapitre,lesltresbinomiauxsont introduits ommeétantdes alternativesmoins

omplexesauxltresGTsetGCs.Deplus,parpla ementjudi ieuxdeszerosdelafon tion

de transfert des ltres binomiaux, un glissement des FIs peut être introduit dans la RI

de es derniers. Le modèle proposé produit des réponses réalistesqui sont en a ord ave

lesdonnées physiologiques: laréponse temporelledu modèle ressemble àlaRI du NA, la

traje toirede laFIest indépendantedu niveaud'ex itation etlafon tion entrée-sortiedu

modèle est ompressive.

2.1 Les ltres binomiaux

2.1.1 Motivation

LaRIduNApeutêtredé omposée ommeétantuneenveloppemultipliéeparunetonalité.

La forme d'une loi gamma a été souvent utilisée omme un modèle de l'enveloppe de la

RI des bres auditives. Dans e as :

M

N A

(t) = t

n−1

× exp(−γt) × M

por

(t)

(2.3)

M

N A

représente le modèle de la réponse impulsionnelle du NA et

M

por

représente le modèle de la tonalité. Dans le as du ltre GT d'ordre

n

, la porteuse est une simple sinusoïde:

GTF

(t) = t

n−1

(32)

Mêmesilatransforméeen

s

d'un os illateuramortiest simple,leterme

t

n−1

setransforme

en une dérivée dansledomainede latransforméede Lapla e, e qui ompliquelafon tion

de transfertdu ltre gammatone.

Lafon tiondetransfertdultreGTd'ordre

n

(équation(2.4))aétédonnéepar[Katsiamis et oll., 2007℄:

H

GTF

(s) =

e

[s + s

0

]

n

+ e

−jφ

[s + s

0

]

n

[(s + b)

2

+ w

2

0

]

n

(2.5) Où le zéro

s

0

= w

0

/2Q + jw

0

p

1 − 1/4Q

2

,

w

0

la fréquen e entrale du ltre auditif et

Q

sonfa teurdequalitéà

−3dB

.À ausede ettedes riptiontrès omplexe,Lyonaprésenté dans [Lyon, 1996℄ un ltreappelégammatonetout-ple, all-pole gammatonelter (APG)

où tous leszéros ont été retirés de l'équation (2.5).

Dans[Katsiamiset oll.,2007℄,lesauteursontprésentéunmodèle basésur leltre APG:

ils ont introduit un zéro dans la fon tion de transfert de e dernier e qui donna deux

familles de ltres : le gammatone tout-ple diéren ié, dieren iated all-pole gammatone

(DAPG) et gammatone à un zéro, one-zero gammatone lter (OZG). Enterme de

para-métrisation artésienne, latransformée de Lapla ede es deux ltres est donnée par :

H

DAPGF

(s) =

Ks

[(s + b)

2

+ w

2

0

]

N

(2.6)

H

OZGF

(s) =

K(s + w

z

)

[(s + b)

2

+ w

2

0

]

N

(2.7)

N

estl'ordredultre,

K

une onstanteet

w

z

lezéroadditionnel.Lesauteursontaussi onsidéré deux versions en as ades de es ltres : le ltre tout-ple en as ade, all-pole

lter as ade (APFC) et le ltre ples-zéros en as ade, pole-zero lter as ade (PZFC)

dont lafon tion de transfert est donnée par.

H

PZFC

(s) =

N

Y

k=0

[(s + z

k

)

2

+ w

0

2

]

[(s + p

k

)

2

+ w

0

2

]

(2.8)

Où N est le nombre de haînes par largeur de bande re tangulaireéquivalente, equivalent

re tangular bandwidth (ERB)souvent xé à 2ou 3par ERB [Katsiamiset oll., 2007℄.

Dans le but d'éviter la dérivée introduite par leterme

t

n−1

, on présente dans les se tions

suivantes le ltre binomial omme étant une alternative moins omplexe que les ltres

gammatones. On démontre aussi, que par un pla ement approprié des zéros, les

(33)

X

égale au nombre de su ès ren ontrés au ours d'une répétition de

m

épreuves de Bernoulli,

p

étantlaprobabilitéde su èsd'une épreuve de Bernoulli.Avoirexa tement

k

(

0 ≤ k ≤ m

) su ès durant ette experien ea une probabilité donnée par

P

k

m

:

P

m

k

=

m

k



p

k

(1 − p)

m−k

(2.9)

m

k



=

m!

k!(m − k)!

(2.10)

Si

t

représente lavariabletemps(

t ≥ 0

),il existe un

λ

positiftel que

p = exp(−λt)

. Dans e as,

p

représentelaprobabilitéinstantanéed'unsu èsd'uneépreuvede Bernoulli.Si

m

réalisationsindépendantesdu mêmepro essusseproduisentsimultanément,laprobabilité

d'avoir exa tement

k

su ées àn'importe quelinstant

t ≥ 0

est donnée par

P

k

m

(t)

:

P

m

k

(t) =

m

k



exp(−kλt)[1 − exp(−λt)]

m−k

(2.11) Dans gure 2.1,

P

k

m

(t)

est tra ée pour diérentes valeurs de

k

et

λ

. Ces valeurs dé-nissent la forme de ette distribution. Par exemple, la valeur maximale est atteinte pour

t

max

= log(m/k)/λ

alors que

k

ontrle la valeur de la penteau voisinage de

0

.

0

0.1

0.2

0.3

0.4

0.5

t

P

k

m

(t)

(k=3,

λ = 2

) (k=2,

λ = 2

) (k=2,

λ = 1

)

Figure 2.1 Distribution binomiale pour diérentes valeurs de ses paramètres

(34)

On dénit le ltre binomial, Binomial-tone lter (BIT) par sa réponse impulsionnelle

donnée par :

BITF

k

m

(t) = A exp(−λkt)[1 − exp(−λt)]

m−k

cos(ω

0

t + φ)

(2.12)

ω

0

est lafréquen e de résonan e,

φ

est la phase initialeet

A

est une onstante.

Dis ussions : Lesltres BITs (Binomial-tone lter) présentés dans ettethèse ne sont

pasà onfondreave lesltresgaussiens.Cesdernierssontdesltrespasse-basutiliséspour

le ltragedes images par exemple (gaussian blur lter)[Aubury et Luk,1996; Haddad et

Akansu,1991℄.Uneappro he e a e pour implémenter un ltregaussiensous formed'un

ltre à réponse impulsionnelle nie (RIF) onsiste à approximer la distribution normale

en utilisant les oe ients binomaux (voir l'équation (2.10)). En eet, on montre que la

onvolutiondu ltre

[1, z

−1

]

N fois :

B

N

= [1, z

−1

] ∗ [1, z

−1

] ∗ · · · ∗ [1, z

−1

]

|

{z

}

N fois (2.13)

forme une bonne approximation de la RI du ltre gaussien donnée par l'équation (2.14)

[Crowleyet oll., 2002℄.

g(m) =

1

σ

e

m

2

/2σ

2

(2.14) Où

m = n − N/2

et

σ =

N/2

. La gure 2.2 illustre les diéren es entre la RI du ltre gaussienet ellesdesltres binomiauxprésentés dans ettethèse.Mêmesi es deuxltres

fontréféren eaumêmeterme(àsavoirbinomial)dansleurnomrespe tif,leursexpressions

et leurs appli ations sont fondamentalement diérentes. On résume dans e qui suit les

diéren esmajeuresentrelesltresgaussiensetlesltresBITsprésentés dans ettethèse:

 Lesltresgaussiens sontdes ltresàréponseimpulsionnelleniealors quelesltres

BITs sont des ltres àréponse impulsionnelle innie.

 Lesltresgaussienssontdesltrespasse-basalors quelesltresBITssontdesltres

passe-bande.

 Les oe ients des ltresgaussiens sonttous positifsalors que eux des ltres

bino-miauxprésentésdans ettethèseontdes oe ientspositifsetnégatifs(voiréquation

(2.16)).

(35)

0

0.25

0.50

0.75

0

5

10

15

20

25

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

temps(é h)

(a)Réponseimpulsionnelledultregaussien(ligne

dis ontinue) approximée par les oe ients

bino-miaux(symbole

).

−1

−0.5

0

0.5

0

5

10

15

20

25

temps(é h)

(b) Réponse impulsionnelledultrebinomial

pro-posé.

Figure 2.2 Comparaisonentre lesltres gaussiens et lesltres proposés.

2.1.3 Implementation digitale des ltres binomiaux

Latransformée en

z

(

Z

)ainsique elledeLapla e(

L

)dultreBIT peuventêtre al ulées fa ilement. Il sut de remarquer que le terme

[1 − exp(−λt)]

m−k

se développe en une

sommepondérée en utilisantla formuledu binme de Newton. On peut alors é rire:

H

BITF

k

n

(z) = A × Z



[1 − exp(−λt)]

m−k

[exp(−λkt) cos(ω

0

t + φ)]



= A ×

n

X

l=0

n

l



× Z



(−β

lt

) × Z

−1

 a(z)

b(z)

 

Latransformée en

Z

d'une sinusoïde amortieest donnée par [Healey, 1967℄ :

Z (exp(−λkt) cos(ω

0

t + φ)) =

cos(φ)z

−1

− e

−kλ

cos(w

0

− φ)z

−2

1 − 2e

−kλ

cos(w

0

) + e

−2kλ

z

−2

=

a(z)

b(z)

;

β = ln(λ); n = m

− k

(36)

En utilisant la propriété du s aling 2

de la transformée en

z

[Tohyama et Koike, 1998℄,

H

BITF

k

n

(z)

est donnée par :

H

BITF

k

n

(z) =

AZ(z)

BZ(z)

=

n

X

l=0

C

n

l

a

l

(z)

n

Y

j=0

j6=l

b

j

(z)

n

Y

l=0

b

l

(z)

(2.15) Où :

C

n

l

=

n

l



(−1)

l

(2.16)

a

l

(z) = a(β

−l

z); b

l

(z) = b(β

−l

z)

Puisque

P C

l

n

= 0

alors AZ(1)=0 et le nombre total des oe ients de

H

BITF

k

n

(z)

est donné par

4n + 5

pour un ordre

n ≥ 1

donné.

La même pro édure peut être utilisée pour trouver la transformée de Lapla e du ltre

BIT. Cettedernière est donnée par :

H

BITF

k

n

(s) =

n

X

l=0

n

l

 cos(φ)(s + s

0

+ lβ)

(s + p

0

+ lβ)

2

+ ω

0

2

(2.17) Ave

p

0

= λk

et

s

0

= − tan(φ)ω

0

+ λk

.

Sur la gure 2.3, le spe tre du ltre BIT est donné pour les mêmes valeurs que elles

utilisées pour la gure 2.1. Les deux paramètres

λ

et

n

hangent la valeur du fa teur de qualité du ltre BIT : pour des valeurs élevées de

n

ou

λ

le fa teur d'amortissement est plus élevéd'où un spe tre plus plat.

La phase initiale

φ

introduit une ertaine asymétrie sur le spe tre mais e dernier reste relativementsymétriquepourêtreunmodèleappropriédesRIsdu NA.Lespe tredultre

GT de quatrième ordre est donné aussi sur la même gure. Au voisinage de la fréquen e

de résonan e, le spe tre du ltre BIT ressemble à elui du GT mais la diéren e est plus

pronon ée au niveau des basses et hautes fréquen es. Dans la se tion 2.4, on donne plus

de détails on ernant larelation entre leltre BIT etle ltre GT.

2. Si

Z(f(t)) = F (z)

,alors

Z(λ

(37)

−50

−40

−30

−20

−10

0

10

20

π

0

π/2

(n=1,

) (n=2,

) (n=2,

λ

)

0

π/4

GTF

Figure 2.3 Spe tre du ltre binomial pour diérentes valeurs des paramètres

(

n = 2

,

λ

est une valeur positive et

φ = 0, π/4

). Le spe tre du GTF de 4ième ordre est tra é en pointillé.

Leltre BIT partageave leltre GT lesmêmes limitations: spe tre symétrique,tra

je -toiredes FIs onstante etabsen e de ompressionau voisinage de la MF. Dansla se tion

suivante, on propose des modi ations dont le but est d'adapter le ltre BIT aux

ob-servations physiologiques. Les modi ations proposées n'introduisent pas de omplexité

additionnelleen terme d'implémentation.

2.2 Adaptation des ltres binomiaux aux observations

physiologiques

2.2.1 Réponses impulsionnelles du nerf auditif

Dans[Carneyet oll.,1999℄,laréponse impulsionnelledu nerfauditifd'unepopulationde

hatsaétémesuréeenutilisantlate hniquedela orrélation-inverséeet epourdiérentes

(38)

eux fournis pour les ltres GT et les ltres GC. On utilise aussi les mêmes réponses

impulsionnellesqui sont disponiblessur lesite web du earLab 3

.

La méthode utilisée pour olle ter es réponses est détaillée dans la se tion I de [Carney

et oll., 1999℄. Les réponses impulsionnelles de la ellule 25 de l'Unité 86100 de MF de

2 kHz seront utilisées pour le reste de e hapitrepuisque 'est l'unité ave le plus grand

nombre de RIs disponibles.

Enveloppe temporelle

Sur la gure 2.4, la RI de l'Unité 86100u25 est donnée pour le niveau d'ex itation de

80 dB SPL. Les enveloppes des mêmes RIs sont données sur la gure 2.5. L'enveloppe

1

2

3

4

5

6

n = 3

n = 2

n = 1

Unité 81000u25 ms

Figure2.4 Réponse impulsionnelledu ltre binomialpour diérentsordresdu

modèle.Laréponseimpulsionnelledel'Unité86100u25de[Carneyet oll.,1999℄

est aussi donnée (80 dB SPL).

est déterminée omme étant la valeur absolue de la transformée de Hilbert (

H

) de es réponses impulsionnelles. La diéren e entre la RI du modèle et elle du NA est plus

pronon ée audébut de ette dernière. Un modèle dont l'ordreest plus élevé orrespond à

une erreur plus petite. Dans la se tion 2.2.2 on donnera plus de détails sur le lien entre

l'ordre du modèle etl'erreur de modélisation. Il paraità premiere vue quel'enveloppe du

ltre BIT fournit une bonne approximationde l'enveloppedu NA. Lapropriété du NA la

plus di ileà modéliser est le tauxde glissement des FIs qui se trouveêtre indépendant

du niveau d'ex itation. On dénit letaux de glissement des RIs ommeétant lapente de

(39)

0

0.5

1

2

3

4

5

6

ms

n = 1

n = 2

n = 3

Figure 2.5 Enveloppe estimée à partir de la réponse impulsionnelle de

l'Unité 81000u25 [Carneyet oll.,1999℄ (80 dB SPL).L'enveloppe des réponses

impulsionnellesdu BITFest donnée pour diérents ordres.

Fréquen es instantanées et asymétrie spe trale

Les FIs du NA présentent des taux de glissement dont la dire tion dépend seulement de

la MF de la bre auditive. Dans le as du ltre BIT, le hangement de la phase initiale

permet de hanger le taux de glissement de la fréquen e instantanée (gure 2.3). Mais

généralement,lespe tredultreBITtelquedé ritdansl'équation(2.15)estsymétriqueet

lamodi ationde laphaseinitiale

φ

nepermetpasd'introduireunefréquen einstantanée dont la traje toire est ontrollable.

Onproposedans e quisuit desmodi ationsde l'équation(2.15)danslebutd'introduire

un taux de glissement ontrollable dans les fréquen es instantanées du ltre BIT. Ce i

peut êtreee tué fa ilementen ajoutantun nouveau paramètre

γ

qui ontrle laposition des zéros dans l'équation (2.15). En eet, il sut de rempla er

a

k

(z)

dans (2.15) ave

a

k

(z) = a(γ

−k

z)

. En dé alant

AZ(z)

par une valeur de

π

, e dernier peut être un ltre passe-haut ou un passe-bas e qui permet d'introduire un glissement des FIs dont la

traje toire est ontrollable.

(40)

Amplitude

Temps

(a) Réponses impulsionnelles du ltre binomial

pour

n = 2

−250

−200

−150

−100

−50

0

Gain(dB)

π

0

(b) Spe tresdultrebinomialpour

n = 2

Figure2.6 Spe treset réponses impulsionnellesdu ltre binomialdont lesRIs

ontdes fréquen esinstantanéesdontletauxde glissementest dé roissant(ligne

en pointillé) et roissant (ligne ontinue). Sur la gure 2.6(b) les réponses du

ltre

AZ(z)

ainsi que elles du ltre omposite

AZ(z)/BZ(z)

(équation(2.15)) sont données pour haque as.

sont diérentes. La RI représentée en pointillé sur la gure 2.6(a) possède un taux de

glissement roissant alors que elle en ligne ontinue un taux de glissement dé roissant.

Cette diéren eest aussi visiblesur leurs spe tres. Lesdeux spe tresdonnés sur la gure

2.6(b), ont lesmêmes ples (

BZ(z)

dans l'équation (2.15)) mais des zéros diérents. Compression et déviation fréquentielle

Parmi les manifestations du omportement non-linéaire de la o hlée, on trouve la

om-pression desniveaux sonores[Allen, 2001℄,lasuppression due àlaprésen e d'une se onde

tonalité [Ruggero et oll., 1997℄ et la distorsion des produits oto-émissions a oustiques

[Cooper et Rhode, 1997℄. L'un des phénomènes non linéaires des plus importants est la

ompressiondes niveauxsonores élevés. Lessignauxde faibleintensitésontampliésave

des gains élevés, alors que eux de hauts niveaux ne sont pratiquement pas ampliés.

Ainsi la o hlée présente une ompression roissante en fon tion de l'intensité du signal

d'entrée : la o hlée réalise un ontrle de gain automatique de telle sorte que son gain

devient atténué pour des signaux dont l'intensité roît. La gure 2.7 présente le spe tre

des RIs de la ellule 25 de l'Unité 86100 dont la MF est de 2 kHz. Le gain de ses RIs

auvoisinagede lafréquen e entraleest inversementproportionnelauniveaud'ex itation

(41)

0

5

10

15

1

1.5

2.0

2.5

3.0

kHz Gain(dB)

Figure 2.7 Spe tres des réponses impulsionnelles des ellules de

l'Unité 86100u25. La dire tion pointée par la è he indique des niveaux

d'ex itation roissants. Quand le niveaux d'ex itation augmente, la valeur

maximale des spe tres des RIs diminuent d'où la ompression au voisinage de

(42)

la è he indique des niveaux d'ex itation roissants. Quand le niveaux d'ex itation

aug-mente, la valeur maximaledes spe tres des RIs diminue d'où la ompression auvoisinage

de lafréquen e entrale.

On proposedans e quisuit devaliderleltreBIT par rapportauxRIs dunerfauditifde

hat et e en e qui on erne :

 L'allure temporelle de laréponse impulsionnelle.

 Le tauxde glissementde laFI qui est indépendantdu niveau d'ex itation.

 La déviationde laMF en fon tion du niveau d'ex itation.

 La ompressionau voisinage de la fréquen e entrale.

2.2.2 Modélisation des réponses impulsionnelles du nerf auditif

On étudie dans ette se tion la validité du ltre BIT omme un modèle de la réponse

impulsionnelle du nerf auditif. La variation des paramètres du modèle est exprimée en

fon tiondu niveau d'ex itationutiliséepour re ueillirlesréponsesimpulsionnellespubliée

par [Carney et oll., 1999℄. La réponse du modèle est ensuite omparée à elle re ueillie

au niveau du nerf auditif. On propose don dans ette se tion de trouver les valeurs des

paramètres du BIT dont les RIs ressemblent lemieux à elles du NA.

Modèle et erreur de modélisation

LesparamètresdultreBITsontajustésdire tementdansledomainedelatransforméeen

z

etsontimplémentés ommedé ritparl'equation(2.15).Leltrebiquadratique

a(z)/b(z)

estparamétrédansledomainefréquentieloù

G

,

w

c

,

w

l

et

w

r

représententlegainmaximal, la fréquen e entrale, les basses fréquen es et hautes fréquen es à

−3

dB respe tivement. La fréquen e d'é hantillonnageest de

20

kHz.

Pour un ordre du modèle

n

donné, les paramètres qui sont impliqués dans l'ajustement du ltre BIT sont le gain maximal

G

,

β

,

γ

et les paramètres fréquentiels

δ

c

= w

c

/MF

,

δ

r

= w

r

/MF

and

δ

l

= w

l

/MF

. La variation de es paramètres en fon tion du niveau d'ex itation

P

N

est exprimée ommeétantun système linéairedonné par :

G

β

γ

δ

c

δ

l

δ

r

= f(P

x

) = M × P

x

+ b

0

(2.18)

(43)

Algorithme d'apprentissage

LaRI dumodèleainsique elledu NAde lapopulationde hats sontnormalisées puisque

lesgainsdesRIsde hatsverslesbassesfréquen esn'ontpratiquementpas hangésquand

le niveau d'ex itation a hangé [Carney et oll., 1999℄ (voir gure 2.7). Le ltre BIT est

utiliséave 6paramètresdontlavariationest modéliséeparun systèmelinéairedé ritpar

l'équation (2.18). Le délai des RIs n'est pas investigué dans ette étude et est déterminé

ommeétantledélaipourlequella orrélationentrelaRIdultreBITet elledesRIsdes

ellules auditives de hats atteint son maximum. L'erreur quadratique moyenne (EQM)

est utilisée omme ritère de minimisation pour la pro édure d'apprentissage du modèle.

L'erreurd'apprentissage est dénie omme étant l'EQM de la diéren e entre la réponse

dumodèleet elle de laRI du NA.Cette diéren eest al uléesur ladurée pour laquelle

l'enveloppe des RIs est supérieure à une fois et demie (1.5) le bruit de mesure estimé à

partirdu premieretdes deux dernières msde la RI du NA.

Siun modèle

f

( onformémentà l'équation(2.18))est utilisépour générer des RIs notées

ˆ

RI

f

(i)

, l'erreur

e(f)

est déniepar :

e(f) =

N

X

i=1



RI(i) − ˆ

RI

f

(i)



2

N

X

i=1

RI(i)

2

(2.19)

N

représente le nombre des RIs par bre auditive.

La valeur nale de l'EQM est ensuite normalisée par la puissan e moyenne de la RI du

NA etexprimée en dB.

L'algorithme de minimisation est un algorithme de re her he linéaire itératif basé sur

l'algorithme de la plus forte pente oùl'estimation du Ja obien (

) est ee tuée numéri-quement. À haque itération, la valeur de

f

est mise à jour en utilisant l'algorithme 2.1.

4. Ce hoixestmotivéparlefaitqueleniveaud'ex itation ommunauxréponses impulsionnellesest

(44)

Algorithme 2.1 : Algorithmed'ajustementdu BIT aux RIs du NA

Entrées :

P

N

:Niveaux d'ex itationsonore. Sorties :

f

dénie dans (2.18).

Données : MF :fréquen e entrale des RIs

tant que

|∇e(f)| ≥ ǫ

faire

Générer lesRIs du BIT en utilisant

f

. Estimer

∆e(f)

, le gradientde

e(f)

.

Trouver

α

pour minimiser

e(f + α∆e(f))

. Mettre à jour

f

= f − α∆e(f)

.

n

On présentedans lase tion suivantelesrésultats obtenus suite àl'ajustement du modèle

auxRIsduNAetondémontrequeleltreBITestunmodèleà omplexitéréduite apable

de modéliserdèlement lesRIs du NA.

2.3 Résultats expérimentaux

2.3.1 L'ordre du modèle

Dans ettese tion,onexaminel'impa tdel'ordredumodèle

n

surl'erreurdemodélisation. Pour e faire, les RIs générées par le ltre BIT sont ajustées aux RIs du NA et e que

pour des niveaux d'ex itation sonores de 80 dB SPL. L'ajustement du modèle est limité

dans e as aux niveaux d'ex itation

P

N

élevés et e pour deux raisons:

1. Pour des niveaux d'ex itation élevés, lebruit de mesureest leplus faible.

2. AjusterlemodèleàuneRIparbreauditive,évitel'impa tdunombrede oe ients

du modèlesur l'erreurde modélisation(se tion2.3.2).

La gure 2.8représentel'erreur de modélisation al ulée selon l'équation(2.19) exprimée

en dB.

Quandlemodèleest unsimpleltre biquadratique(

n = 0

),l'erreurde modélisationest la plus élevée etvaut

−6.3

dB. Quandl'ordredu modèle augmente, l'erreurde modélisation diminueensuiteaugmentelégèrementàpartirde

n ≥ 5

.Ce iestdûessentiellementaufait que pour

n ≥ 5

, le terme

(1 − β

t

)

n

ne peut roître aussi rapidement que l'a roissement

de l'enveloppeles RIs du NA.

Étantdonnéqu'un ordre de modélisationplus élevéimpliqueune implémentationdigitale

ave un nombre de oe ients plus élevé, un ompromis raisonnable sembleêtre possible

(45)

−15

−13

−11

−9

−7

0

1

2

3

4

5

6

7

b

b

b

b

b

b

b

b

n

Figure 2.8 Compromis entre ordre du ltre binomial(

n

) et erreur de modéli-sation des réponses impulsionnellesdu nerfauditif.

2.3.2 Résultats de modélisation de la bre 25 de l'Unité 86100

Le nombre des oe ients du modèle linéaire

f

On s'intéresse dans ette se tion à l'impa t du nombre des oe ients du modèle

f

sur l'erreur de modélisation : le nombre maximal par paramètre est 2 (ordonnée à l'origine

b

0

et oe ient dire teur

M

) et le nombre total des oe ients de

f

est de 12 (6 para-mètreséquation(2.18)). Puisquele tauxde glissementdes FIs est indépendant du niveau

d'ex itation

P

N

, le paramètre

γ

ontrlant letaux de glissement des RIs du modèle

f

est modélisépar une onstante.

Dans le tableau 2.1, le nombre total des oe ients est donné dans la première olonne.

La distribution de es oe ients parmi les diérents paramètres est aussi donnée. Par

exemple,sur ladeuxièmeligne,

10

oe ientssontutilisés:touslesparamètresdu modèle dépendent du niveau d'ex itation saufles deux paramètres

γ

et

β

.L'impa t de l'ordrede modélisation

n

sur l'erreur de modélisation

e

est aussi investigué.

Letableau2.1montrequeleltreBITpeutmodéliserdèlementlesRIsdesbresauditives

étantdonnéquelerapportsignalsurbruit(RSB)de esdernièresestd'environ20dB.Pour

(46)

Tableau 2.1 Compromis entre l'ordre du modèle

n

, le nombre de oe ients du modèle et l'erreur de modélisation des réponses impulsionnelles de la bre

25de l'Unité 86100 pour 9 niveaux d'ex itation.

n=2 n=3 Nombre de oe.

G

β

w

c

δ

l

δ

r

e

mp

e

mp 11 2 2 2 2 2 -13.8 0.76 -13.4 0.70 10

2 1 2 2 2 -13.2 0.81 -13.3 0.56 9 2 1 2 1 2 -12.9 0.73 -13.1 1.00 8 2 2 1 1 1 -11.7 0.81 -11.8 1.00 8 2 1 2 1 1 -12.2 0.82 -12.7 0.99 8 2 1 1 1 2 -12.9 0.78 -12.3 0.38 7 2 1 1 1 1 -11.5 0.81 -11.7 0.87 6 1 1 1 1 1 -10.9 1.00 -11.1 1.00

du début des RIs. Quand l'ordre du modèle est xé, ette même erreur peut être réalisée

ave un nombre de oe ients plus petit : Il sut d'ae ter deux oe ients pour

δ

r

et

w

c

. En eet, le paramètre

δ

r

ontrle la pente des endante de l'enveloppe de la RI du ltre BIT e qui est onsistent ave le fait que la durée des RIs dé roît quand le niveau

d'ex itation augmente. Le paramètre

w

c

doit aussi dépendre du niveau d'ex itation

P

N

puisquelepi duspe tredesRIsduNAsedé aleverslesbassesfréquen esquandleniveau

d'ex itation augmente (Figure 2.7). Quand les paramètres du modèle sont indépendants

du niveau d'ex itation l'erreur de modélisationest laplus grande etvaut

−10.9

dB.

Clairement, lesparamètres du ltre BIT doivent être dépendants du niveau d'ex itation.

Selon le tableau 2.1, les paramètres qui inuen ent le plus l'erreur de modélisation sont

δ

r

(lignes 6 et 7 du tableau 2.1) et

w

c

. Quand es deux paramètres sont dépendants du niveaux d'ex itation, l'erreur de modélisationest inférieure à

−12.9

dB. La dépendan e du paramètre

δ

l

améliorelégèrement l'erreurde modélisationave environ

0.3

dB (lignes 2 et 3 du tableau 2.1) alors que elle du paramètre

β

est seulement importantequand le paramètre

δ

r

est luiaussidépendant du niveau d'ex itation (lignes1et2du tableau2.1). Même si leparamètre

β

inuen e peu l'erreurde modélisation,il inuen e grandement le omportement ompressif du ltre BIT. Eneet, e paramètre ontrle l'énergiede laRI

Figure

Figure 2.1 Distribution binomiale pour diérentes valeurs de ses paramètres
Figure 2.2 Comparaison entre les ltres gaussiens et les ltres proposés.
Figure 2.3 Spe
tre du ltre binomial pour diérentes valeurs des paramètres
Figure 2.4 Réponse impulsionnelle du ltre binomial pour diérents ordres du
+7

Références

Documents relatifs

Pour conclure, dans ce chapitre, avec les corpus DES et BES, et afin de tester notre approche de la reconnaissance de l’émotion indépendante du locuteur par la normalisation

Nous avons appliqué une minimisation par algorithme génétique (adaptation, par les auteurs, du code source libre de droit de (Houck et al., ACM Transactions on Ma- thematical

Figure 7: Deux applications de notre méthode : à chaque fois, les classes d’objets (c) ainsi que la position de leurs instances dans l’image (b) sont calculées automatiquement..

Dans la seconde ´ etude, les participants doivent d´ etecter une d´ eviation dans le rythme de pr´ esentation de la s´ equence audiovisuelle. Ces tˆ aches sont r´ eput´ ees

à l’un des acoumètres précédents, une acuité auditive assez bonne et cependant entendre la voix d’une façon plus que médiocre; c’est un gros inconvénient,

En général, dans les tâches d’écoute de voix concurrentes, on demande à l’auditeur de diriger son attention vers l’une des voix présentes. Ce- pendant, dans ces

molécules odorantes récepteurs olfactifs Gs adénylate cyclase AM Pc agonistes B adrénergi- récepteurs spécifiques Gs adénylate cyclase AM Pc ques, TSH,

- La fréquence fondamentale n'est en général pas stable au cours d'un ronflement et présente des variations importantes (La figure 2 montre un ronflement où la