ENCODAGE DES SIGNAUX DE PAROLE
PAR INVERSION DES MOTIFS
D'EXCITATION AUDITIVE
Thèse de do torat
Spé ialité : génie éle trique
Khaled LAKHDHAR
Dire teur Éri PLOURDE Évaluateur Jean ROUAT Évaluateur Martin BOUCHARD Évaluateur
omplexité,de ompresseretdesynthétiserunsignalsonoreex lusivementdansledomaine
per eptuel.On traite l'appro he du odagepar inversion des représentations bio-inspirées
et on propose un odeur qui exploite la redondan e présente dans es représentations.
Le odeur proposé transforme es derniers en une représentation ompa te dépourvue
de redondan e per eptuelle e qui fa ilite la ompression tout en permettant une bonne
qualité subje tive de re onstru tion.
La première partie de ette thèse propose un nouveau ltre auditif à faible omplexité
quipeut non seulementmodéliserlesréponses mé aniques de lamembranebasilaire,
syn-thétiser les réponses impulsionnelles du nerf auditif mais aussi expliquer les expérien es
du masquage fréquentiel. La deuxième partie détaille l'exploitationde e même ban de
ltres auditifs pour la dis ipline de la ompression des signaux sonores. Des modèles de
masquage adaptés à e ban de ltres sont appliqués aux motifs d'ex itation auditives
pour obtenirdes représentations éparses. Desexpérien es montrentque e odeur permet
deréduire onsidérablementlaredondan edansledomaineper eptueltoutenmaintenant
une bonne qualité subje tive de synthèse.
Mots- lés : ltres auditifs, distribution binomiale, masquage, par imonie,
l'audio).Je lui suis aussi re onnaissant pour ses en ouragements et judi ieux onseils. Je
remer ie aussi Pr. Jean Rouat et Pr. Roger Goulet pour avoir fait partie de mon omité
de onseil. Leurs questions durant l'examende synthèse m'ont permis de mieux erner la
questiondere her he àlaquelle ettethèserépond.Mesremer iementss'adressent aussià
Danielle Poirier, se rétaire du groupe,pour m'avoirmaintes fois aidé ave les pro édures
administratives, pour sa bonne humeur etsa sympathie.
Je tiens aussi à remer ier plusieurs personnes de la ommunauté s ientique notamment
Ri hardF. Lyonpour avoirpartagélesdonnées expérimentales olle tées par Glasberg et
Moore et Roland Carrat pour avoir partagé son ouvrage l'oreille numérique avant sa
publi ation.
Je ne peux nir sans remer ier aussi la Mission Universitaire de Tunisie en Amérique
du Nord pour sa présen e tout au long de mon do torat et pour son support aussi bien
LISTE DES ACRONYMES 3
1 Introdu tion 5
1.1 Mise en ontexte . . . 5
1.2 Questions de re her hes et ontributions originales . . . 9
2 Les ltres binomiaux : un modèle original des réponses impulsionnelles du nerf auditif à faible omplexité 13 2.1 Les ltres binomiaux . . . 15
2.1.1 Motivation . . . 15
2.1.2 Dérivationdes ltres binomiaux . . . 17
2.1.3 Implementationdigitale des ltres binomiaux . . . 19
2.2 Adaptation des ltres binomiauxaux observations physiologiques . . . 21
2.2.1 Réponses impulsionnellesdu nerf auditif . . . 21
2.2.2 Modélisationdes réponses impulsionnellesdu nerfauditif . . . 26
2.3 Résultats expérimentaux . . . 28
2.3.1 L'ordre du modèle . . . 28
2.3.2 Résultats de modélisationde labre 25 de l'Unité 86100 . . . 29
2.3.3 Résultats de modélisationde l'Unité 86100 . . . 35
2.4 Comparaison ave d'autres ban de ltres auditifs . . . 37
2.5 Con lusion . . . 39
3 Nouveauban de ltresauditifsdynamiquesàbasedesltresbinomiaux 41 3.1 Ar hite ture du ban de ltresd'analyze etde synthèse . . . 41
3.2 Dérivationdes paramètresdu ban de ltres . . . 44
3.2.1 Le modèle du masquage fréquentiel . . . 44
3.2.2 Algorithme d'ajustement du ban de ltres . . . 46
3.2.3 Modélisationdu ltre auditif hez leshumains . . . 48
3.3 Résultats expérimentaux . . . 52
3.3.1 Compromis omplexitéet erreur d'apprentissage . . . 52
3.3.2 Choix de modèle : ompromis entre performan e etsurapprentissage 55 3.3.3 Compression et fréquen esinstantanées du modèle hoisi . . . 57
3.3.4 Con lusion . . . 58
4 Synthèse par inversion des motifs d'ex itations auditives 59 4.1 Extra tion des motifs d'ex itation auditives . . . 59
4.1.1 Modèle des ellules iliées internes . . . 60
4.1.2 Modèle neuronal simple . . . 60
4.2.1 Inversion des modèles neuronaux . . . 63
4.3 Ban de ltres de synthèse . . . 65
4.3.1 Synthèse sans modèles neuronaux . . . 66
4.3.2 Synthèse ave intégration du modèle neuronal . . . 73
4.4 Résultats expérimentaux . . . 74
4.5 Dis ussions . . . 79
4.6 Con lusion . . . 80
5 Masquage dans le domaine per eptuel 81 5.1 Masquage et par imonie . . . 81
5.2 Nouveau modèle simplede masquagesimultané . . . 84
5.2.1 Le as d'une impulsionde Dira . . . 84
5.2.2 Masquage post-stimuli . . . 86
5.2.3 Masquage pré-stimuli . . . 89
5.2.4 Masquage simultané . . . 91
5.3 Corre tion adaptative des amplitudes des impulsionsmasquantes . . . 93
5.4 Nouvelle stru ture du ode proposé . . . 94
5.5 Résultats expérimentaux . . . 97
5.5.1 Qualité du nouveau modèle du masquage . . . 98
5.6 Con lusion . . . 103
6 Compression des motifs d'ex itation auditive 105 6.1 Codage des positionsdes impulsions. . . 106
6.1.1 Transformations réversibles du traind'impulsions . . . 106
6.1.2 Résultats expérimentaux . . . 108
6.1.3 Dis ussions . . . 112
6.2 Codage des amplitudes des impulsions . . . 113
6.2.1 Modélisationdes amplitudes . . . 114
6.2.2 Résultats expérimentaux . . . 116
6.2.3 Dis ussions . . . 120
6.2.4 Complexité omputationnellede l'implémentation . . . 121
6.3 Con lusion . . . 123
7 Con lusion générale 125 7.1 Contributions originales . . . 125
7.2 Dis ussions ettravauxfuturs . . . 127
A Annexe 129 A.1 Signaux de parole . . . 129
1.3 Modélisations hématiquedu système auditifbiologique. . . 8
1.4 Modèle auditifproposé. . . 9
1.5 Codage proposé dans le domaineper eptuel. . . 10
2.1 Distribution binomialepour diérentes valeurs de ses paramètres . . . 17
2.2 Comparaison entre lesltres gaussiens etles ltres proposés. . . 19
2.3 Spe tre du ltre binomialpour diérentes valeurs des paramètres . . . 21
2.4 Réponse impulsionnelledu ltre binomialpour diérents ordresdu modèle. 22 2.5 Enveloppeestiméeàpartirdelaréponseimpulsionnelledel'Unité81000u25 [Carney et oll.,1999℄ (80 dBSPL). . . 23
2.6 Spe tres et réponses impulsionnellesdu ltre binomial. . . 24
2.7 Spe tres des réponses impulsionnellesdes ellulesde l'Unité 86100u25.. . . 25
2.8 Compromis entre ordredu ltre binomial(
n
)eterreur de modélisationdes réponses impulsionnellesdu nerfauditif. . . 292.9 Spe tres ettraje toiresdes fréquen es instantanées du ltre binomial om-pressif. . . 33
2.10 Réponsesimpulsionnellesdultrebinomial ompressifpourl'Unité86100u25. 34 2.11 Dépla ement des ples etzéros dans le plan zdu ltre binomial ompressif. 34 2.12 Réponses impulsionnellesdu ltrebinomial ompressif ainsi queles traje -toires de leurs fréquen es instantanées pour l'Unité86100. . . 36
2.13 Comparaison entre lespe tre du ltrebinomial et elui du ltre gammatone. 38 3.1 Stru ture en parallèledu ltre auditifproposé. . . 43
3.2 Adaptation des paramètres du ban de ltres ausignal d'entrée. . . 43
3.3 Déte tion de tonalité en présen e de bruit masquant. . . 44
3.4 Spe tres etlargeursde bandeéquivalentedu ban de ltres proposé quand le niveau d'ex itation est faible. . . 49
3.5 Spe tres et gains du ltre BITF
2
dynamique. . . 513.6 Erreur de déte tiondes tonalitéspour diérentes famillesde ban de ltres proposés. . . 53
3.7 Erreur de déte tion des tonalitéspar diérents modèles.. . . 53
3.8 Familles de ltres binomiaux (pour des niveaux d'ex itation diérents al-lant de 30 à 70 dBSPL) ajustées aux expérien es de masquage. La ligne dis ontinue représente lavaleur du paramètre
P
0
. . . 543.9 Erreurdegénéralisationvsl'erreurd'apprentissagepourdiérentes familles de ban de ltres proposées. . . 56
3.10 Spe tresettraje toiresdesfréquen esinstantanéesdultre BIT
∗
2
pour des niveaux d'ex itation allantde 30à 70dB. . . 574.1 Représentation auditived'un segment audio voisé. . . 62
4.2 Fa teur de orre tion des valeursdes pi s du modèle neuronal. . . 65
4.3 Stru ture en parallèledu ltre auditifproposé. . . 67
4.4 Example d'ajout de délai aux réponses impulsionnelles. . . 68
4.5 Réponse impulsionnelleet fréquentielle du ban d'analyse-synthèse. . . 68
4.6 Réponse impulsionnelleet fréquentielle du ban d'analyse-synthèse. . . 71
4.7 Example d'analyse-synthèse d'une tramed'un signalde parole. . . 72
4.8 Stru tureenparallèledultreauditifproposéin luantlesmodèlesneuronaux. 74 4.9 Relation entre l'ODGet leSDG. . . 76
4.10 RSB et ODG moyens entre référen es et signaux synthétisés à partir de leurs motifs d'ex itation auditive pour diérents paramètres du système analyse-synthèse. . . 77
4.11 Examplede synthèsede signauxàpartirde leursmotifsd'ex itationauditive. 78 5.1 Motif d'ex itation réé par une impulsionde dira . . . 84
5.2 Example d'analyse synthèse pour une ex itationde dira . . . 85
5.3 Seuil de masquage post-stimuli. . . 87
5.4 Ex itations avant etaprès l'appli ation du masquage post-stimuli. . . 89
5.5 Seuil de masquage pré-stimuli. . . 91
5.6 Estimationduseuildemasquagetemporeletsimultanéàpartird'unetrame de signal de parole. . . 92
5.7 Diéren e d'ex itations entre trains d'impulsions avant at après masquage et appli ationde la orre tion adaptative. . . 95
5.8 Stru turedu ode proposé in luantlesmodèlesneuronaux etla orre tion d'amplitudesadaptative. . . 96
5.9 Example de synthèse de signaux à partir de leurs motifs d'ex itation audi-tive omplets et réduits. . . 98
5.10 Nombremoyend'impulsionsparé hantillonetODGmoyenspourdiérents paramètres du seuil de masquage. . . 100
5.11 ODG moyen de l'ensemble de test. . . 102
6.1 Example d'appli ationde latransformation de Burrows-Wheeler. . . 107
6.2 Probabilitédes distan es entre impulsions. . . 109
6.3 Nombre de bits/symbole et débit total né essaire à la transmission des positionsdesimpulsionsave etsans ompressionavantetaprèsappli ation du seuil de masquage.. . . 110
6.4 Auto orrélation entre distan es séparant les impulsionsmasquantes. . . 112
6.5 Probabilitédes amplitudes des impulsions. . . 113
6.6 Entropie et débitmoyens des amplitudes des impulsions. . . 114
6.7 Codage des diéren es entre valeurs des amplitudesmasquantes. . . 116
6.8 Auto orrélations des amplitudes des impulsionsmasquantes. . . 118
6.9 Erreur de prédi tion pour diérents nombre de bits. . . 119
im-2.1 Compromis entre l'ordre du modèle
n
, le nombre de oe ients du modèle et l'erreur de modélisation des réponses impulsionnelles de la bre 25 del'Unité 86100 pour 9 niveaux d'ex itation. . . 30
2.2 Erreurs de modélisationdes réponses impulsionnelles. . . 35
2.3 Comparaison entre lesfamilles des ltres auditifs. . . 38
3.1 Comparaison entre lesfamilles des ltres auditifs. . . 55
5.1 Interprétationdes valeurs de l'ODG. . . 99
5.2 Comparaison entre diérents systèmes de synthèse de signaux de parole à partir de leurs motifs d'ex itation auditive. . . 102
6.1 Débit né essaire à latransmission des positions des impulsions. . . 111
6.2 Comparaison entre diérents systèmes de synthèse de signaux de parole à partir de leursmotifs d'ex itation auditive. . . 121
6.3 Complexité omputationnelle de l'implémentationproposée. . . 122
impulsionnelles de lamembrane basilairede hats.
β
Paramètre ontrlant la position des ples de la fon tion de transfert donnée par l'équation (2.15).e(f)
Erreur quadratique moyenne de modélisationdes réponses impulsionnelles de la membrane basilairede hats résultant de l'utilisationd'un modèlef
.f
0
fréquen e entralede latonalitéutiliséepour lesexpérien es du masquage fréquen-tiel.f
Relationlinéaireutiliséepourmodéliserlesréponsesimpulsionnellesdelamembrane basilaire de hats.G
i
i-ièmeltre de synthèse du ban de ltres.γ
Paramètre ontrlant la position des zéros de la fon tion de transfert donnée par l'équation (2.15).H
i
i-ième ltre d'analyse du ban de ltres.H
transformée de Hilbert.∇
leJa obien d'unefon tion dierentiable.K
onstante de déte tion dans l'équation (3.2).L
transformée de Lapla e.M
Modèle utilisé pour modéliserle ltre auditif.M
Ve teur ontenant les oe ients dire teurs utilisés pour modéliser les réponses impulsionnelles de lamembrane basilairede hats en fon tion deP
N
.n
Ordre du ltre binomialtel quedé rit par l'équation (2.15).τ
é h
Nombre d'impulsions par é hantillons audio (équation(5.20)).
N
0
niveau du bruit utilisé pour lesexpérien es du masquage fréquentiel.P
N
Niveau d'ex itation sonore utilisé pour re ueillir les réponses impulsionnelles de [Carney et oll.,1999℄.P
s
niveau de la tonalitéutilisée pour les expérien es du masquagefréquentiel.ˆ
P
s
niveau de latonalitépréditpar lemodèle dansle as des expérien es du masquage fréquentiel.P
x
Niveau d'ex itation sonorenormalisédonné parP
N
-80.ˆ
RI
f
(i)
I ème réponse impulsionnelle générée utilisant un modèlef
onformément à l'équation (2.18).s(n)
signal audioà l'entrée du ban de ltres d'analyse.ˆ
s(n)
signal audioà la sortie du ban de ltres de synthèse.τ
s
Taux de par imonie après lassi ation des impulsions en impulsions masquantes et masquées(équation (5.19)).τ
mptaux de ompression moyen des réponses impulsionnelles donné par l'équation
(2.20).
w
0
fréquen e de résonan e du ltre auditif.ξ(M)
erreur de prédi tion des tonalités dans le adre des expérien es de masquage fréquentiel en utilisant un modèleM
.y
i
(n)
signal audio àl'entrée du i-ièmeltre du ban de ltres.ˆ
y
i
(n)
signal audio àla sortie du i-ième ltre du ban de ltres.APFC tout-pleen as ade, all-pole lter as ade.
APG gammatonetout-ple, all-pole gammatonelter.
BIT ltrebinomial, Binomial-tone lter.
BIT
2
ltre binomiald'ordre2.BIT
3
ltre binomiald'ordre3.BIT
n
ltre binomiald'ordre n,Binonial-tone lter.BWT transformationde Burrows-Wheeler.
BIT ltrebinomial ompressif,Compressive Binonial-tonelter.
BIT
∗
2
ltre binomial ompressif d'ordre2
réalisant le ompromis entre erreur d'ap-prentissage etde généralisation.BIT
2
ltre binomial ompressifd'ordre 2.BIT
3
ltre binomial ompressifd'ordre 3.BIT
n
ltre binomial ompressif d'ordren.GC ltre gamma hirp ompressif, ompressive gamma hirp lter.
CI orrélation inversée.
CS a quisition omprimée, ompressive sampling.
DAPG gammatone tout-ple diéren ié, dieren iated all-pole gammatone.
DPCM odage par modulationdes diéren es, Dierentialpulse ode modulation.
DRNL Dual Resonan e Nonlinear Filterbank.
EQM l'erreur quadratiquemoyenne.
ERB largeur de bande re tangulaireéquivalente, equivalent re tangular bandwidth .
FI fréquen e instantanée.
GC ltre gamma hirp, gamma hirp lter.
MA moyennemobile, moving average.
MB membranebasilaire.
MDCT transformée en osinusdis rète modiée,modied dis rete osine transform.
MF meilleurefréquen e, best frequen y.
MP mat hing pursuit.
NA nerf auditif.
ODG diéren ede qualité obje tive,obje tive dieren e grade.
OZFC tout-pleen as ade ave un zéro, one-zero lter as ade.
OZG gammatoneà un zéro, one-zero gammatone lter.
PEAQ évaluation per eptuelle de la qualité audio, Per eptual evaluation of audio
quality.
PZFC ples-zéros en as ade, pole-zero lter as ade.
PZFC5 ples-zéros en as ade oùlesples etzéros se dépla ent par lemême taux.
RI réponse impulsionnelle.
RIF ltre àréponse impulsionnellenie.
RII ltres àréponse impulsionnelleinnie.
RII réponse impulsionnelleinnie.
RLE odage par plage (run length oding).
RSB rapportsignal sur bruit.
SDG diéren ede qualité subje tive, subje tive dieren e grade.
TFD transformée de Fourier dis rète.
TIMIT olle tionde signaux de parole olle téspar TexasInstruments et
Massa hu-setts Institute of Te hnology.
1.1 Mise en ontexte
L'introdu tiondu disque ompa t (CD,Compa t Dis )audébutdes annéesquatre-vingt,
apermis auxutilisateurs d'appré ierl'avantage de lareprésentation numérique du signal
sonoreétantdonnéque ette représentation estrobusteetpermet de onserverunebonne
qualité de re onstru tion. Ces avantages, ependant, ont été obtenus au détriment d'un
débittrèsélevé.Lesdisques ompa ts onventionnelsetlesrubansaudionumériques(DAT,
Digital Audio Tape) sont typiquement é hantillonnés à une fréquen e de 44.1 kHz ou
48kHzave unerésolutionde16bits.Ces ongurations,pourdessignauxmonophoniques,
donnent des débits très élevés d'en odage valant 705.6 kbps (kilo bits par se onde) par
anal pour une fréquen e d'é hantillonnage de 44.1 kHz et 768 kbps par anal pour une
fréquen e d'é hantillonnagede 48kHz [Painter etSpanias,2000℄.
Même très élevés, es débits d'en odage ont été bien adaptés aux appli ations
multimé-dias première-génération tels que le DAT ou le CD. Malheureusement, les appli ations
multimédias se onde-génération, et les systèmes sans l parti ulièrement, sont souvent
sujets à des restri tions relatives aux bandes passantes ou bien aux oûts de sto kage.
Ces ontraintes font en sorte que des algorithmes de ompression sont inévitables. Suite
au su ès onnu par les appli ations multimédia première-génération (CD et DAT ...),
les utilisateurs s'attendent à une qualité-CD pour tout média reproduis. Pour ette
raison,lesnouveaux systèmesd'en odageaudiodoiventréduirelesdébitsd'en odagesans
ompromettre laqualité de reprodu tion.
Ces onsidérationsontmotivéunere her heintensivedontlebutestdeformuleretréaliser
des s hémas d'en odage qui peuvent satisfaire des demandes oni tuellesd'un bas débit
et d'une reprodu tion transparente. La transparen e à l'é oute implique que les
utilisa-teursne pourraientdis erner lesignal originaldu signalen odé. De e fait, leste hniques
re her hées sont elles qui peuvent assurer une transparen e à l'é oute et non for ément
unemeilleure onservation du rapport signal aubruitpar exemple.L'oreillehumaine
pré-sentedes limitesque e soitparrapportàsarésolutionfréquentielle outemporelle[Andoh
et oll.,2005;Békésy,1953;Hartmannet oll.,2010;Koikeet oll.,2005;Kollmeieret oll.,
de masquage fréquentiel et temporel font en sorte que ertains sons ne sont pas perçus.
Cette inaptitude de l'oreille à dis erner des sons et plus parti ulièrement les bruits en
présen e d'autressons masquantsest la lédudéveloppementdes odeursave pertemais
psy hoa oustiquement transparents. Ave perte, par e que le signal en odé a un rapport
signal surbruit noninni,transparents par equ'entre lesignaloriginalet eluien odé, la
diéren e àl'é oute est souvent di ilementaudible.Le domainede lapsy hoa oustique
afait de grandspas envers la ara térisationde l'oreillehumaine.Danslebut d'étudier le
fon tionnement de l'oreille plusieurs expérien es ont été développées [Moore, 1987;
Zwi- ker et oll., 1982; Zwi ker et Terhardt, 1974℄. Même si les résultats de es études sont
disponibles,les synthétiser pour en faireun modèlegénérique de l'oreilleinterne se révèle
être unetâ he di ile.Eneet, diérentsphénomènesdoiventêtrepris en onsidération:
la haute non-linéarité de l'oreille interne, l'étalement de la réponse de la membrane
ba-silaire, les notions de battements... De e fait,les algorithmes d'en odage sont ontraints
de ompter sur des modèles simples, souvent simpli ateurs et impré is [Brandenburg,
1999; Morris,1995; Painter etSpanias,2000℄.Lesmodèlesa tuellementadoptéssont
sou-vent sujets à ertaines hypothèses simpli atri es telles que l'additivité des masquants,
la linéarité de l'oreille interne quant aux ex itations àfaibles niveaux et lanature des
si-gnauxmasquantslimitéeauxbruitsblan etauxtonalités.Bienquel'appli ationderègles
per eptuelles à l'en odage des signaux audio n'est pas une nouvelle idée, la plupart des
odeurs ré ents réalisent la ompression en exploitant le faitque l'informationinutile
est indéte table par l'oreille. L'informationinutile est généralement identiée durant une
étaped'analyse, et e, en in orporant dans le orps de l'en odeur plusieursprin ipes
psy- hoa oustiques tels que le seuil d'audition absolue, l'analyse par bandes ritiques et le
masquage simultané. La ombinaison de es prin ipes, ave eux de la quanti ation, a
mené aussi au développement de l'entropie per eptuelle [Painter et Spanias, 2000℄, une
estimation quantitativede la limitethéorique de la ompressiontransparentedes signaux
audio.
Plusieursfamillesde odeurs audioontnipar intégrerun modulepsy hoa oustique dont
la fon tion est de ontrler l'allo ationdu débit en fon tion de la pertinen e per eptuelle
de l'informationàtransmettre.Unes hémablo d'unetelleappro he estdonnéàlagure
1.1.
Dans es odeurs, lesignal audio est projeté dans deux espa es diérents. Lepremier est
souvent un espa e ompa te où le signal est transformé par example dans le domaine de
audio
et extra tion en odage entropique
dé odé
Modèle
per eptuel
Allo ation
de bits
Figure 1.1 S hémablo d'un odeur audio.
enunensembled'élémentsfa ilesà ompresser.Ledeuxièmeespa eestuneapproximation
du domaine per eptuel par example en utilisant la transformée de Fourier enveloppée,
wrappedFouriertransform (WFT)oùparltragesous-bandeétalésur uneé hellemimant
laséle tivitéfréquentielle del'oreillehumaine[Feldbauer etKubin,2003; MakuretMitra,
2001℄. Le blo de l'allo ations per eptuelle de bit implémente des règles per eptuelles et
di tele mode d'opérationdu blo de quanti ation.
Mêmesiunéventaildete hniquesestprésentetdétaillédanslalittérature,raressont elles
qui ont pu devenir des standards internationaux ou ommer iaux ar souvent d'autres
ontraintes s'additionnent à l'exigen e de la transparen e. Ces ontraintes sont d'autant
plus importantes et limitent en oreles odeurs quant aux hoix des te hniques d'analyse
oude traitement.Lesplus importantes sont lavitesse d'en odage etde dé odage,le délai
algorithmiqueet l'o upation de la mémoire.
La gure 1.2 présente une oupe transversale de l'oreille hez les humains. Le tout
om-Co hlée Nerf auditif Cellules iliées CCI CCE Oreille externe Oreille moyenne Oreille interne
auditif et vient frapper ontre le tympan. Ces vibrations sont transmises par lesosselets
au liquide setrouvant àl'intérieurde la o hlée. À l'intérieur de la o hlée, la membrane
basilaire réagit par des vibrations lo alisées. Ce mouvement est déte té par les ellules
iliées internes qui letransforment en u tuations de potentiel éle trique ontrlantainsi
lalibérationdesneurotransmetteurs auniveaude la onne tionsynaptique.De e faitdes
potentielsd'a tionssontgénérés auniveau de plusieursbresdunerf auditifquitransmet
ette informationautron érébral ensuiteau ortex auditif. Unes hématisationpossible
de e fon tionnement de l'oreille peut être représentée par la gure 1.3 où l'a tion du
système nerveux eérent est représentée par des lignes dis ontinues.
Système auditifpériphérique
Oreille externe etmoyenne Membrane basilaire Cellules iliées Synapse et Nerf Aud. Tron érébral Cortex auditif
Figure1.3 Modélisation s hématiquedu système auditifbiologique.
Le tableau 1.1dé rit lesmodèles omputationnels souvent utilisés pour modéliserles
dif-férents blo de lagure 1.3.
Oreille ext/moy Co hlée(MB) Cellules il. CCI-FNA
•
FiltreIIR•
GammaTone•
Non-linéarités•
Trois réservoirs•
FiltreFIR•
GammaChirp•
Filtrespass-bas•
Équ. di•
PZFC•
Intégrateur à fuite•
CAR-FAC•
Carney et al.•
DRNLTableau 1.1 Modèles omputationnels du système auditifpériphérique.
L'a tiondel'oreillemoyenneetexterneestsouventmodéliséeparunltrelinéaire.L'a tion
de la membrane basilaire est modélisée quant à elle par ban de ltres en parallèle pour
simuler la tonotopie de la o hlée. Parmi les ban s de ltres populaires on peut iter
par examples les ltres Gammatones [Patterson, 1986℄, les ltres Gamma hirps [Irino et
Patterson, 2006a℄ ou les ltres Dual Resonan e Nonlinear Filterbanks (DRNLs) [Meddis
et O'Mard,2005℄.
Les ellules iliées internes sont responsables de la trans ondu tan e mé hano-éle trique
Lalibérationde neurotransmetteursauniveau dela onne tion entre les ellules iliéeset
lesbres du nerf auditifest un pro essus sto hasti . Laprobabilité instantanéedé rivant
ette libération est fun tion de la on entration du Cal ium et le nombre des vési ules
disponibles. Meddis et O'Mard [2005℄ modélisent ette onne tion par des équations
dif-férentielles mais omme modéliser les impulsions individuelles est souvent
omputation-nellement très oûteux, Zilany et oll. [2009℄ proposent un modèle où ette onne tion
est modélisée omme une somme de lois de puissan e à deux onstantes de temps et un
pro essusgaussien fra tionnaire alimentantun pro essus de Poisson.
Dans le but d'obtenir un en odeur bio-inspiré per eptuellement transparent, un modèle
numérique dèle du système auditif périphérique humain s'impose. Parvenir à modéliser
numériquement une vraie oreille humaine ave des oûts omputationnels raisonnables
est une tâ he di ile. Même si ela est possible, exploiter e modèle pour ompresser
les signaux audio reste en ore une question sans réponses on luantes. On propose de
simplierles héma de lagure 1.3.
Filtre oreille externe etmoyenne Ban de ltres Loi de puissan e et redressement É hant. et masquage Motifs d'ex it. auditive
Figure 1.4 Modèle auditifproposé.
Dans le modèle de la gure 1.4, l'a tion de la membrane basilaire est modélisée par un
ban de ltres en peigne alors que les ellules iliées internes sont modélisées par une loi
de puissan e suivied'un redressementsimple alternan e.L'a tion des synapses etdu nerf
auditifest modélisée par un é hantillonnage adaptatif. Alors que ette ar hite ture n'est
pas nouvelle en tant que telle des problèmes reliés à la omplexité d'implémentation et
auxdélais des traitementsrestent en orenon résoluslimitantainsi l'exploitationde ette
appro he pour la dis iplinedu odage audio.
1.2 Questions de re her hes et ontributions originales
système auditif.Contrairementaux odeurs baséssur un modèle sour e,lesopérationsde
odage sefontdans ledomaineper eptuel: lesignalest transforméenmotifsd'ex itation
auditive épars.Une fois dans e domaineper eptuel, des modèles de masquage simultané
ettemporelsontutiliséspouréliminerlaredondan eper eptuelle.Ces motifsd'ex itation
réduits sont ensuite ompressés pour former un ux binaire. Le dé odeur onsomme e
ux binaireet re onstruit lesignal originalpar inversion des motifsd'ex itation auditive.
Cette appro he est diérente de elles souvent adoptées par les odeurs ités plus haut
oùun modèle psy hoa oustique est utiliséseulement pour di terl'allo ationdu débit. Un
s héma blo d'une telle appro he est donné par la gure1.5.
Modèle ré epteur Signal audio Transformations per eptuelles Quanti ationet en odage entropique Dé odage Signal dé odé
Figure1.5 Codage proposé dans ledomaine per eptuel.
Souvent les appro hes visant la ompression dans le domaine per eptuel se heurtent à
plusieurs dés [Feldbauer, 2005; Thiemann, 2011℄. Le premier dé on erne les
transfor-mations né essaires à la représentation d'un signal dans le domaine per eptuel : Quelles
transformations simples en implémentation peuvent être utilisées pour produire des
mo-tifs d'ex itation auditive? Le deuxième dé tou he à la synthèse du signal audio à partir
de ses représentations per eptuelles: Quellesappro hes simplesen implémentationsuivre
poursynthétiserlesignal audioà partirde es motifs?Le troisièmedé on erne la
om-pression entropique de es motifs où on se pose la question suivante : Jusqu'à quel taux
de ompression des motifs d'ex itation auditivespeut onespérer tout en maintenant une
bonne qualité de synthèse? Cette thèse fournit des réponses à es questions et montre
qu'il est possible de réaliser du odage par inversion des motifs d'ex itationauditive ave
une omplexité réduite à moyen débit sans dégradations per eptibles .Pour aboutir à e
résultat, ettethèseestorganiséeentroisgrandesparties ha unerépondantauxquestions
de re her he.
On ommen e dans la première partie par aborder la omplexité souvent itée dans la
littératurequandils'agitdemodéliserlesystèmeauditifhumain.Leban deltresauditifs
étant souvent la partie la plus omplexe à implémenter, le hapitre 2 introduit l'idée
du masquage fréquentiel hez les humains. On montre en utilisant les expérien es du
masquage des tonalités par du bruit blan à bandes étroites de [Baker et oll., 1998;
Glasberg et Moore, 2000℄ que les ltres binomiaux fournissent d'ex ellents modèles pour
prédire les résultats de telles expérien es. On ompare aussi es ltres aux familles de
ltres auditifs populaires détaillés dans la littérature : en ore une autre fois les ltres
binomiauxsedistinguentpar leurs omplexités d'implémentationréduitespourlesmêmes
performan es quand il s'agit de prédire le seuil de masquage des tonalités par un bruit
blan à bandes étroites.
Le hapitre4introduitlanotiondesynthèseparinversiondesmotifsd'ex itationauditives
etpropose une nouvelleappro he d'égalisationpermettantune re onstru tion parfaitedu
signal.Cetteappro he esttrèssimpleàimplémenteretpermetd'éviterla omplexité
inhé-renteauxappro hes d'analysepar synthèse appliquéesauproblème d'égalisationou elles
basées sur des re her hes exhaustives. Le hapitre 5 introduit des algorithmes e a es
de masquagedans ledomaineper eptuel.L'appli ation de es algorithmesrésulte en une
rédu tion du nombre d'impulsions et permet en utilisant un seul paramètre de ontrle
d'ajuster e nombre à la qualité de synthèse souhaitée. Pour ompenser la perte
d'éner-gie due à la mise des impulsionsmasquées à zéro, un algorithme adaptatif de orre tion
est proposé. Cet algorithme, opérant en bou le ouverte, permet de restaurer ette perte
d'énergie ave une oût omputationnel réduit.
Les motifs d'ex itation auditives étant épars, dans le hapitre 6 on introduit des
algo-rithmes de ompression ave et sans perte de es motifs. On opte pour une appro he où
lespositionsdesimpulsionsmasquantessont ompresséessanspertealorsqueleurs
ampli-tudessontquantiéesdefaçongrossière.Lesrésultatsobtenus onrmentqu'ilest possible
ave etteappro he d'obtenirdestauxde ompression ompétitifstout enmaintenantune
bonne qualité subje tive de synthèse. Finalement le hapitre 7 résume les travaux
origi-naux présentés dans ettethèse etexpose lesdés de la ompressiondes signaux éparsen
proposant des pistes permettant de ontourner es obsta les.
Cette thèse présente les algorithmes, les résultats de simulation et les on lusions
obte-nues permettant de on evoir etimplémenter un odeuraudio joignantla dis iplinede la
bande par inversiondes motifs d'ex itationauditiveet e àmoindre oût omputationnel
réponses impulsionnelles du nerf auditif à faible
omplexité
La réponse impulsionnelle (RI) de n'importe quel système linéaire peut être estimée en
utilisantla orrélation roisée.Ce ipeutêtreréaliséenutilisantla orrélation roiséeentre
laréponsedusystèmeetlaformed'ondedubruitàlargebandequiagénéré etteréponse.
Quandlesignald'ex itationest unbruitblan (stationnaireetergodique),laRIpeutêtre
estimée dire tement [De Boer et De Jongh, 1978℄. Cette te hnique est utilisée omme
une estimation indire te de la omposantelinéaire des réponses de la membranebasilaire
(MB) alors que la réponse à une ex itationsous forme de li est une estimation dire te
[deBoeretNuttall,1997℄.La orrélationinversée(CI)est uneextensionde laméthodede
orrélation roiséeetest utilisée ommeuneestimationindire tedela omposantelinéaire
de la RI du nerf auditif(NA) [de Boer et de Jongh, 1978℄. Plus de détails on ernant la
te hnique de laCIpeuvent être trouvés dans[DayanetAbbott, 2002;Theunissen et oll.,
2001℄.
Une fréquen e instantanée (FI) variable est présente dans les RIs de la MB ainsi que
elles des bres du nerf auditif [Carney et oll., 1999; de Boer et Nuttall, 1997; Tan et
Carney,2003℄.LesRIsdesbresontdesFIsdontlatraje toireestindépendanteduniveau
d'ex itation.C'estàdire quelestempsde passagepar zérodes RIssontindépendantsdes
niveaux d'ex itation. Cette traje toire est roissante pour des fréquen es supérieures à
1.5 kHz,relativement onstantepour des fréquen es omprises entre 750 Hzet1.5kHz et
auntauxdeglissementdé roissantpour lesfréquen esinférieuresà750Hz.Ceglissement
ae tenonseulementlastru turenedelaréponseduNA,maiségalementladéviationde
lameilleurefréquen e,bestfrequen y (MF)enfon tionduniveaudelapressiona oustique.
Les FIs des RIs du NA peuvent être estimées en utilisant la transformée de Hilbert par
example.Pourunsignalréel
s(t)
,lesignalanalytiques
a
(t)
estdonnépar[Boashash,1992℄:Où
ˆ
s(t)
est la transformée de Hilbert du signals(t)
.On peut alors dans e as estimer la FI ommeétant ladérivée de la phase du signal analytique :f i(t) =
dψ(t)
dt
(2.2)Latraje toiredesFIsestdonnée ommeétantlapentequidé ritl'évolutiondelafréquen e
instantanée
f i
au ours du temps.Diérents modèles ont essayé de simuler la RI 1
du NA tout en prenant en ompte de
l'enveloppe qui ressemble à une distribution gamma, de la traje toire des FIs et de la
ompression observée autour de la meilleurefréquen e.
Le modèleproposé par[Carney et oll., 1999;TanetCarney, 1999℄se ompose d'unltre
du 11 ème ordre simulant l'oreille moyenne mis en as ade ave un ltre ontrlé par
une fon tion non linéaire ombinée à un mé anisme de rétroa tion an d'introduire une
ompression non-linéaire. Ce dernier ltre a deux ples de huitième ordre et un ple de
quatrième ordre, leurs omplexes onjugués et un zéro purement réel du 11 ème ordre.
Cette ar hite ture a pour but de simuler la variation de la forme du ltre auditif en
fon tionduniveaudesimulationtoutenmaintenantdestraje toiresstablesdesfréquen es
instantanées.Zilany et al.dans [Zilany etBru e, 2006℄ réduisent de moitiéle nombre des
oe ientset étendent le modèle à des niveaux sonoresélevés.
IrinoetPatterson dans [IrinoetPatterson,1997℄ ontproposéun ltreauditifappeléltre
gamma hirp,gamma hirplter (GC).Leltregamma hirpanalytique,analyti al
gamma- hirp lter (AGC) aété présenté ommeune extension du ltre gammatone,gammatone
lter (GT)etaétélepremiermodèleàmodéliserexpli itementlatraje toiredesFIs.Dans
[Irino etPatterson, 2001℄,l'ar hite ture du GC a été revue an de prendre en ompte les
résultatspubliés par[Carney et oll., 1999℄.Leltre gamma hirp ompressif, ompressive
gamma hirp lter ( GC) est onstitué d'un ltre GT en as ade ave une fon tion
asy-métrique passe-bas as adée à un autre ltre passe-haut dont le gain dépend du niveau
d'ex itation.L'implémentationnumériqueduGC ompressifaétéréalisée ommeunltre
à réponse impulsionnelleinnie (RII) utilisant80 oe ientspar haîne auditive[Irinoet
Patterson, 2006a℄.
Lemodèleproposépar[Lyon,2011a℄aétéinspiréparlaméthodeWentzel-Kramers-Brillion
utiliséepourtrouverdes solutionsapproximativesdes équationsauxdérivées partiellesen
1. Les systèmes étudiés dans ette thèse sont non-linéaires. Cependant quand leniveau d'ex itation
est fon tion du niveau d'ex itation. An de préserver un taux de glissement indépendant
duniveaud'ex itation,lesplesetleszérossontlimitésàdesdépla ementproportionnels.
Ave ettedernière ontrainte, seuleslesFIsave lestauxdeglissement roissantspeuvent
être modélisés.
Laplupartdes modèles duNA ontadoptéladistributiongamma ommeétantun modèle
représentatif de l'enveloppe de la RI du NA. Le ltre GT (l'un des moins omplexes
en terme de des ription et implémentation) par exemple, est déni omme étant une
tonalité multipliée par une enveloppe ressemblant une distribution gamma. Même si la
des ription temporelle de ette dernière est ompa te, la representation fréquentielle du
ltre gammatone est omplexe e qui limite la possibilité d'une implementation digitale
e a e.
Dans e hapitre,lesltresbinomiauxsont introduits ommeétantdes alternativesmoins
omplexesauxltresGTsetGCs.Deplus,parpla ementjudi ieuxdeszerosdelafon tion
de transfert des ltres binomiaux, un glissement des FIs peut être introduit dans la RI
de es derniers. Le modèle proposé produit des réponses réalistesqui sont en a ord ave
lesdonnées physiologiques: laréponse temporelledu modèle ressemble àlaRI du NA, la
traje toirede laFIest indépendantedu niveaud'ex itation etlafon tion entrée-sortiedu
modèle est ompressive.
2.1 Les ltres binomiaux
2.1.1 Motivation
LaRIduNApeutêtredé omposée ommeétantuneenveloppemultipliéeparunetonalité.
La forme d'une loi gamma a été souvent utilisée omme un modèle de l'enveloppe de la
RI des bres auditives. Dans e as :
M
N A
(t) = t
n−1
× exp(−γt) × M
por
(t)
(2.3)Où
M
N A
représente le modèle de la réponse impulsionnelle du NA etM
por
représente le modèle de la tonalité. Dans le as du ltre GT d'ordren
, la porteuse est une simple sinusoïde:GTF
(t) = t
n−1
Mêmesilatransforméeen
s
d'un os illateuramortiest simple,letermet
n−1
setransforme
en une dérivée dansledomainede latransforméede Lapla e, e qui ompliquelafon tion
de transfertdu ltre gammatone.
Lafon tiondetransfertdultreGTd'ordre
n
(équation(2.4))aétédonnéepar[Katsiamis et oll., 2007℄:H
GTF(s) =
e
jφ
[s + s
0
]
n
+ e
−jφ
[s + s
0
]
n
[(s + b)
2
+ w
2
0
]
n
(2.5) Où le zéros
0
= w
0
/2Q + jw
0
p
1 − 1/4Q
2
,
w
0
la fréquen e entrale du ltre auditif etQ
sonfa teurdequalitéà−3dB
.À ausede ettedes riptiontrès omplexe,Lyonaprésenté dans [Lyon, 1996℄ un ltreappelégammatonetout-ple, all-pole gammatonelter (APG)où tous leszéros ont été retirés de l'équation (2.5).
Dans[Katsiamiset oll.,2007℄,lesauteursontprésentéunmodèle basésur leltre APG:
ils ont introduit un zéro dans la fon tion de transfert de e dernier e qui donna deux
familles de ltres : le gammatone tout-ple diéren ié, dieren iated all-pole gammatone
(DAPG) et gammatone à un zéro, one-zero gammatone lter (OZG). Enterme de
para-métrisation artésienne, latransformée de Lapla ede es deux ltres est donnée par :
H
DAPGF(s) =
Ks
[(s + b)
2
+ w
2
0
]
N
(2.6)H
OZGF(s) =
K(s + w
z
)
[(s + b)
2
+ w
2
0
]
N
(2.7)Où
N
estl'ordredultre,K
une onstanteetw
z
lezéroadditionnel.Lesauteursontaussi onsidéré deux versions en as ades de es ltres : le ltre tout-ple en as ade, all-polelter as ade (APFC) et le ltre ples-zéros en as ade, pole-zero lter as ade (PZFC)
dont lafon tion de transfert est donnée par.
H
PZFC(s) =
N
Y
k=0
[(s + z
k
)
2
+ w
0
2
]
[(s + p
k
)
2
+ w
0
2
]
(2.8)Où N est le nombre de haînes par largeur de bande re tangulaireéquivalente, equivalent
re tangular bandwidth (ERB)souvent xé à 2ou 3par ERB [Katsiamiset oll., 2007℄.
Dans le but d'éviter la dérivée introduite par leterme
t
n−1
, on présente dans les se tions
suivantes le ltre binomial omme étant une alternative moins omplexe que les ltres
gammatones. On démontre aussi, que par un pla ement approprié des zéros, les
X
égale au nombre de su ès ren ontrés au ours d'une répétition dem
épreuves de Bernoulli,p
étantlaprobabilitéde su èsd'une épreuve de Bernoulli.Avoirexa tementk
(0 ≤ k ≤ m
) su ès durant ette experien ea une probabilité donnée parP
k
m
:P
m
k
=
m
k
p
k
(1 − p)
m−k
(2.9)m
k
=
m!
k!(m − k)!
(2.10)Si
t
représente lavariabletemps(t ≥ 0
),il existe unλ
positiftel quep = exp(−λt)
. Dans e as,p
représentelaprobabilitéinstantanéed'unsu èsd'uneépreuvede Bernoulli.Sim
réalisationsindépendantesdu mêmepro essusseproduisentsimultanément,laprobabilitéd'avoir exa tement
k
su ées àn'importe quelinstantt ≥ 0
est donnée parP
k
m
(t)
:P
m
k
(t) =
m
k
exp(−kλt)[1 − exp(−λt)]
m−k
(2.11) Dans gure 2.1,P
k
m
(t)
est tra ée pour diérentes valeurs dek
etλ
. Ces valeurs dé-nissent la forme de ette distribution. Par exemple, la valeur maximale est atteinte pourt
max
= log(m/k)/λ
alors quek
ontrle la valeur de la penteau voisinage de0
.0
0.1
0.2
0.3
0.4
0.5
tP
k
m
(t)
(k=3,λ = 2
) (k=2,λ = 2
) (k=2,λ = 1
)Figure 2.1 Distribution binomiale pour diérentes valeurs de ses paramètres
On dénit le ltre binomial, Binomial-tone lter (BIT) par sa réponse impulsionnelle
donnée par :
BITF
k
m
(t) = A exp(−λkt)[1 − exp(−λt)]
m−k
cos(ω
0
t + φ)
(2.12)Où
ω
0
est lafréquen e de résonan e,φ
est la phase initialeetA
est une onstante.Dis ussions : Lesltres BITs (Binomial-tone lter) présentés dans ettethèse ne sont
pasà onfondreave lesltresgaussiens.Cesdernierssontdesltrespasse-basutiliséspour
le ltragedes images par exemple (gaussian blur lter)[Aubury et Luk,1996; Haddad et
Akansu,1991℄.Uneappro he e a e pour implémenter un ltregaussiensous formed'un
ltre à réponse impulsionnelle nie (RIF) onsiste à approximer la distribution normale
en utilisant les oe ients binomaux (voir l'équation (2.10)). En eet, on montre que la
onvolutiondu ltre
[1, z
−1
]
N fois :B
N
= [1, z
−1
] ∗ [1, z
−1
] ∗ · · · ∗ [1, z
−1
]
|
{z
}
N fois (2.13)forme une bonne approximation de la RI du ltre gaussien donnée par l'équation (2.14)
[Crowleyet oll., 2002℄.
g(m) =
1
σ
√
2π
e
m
2
/2σ
2
(2.14) Oùm = n − N/2
etσ =
√
N/2
. La gure 2.2 illustre les diéren es entre la RI du ltre gaussienet ellesdesltres binomiauxprésentés dans ettethèse.Mêmesi es deuxltresfontréféren eaumêmeterme(àsavoirbinomial)dansleurnomrespe tif,leursexpressions
et leurs appli ations sont fondamentalement diérentes. On résume dans e qui suit les
diéren esmajeuresentrelesltresgaussiensetlesltresBITsprésentés dans ettethèse:
Lesltresgaussiens sontdes ltresàréponseimpulsionnelleniealors quelesltres
BITs sont des ltres àréponse impulsionnelle innie.
Lesltresgaussienssontdesltrespasse-basalors quelesltresBITssontdesltres
passe-bande.
Les oe ients des ltresgaussiens sonttous positifsalors que eux des ltres
bino-miauxprésentésdans ettethèseontdes oe ientspositifsetnégatifs(voiréquation
(2.16)).
0
0.25
0.50
0.75
0
5
10
15
20
25
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
temps(é h)(a)Réponseimpulsionnelledultregaussien(ligne
dis ontinue) approximée par les oe ients
bino-miaux(symbole
•
).−1
−0.5
0
0.5
0
5
10
15
20
25
temps(é h)(b) Réponse impulsionnelledultrebinomial
pro-posé.
Figure 2.2 Comparaisonentre lesltres gaussiens et lesltres proposés.
2.1.3 Implementation digitale des ltres binomiaux
Latransformée en
z
(Z
)ainsique elledeLapla e(L
)dultreBIT peuventêtre al ulées fa ilement. Il sut de remarquer que le terme[1 − exp(−λt)]
m−k
se développe en une
sommepondérée en utilisantla formuledu binme de Newton. On peut alors é rire:
H
BITF
k
n
(z) = A × Z
[1 − exp(−λt)]
m−k
[exp(−λkt) cos(ω
0
t + φ)]
= A ×
n
X
l=0
n
l
× Z
(−β
lt
) × Z
−1
a(z)
b(z)
Latransformée en
Z
d'une sinusoïde amortieest donnée par [Healey, 1967℄ :Z (exp(−λkt) cos(ω
0
t + φ)) =
cos(φ)z
−1
− e
−kλ
cos(w
0
− φ)z
−2
1 − 2e
−kλ
cos(w
0
) + e
−2kλ
z
−2
=
a(z)
b(z)
;
β = ln(λ); n = m
− k
En utilisant la propriété du s aling 2
de la transformée en
z
[Tohyama et Koike, 1998℄,H
BITF
k
n
(z)
est donnée par :H
BITFk
n
(z) =
AZ(z)
BZ(z)
=
n
X
l=0
C
n
l
a
l
(z)
n
Y
j=0
j6=l
b
j
(z)
n
Y
l=0
b
l
(z)
(2.15) Où :C
n
l
=
n
l
(−1)
l
(2.16)a
l
(z) = a(β
−l
z); b
l
(z) = b(β
−l
z)
PuisqueP C
l
n
= 0
alors AZ(1)=0 et le nombre total des oe ients deH
BITFk
n
(z)
est donné par4n + 5
pour un ordren ≥ 1
donné.La même pro édure peut être utilisée pour trouver la transformée de Lapla e du ltre
BIT. Cettedernière est donnée par :
H
BITFk
n
(s) =
n
X
l=0
n
l
cos(φ)(s + s
0
+ lβ)
(s + p
0
+ lβ)
2
+ ω
0
2
(2.17) Avep
0
= λk
ets
0
= − tan(φ)ω
0
+ λk
.Sur la gure 2.3, le spe tre du ltre BIT est donné pour les mêmes valeurs que elles
utilisées pour la gure 2.1. Les deux paramètres
λ
etn
hangent la valeur du fa teur de qualité du ltre BIT : pour des valeurs élevées den
ouλ
le fa teur d'amortissement est plus élevéd'où un spe tre plus plat.La phase initiale
φ
introduit une ertaine asymétrie sur le spe tre mais e dernier reste relativementsymétriquepourêtreunmodèleappropriédesRIsdu NA.Lespe tredultreGT de quatrième ordre est donné aussi sur la même gure. Au voisinage de la fréquen e
de résonan e, le spe tre du ltre BIT ressemble à elui du GT mais la diéren e est plus
pronon ée au niveau des basses et hautes fréquen es. Dans la se tion 2.4, on donne plus
de détails on ernant larelation entre leltre BIT etle ltre GT.
2. Si
Z(f(t)) = F (z)
,alorsZ(λ
−50
−40
−30
−20
−10
0
10
20
π
0π/2
(n=1,2λ
) (n=2,2λ
) (n=2,λ
)0
π/4
GTFFigure 2.3 Spe tre du ltre binomial pour diérentes valeurs des paramètres
(
n = 2
,λ
est une valeur positive etφ = 0, π/4
). Le spe tre du GTF de 4ième ordre est tra é en pointillé.Leltre BIT partageave leltre GT lesmêmes limitations: spe tre symétrique,tra
je -toiredes FIs onstante etabsen e de ompressionau voisinage de la MF. Dansla se tion
suivante, on propose des modi ations dont le but est d'adapter le ltre BIT aux
ob-servations physiologiques. Les modi ations proposées n'introduisent pas de omplexité
additionnelleen terme d'implémentation.
2.2 Adaptation des ltres binomiaux aux observations
physiologiques
2.2.1 Réponses impulsionnelles du nerf auditif
Dans[Carneyet oll.,1999℄,laréponse impulsionnelledu nerfauditifd'unepopulationde
hatsaétémesuréeenutilisantlate hniquedela orrélation-inverséeet epourdiérentes
eux fournis pour les ltres GT et les ltres GC. On utilise aussi les mêmes réponses
impulsionnellesqui sont disponiblessur lesite web du earLab 3
.
La méthode utilisée pour olle ter es réponses est détaillée dans la se tion I de [Carney
et oll., 1999℄. Les réponses impulsionnelles de la ellule 25 de l'Unité 86100 de MF de
2 kHz seront utilisées pour le reste de e hapitrepuisque 'est l'unité ave le plus grand
nombre de RIs disponibles.
Enveloppe temporelle
Sur la gure 2.4, la RI de l'Unité 86100u25 est donnée pour le niveau d'ex itation de
80 dB SPL. Les enveloppes des mêmes RIs sont données sur la gure 2.5. L'enveloppe
1
2
3
4
5
6
n = 3
n = 2
n = 1
Unité 81000u25 msFigure2.4 Réponse impulsionnelledu ltre binomialpour diérentsordresdu
modèle.Laréponseimpulsionnelledel'Unité86100u25de[Carneyet oll.,1999℄
est aussi donnée (80 dB SPL).
est déterminée omme étant la valeur absolue de la transformée de Hilbert (
H
) de es réponses impulsionnelles. La diéren e entre la RI du modèle et elle du NA est pluspronon ée audébut de ette dernière. Un modèle dont l'ordreest plus élevé orrespond à
une erreur plus petite. Dans la se tion 2.2.2 on donnera plus de détails sur le lien entre
l'ordre du modèle etl'erreur de modélisation. Il paraità premiere vue quel'enveloppe du
ltre BIT fournit une bonne approximationde l'enveloppedu NA. Lapropriété du NA la
plus di ileà modéliser est le tauxde glissement des FIs qui se trouveêtre indépendant
du niveau d'ex itation. On dénit letaux de glissement des RIs ommeétant lapente de
0
0.5
1
2
3
4
5
6
msn = 1
n = 2
n = 3
Figure 2.5 Enveloppe estimée à partir de la réponse impulsionnelle de
l'Unité 81000u25 [Carneyet oll.,1999℄ (80 dB SPL).L'enveloppe des réponses
impulsionnellesdu BITFest donnée pour diérents ordres.
Fréquen es instantanées et asymétrie spe trale
Les FIs du NA présentent des taux de glissement dont la dire tion dépend seulement de
la MF de la bre auditive. Dans le as du ltre BIT, le hangement de la phase initiale
permet de hanger le taux de glissement de la fréquen e instantanée (gure 2.3). Mais
généralement,lespe tredultreBITtelquedé ritdansl'équation(2.15)estsymétriqueet
lamodi ationde laphaseinitiale
φ
nepermetpasd'introduireunefréquen einstantanée dont la traje toire est ontrollable.Onproposedans e quisuit desmodi ationsde l'équation(2.15)danslebutd'introduire
un taux de glissement ontrollable dans les fréquen es instantanées du ltre BIT. Ce i
peut êtreee tué fa ilementen ajoutantun nouveau paramètre
γ
qui ontrle laposition des zéros dans l'équation (2.15). En eet, il sut de rempla era
k
(z)
dans (2.15) avea
k
(z) = a(γ
−k
z)
. En dé alantAZ(z)
par une valeur deπ
, e dernier peut être un ltre passe-haut ou un passe-bas e qui permet d'introduire un glissement des FIs dont latraje toire est ontrollable.
Amplitude
Temps
(a) Réponses impulsionnelles du ltre binomial
pour
n = 2
−250
−200
−150
−100
−50
0
Gain(dB)π
0
(b) Spe tresdultrebinomialpour
n = 2
Figure2.6 Spe treset réponses impulsionnellesdu ltre binomialdont lesRIs
ontdes fréquen esinstantanéesdontletauxde glissementest dé roissant(ligne
en pointillé) et roissant (ligne ontinue). Sur la gure 2.6(b) les réponses du
ltre
AZ(z)
ainsi que elles du ltre ompositeAZ(z)/BZ(z)
(équation(2.15)) sont données pour haque as.sont diérentes. La RI représentée en pointillé sur la gure 2.6(a) possède un taux de
glissement roissant alors que elle en ligne ontinue un taux de glissement dé roissant.
Cette diéren eest aussi visiblesur leurs spe tres. Lesdeux spe tresdonnés sur la gure
2.6(b), ont lesmêmes ples (
BZ(z)
dans l'équation (2.15)) mais des zéros diérents. Compression et déviation fréquentielleParmi les manifestations du omportement non-linéaire de la o hlée, on trouve la
om-pression desniveaux sonores[Allen, 2001℄,lasuppression due àlaprésen e d'une se onde
tonalité [Ruggero et oll., 1997℄ et la distorsion des produits oto-émissions a oustiques
[Cooper et Rhode, 1997℄. L'un des phénomènes non linéaires des plus importants est la
ompressiondes niveauxsonores élevés. Lessignauxde faibleintensitésontampliésave
des gains élevés, alors que eux de hauts niveaux ne sont pratiquement pas ampliés.
Ainsi la o hlée présente une ompression roissante en fon tion de l'intensité du signal
d'entrée : la o hlée réalise un ontrle de gain automatique de telle sorte que son gain
devient atténué pour des signaux dont l'intensité roît. La gure 2.7 présente le spe tre
des RIs de la ellule 25 de l'Unité 86100 dont la MF est de 2 kHz. Le gain de ses RIs
auvoisinagede lafréquen e entraleest inversementproportionnelauniveaud'ex itation
0
5
10
15
1
1.5
2.0
2.5
3.0
kHz Gain(dB)Figure 2.7 Spe tres des réponses impulsionnelles des ellules de
l'Unité 86100u25. La dire tion pointée par la è he indique des niveaux
d'ex itation roissants. Quand le niveaux d'ex itation augmente, la valeur
maximale des spe tres des RIs diminuent d'où la ompression au voisinage de
la è he indique des niveaux d'ex itation roissants. Quand le niveaux d'ex itation
aug-mente, la valeur maximaledes spe tres des RIs diminue d'où la ompression auvoisinage
de lafréquen e entrale.
On proposedans e quisuit devaliderleltreBIT par rapportauxRIs dunerfauditifde
hat et e en e qui on erne :
L'allure temporelle de laréponse impulsionnelle.
Le tauxde glissementde laFI qui est indépendantdu niveau d'ex itation.
La déviationde laMF en fon tion du niveau d'ex itation.
La ompressionau voisinage de la fréquen e entrale.
2.2.2 Modélisation des réponses impulsionnelles du nerf auditif
On étudie dans ette se tion la validité du ltre BIT omme un modèle de la réponse
impulsionnelle du nerf auditif. La variation des paramètres du modèle est exprimée en
fon tiondu niveau d'ex itationutiliséepour re ueillirlesréponsesimpulsionnellespubliée
par [Carney et oll., 1999℄. La réponse du modèle est ensuite omparée à elle re ueillie
au niveau du nerf auditif. On propose don dans ette se tion de trouver les valeurs des
paramètres du BIT dont les RIs ressemblent lemieux à elles du NA.
Modèle et erreur de modélisation
LesparamètresdultreBITsontajustésdire tementdansledomainedelatransforméeen
z
etsontimplémentés ommedé ritparl'equation(2.15).Leltrebiquadratiquea(z)/b(z)
estparamétrédansledomainefréquentieloùG
,w
c
,w
l
etw
r
représententlegainmaximal, la fréquen e entrale, les basses fréquen es et hautes fréquen es à−3
dB respe tivement. La fréquen e d'é hantillonnageest de20
kHz.Pour un ordre du modèle
n
donné, les paramètres qui sont impliqués dans l'ajustement du ltre BIT sont le gain maximalG
,β
,γ
et les paramètres fréquentielsδ
c
= w
c
/MF
,δ
r
= w
r
/MF
andδ
l
= w
l
/MF
. La variation de es paramètres en fon tion du niveau d'ex itationP
N
est exprimée ommeétantun système linéairedonné par :
G
β
γ
δ
c
δ
l
δ
r
= f(P
x
) = M × P
x
+ b
0
(2.18)Algorithme d'apprentissage
LaRI dumodèleainsique elledu NAde lapopulationde hats sontnormalisées puisque
lesgainsdesRIsde hatsverslesbassesfréquen esn'ontpratiquementpas hangésquand
le niveau d'ex itation a hangé [Carney et oll., 1999℄ (voir gure 2.7). Le ltre BIT est
utiliséave 6paramètresdontlavariationest modéliséeparun systèmelinéairedé ritpar
l'équation (2.18). Le délai des RIs n'est pas investigué dans ette étude et est déterminé
ommeétantledélaipourlequella orrélationentrelaRIdultreBITet elledesRIsdes
ellules auditives de hats atteint son maximum. L'erreur quadratique moyenne (EQM)
est utilisée omme ritère de minimisation pour la pro édure d'apprentissage du modèle.
L'erreurd'apprentissage est dénie omme étant l'EQM de la diéren e entre la réponse
dumodèleet elle de laRI du NA.Cette diéren eest al uléesur ladurée pour laquelle
l'enveloppe des RIs est supérieure à une fois et demie (1.5) le bruit de mesure estimé à
partirdu premieretdes deux dernières msde la RI du NA.
Siun modèle
f
( onformémentà l'équation(2.18))est utilisépour générer des RIs notéesˆ
RI
f
(i)
, l'erreure(f)
est déniepar :e(f) =
N
X
i=1
RI(i) − ˆ
RI
f
(i)
2
N
X
i=1
RI(i)
2
(2.19)Où
N
représente le nombre des RIs par bre auditive.La valeur nale de l'EQM est ensuite normalisée par la puissan e moyenne de la RI du
NA etexprimée en dB.
L'algorithme de minimisation est un algorithme de re her he linéaire itératif basé sur
l'algorithme de la plus forte pente oùl'estimation du Ja obien (
∇
) est ee tuée numéri-quement. À haque itération, la valeur def
est mise à jour en utilisant l'algorithme 2.1.4. Ce hoixestmotivéparlefaitqueleniveaud'ex itation ommunauxréponses impulsionnellesest
Algorithme 2.1 : Algorithmed'ajustementdu BIT aux RIs du NA
Entrées :
P
N
:Niveaux d'ex itationsonore. Sorties :f
dénie dans (2.18).Données : MF :fréquen e entrale des RIs
tant que
|∇e(f)| ≥ ǫ
faireGénérer lesRIs du BIT en utilisant
f
. Estimer∆e(f)
, le gradientdee(f)
.Trouver
α
pour minimisere(f + α∆e(f))
. Mettre à jourf
= f − α∆e(f)
.n
On présentedans lase tion suivantelesrésultats obtenus suite àl'ajustement du modèle
auxRIsduNAetondémontrequeleltreBITestunmodèleà omplexitéréduite apable
de modéliserdèlement lesRIs du NA.
2.3 Résultats expérimentaux
2.3.1 L'ordre du modèle
Dans ettese tion,onexaminel'impa tdel'ordredumodèle
n
surl'erreurdemodélisation. Pour e faire, les RIs générées par le ltre BIT sont ajustées aux RIs du NA et e quepour des niveaux d'ex itation sonores de 80 dB SPL. L'ajustement du modèle est limité
dans e as aux niveaux d'ex itation
P
N
élevés et e pour deux raisons:1. Pour des niveaux d'ex itation élevés, lebruit de mesureest leplus faible.
2. AjusterlemodèleàuneRIparbreauditive,évitel'impa tdunombrede oe ients
du modèlesur l'erreurde modélisation(se tion2.3.2).
La gure 2.8représentel'erreur de modélisation al ulée selon l'équation(2.19) exprimée
en dB.
Quandlemodèleest unsimpleltre biquadratique(
n = 0
),l'erreurde modélisationest la plus élevée etvaut−6.3
dB. Quandl'ordredu modèle augmente, l'erreurde modélisation diminueensuiteaugmentelégèrementàpartirden ≥ 5
.Ce iestdûessentiellementaufait que pourn ≥ 5
, le terme(1 − β
t
)
n
ne peut roître aussi rapidement que l'a roissement
de l'enveloppeles RIs du NA.
Étantdonnéqu'un ordre de modélisationplus élevéimpliqueune implémentationdigitale
ave un nombre de oe ients plus élevé, un ompromis raisonnable sembleêtre possible
−15
−13
−11
−9
−7
0
1
2
3
4
5
6
7
b
b
b
b
b
b
b
b
n
Figure 2.8 Compromis entre ordre du ltre binomial(
n
) et erreur de modéli-sation des réponses impulsionnellesdu nerfauditif.2.3.2 Résultats de modélisation de la bre 25 de l'Unité 86100
Le nombre des oe ients du modèle linéaire
f
On s'intéresse dans ette se tion à l'impa t du nombre des oe ients du modèle
f
sur l'erreur de modélisation : le nombre maximal par paramètre est 2 (ordonnée à l'origineb
0
et oe ient dire teurM
) et le nombre total des oe ients def
est de 12 (6 para-mètreséquation(2.18)). Puisquele tauxde glissementdes FIs est indépendant du niveaud'ex itation
P
N
, le paramètreγ
ontrlant letaux de glissement des RIs du modèlef
est modélisépar une onstante.Dans le tableau 2.1, le nombre total des oe ients est donné dans la première olonne.
La distribution de es oe ients parmi les diérents paramètres est aussi donnée. Par
exemple,sur ladeuxièmeligne,
10
oe ientssontutilisés:touslesparamètresdu modèle dépendent du niveau d'ex itation saufles deux paramètresγ
etβ
.L'impa t de l'ordrede modélisationn
sur l'erreur de modélisatione
est aussi investigué.Letableau2.1montrequeleltreBITpeutmodéliserdèlementlesRIsdesbresauditives
étantdonnéquelerapportsignalsurbruit(RSB)de esdernièresestd'environ20dB.Pour
Tableau 2.1 Compromis entre l'ordre du modèle
n
, le nombre de oe ients du modèle et l'erreur de modélisation des réponses impulsionnelles de la bre25de l'Unité 86100 pour 9 niveaux d'ex itation.
n=2 n=3 Nombre de oe.
G
β
w
c
δ
l
δ
r
e
mpe
mp 11 2 2 2 2 2 -13.8 0.76 -13.4 0.70 10∗
2 1 2 2 2 -13.2 0.81 -13.3 0.56 9 2 1 2 1 2 -12.9 0.73 -13.1 1.00 8 2 2 1 1 1 -11.7 0.81 -11.8 1.00 8 2 1 2 1 1 -12.2 0.82 -12.7 0.99 8 2 1 1 1 2 -12.9 0.78 -12.3 0.38 7 2 1 1 1 1 -11.5 0.81 -11.7 0.87 6 1 1 1 1 1 -10.9 1.00 -11.1 1.00du début des RIs. Quand l'ordre du modèle est xé, ette même erreur peut être réalisée
ave un nombre de oe ients plus petit : Il sut d'ae ter deux oe ients pour
δ
r
etw
c
. En eet, le paramètreδ
r
ontrle la pente des endante de l'enveloppe de la RI du ltre BIT e qui est onsistent ave le fait que la durée des RIs dé roît quand le niveaud'ex itation augmente. Le paramètre
w
c
doit aussi dépendre du niveau d'ex itationP
N
puisquelepi duspe tredesRIsduNAsedé aleverslesbassesfréquen esquandleniveaud'ex itation augmente (Figure 2.7). Quand les paramètres du modèle sont indépendants
du niveau d'ex itation l'erreur de modélisationest laplus grande etvaut
−10.9
dB.Clairement, lesparamètres du ltre BIT doivent être dépendants du niveau d'ex itation.
Selon le tableau 2.1, les paramètres qui inuen ent le plus l'erreur de modélisation sont