N
◦
:
⊔⊔⊔⊔⊔⊔⊔⊔⊔⊔
THÈSE
pour obtenirle grade de
DOCTEUR de l'INP Grenoble
Spéialité : Signal, Image, Parole, Téléoms
préparée aux laboratoires
Institut de la Communiation Parlée, UMR CNRS 5009
Laboratoire des Images et des Signaux, UMR CNRS 5083
dans leadre de l'Eole Dotorale
Életronique, Életrotehnique, Automatique et Traitement du Signal
présentée et soutenue publiquement par
Bertrand Rivet
le29 septembre 2006
La bimodalité de la parole
au seours de la séparation de soures
Direteur de thèse :Christian Jutten (LIS)
Co-direteur de thèse :LaurentGirin(ICP)
JURY
M. Éri Moulines, Président
M. Yannik Deville, Rapporteur
Ms. Frédéri Bimbot/RémiGribonval, Rapporteurs
M. Christian Jutten, Direteur de thèse
M. LaurentGirin, Co-direteurde thèse
M. Dinh-Tuan Pham, Éxaminateur
Gaston Bahelard,La Formationde l'esprit sientique, 1938.
Avanttoutehose,jetiensàremerierJean-LuShwartzetJean-MarChassery
direteurs respetifsde l'Institut de laCommuniation Parlée (ICP) et du Labora-
toiredes Images etdesSignaux(LIS) pourm'avoiraueillidans leurslaboratoires.
JeveuxpartiulièrementremeriermesdeuxpapasdethèseChristianetLaurent:
sans vous ette thèse n'auraitjamais vu le jour.Vous avez su m'enadrer sans être
diretifset meommuniquer l'énergienéessaire pour menerà bien mes reherhes.
Même lorsque le temps m'aura pressé, vous avez toujours su trouver un moment
pour relire de mon manusrit. Si l'envie de ontinuer de vous remerier ne manque
pas, les mots justes sont plus diiles à trouveret nalement les plus simples sont
sûrementlesplus vrais:enoreun grandmeri.Jepenseraiàvousave monChivas
de 18 ans d'âge etmon stylo!
I would like to thank Jonathon Chambers, the leader of the Centre of Digital
Signal Proessing at Cardi University for your are during my stay. I also would
liketo thank Yuliaand Andrew.I was reallyglad by the ollaboration.Thank you
very muhfor your are.
Je souhaite assoier à es remeriements Patrie Petitlair pour avoir été mon
tuteur pédagogique, pour m'avoir fait onane en TP et me laisser enadrer des
TDs, hose susamment rare pour que je prenne le temps de te remerier. Ces
quelques heures d'enseignement aurontété une bouée d'air frais.
Je voudrais également remerier tous les membres de mon jury pour avoir pris
le temps de lire et de ritiquer e manusrit : Eri Moulines pour avoir aepté de
présider e jury, Yannik Deville, Frédéri Bimbot et Rémi Gribonval pour avoir
apporté votre aution et vos remarques en rapportant mon travail et nalement
Dinh-Tuan Pham pour ses préieuses suggestions.
Ungrandmeriàtous euxquej'aiputoyeretappréierpendantmathèse.A
Claire, Julie, Antoine et Mohammad, mes ompagnons de ordée à l'ICP. J'espère
vous retrouver bientt. Meri Anthony, mon olloqui n'a jamais gueulé alors que
tuas eu plus d'une oasionde le faire.Meri Jérémy pour avoir parfois délaisséta
doue pour faire des parties de billard.Claire, le pardonneras-tu? Meri Annemie,
tes mails, ta bonne humeur et ta présene sans faille ont été d'une fraîheur très
appréiable.MeriClaire pour touteses disussionspendantlesformationsobliga-
toires etpour tout e que tuasfait pour moi. Meri Julie,ta gentillesse, ton rire et
tesgâteauxonttoujourségayéplus quelapauseafé.MeriAntoinepoures délires
de n de rédation. Meri Guillaume, on aura bien rigolé pendant les pauses afé.
Meri Virginie, ta fraîheur et ton attention m'auront bien aidé. Meri pour tout
Nino,oupluttMonsieurMedves (j'aifaillirâté masortie!).MeriPopopour tes
remarques aussi spontanées qu'imprévisibles. Meri David pour tout à la fois nos
remarques sur les enseignements etes soirées en onférene. Enn un grand meri
à tous lesmembres de l'ICPet du LIS.
Je tiens aussi à remerier Alex, Mourroun, Soni, Cédri et Gizmo pour es
esapades parisiennes.
Meri àtoute labande. DjeyetClara pour m'avoirprésenté. Sab, Amande, Cé-
ile,Serge,Djouls,Florent,Tons,Robpouressortiesskisouessoiréesralettes et
tartiettes.Meri Clohettepourtes histoireshors duommun.Meriserruria, toi
la danseuse slave,pour nos disussions. Maisil mefautmaintenant tedire lavérité
sur ton arbregénéalogiquesientique :nonFantn'estpas ton grand-pèreetChiba
n'est pas ton arrière grand-père. Voila'est fait, 'est sûrement dur etviolent mais
'était néessaire. De toute façon j'hte déteste. Meri ma maman préférée, ton
petit snorky a maintenant ni. Meri GrG mon grand frèrepour tout e que l'on
nous aattribué àtord ouàraison. Meri auxmembres du omitéde séletionde la
Cherh'Aquin'aurapassurvéu plusd'unesaison.Enn,un grandmeriauxolo-
atairesdubureau523pourlesbonbons,vousm'avezsauvéd'atroeshypoglyémies.
Pour avoirun exemplaireunique deette thèse,réezvospropresremeriements
en omplétant laliste i-dessous.
Je voudrais remerier pour sa ontribution hors norme sans toi
ette thèse n'auraitpas été intéressante.
Meri àtoi , mon père spirituel /ma mère spirituelle 1
.
Je te remerie pour ta bonne humeur,tes blagues plus drles les
unes que lesautres, tu m'aurasfait rire même dans lesmoments diiles.
Meri pour ton immense ulture et tes disussions d'un niveau
intelletuelqui m'étaient jusqu'àprésent inonnues.
1
Notations mathématiques v
Abréviations vii
Introdution 1
I État de l'art 5
1 Parole audiovisuelle 7
1.1 La parole : un mélangeaudiovisuel . . . 7
1.2 Information vidéoutile . . . 8
1.3 Redondane et omplémentarité de la paroleaudiovisuelle . . . 9
1.3.1 Redondane . . . 10
1.3.2 Complémentarité . . . 10
1.4 Bi-modalitéde laparole en traitement du signal . . . 12
1.4.1 Reonnaissane automatique de la parole . . . 12
1.4.2 Débruitageet séparation de soures audiovisuelles . . . 13
1.4.3 Compressionaudiovisuelle . . . 13
1.5 Conlusion . . . 14
2 Séparation aveugle de soures 15 2.1 Présentation générale de la séparation de soures . . . 16
2.1.1 Formulationmathématique. . . 16
2.1.2 Séparabilitéet indéterminations . . . 17
2.2 Mélanges linéaires instantanés . . . 19
2.2.1 Séparabilitéet indéterminations . . . 20
2.2.2 Prinipe de séparation . . . 20
2.2.3 Séparationpar mesuredirete de l'indépendane . . . 25
2.2.4 Séparationpar statistiqued'ordre supérieur . . . 29
2.2.5 Séparationsemi-aveugle . . . 33
2.3 Mélanges onvolutifs . . . 36
2.3.1 Séparabilitéet indéterminations . . . 38
2.3.2 Séparationtemporelle . . . 39
2.3.3 Séparationfréquentielle . . . 40
2.4 Séparation de souresde paroleaudiovisuelle . . . 43
2.5 Conlusion . . . 45
II Modélisation de la multimodalité de la parole 47
3 Modèle audiovisuel de la parole 49
3.1 Paramètres audiovisuels . . . 50
3.1.1 Paramètres visuels . . . 50
3.1.2 Paramètres audio . . . 51
3.2 D'un modèle audiovisuelgénéral... . . 53
3.3 ...vers un modèle audiovisuel spéique . . . 55
3.3.1 Modélisationstatistiqued'un seul son de parole . . . 55
3.3.2 Modélisationstatistiquede laparole ontinue . . . 61
3.3.3 Modélisationaudiovisuelle de la parole ontinue . . . 61
3.3.4 Apprentissage des paramètres du modèle audiovisuel . . . 62
3.4 Corpus . . . 63
3.5 Expérimentations . . . 64
3.5.1 Modélisationaudio . . . 64
3.5.2 Modélisationaudiovisuelle . . . 68
3.6 En résumé . . . 71
4 La parole : un signal parimonieux 73 4.1 Prinipe de la détetion audio d'ativitévoale . . . 73
4.2 Déteteur audiovisuel d'ativitévoale . . . 74
4.2.1 Prinipede ladétetion audiovisuelle d'ativitévoale . . . . 74
4.2.2 Fateur d'amplitude . . . 76
4.2.3 Mise àjour des paramètres du silene . . . 79
4.2.4 Intégration temporelle . . . 81
4.3 Déteteur visuelde silene . . . 82
4.3.1 Prinipede ladétetion visuelle d'ativité voale . . . 83
4.3.2 Déteteur visueld'ativité voale sur images naturelles . . . . 86
4.4 Corpus . . . 90
4.4.1 Corpus Grenoble . . . 90
4.4.2 Corpus Cardi . . . 91
4.5 Expérimentations . . . 93
4.5.1 Déteteur audiovisueld'ativitévoale . . . 93
4.5.2 Déteteur visuelde silene . . . 99
4.6 En résumé . . . 103
III Extration de soure de parole audiovisuelle 105 5 Extration par la résolution des indéterminations 109 5.1 Position du problème . . . 109
5.1.1 Indéterminations . . . 109
5.1.2 Notations . . . 110
5.2 De la ohérene audiovisuelle... . . 112
5.2.1 Indéterminationde permutation . . . 112
5.2.2 Estimationdes fateursd'amplitude. . . 116
5.2.3 Algorithmenal . . . 119
5.3 ...à laparimonie de la parole. . . 120
5.4 Résultats expérimentaux . . . 122
5.4.1 Extrationpar la ohérene audiovisuelle . . . 122
5.4.2 Extrationpar la parimonie. . . 128
5.5 Conlusion . . . 133
6 Extration direte par la parimonie 137 6.1 Cas des mélanges instantanés omplexes . . . 137
6.2 Cas des mélanges onvolutifsomplexes . . . 142
6.3 Résultats expérimentaux . . . 145
6.3.1 Cas des mélanges instantanés . . . 145
6.3.2 Cas des mélanges onvolutifs. . . 147
6.4 Conlusion . . . 151
Conlusion générale et perspetives 153 Annexes 155 A Distribution de LogRayleigh 157 A.1 Distribution de LogRayleighirulaire . . . 157
A.2 Conséquenes de lanon-irularité. . . 160
A.2.1 Distributionde LogRayleighnon-irulaire . . . 160
A.2.2 Caluldu paramètre de loalisationoptimal . . . 164
A.3 Conditionnement numériquedes paramètres . . . 166
B Algorithme EM 169 B.1 Prinipede l'algorithmeEM . . . 169
B.1.1 AlgorithmeEM standard . . . 170
B.1.2 AlgorithmeEM pénalisé . . . 172
B.2 Algorithme EM pour le modèle audiovisuel . . . 173
B.2.1 Miseà jourdes poids . . . 174
B.2.2 Miseà jourdes paramètres vidéo . . . 175
B.2.3 Miseà jourdes paramètres audio . . . 176
Liste des gures 179
Liste des tableaux 181
Bibliographie 183
Fontions et opérateurs
H ( · )
Proessus de mélangeG ( · )
Proessus de séparationdet( · )
Déterminant d'une matrieln( · )
Logarithme népérien (ou naturel)log( · )
Logarithme déimalTF( · )
Opérateur transformée de Fourier( · ) ′ Dérivation
(.) c
Estimée
| · |
Module pour lessalaires| · |
Module omposantepar omposantepour lesveteurs| · |
Cardinalpour un ensemble( · ) ∗ Conjugaison
( · ) T Transposition
( · ) + Transposition onjugaison
( · ) † Pseudo-inverse d'une matrieretangulaire
( · ) ∗ ( · )
Produit de onvolution( · ) ◦ ( · )
Composition( · ) ⊕ ( · )
Somme diretede deux espaes( · ) ⊕ ⊥ ( · )
Somme direteorthogonale de deux espaesVariable aléatoire
Pr[ · ]
Probabilitéd'un événementp[ · ]
Densité de probabilitéd'une variable aléatoireP[ · ]
Fontionde répartition d'unevariablealéatoireΨ[ · ]
Fontionsore d'une variable aléatoireE[ · ]
Espérane mathématiqueVar[ · ]
VarianemathématiqueH[ · ]
Entropie de ShannonI[ · ]
InformationmutuelleKL[ ·k· ]
Divergene de Kullbak-LeiblerΦ[ · ]
Fontionde ontrasteΦ ◦ [ · ]
Fontionde ontraste orthogonalN (µ, Γ)
Loinormale de veteurmoyenneµ
etde matriede ovarianeΓ
Ensembles et espaes
R
Ensembledes réelsC
Ensembledes omplexes{·} i Ensembleformédes élémentsdépendants de i
pour tous lesi U(n)
Groupedes matriesunitairesde taille(n × n)
D(n)
Ensembledes matries diagonales de taillen × n
Grandeurs salaires
N f Nombre de fréquenes de alul des transformées de Fourier
N s Nombre de soures
N o Nombre d'observations
Signaux et grandeurs vetorielles
y(t)
Veteur olonnede signaux temporely i (t) i
ème omposantedu veteury(t)
Grandeurs matriielles
A
MatrieA i,j (i, j)
ème élément de lamatrieA I n Matrie identité de taille(n × n)
Π
Matrie de permutationdont latailleest à préiserΛ( · )
Matrie diagonalede distorsionNous donnons entre parenthèses l'abréviation anglaisesi elleest diérente.
ACI Analyse en omposantes indépendantes (ICA)
ACP Analyse en omposantes prinipales (PCA)
COR aratéristiquesopérationnelles de réeption
dB Déibel
EASI Algorithmeéquivariant adaptatif(Equivariant Adaptative Separa-
tion via Independene)
ECG Eletroardiogramme
iid indépendantet identiquementdistribué
LP Prédition linéaire(Linear Predition)
MMG Modèle multi-gaussien (GMM)
MMLR Modèle multi-LogRayleigh(LRMM)
RAP Reonnaissane automatique de laparole (ASR)
RI Réponse impulsionelle(IR)
RSB Rapportsignal sur bruit (SNR)
RSI Rapportsignal sur interférene (SIR)
SAS Séparation aveugle de soure (BSS)
SOBI Identiation aveugle au seond ordre (Seond Order Blind
Identiation)
TCD Transforméeen osinusdisrète(DCT)
TF Transforméede Fourier (FT)
TFCT Transforméede Fourier àourt terme (STFT)
TFD Transforméede Fourier disrète(DFT)
Nevousêtes-vousjamaisdemandépourquoinousavonstantdemalàentendree
queditleonduteurd'unevoiturelorsquenous sommesàl'arrière,surtoutsinotre
environnement devient très bruyant? Nous savons que notre erveau est apable
d'identier etde trier lessons qu'ilperçoit: ilsépare les diérentes soures sonores
etessaied'extraire ellequi nousintéresse. Cependant,lorsque lebruitenvironnant
devient trop fort, ette faulté n'est plus susante. Alors omment expliquer que
danslesmêmesonditionssonoresnousomprenonstrèsbienequeditnotrevoisin?
La réponse nous vient du monde des sienes ognitives. Nous sommes dotés d'une
faulté surprenante, dont pour la plupart d'entre nous ne sommes pas onsients.
Lorsquenousparlonsàquelqu'unetquenousleregardons,notreerveaufusionnee
qu'ilentend ave e qu'il voit,en partiulier lemouvementdes artiulateursvisibles
de la parole,pour nous aider àmieux omprendre : laparole est multimodale.
Formalisée dans le milieu des années 80, par Ch. Jutten, J. Hérault et B. Ans,
alors qu'ils travaillaient sur la apaité du erveau à déoder les informations de
vitesse et de position lors d'un mouvement, la séparation de soures est devenue
un domaineattratif du traitement du signal. Elle onsisteà retrouver des soures
inonnues à partir d'observations qui sont des mélanges de elles-i en exploitant
le moins d'information a priori possible. La séparation de soures, qui peut aussi
être vue omme une généralisation du problème de l'extration d'un signal utile
dansuneobservation bruitée,adenombreuses appliationstantdansledomainedu
traitementdesimages,dessignauxbiomédiaux,destéléommuniationsoudutrai-
tement de laparole. En partiulier, le problème qui onsiste à extraire un louteur
parmiunmélangedonnés'appellelaoktailparty.Lorsquelaséparationde soures
est abordée en faisantl'unique hypothèsed'indépendane mutuelledes soures, elle
s'appuie sur l'analyse en omposanteindépendante(ACI)dont lesbases théoriques
furentposéesaudébutdes années90etquireherhedanslesobservationsàséparer
les omposantes indépendantes entre elles. Mais e n'est pas la seule façon de ré-
soudreleproblème de séparation de soures: ilest possible d'estimer lessouresen
faisantparexemplel'hypothèsedeleurparimoniedansuneertainereprésentation,
equisupposealorsquehaqueomposantedesobservationsestprinipalementdue
àune seule soure ative.Le problème de séparation de souress'apparente alors à
aeter haque omposanteà labonne soure.
Dansette thèse,onpropose uneapprohe originaledu problème del'extration
d'un louteur dans un mélangede plusieurssoures. Cette approhe onsisteà uti-
liserl'informationvisuellerelativeàe louteur. Cetteétudefaitsuite àun premier
travail réalisé par D. Sodoyer dans le adre de mélanges additifs instantanés. Dans
ettethèse,onétudieleasplusdiileetplusréalistedesmélangesonvolutifsdé-
terminés. Commeonle verra dans ette étude, e adre néessite le développement
de nouvelles tehniques etdes algorithmes assoiés pour faire faeà la plus grande
omplexité du adre envisagé.
Notre ambition dans e travail n'est ertes pas de vouloir imiter le fontionne-
ment de notre erveau, mais de nous inspirerde ses faultés hors du ommun pour
proposerdansettethèsedenouveauxalgorithmesdeséparationdesouresapables
d'exploiter la ohérene entre e que nous entendons et e que nous voyons. Ainsi,
notre travail de thèse porte à la fois sur la modélisation de la multimodalité de la
parole etsur son utilisationomme une aide àla séparation de soures de parole.
Organisation du manusrit
Ce manusrit est omposé de trois parties. La première partie est pour nous
l'oasionde faireun brefétatde l'art des deux domainesabordésdans ettethèse.
La seonde partie est onsarée à lamodélisation de la bi-modalité de la paroleen
vue de son appliation pour l'extration de soure de parole audiovisuelle qui est
abordée dans la troisièmepartie.
Plus préisément,lapremière partieest omposée de deuxhapitres. Lepremier
hapitreest onsaré à la multimodalitéde la parole. Nousrappelons que laparole
n'estpasqu'auditive:elleestaussivisuelleenesensqu'ilexisteuneforteohérene
entre le son prononé et les mouvements des artiulateurs visibles, en partiulier
elui des lèvres. Nous nissons e hapitre par un bref aperçu de l'utilisation de la
bi-modalité de la parole dans les tehniques de traitement du signal appliqué à la
parole (par exemple débruitage,ompression).
Le deuxième hapitre est onsaré à l'introdution à la séparation de soures.
Nous abordonsdans un premiertemps laséparation de soures dans leas des mé-
langes linéaires instantanés en présentant quelques-uns des prinipaux algorithmes
fondés soit sur une mesure direte de l'indépendane, soit sur une approximation
de l'indépendane par lesstatistiquesd'ordresupérieur.Ensuite,nous présentonsla
séparation de soures dans des mélanges onvolutifs soit dans le domainetemporel
soit dans ledomainefréquentiel.
Ladeuxième partie de e manusrit porte sur la modélisationde lamultimoda-
litéde laparole.Danslehapitre3,nousproposonsun modèlestatistiqueaudioqui
dérit eaement un son unique de la parole et que nous appelons modèle à loi
LogRayleigh. Ce noyau sert de base pour onstruire un modèle audio multi-noyaux
apable de modéliser la parole ontinue. Finalement,nous étendons e modèle pu-
rement audio à un modèle audiovisuel liant eaement des paramètres spetraux
auditifs àlaformedes lèvres du louteurpour dela paroleontinue. Unesérie d'ex-
périmentations montre que notre modélisation multi-LogRayleighest plus eae
qu'un modèle général à base de noyaux gaussiens pour aratériser les oeients
audio.
Dans le hapitre 4, nous utilisons le modèle audiovisuel du hapitre préédent
omme base d'un nouveau déteteur d'ativité voale audiovisuel statistique. En-
suite, nous introduisons la notion de détetion de silene (i.e. non ativité voale)
visuelle reposantsur l'hypothèse du mouvement des lèvres pendant laparole :pen-
dantquenousparlons,noslèvresbougenttandisquelorsquenoussommessilenieux,
La dernière partie de e manusrit est onsarée à l'utilisation de la modélisa-
tion de la bi-modalité de la parole pour extraire une soure partiulière de parole
de mélanges de type onvolutifs. Dans le hapitre 5, nous exploitons tout d'abord
le modèle audiovisuel du hapitre 3 pour résoudre le problème des permutations,
renontrées à haque fréquene, inhérent à tout système de séparation fréquentielle
fondée sur l'indépendane. Ensuite,la détetion des momentsde silenepar lamo-
dalité visuelle seule permet de résoudre e même problème des permutations grâe
àun algorithme plus simple.
Dans le dernier hapitre de notre étude, nous proposons une nouvelle méthode
d'ordre deux pour l'extration d'une soure de parole fondée sur la détetion des
momentsdesileneparlamodalitévisuelle.Pendantlesmomentsdesilenedétetés,
il est possible de déterminer dans les mélanges la diretion de la soure absente
permettantainsi d'extraireette soure en dehors de es momentsde silene.
Pourterminer,troisannexesomplètentemanusrit:lapremièrefournitquelques
élémentsonernantlesstatistiquesd'ordresupérieur.Laseondedétaillelesaluls
del'étudedelaloiLogRayleighquenousproposonsauhapitre3.Danslatroisième,
nousdérivonsl'algorithmeEMde façonàobtenirleséquationsd'apprentissagedes
diérents modèles statistiquesutilisés.
État de l'art
Parole audiovisuelle
Armer quela parolene serait pas qu'auditivemais aussi visuelle peut sembler
urieux. Pour illustrere phénomène, onsidérons une situationque le leteuraura
ertainement déjà véu. Vous êtes dans un environnement bruyant (une gare par
exemple)et vous disutez ave un ami. Il est très probable qu'instintivementvous
regardiez attentivement votre interlouteur pour mieux omprendre e qu'il vous
raonte. Sans vous en rendre ompte, vous êtes en train de lire sur ses lèvres pour
vous aider à entendre e qu'ilvous dit. Pour résumer ette situation, nous pouvons
reprendre laformulede Bernstein etBenoît [23℄ :
Pour perevoir laparole, plusieurssens valentmieux qu'un.
Dans e hapitre, nous allons brièvement introduire la notion de bimodalité de
la parole. Nous verrons ensuite quel type d'information visuelle est utile avant de
montrerque laparole audiovisuelle est àla foisredondante etomplémentaire.En-
n, nous présenterons suintement quelques-unes des appliations possibles de la
bimodalitéde laparole en traitementdu signal.
1.1 La parole : un mélange audiovisuel
Pour omprendre que la parole n'est pas qu'auditive, mais que l'information
visuelle joue également un grand rle, nous allons nous intéresser aux personnes
malentendantes ousourdes,hezquil'aptitude àentendreest réduiteounulle.Tout
le monde sait qu'elles peuvent, en partie, lire sur les lèvres pour les aider à om-
prendre une disussion. On pourrait penser qu'elles ont développé ette aptitude
pour ompenser leur défaut d'audition, mais e ne sont pourtant pas les seules
personnes apables de leture labiale : la grande majorité des personnes voyantes
a développé ette faulté de façon instintive omme l'ont montré les travaux de
Sumby et Pollak [125℄ ou Erber [52℄. Ces études, suivies par d'autres omme par
exemple [20, 113℄, ontmontré le gain apporté par lavision du louteurà l'audition
de elui-ipourl'intelligibilitévis-à-visdel'auditionseule.Parexemple,lestravaux
d'Erber [52℄etde Benoît[20℄montrent queletauxde reonnaissane orrete de la
parole audiovisuelle est supérieure à elui de la parole audio seule (f. gure 1.1).
Cette supériorité est d'autant plus grande que le signal aoustique est bruité (i.e.
pourdes rapports signauxsurbruit(RSB)petits).QuandleRSBdevienttrèsfaible
(i.e.quelesignal audion'est plusaudible)alorsles performanesde reonnaissane
(a) (b)
Fig. 1.1 Inuene de la vision dans la reonnaissane de la parole. Taux de re-
onnaissaneorreteauditiveetaudiovisuellede laparoleaoustiquementbruitée:
orpus de 250 mots en anglais (gure 1.1(a)) [52℄ et 18 logatomes en français (-
gure 1.1(b)) [20℄.
orrete des sonstendent vers une valeur orrespondantàelles delaleturelabiale
seule.
De plus, pour illustrer enore une fois l'inuene de la vision du visage d'un
louteur sur e que nous entendons, intéressons-nous à l'eet MGurk [87℄. Cette
illusion audiovisuelle onsiste à superposer un stimulus [ba℄ audio à un stimulus
[ga℄ visuel. Dans es onditions, le onit entre l'audio et la vidéo aboutit à la
pereption d'un [da℄ (l'intensité de l'eet dépendant tout de même du sujet). Bien
queettesituationtendeàmontrerquel'informationvisuelleinuesurlapereption
auditive, ellepeut n'avoir auun eet ommedans leas de lmdoublé : dans une
telle situation la diérene entre l'audio et la vidéo est telle, que le spetateur ne
herhe plus, même instintivement, àintégrerles deux modalités.
Finalement, la vision du visage du louteur permet non seulement de mieux
omprendre mais aussi de mieux déteter la parole dans le bruit [61, 79, 22℄ : le
seuil d'audition est abaissé lorsque les sujets voient le visage du louteur. En eet,
la vision renfore lesindies aoustiques pertinents et donne l'impression de mieux
entendre lapersonne quiparle. C'estette idée que lamodalitévisuellede laparole
peut être utilepourmieux traiterlesignalaudioquenousallonsexploiterdansnotre
étude.
1.2 Information vidéo utile
Maintenant que nous savons que la vision du visage du louteur inue et peut
aidernotreaudition,demandons-nousquellepartiedel'informationvisuelleexploite-
t-on vraiment?
Unepremièreidée intuitiveest de dire queseulesleslèvres sontutiles. Maisei
estdémentiparl'étudedeBenoîtetal.[21℄.Ilsmontrent,paruneétudeomparative
de l'intelligibilité, que les lèvres du louteur ontiennent environ les deux tiers de
Fig. 1.2 Étude omparative de l'information visuelle. Taux de reonnaissane
orrete en présene de diérentsstimuli visuels [21℄.
onlurequel'informationvisuellen'estpas seulementontenue dans lemouvement
des lèvres mais que d'autres informations sont utiles pour la ompréhension de la
parole.
Ainsi, pour produire les sons, de nombreuses parties de notre onduit voal,
visibles (par exemple la forme des lèvres ou la position de la mâhoire) et non
visibles (par exemplela position de lalangue), entrent en ÷uvre et sont ontrlées.
Il est possible de distinguer visuellement un [i℄ d'un [a℄ oubien un [i℄d'un [y℄ alors
qu'ilest impossibledefaireladiérenevisuelleentre un[y℄etun [u℄.Eneet,dans
lesdeux premiers exemples,laformedes lèvres est diérentepour haun des sons,
diérenede positiondelamâhoireetdiérened'ouvertureetde protrusion,alors
que pour la dernière alternative, seule hange la position de la langue ii invisible,
la forme des lèvres restant quant à elle identique. Tout omme les phonèmes sont
des sons disernables aoustiquement,les visèmes ontété dénis ommedes formes
visuelles disernables [123℄.
En onsidérant les résultats préédents, nous pouvons onlure que les lèvres
du louteur véhiulent la majeure partie utile pour la parole de l'information vi-
suelle.Ainsidansnotreétude,lesparamètresvidéoquenous exploiteronsserontdes
paramètres relatifsàla formedes lèvres.
1.3 Redondane et omplémentarité de la parole
audiovisuelle
Nousvenonsdevoirqu'unegrandepartiedel'informationvisuellequenousutili-
sonspourlaparoleaudiovisuelleestontenuedansleslèvresdulouteur.Intéressons-
nousmaintenantauxrelationsexistantentre esparamètresvidéoetdesparamètres
audio.
1.3.1 Redondane
Intuitivement, nous pouvons prédire qu'il doit y avoir une ohérene entre les
mouvements du visage du louteur, etplus partiulièrementeux des ses lèvres, et
le son émis. En eet, es deux phénomènes sont produits par un seul et même sys-
tème : lesartiulateurs. Ainsi,[137℄ a pour but de montrer qu'ilexiste une relation
entre laprodutionetlapereptionmultimodaledelaparole.Pourela, lesauteurs
étudient les relations linéaires qui peuvent exister entre le visage du louteur (18
marqueurs plaés sur la fae), son onduit voal (4 apteurs plaés sur la langue)
et le son produit (oeients LSP line spetrum pairs et la puissane du signal).
Leurs études montrent qu'une grande partie de la variane totale de la fae d'un
louteurpeut êtreprédite linéairementàpartir de son onduitvoal(
∼ 90%
),maisque laprédition inverse est aussi vériée (
∼ 80%
). De même, ils montrent qu'unepartie(
∼ 75%
)de l'enveloppespetraledessons produitspeutêtre préditelinéaire- mentàpartirduvisage dulouteur.Cependant,es résultatssontàinterpréteravepréaution. En eet, [10℄ montre que si l'on utilise laseule forme des lèvres omme
information visuelle, les résultats de la prédition linéaire de l'enveloppe spetrale
du son produit hutent (
∼ 50%
) mais qu'ils peuvent être améliorés (∼ 60%
) enhoisissant une prédition non-linéaire. Tous es travaux montrent ependant qu'il
existe une ertaine ohérene entre la formedes lèvres etles sons produits.
1.3.2 Complémentarité
Laohéreneentre lesonetl'imagen'estpas totale.Eneet,ommenousallons
le voir, il y a également une ertaine omplémentarité entre es deux modalités.
Sans l'avoirmentionnéeexpliitement,nousavons déjàabordé ettenotionde om-
plémentarité. En eet, au paragraphe 1.1 nous avons vu que la multimodalité de
la parole permettait d'améliorer les performanes de reonnaissane par rapport à
la seule modalité auditive. Cette propriété est également illustrée dans [126℄ grâe
aux arbres de onfusions (f. gures 1.3 et 1.4). Cela onsiste à présenter des sti-
muli à des sujets adultes et bien entendants puis de lassier les onfusions faites
entre esstimulienfontiondu niveaude bruitenvironnant.L'analysede esarbres
de onfusion montre que deux onsonnes voisines auditivement,[k℄ et [p℄ ou [m℄ et
[n℄ par exemple, sont bien distintes visuellement. Cette omplémentarité pour les
onsonnes aétémontrée ensuitepourlesvoyelles [113℄.Lagure1.5traduitgéomé-
triquement la distane pereptive auditive et visuelle entre les voyelles du français.
Ces shémas montrent que des voyelles prohes auditivement sont éloignées visuel-
lement.
Finalement, la redondane et laomplémentarité audiovisuelles de la parole ne
sont que partielles et les relations entre les paramètres vidéo et audio ne peuvent
pas être envisagées de façon linéairear omplexes.
Fig. 1.3 Arbres de onfusion auditive des onsonnes en fontion du RSB (en
dB) [126℄.
Fig.1.4Arbresde onfusionvisuelledesonsonnes. L'éhelle vertialeorrespond
auniveau de regroupement[126℄.
(a) (b)
Fig. 1.5 Shémas de la géométrie auditive (gure 1.5(a)) et visuelle (-
gure 1.5(b)) [113℄.
1.4 Bi-modalité de la parole en traitement du signal
Comme nous venons de le voir, la parole est (au moins) bimodale ar audiovi-
suelle. Cettepropriétéintrinsèquede laparoleaété miseàprot dansdes systèmes
de traitement du signal de façon à en améliorer les performanes. Nous dérivons
brièvement les exemples de la reonnaissane automatique de la parole, du débrui-
tage de signaux oude laompression.
1.4.1 Reonnaissane automatique de la parole
Unepremièreappliationen traitementdu signalàavoirreoursàlabimodalité
de laparoleestelle delareonnaissane automatiquedelaparole(RAP).Eneet,
omme nous l'avons vu au paragraphe 1.1, l'emploi de la modalité visuelle permet
d'augmenterlessoresdereonnaissanepourlesindividus.Ilaéténatureld'essayer
dereproduireetteaméliorationpourlesproédésautomatiques.Ainsi,denombreux
algorithmes ont été proposés depuis les premiers travaux de Petajan en 1984 [94℄
(f. [104℄pour une revue de la littérature).Ilsont tous lemêmeshéma de prinipe
(f. gure 1.6) : extrationdes paramètresaudio et vidéo, intégration audiovisuelle
de es données puis le système de reonnaissane à proprement parler. La façon
de proéderpour l'intégration audiovisuelledière d'unalgorithme àl'autre. Ainsi,
ertains utilisentune fusiondes paramètres audioet vidéoutilisés [129℄, tandisque
d'autres vont plutt intégrer les déisions obtenues par deux systèmes unimodaux
(audio etvidéo séparément) [49℄ pour reonnaître la paroleaudiovisuelle.
Fig.1.6 Shéma de prinipede lareonnaissane automatique de laparole.
1.4.2 Débruitage et séparation de soures audiovisuelles
Une autre appliation possible est elle du débruitage ou réhaussement de la
parole. Elle onsiste à estimer le signal de parole originel
s(t)
à partir d'une ob-servation bruitée
x(t)
de elui-i :x(t) = s(t) + b(t)
, oùb(t)
est le bruit. Quandplusieurs apteurs sont disponibles, le problème de réhaussement de parole peut
s'apparenter à elui de la séparation de soures (f. hapitre 2 pour l'étude de la
séparation de soures). Cette appliationde lamultimodalitéde laparoleoupant
une plae partiulière dans notre étude, nous la développerons plus en détails au
paragraphe2.4.
Puisqu'il existe une ohérene entre le son et l'imaged'une part etque, d'autre
part, les aratéristiques sonores peuvent être partiellement prédites à partir de
l'image, es systèmes de débruitage vont exploiter ette opportunité pour estimer
des ltres de réhaussement [59℄ par une prédition linéaire des paramètres audio à
partir des paramètres vidéo:
a(t) = M 1
v(t)
(1.1)
où
a (t)
etv (t)
sont lesveteurs desparamètres audioetvidéorespetivement etM
estlamatriede prédition.Cetteidéefutensuiterepriseenutilisantdesoutilsplus
sophistiqués en pré-traitementd'un systèmede reonnaissane de laparole[45, 60℄.
Réemment, e prinipefut étendu àelui de laséparation de souresde paroleau-
diovisuelle [118, 134℄. L'informationvisuelle peut alors être utilisée autravers d'un
modèle statistique audiovisuel
p AV (a(t), v(t))
reliant des paramètres audioa(t)
àdes paramètres vidéo
v(t)
[118℄. Le prinipe onsiste alors àretrouver en sortie dusystèmede séparationleson leplusohérentave lavidéoen maximisantettepro-
babilité audiovisuelle. Ou alors, l'information visuelle est utilisée pour ontraindre
leproblème de séparation [134℄.
1.4.3 Compression audiovisuelle
La dernière appliation dont nous parlerons est elle du odage de la parole
audiovisuelle : elle onsiste à oder onjointement les signaux audio et vidéo [58℄
alors queplus lassiquement lesdeux modalitésde laparole lesont séparément. Le
but est de ompresserde façonplus eae lessignaux pour améliorerlesdébitsde
transmission en visiophonie par exemple. Cette appliation exploite la redondane
de laparole de façonàne oder qu'une seule foisune informationprésenteà lafois
dans l'audio etla vidéo. Cette appliation est un peu partiulière ar ellepeut être
vue omme faisant le ontraire des autres : la redondane ou la omplémentarité
n'est pas vue ii ommeun atout mais omme une nuisane que l'on herhe sinon
à supprimer tout du moins à minimiser.
1.5 Conlusion
Ce hapitre nous a permis d'avoir un rapide aperçu de lanotion de multimoda-
lité de la parole depuis la pereption jusqu'à son intégration dans des appliations
du traitementdu signalquiexploitentredondaneetomplémentaritéentre lesmo-
dalités auditive et visuelle. Nous pouvons don onlure e hapitre en disant que
la parole n'est pas qu'auditiveet quela modalité visuelle nous permettra de mieux
traiter lessignaux aoustiques.
Séparation aveugle de soures
Laséparation desoure estun domainerelativementréent dutraitementdu si-
gnal.Introduitedanslemilieudes années80par Ans,HéraultetJutten[7,66℄alors
qu'ilstravaillaient sur un problème biologique, la séparation de soure est très vite
devenue un domaineattratif du traitementdu signal (.f. [77℄ pour des onsidéra-
tions historiques).Le problèmeonsiste àretrouver des signauxutiles (par exemple
signaux de parole oudes signaux émis par des téléphones portables), aussi appelés
soures, àpartirde mélanges,aussi appelés observations,de eux-i. Généralement,
les observations sont des signaux obtenus à partir d'un ensemble de apteurs (mi-
rophonesouantennespar exemple).Unastypiqueest eluidelaoktail party où
lessoures sontdes louteurs etles observations lessignaux enregistrés par des mi-
rophones(.f. gure2.1).Dansun ontexte aveugle 1
,auune onnaissanea priori
n'estdisponiblenisurlessoures,nisur leproessusde mélange (i.e.leontextedes
observations), ette situation est alors appelée séparation aveugle de soure (SAS).
Pour résoudre e problème, une solution possible onsiste à ne faire qu'une seule
hypothèse fondamentale :l'indépendane statistique mutuelledes soures.
Lesuèsde laséparationde souress'expliqueparlepeu d'informationapriori
néessaire pour résoudre e problème etpar levaste hamp d'appliationspossibles
parexempleletraitementdesignauxbiomédiaux (ave entre autresl'extrationde
signaux életroardiogrammes d'un f÷tus [43, 140℄, ou la suppression des artefats
pourl'analysedessignauxéletroenéphalogrammesduerveau [78℄),de signauxvi-
bratoiresdemahinestournantes[25℄,designauxpourlasurveillaned'aéroport[33℄,
designauxde téléommuniation[131℄,designauxaoustiques [130,6℄pourneiter
queelles-là (.f. [69, 5℄pour d'autres appliations).
Danse hapitre,nousprésentons de façonformelleleproblèmede laséparation
de souresavantde voirlesonditions de séparabilitéetlesindéterminationsintrin-
sèquesauproblème.Nousdétailleronsensuitedeux situationstypiques demélanges,
les mélanges instantanés et onvolutifs, en présentant pour haune des situations
lesprinipesde séparation.
1
Sansauuneinformationapriori,nisurlessouresnisurleproessusdemélange,eproblème
n'admetpasdesolution.
Fig. 2.1 Exemplede laoktail party ave deux soureset deux apteurs.
2.1 Présentation générale de la séparation de soures
Commenousl'avonsbrièvementintroduiti-dessus, leproblèmede laséparation
aveugle de soure onsiste à retrouver, ave le moins de onnaissane a priori, des
signaux utiles qui ont été mélangés. Formalisonsmaintenant etteidée.
2.1.1 Formulation mathématique
Supposons que nous ayons à notre disposition
N o observations, notées x(t) = [x 1 (t), · · · , x N o (t)] T, de N s soures, notées s(t) = [s 1 (t), · · · , s N s (t)] T, obtenues à
N s soures, notées s(t) = [s 1 (t), · · · , s N s (t)] T, obtenues à
partir d'une fontion de mélange
H ( · )
x (t) = H ( s (t)).
(2.1)Dans le as général,
H ( · )
, qui est une appliation deE N s, espae des soures de
dimension
N s, dans E N o, espae des observations de dimension N o, peut être non-
N o, peut être non-
linéaireetàmémoire(
H : E N s → E N o).Diversessituationspeuventintervenirsuivant
le nombre
N o d'observations relativementau nombre N s de soures:
moins d'observations que de soures
(N o < N s )
, on parle alors de mélangesous-déterminé,
autant d'observationsquede soures
(N o = N s )
,lemélangeestditdéterminé,plus d'observations que de soures
(N o > N s )
, le mélange est qualié de sur-déterminé.
Ces trois as supposent des onditions sur
H ( · )
. De plus si leproessus de mélangeH ( · )
est linéaire, nous le qualierons assez naturellementde mélange linéaire etde mélange non linéaire dans le as ontraire.Lebut delaSASétantderetrouverlessouresàpartiruniquementdesobserva-
tions
x(t)
et en exploitant l'hypothèse d'indépendane mutuelle des soures 2, il est
2
Éventuellementd'autresinformationsapriori surlessouresouleproessusdemélangepour-
Fig. 2.2 Prinipe de laséparation aveugle de soure.
alors néessaire de onstruire une fontion de séparation
G ( · )
telle que haune deses sorties
y(t) = G (x(t))
(2.2)ne dépende que d'une soure et une seule. Dans le as général,
G ( · )
, qui est uneappliationd'un espaede dimension
N o dansun espae de dimensionN s,peutelle
aussi être non linéaire età mémoire.
Puisque laseule hypothèsedontnous disposonsest l'indépendane mutuelledes
soures, il est naturel d'essayer de herher une fontion de séparation
G ( · )
tel queson veteur de sortie
y(t)
ait des omposantes les plus indépendantes possible. La gure2.2 montre leshéma synoptique généralde la séparation aveugle de soures.2.1.2 Séparabilité et indéterminations
Séparabilité
Laquestionprimordialeest maintenantelledelaséparabilité desmélanges (i.e.
l'existene d'une solution) : l'indépendane des omposantes de
y(t)
implique-t- ellenéessairement la séparation des soures? End'autres termes, l'indépendanedes omposantes de
y(t)
implique-t-elle que haune des sorties de la fontion de séparation ne dépend que d'une etune seule soure.Autrement dit, existe-t-il des transformations
G ( · )
qui sont mélangeantes, 'est- à-diretelle que( G ◦ H )( · )
soitàJaobien nondiagonal,etqui préservent l'indépen-dane?Malheureusement,laréponseàettequestionestgénéralementouisaufdans
ertains as partiuliers sur lesquels nous reviendrons ultérieurement : l'indépen-
dane n'est pas susante pour garantir la séparation des soures. Nous illustrons,
i-dessous, ei sur un exemple simple, mais Darmois [41℄ propose une méthode
simple de onstrutionde telles transformations.
Considérons deux soures
s 1 et s 2, indépendantes et identiquement distribuées
(iid) normalement telles que s 1
s 1
iid ∼ N (0, 1) et s 2
iid ∼ N (0, 1). Supposons maintenant
queles observations
x = [x 1 , x 2 ] T vérient
x 1 = cos(θ) s 1 − sin(θ) s 2
x 2 = sin(θ) s 1 + cos(θ) s 2 .
Ces observations sont gaussiennes, puisque sommes de variables aléatoires gaus-
siennesindépendantes, et leur matriede ovariane
C xx vérie
C xx , E xx T
= I 2 ,
où
I nestlamatrieidentitédetaille(n × n)
.Ainsi,lesobservationsx
sontdéorrélées
et don indépendantes puisque gaussiennes. Dans e as, hoisir
G ( · ) = I 2 permet
bien d'obtenir des sorties
y
mutuellement indépendantes (y = x
). Or haune desomposantes de
y
ne dépend que d'une seule soure que lorsqueθ
est égal à zéromodulo
π/2
:θ ≡ 0[π/2]
. Don, dans tous lesautres as, on obtientdes sortiesmu-tuellementindépendantessans pour autantsatisfairelaséparationdes soures. Cei
illustrebienque,d'unemanièregénérale,l'indépendanemutuellesdesomposantes
de
y(t)
n'impliquepas néessairement laséparation des soures.Ainsi,nous ne pouvons donnerde résultatsgénérauxsur laséparabilité des mé-
langes : ilnous faudra donfaire une étude auas par as.
Indéterminations
Admettons ependant que le mélange que nous étudions soit séparable, l'exis-
tene d'une solution (i.e. la séparabilité) assure-t-elle son uniité? Pour ela sup-
posons que
y(t)
soit un veteur solution. Il a été obtenu uniquement grâe à unritère d'indépendane de ses omposantes, orette indépendane n'imposeauune
ontraintesurl'ordrede elles-i:si
y(t)
estunveteursolutionalorsy ′ (t) = Π y(t)
,où
Π
est une matrie de permutation, est aussi un veteur solution ar ayant ses omposantes indépendantes. Nous venons de mettre en évidene la première indé-termination ellede lapermutation : lessouresne pourrontêtre estiméesqu'à une
permutation globaleprès.
Deplusleritèred'indépendanedesomposantesduveteursolution
y (t)
n'im-plique auune ontraintesur une éventuelle déformation de elles-i :si
y(t)
est unveteursolutionalors
y ′ (t) = Λ(y(t))
,oùΛ( · )
estunematriediagonaledefontions(linéairesounon),est aussi un veteur solution.Nousvenonsde mettreen évidene
la seonde indétermination elle du fateur d'éhelle : les soures ne pourront être
estimées qu'àune distorsion près.
Dénition 2.1 (Egalité séparante)
Nous dirons que le veteur
x(t)
est égal au sens séparant au veteury(t)
, e quenous notons
x(t) ∼ = y(t)
,sietseulementsix(t)
est égalày(t)
àune permutationΠ
et une distorsiondiagonale
Λ( · )
près :x (t) ∼ = y (t) ⇐⇒ △ ∃ Π, Λ( · ) / x (t) = Π Λ( y (t)).
(2.3)Dénition 2.2 (Fontion séparante)
Nous appellerons fontion séparante toute fontion de séparation
G ( · )
tel que sessorties
y(t) = G (x(t))
,oùx(t)
sontdesobservationsdesouress(t)
,soientégalesausens séparant auxsoures
s(t)
:y(t) ∼ = s(t)
.Nousdirons alors,par abus de langage,que
( G ◦ H )( · ) = Π Λ( · ) ∼ = I N s .
(2.4)Nouspouvons donrésumer laséparabilitéetlesdeuxindéterminations,permu-
tation etfateur d'éhelle, de la façonsuivante :
Si une solution au problème de la séparation de soures existe alors elle
vérie
ˆ
s(t) = Π Λ(s(t)) ∼ = s(t).
(2.5)H 11 H 21
H 12 H 22
Fig. 2.3 Coktail party dans le adre de mélanges linéaires instantanés : les a-
naux de transmissionentre les souresetlesapteurs sont modéliséspar de simples
oeients
H i,j.
Cei signie onrètement que, sous laondition d'existene d'une solution etsans
autreinformationapriori quel'indépendane mutuelledes soures, iln'estpossible
au mieux de les estimer qu'à une permutation globale près
Π
et à une distorsiondiagonaleprès
Λ( · )
.Laséparationaveugledesouresonsistedonàherher unefontionséparante
G ( · )
ens'appuyantuniquementsurl'hypothèsefondatriedelaSAS:l'indépendane statistiquemutuelledes soures.2.2 Mélanges linéaires instantanés
Considéronsmaintenantleaspartiulierdesmélangeslinéairesinstantanésdans
lequel la fontion de mélange
H ( · )
est supposée linéaire et sans mémoire (f Fi-gure 2.3). Les
N s soures, statistiquementindépendantes, sont don supposées être
mélangées de façonlinéaire etinstantanée: haune des N o observations peut ainsi
s'exprimerpar
x i (t) =
N s
X
j=1
H i,j s j (t), ∀ i ∈ { 1, · · · , N o }
(2.6)où les
H i,j sont des onstantes de mélange inonnues. Il est possible de réérire e
modèle sous formematriielle
x(t) = H s(t)
(2.7)en faisantapparaître lamatrie de mélange
H
,de dimension(N o × N s )
,qui apour(i, j)
ème élément laonstanteH i,j. Laséparation de souresonsistealors à estimer
une matrie de séparation
G
,de dimensionN s × N o, telle que ses sorties
y(t) = G x(t) ∼ = s(t)
(2.8)soientdes estimées des souresoriginales
s(t)
.En d'autres termes,G
, dont lesoef-ients sont estimés grâe à l'hypothèse d'indépendane des soures, doit être une
matrie séparante.
2.2.1 Séparabilité et indéterminations
Leas des mélangeslinéairesinstantanés(2.7) peut êtrevu ommelarésolution
d'un système linéaire de
N o équations (elles dénissant les observations) à N s in-
onnues(lessoures).Dansleontexteaveugle,lesoeientsdeesystèmed'équa-
tions (ii la matrie de mélanges
H
) sont également inonnus. Ainsi, les mélangessous-déterminés, sans autre information a priori, ne sont pas séparables puiqu'ils
présententplus d'inonnues(lessoures) qued'équations(les observations).D'autre
part,lesmélangesdéterminésetsur-déterminésadmettentaprioriunesolutiontelle
que
G H ∼ = I N s (2.9)
si
H
est de rang plein. Cependant, la seule indépendane statistique mutuelle des omposantes dey(t)
déni par (2.8) assure-t-elle la séparation du mélange, i.eG ∼ = H −1 ou G ∼ = H † (†
est la pseudo-inverse d'une matrie de rang plein) pour
respetivement les mélanges déterminés ou sur-déterminés? Autrement dit, existe-
†
est la pseudo-inverse d'une matrie de rang plein) pour respetivement les mélanges déterminés ou sur-déterminés? Autrement dit, existe-t-il des fontions
G
non séparantes qui préservent l'indépendane de leurs sorties? Comon[38℄ aprouvé quesiauplusune soureest gaussienne,alors l'indépendaneonjointe(ou paire par paire) des omposantes de
y(t)
impliquequeG H = Π Λ
oùΠ
estunematriede permutationetΛ
unematriediagonale.Cethéorème, quiestune onséquene du théorème de Darmois-Skitovihde 1953 [42℄, revient àdire que
si au plus une soure est gaussienne alors le mélangedéterminé (ou sur-déterminé)
est séparable et que lessoures seront estimées à une permutationglobale
Π
et ungain
Λ
près. Notez que dans le as linéaire instantané, la distorsionΛ( · )
se résumeà une simple matrie diagonale : l'indétermination d'éhelle se traduit ii par une
indétermination sur la puissane des souresreonstituées.
2.2.2 Prinipe de séparation
Nous allons maintenant exposer les idées fondamentales utilisées pour eetuer
la séparation des mélanges instantanés linéaires déterminés 3
où
N s = N o. Nous
supposerons de plus que la matrie de mélangeest de rang plein. La séparation de
soures se résume alors à estimer une matrie de séparation inversible
G
de taille(N s × N s )
.Indépendane statistique et information mutuelle
Rappelons tout d'abord la dénition de l'indépendane statistique.
N
variablesaléatoires
{ Y i } 1≤i≤N sont mutuellement indépendantes si et seulement si la densité
de probabilité onjointe p Y 1 ,··· ,Y N [y 1 , · · · , y N ]
est égale au produit des densités de
3
Lesmélangessur-déterminéspouvantserameneràeasenréduisantlenombred'observations
aunombredesoures.
probabilitésmarginales
p Y i [y i ]
de haune des variables aléatoiresY 1 , · · · , Y N ind´ependantes ⇐⇒ △ p Y 1 ,···,Y N [y 1 , · · · , y N ] =
Y N i=1
p Y i [y i ].
(2.10)Autrement dit, l'indépendane de variables aléatoires se traduit par le fait que la
densitéde probabilité onjointeest séparable oufatorisable.Ainsi,lesdiversesmé-
thodesdeséparationexploitantl'indépendanedevrontêtreonstruitesdetellesorte
queles soures estiméesvérient (ou aumoins approximent) ette propriété.
Néanmoins, l'utilisationdiretedeladénitionde l'indépendane n'estpasaisée
puisque faisant intervenir des fontions multivariées (inonnues). Pour ela, une
mesure salaire de l'indépendane, plus pratique, est la divergene de Kullbak-
Leibler
KL[ ·k· ]
entre deux densités de probabilitép[ · ]
etq[ · ]
, dénieparKL[p k q] ,
Z
p[u] ln p[u]
q[u]
du.
(2.11)On peut montrer que ette divergene est une grandeur positive qui s'annule si et
seulementsilesdensités de probabilités
p[ · ]
etq[ · ]
sontégales.Ainsi,l'indépendane des omposantes du veteur aléatoire4
y = [y 1 , · · · , y N ] T peut être mesurée par
l'information mutuelle
I[y]
[39℄ dénie omme la divergene de Kullbak-Leibler entrep y [ · ]
etQ
i p y i [ · ] :
I [y] , KL
"
p y
Y N i=1
p y i
#
= Z
p y [u] ln p y [ u ] Q N
i=1 p y i [u i ]
!
du.
(2.12)L'informationmutuelle
I [y]
peut être expriméeparI[y] =
X N i=1
H[y i ] − H[y]
(2.13)où
H[y i ]
etH[y]
sont lesentropies de Shannon5 marginaleset onjointerespetive-ment:
H[y] , − Z
p y [u] ln(p y [u]) du, H[y i ] , −
Z
p y i [u i ] ln(p y i [u i ]) du i .
Notons que l'entropie de Shannon peut être exprimée à partir de l'espérane du
logarithme népérien de la densité de probabilité de la variable aléatoire :
H[y] =
− E[ln(p y [y])]
. L'information mutuelleI[y]
quantiant l'indépendane des ompo- santes du veteur aléatoirey
,de nombreux algorithmes de séparation de soures y sontexpliitement ouimpliitementreliés, ommenous allons le voir.4
Danstoutelasuitedeemanusritetparabusdelangage,nousonfondronslesnotationsde
lavariablealéatoire
Y
avesaréalisationy
.5
La dénition de l'entropie de Shannon fait souvent intervenir les logarithmes binaires, en
De l'analyse en omposantes prinipales à l'analyse en omposantes in-
dépendantes
Denombreuses méthodes dutraitementdusignal seonentrent surl'utilisation
des statistiques d'ordre 2des signaux onsidérés, ommepar exemple le ltragede
Wiener [92℄. Appliquer les statistiques du seond ordre dans le adre de la sépara-
tion de soures, revient àdéorréler les mélanges,'est-à-dire à estimerdes signaux
entrés
z = W x
tels que leur matrie de ovarianeC zz = E[zz T ]
soit diagonale.En eet, puisque les soures
s
sont supposées indépendantes (don déorrélées) et sans perte de généralité entrées, alors leur matrie de ovarianeC ss = E[ss T ]
estdiagonale. De plus, haque élémentdiagonal représente la puissane moyenne de la
soure orrespondante. Don pour séparer les soures (i.e. reherher des signaux
indépendants), il est néessaire queles souresestimées
z
soient déorrélées.Ladéorrélation,enoreappelée blanhiment ouanalyse en omposantes prini-
pales (ACP), a pour objetif d'estimer des signaux
z
dontla matrie de ovarianeest diagonale. Cette déorrélationpeut être réalisée par la déompositionen valeur
proprede lamatriede ovariane
C xx des observationsoupar ladéompositionde
Cholesky.Eneet,lamatriede ovarianeC xx,quiestsymétrique(ouhermitienne
silessignauxsontomplexesmaisnousnetraiteronsiiqueleasdessignauxréels),
est diagonalisable:
∃ V ∈ U(N s ), ∃ D ∈ D(N s ) / C xx = V D V T ,
(2.14)où
U(n)
est legroupedes matriesunitairesde taille(n × n)
etD(n)
l'ensembledesmatries diagonales de taille
(n × n)
. Les termes diagonaux deD
sont les valeurspropresdelamatriedeovariane
C xx etlesolonnesdeV
sontlesveteurspropres
assoiés. Ainsi, hoisir une matrie de blanhiment (spatial)
W
telle queW = D − 1 2 V T (2.15)
permetd'eetuer ladéorrélation.Enimposantde plus, de façonarbitraire,quela
matrie de ovariane
C zz, des signaux blanhis dénis par z = W x
, soitl'identité,
nous obtenons :
C zz = E zz T
= W C xx W T = I N s
qui est obtenu en remplaçant
W
par son expression (2.15) et en utilisant la dé-ompositionen valeurs propresde lamatrie de ovariane des observations (2.14).
Remarquons que le fait d'imposer la puissane moyenne des signaux
z
à un, re-vient à xer l'indétermination du fateur d'éhelle : quelle que soit la matrie de
blanhiment
W
(déniepar (2.15) ou par toute matrieobtenue par multipliation à gauhe de (2.15) par une matrie diagonale et/ou une matrie de permutation),la normalisation de la puissane des signaux estimés permet d'obtenir toujours la
même solution, levant ainsi l'indétermination de gain sans pour autant la résoudre
(sauf dans le as de soures de puissane unité). Les omposantes prinipales sont
don obtenues en projetant lesobservations
x
surlesveteurs propres dela matriede ovariane
C xx des mélanges fournissant ainsi des signaux déorrélés.
Cependant, bien que la déorrélation soit néessaire à l'indépendane elle n'en
demeure pas moins insusante ommeillustré à la gure 2.4. Malgré leur déorré-
lation, les mélanges blanhis
z
ne sont pas égaux au sens séparant aux soures. En−1 −0.5 0 0.5 1
−1
−0.5 0 0.5 1
PSfrag replaements
s 1
s 2
(a) Soures
−2 −1 0 1 2
−1.5
−1
−0.5 0 0.5 1 1.5
PSfrag replaements
x 1
x 2
(b)Mélanges
−2 −1 0 1 2
−2
−1 0 1 2
PSfrag replaements
z 1
z 2
() Mélangesblanhis
Fig.2.4Illustrationde l'ACP.Distributionsonjointes:de deux souresindépen-
dantes uniformément distribuées entre -1 et 1 (Figure 2.4(a)), des deux mélanges
(Figure2.4(b))et des deux mélanges blanhis (Figure2.4()).
eetladéorrélationn'est pas susante pourgarantirlavéraitéde l'égalité(2.10),
e quipeut être vugrâeaudéveloppement deTaylordes fontionsaratéristiques
des densités de probabilités onjointeet marginalesfaisantintervenir lesumulants
roisés quidoivent être nulspour assurer l'indépendane.
Ainsi,Comon[38℄aproposé de généraliserl'analyseen omposantes prinipales,
qui n'impose l'indépendane qu'au seond ordre et dénit par onséquent des di-
retions orthogonales, à l'analyse en omposantes indépendantes (ACI) qui dénit
des diretions indépendantes. Pour être performante, l'ACI devra don reourir à
des statistiques d'ordresupérieur (à deux). Cei montre aussi pourquoi des soures
gaussiennesiid ne peuvent être séparée. Eneet, leur statistiques d'ordresupérieur
àdeux sont entièrement dénies àpartir de leur deux premières statistiques : l'uti-
lisationdes statistiquesd'ordresupérieur n'apporte, danse aspartiulier, auune
informationsupplémentaire.
Unautremoyendemontrerl'insusanedeladéorrélationpourlaséparationde
souresestalgébrique.Pourdéterminerlamatriedeséparation
G
detaille(N s × N s )
,en tenant omptedes
N s indéterminations du gain, xées de façonarbitraire, nous
devons estimer N s 2 − N s = N s (N s − 1)
paramètres inonnus. Or les ontraintes de
déorrélation :
E[z i z j ] = 0
pour toutes les paires1 ≤ i 6 = j ≤ N s, ne donnent que
N s (N s − 1)/2
équations, e qui est insusant pour déterminerG
. Nous pouvonsrésumerei endisantqueladéorrélation(indépendane àl'ordredeux)des sorties
nefaitquelamoitiédel'ACI.Bienqu'insusantepoureetuerlaséparationdes
soures,l'ACPpermet,ommenousallonslevoir,desimplierleproblèmedel'ACI
en ontraignant la matrie de séparation
G
à adopter une struture partiulière.Ainsi,pour ahever laséparation par ACI, nousdevons estimerune matrie
U
telleque
G = U W
(2.16)soit une matrie séparante (f. gure 2.5). L'indépendane des signaux estimés
y
impliqueaussileurdéorrélation:
C yy = E yy T
= I N s,enxantdefaçonarbitraire
lapuissanemoyennedessouresestiméesàl'unité.Lessignauxestimésétantdénis