sinon
Π(t) H 1
≷ H 0
Λ.
(4.28)La gure 4.4 montre que le hoix des paramètres d'intégration
α l doit être
onsi-déré ave attention. En eet, un hoix d'un
α
trop petit (voir nul) onduit à unedétetion qui est sensible aux perturbations loales (petits mouvements des lèvres
pendantlessilenesouformesdes lèvresstablespendantlaparole):lesdeux lasses
silene etnon-silene sontalorslargementsuperposées(f.gure4.4(a))onduisant
à un fort taux de fausses alarmes de détetion de silene (i.e. déider silene alors
que la trame orrespondante est en réalité non-silene). Au ontraire, hoisir un
α
trop grand onduit à intégrer sur une trop longue durée : la fenêtre d'intégration
englobe àla fois des trames de silene etde non-silene, onduisant ainsi à ne plus
faire de distintion entre les deux lasses (f. gure 4.4()). Choisir un oeient
d'intégration aeptable permet de simplier la lassiation omme le montre la
gure 4.4(b).
Cependant,malgréunbonréglagede
α
,lesdeuxlassessilene etnon-silene nepeuvent êtretotalement séparées.Il est impossiblede trouver un seuil
Λ
parfait quionduirait à déteter toutes les trames de silene sans produire de fausses alarmes
de détetion desilene.Dans notreproblème de séparationde soures, onverra que
−4 −3 −2 −1 0 0
4 8 12 16
PSfrag replaements
z
×10 4
(a) Instantané
−4 −3 −2 −1 0
0 4 8 12 16
PSfrag replaements
z
×10 4
(b) Intégré:
α = 0, 82
−4 −3 −2 −1 0
0 4 8 12 16
PSfrag replaements
z
×10 4
() Intégré:
α = 0, 99
Fig. 4.4 Inuene de l'intégration sur ledéteteur visueld'ativité voale.
Histo-grammes du paramètre vidéo dynamique (4.27), en éhelle logarithmique tronquée
à -4 , pour trois valeurs des oeients d'intégration
α l = α l : instantané (a),
va-leur orrete de
α = 0.82
trames (b) et valeur trop grande deα = 0.99
(). Leshistogrammes en noirs et blans orrespondent à
Π(t)
déni par (4.27) pendantrespetivement le silene etle non-silene.
l'important est de bien déteter les silenes (i.e. avoir un taux de fausses alarmes
relativementfaibles). Danse as, etommepour ledéteteuraudiovisueld'ativité
voale, nous proposons de ne retenir omme périodes de silene que les setions
omposées d'au moins
N
trames onséutives individuellement détetées omme silene.4.3.2 Déteteur visuel d'ativité voale sur images naturelles
Ledéteteurvisueldesilenequenousvenonsd'introduirefontionneàpartirdes
paramètres vidéo de largeuret hauteur internes du ontour labial qui sont extraits
parlesystèmedéveloppéàl'ICP[80℄quenousavonsdéjàévoquéauparagraphe3.1.
Bien qu'eae, e système n'en demeure pas moins lourd à mettre en ÷uvre : les
(a)
0 0.1
0.2 0.3
0.4 0
0.5
1 0
0.1 0.2
f t
f x
|G|
(b)
Fig. 4.5 Rétine artiielle. Figure 4.5(a) : shéma életrique équivalent de la
rétine d'après [67, 11℄. Figure 4.5(b) : réponse en fréquene spatio-temporelle de
G(z s , f t )
(4.29)oùα c = 2
,β c = 0
,τ c = 1
,α h = 10
,β h = 0
,τ h = 1
.une segmentation plus faile des lèvres. Ainsi, pour s'aranhirde et inonvénient
etserapproher d'un systèmeplus aisé à mettreen ÷uvre dans des onditionsplus
naturelles de prise de vue,nous allons maintenant introduire un nouveau déteteur
de silene reposant également sur le prinipe d'un paramètrage vidéo dynamique
mais exploitant diretement des images brutesde larégion des lèvres.
Réhaussement des ontours labiaux
Nousproposonsainsi de faireunedétetion du ontourlabialfondée sur le
fon-tionnement de la rétine humaine [67, 11, 18℄ en exploitant un modèle életrique
unidimensionnel de elle-i. Un teltraitement permet entre autres de réhausser les
ontours,d'atténuer lebruit spatio-temporel etles variationsde lumière.
Les photoréepteurs de la rétine humaine [88, 11℄ transforment l'intensité
lu-mineuse de l'image perçue en un potentiel életrique
i(k, t)
proportionnel à son logarithme(oùk
est l'indiedu pixelonsidéré àl'instantt
).On obtientensuitedespotentiels
b(k, t)
en sortie des ellules OPL (outer plexiform layer) de la rétine.Le shéma életrique équivalent modélisant le lien entre
i(k, t)
etb(k, t)
est donnéà la gure 4.5(a) [67, 11℄. Il s'agit d'un ltre spatio-temporel non séparable dont
la fontion de transfert dans l'espae de Fourier pour sa partie temporelle et dans
l'espaede latransformée en
Z
pour sa partie spatialeest donnée parG(z s , f t ) = B (z s , f t )
I(z s , f t )
où
B (z s , f t ) = T Z s { T F t { b(k, t) }}
(resp.I(z s , f t ) = T Z s { T F t { i(k, t) }}
) est latrans-formée en Z spatiale(notée
T Z s {·}
)de la transformée de Fourier temporelle (notée(a) Avanttraitement (b) Aprèstraitement
Fig. 4.6 Illustrationdu traitement eetué par larétine.
T F t {·}
)deb(k, t)
(resp.i(k, t)
). On peut montrer [11℄ queG(z s , f t ) = 1
1 + β c + α c ( − z s −1 + 2 − z s ) + 2πf t τ c
× β h + α h ( − z s −1 + 2 − z s ) + 2πf t τ h 1 + β h + α h ( − z s −1 + 2 − z s ) + 2πf t τ h
(4.29)
ave
α c = r c /R c, β c = r c /r f c, τ c = r c C c, α h = r h /R h, β h = r h /r f h, τ h = r h C h.
τ c = r c C c, α h = r h /R h, β h = r h /r f h, τ h = r h C h.
β h = r h /r f h, τ h = r h C h.
Dans ette expression,
α h (resp. α c) représente la onstante d'espae des ellules
h(k, t)
(resp.c(k, t)
),β h et β c représentent leurs onstantes de fuite et τ h et τ c
τ h et τ c
leurs onstantes de temps. La gure 4.5(b) montre sa réponse en fréquene
spatio-temporelle. On onstate que e ltre présente un omportement passe-bande
spa-tial pour les faibles fréquenes temporelles qui tend à devenir passe-bas quand la
fréquene temporelleaugmente. De façonduale,e ltrea un omportement
passe-bande temporel pour les faibles fréquenes spatiales qui tend à devenir passe-bas
quand la fréquene spatiale augmente. Une illustration du traitement eetué par
larétine est présentée àla gure4.6. Cettestruture de ltre permetun
implémen-tation rapide de la détetion de ontours [11, 18℄.
Déteteur visuel d'ativité voale sur images naturelles
Une fois le traitement rétinien de réhaussement des ontours labiaux eetué,
nous appliquons une transformée de Fourier bidimensionnelle à haque image
ré-sultante
r(t) ∈ R N u ×N v (où N u et N v sont respetivement le nombre de lignes et
olonnes de l'imager(t)
) :
N v sont respetivement le nombre de lignes et
olonnes de l'imager(t)
) :
R uv (t) =
N X u −1 l=0
N X v −1 c=0
r lc (t) w lc e −2π
l u
Nl +c Nc v
.
(4.30)où
w lc est la fenêtre de Hammingbidimensionnelle. Parla suite, onne garde quele
arré du module | R(t) | 2, où R(t)
est la matrierassemblant les termes R uv (t)
, an
R(t)
est la matrierassemblant les termesR uv (t)
, anFig.4.7 Transformationlog-polaire d'après[19℄, haundes ovales orrespond au
ltre de Gaborlog-polaire entré sur la fréquene spatiale
f i dans ladiretion θ j.
dedéteter lesmouvementsdes lèvresauoursdutemps.Pour ela,nousproposons
d'eetuer une opération de dérivation temporelle :
∆R(t) = | R(t) | 2 − | R(t − 1) | 2 .
(4.31)Lefait de reouririiaumodule de latransformée de Fourier bidimensionnelle
per-met de s'aranhir largement des mouvements parasites de translations du visage
par rapport à la améra qui n'ont une inuene notable que dans la phase. Cette
opérationde dérivation temporelle est suivie d'un ltragede type passe-bande
spa-tial de façon à atténuer les eets du bruit et des variations de lumière. Pour ela,
nous eetuons une transformation log-polaire (f. gure 4.7) de
∆R(t)
et nous negardons, pour toutes les diretions
θ i, que ertaines fréquenes spatiales f k e qui
nous donne
∆R F (t)
. Cette transformation log-polaireest aluléeà l'aide de ltres de Gaborlog-polairesG ik (f, θ)
entrés à lafréquenef k dans ladiretionθ i [64℄ :
G ik (f, θ) = 1 σ √
2π f k
f 2
exp
− ln
f f k
2
2σ 2
cos
1 + cos(θ − θ i ) 2
50
où
σ
est un fateur d'éhelle.Finalement, le paramètre vidéo dynamique
π(t)
que nous allons utiliser pournotre déteteur visuel d'ativité voale sur images naturelles est déni omme la
moyennesur leslignes et lesolonnes de
∆R F (t)
:π(t) = 1
N u
1 N v
N X u −1 u=0
N X v −1 v=0
∆R F uv (t).
(4.32)Le déteteur visuel de silene sur images naturelles lasse alors omme silene la
trame àl'instant
t
siπ(t)
est inférieurà un seuilλ
etomme non-silene sinon :π(t)
H 1
≷ H 0
λ.
(4.33)Ilestégalementpossibledereouriràuneintégrationtemporelledefaçonàaméliorer
les performanes du déteteur
Π(t) =
T −1
X
n=0
α l π(t − n) H 1
≷ H 0
Λ
(4.34)où ommepréédemment les
α l sontlesoeientsd'un ltre passe-bas de réponse
impulsionnelleinnie du premierordre (
α l = α l).
Nousrésumonsleprinipeglobaldudéteteurvisueld'ativitévoalesurimages
naturelles dans l'algorithme 2.
Algorithme 2 Déteteur visueld'ativité voale sur image naturelle.
Pour tous les indiestemporels
t
faire/Réhaussement des ontours par ltrage rétinien/
Calul de
r(t)
obtenue par leltrage (4.29)/Calul du paramètre vidéo dynamique/
Calul de la transformée de Fourierbi-dimensionellede
r(t)
(4.30)Dérivation temporelle de
R(t)
par (4.31)Filtrage spatialpar transformation log-polairepour obtenir
∆R F (t)
Calul du paramètre dynamique instantané
π(t)
par (4.32)/Equation de déision/
Intégrer l'équationde déision par (4.34)
Finboule
4.4 Corpus
Les deux orpus présentés au hapitre 3 présentent l'intérêt d'être bien
ontr-lés et de bien représenter la rihesse audiovisuelle de la parole. Cependant, ils ne
ontiennent pasde périodes naturellesde silene pendant lesquellesleslouteursne
parlent pas. Pour ette raison, nous onsidérons dans ette partie deux nouveaux
orpusomportantdiérentslouteurs en interation. Nousavons utilisé d'unepart
un orpus enregistré à l'ICP au début de notre étude ave David Sodoyer et
Jean-Lu Shwartz (que nous appellerons orpus Grenoble) et d'autre part un orpus
que nous avons enregistré ave Andrew Aubrey et Yulia Hiks à Cardi dans le
laboratoireCenter of Digital Signal Proessing dirigé par le professeur Jonathon
Chambersdel'universitédeCardiauxPaysdeGalles(quenousappelleronsorpus
Cardi).
4.4.1 Corpus Grenoble
Ce orpus a été enregistré à l'ICP ave des moyens audiovisuels ommuns au
LIS et à l'ICP. L'enregistrement a été supervisé par David Sodoyer et Christophe
Savariaux.Lagure3.2page52montre lemontageutilisépour etenregistrement:
Nom Langue maternelle
lo.1 Cantonnais
lo.2 Cantonnais
lo.3 Mandarin
lo.4 Mandarin
lo.5 Indien
lo.6 Persan
lo.7 Gre
lo.8 Arabe
lo.9 Créole
lo.10 Russe
lo.11 Français
Tab. 4.1 Liste des louteurs ave leur langue maternelle.
les deux louteurs ont haun une miro améra xée sur un asque et foalisée
sur la région des lèvres. Celles-i sont maquillées en bleue de façon à permettre
leursegmentation parlesystème développéàl'ICP[80℄présentépréédemment.Ce
orpussera donutilisépourtesterlestehniques du paragraphe4.2portantsur les
paramètreshauteuretlargeurdu ontour labial.Lesdeuxsujets étaientplaésdans
des pièesséparées de façonàpouvoirenregistrer haun d'eux dansdes onditions
ontrlées permettant d'obtenir des signaux aoustiques propres (i.e. où seul un
louteur est présent à lafois).
Les deux louteurs, dont le français est la langue maternelle, ont été plaés
dans diverses situations de dialogue spontané : devinettes, dialoguessur des sujets
fournis, jeux interatifs, et. Ces diverses situationsregroupent des silenes plus ou
moins longs(hésitations, réexions, et)des aélérations dans laonversation,des
oupuresdeparole,et.Ceorpusreprésenteuntotald'environ43minutesdeparole
spontanée soit environ 129 000 trames audiovisuelles omprenant environ 50% de
trames de silene. L'indexation manuelle des trames, entre trames de silene et les
autres,a été réalisée par DavidSodoyer.
4.4.2 Corpus Cardi
Un deuxième orpusomprenant également des silenesdans de laparole
spon-tanée a été enregistré pour notre étude lors d'un éhange PAI Alliane ave le
la-boratoire Center of Digital Signal Proessing de l'université de Cardi aux Pays
de Galles.Ce orpusest destiné àêtre utilisépour ladétetion d'ativitévoale sur
imagesnaturellesduparagraphe4.3. Ilfaitintervenir11sujetsde languematernelle
diérente(f.tableau4.1).Lors de haque enregistrement,leslouteurs étaient
pla-és seuls dansune pièeomprenantdes amérasxes enregistrantlevisage de fae
ainsiqu'une vuede té(f.gure 4.8).Dansleadredu projetTELMA(Terminal
de téléphonie à l'usage des malentendants), lavue de té doit permettre de tester
la possibilité de faire de la détetion d'ativité voale en simulant e que pourrait
enregistrer une améra xée à une oreillettelmant la zone des lèvres du louteur
(a) Vuedefae (b) Vuedeté
Fig.4.8 Exempled'enregistrementpour troislouteurs avelavuedefaeetelle
de té.
de té. Les deux améras sont des améras rewire à 30 images par seonde,
synhrones entre elles et de résolution
480 × 680
pixels. Les louteurs étaient assissur une haise devant une table sur laquelle se trouvait un éran d'ordinateur leur
donnant lesinstrutions à suivre ainsi que lestâhes à eetuer. De façonà limiter
lesmouvements de la tête les sujets avaientpour instrution de l'appuyer ontre le
murderrièreeux(etteonsigne n'ayant pastoujours étérespetéetout aulongdes
enregistrements,eux-i ne sont pas exploitablesdans leur totalité).
Pour haque sujet deux enregistrements ont été faits : le premieren langue
an-glaise et le seond dans leur langue maternelle. Chaque enregistrement omporte
deux types de tâhes dont les instrutions orrespondantes sont érites en anglais
mêmesilesujetdoitrépondredanssalanguematernelle.Lapremièretâheonsiste
àrépondreenquelquesphrasesàdesquestionsbanalestellesqueQuelest ledernier
livre que vous avez lu? ou à eetuer des opérations de alul mental omme par
exemple
111 3 − 7
× 8
. Dans la seonde tâhe, le sujet voit insrit sur l'éran unnom de ouleur (par exemple vert) érit dans une ouleur pouvant être diérente
(parexemplebleue):VERT.LesujetdoitalorsdireLemotestvert,laouleurest
bleue. Le but reherhé par es tests est simplement que lesujet ne pense plus au
faitqu'ilest enregistré de façonà e quelesattitudes etlaparole soientspontanées
etnon pas ontrlées.
Les diérenes entre e orpus etle orpus enregistré à Grenoble sont
prinipa-lementd'unepart lefaitqu'iileslèvresdes sujets ne sont pasmaquilléesen bleuet
d'autrepart quelapositionrelativede lazone des lèvres etles amérasne sontpas
xes. Cette dernière diérene est d'ailleurs à l'origine de plusieursproblèmes : les
sujets n'ayant pas néessairementgardé latêtexe, lesenregistrementsomportent
des mouvements de tête nuisibles àla détetion de l'ativité voale.
4.5 Expérimentations
Dans e paragraphe, nous présentons tout d'abord les résultats expérimentaux
de ladétetion d'ativitévoale par lemodèle audiovisuel, puis lesrésultats
expéri-mentauxde la détetion de silene purement visuelle.
4.5.1 Déteteur audiovisuel d'ativité voale
Dansunepremièreexpériene,nousprésentons lesrésultatsonernant
l'estima-tion du fateur d'amplitude (paragraphe 4.2.2). Nous onsidérons ii le orpus des
logatomes assoié au modèle audiovisuel à 12 noyaux dont les paramètres ont été
apprisparl'algorithmeEM(f.gure3.9).Pourtesterl'estimationdufateur
d'am-plitude