si Π(t) est inférieure à un nouveau seuil Λ et elle est lassiée omme non-silene

sinon

Π(t) H 1

≷ H 0

Λ.

^(4.28)

La gure 4.4 montre que le hoix des paramètres d'intégration

α l

^doit ^être

onsi-déré ave attention. En eet, un hoix d'un

α

^trop ^petit ^(voir ^nul) ^onduit ^à ^une

détetion qui est sensible aux perturbations loales (petits mouvements des lèvres

pendantlessilenesouformesdes lèvresstablespendantlaparole):lesdeux lasses

silene etnon-silene sontalorslargementsuperposées(f.gure4.4(a))onduisant

à un fort taux de fausses alarmes de détetion de silene (i.e. déider silene alors

que la trame orrespondante est en réalité non-silene). Au ontraire, hoisir un

α

trop grand onduit à intégrer sur une trop longue durée : la fenêtre d'intégration

englobe àla fois des trames de silene etde non-silene, onduisant ainsi à ne plus

faire de distintion entre les deux lasses (f. gure 4.4()). Choisir un oeient

d'intégration aeptable permet de simplier la lassiation omme le montre la

gure 4.4(b).

Cependant,malgréunbonréglagede

α

^,^les^deux^lasses^silene ^et^non-silene ^ne

peuvent êtretotalement séparées.Il est impossiblede trouver un seuil

Λ

^parfait ^qui

onduirait à déteter toutes les trames de silene sans produire de fausses alarmes

de détetion desilene.Dans notreproblème de séparationde soures, onverra que

−4 −3 −2 −1 0 0

4 8 12 16

PSfrag replaements

pdf

×10 ⁴

(a) Instantané

−4 −3 −2 −1 0

0 4 8 12 16

PSfrag replaements

pdf

×10 ⁴

(b) Intégré:

α = 0, 82

−4 −3 −2 −1 0

0 4 8 12 16

PSfrag replaements

pdf

×10 ⁴

() Intégré:

α = 0, 99

Fig. 4.4 Inuene de l'intégration sur ledéteteur visueld'ativité voale.

Histo-grammes du paramètre vidéo dynamique (4.27), en éhelle logarithmique tronquée

à -4 , pour trois valeurs des oeients d'intégration

α l = α ^l

^: ^instantané ^(a),

va-leur orrete de

α = 0.82

^trames ^(b) ^et ^valeur ^trop ^grande ^de

α = 0.99

^(). ^Les

histogrammes en noirs et blans orrespondent à

Π(t)

^déni ^par ^(4.27) ^pendant

respetivement le silene etle non-silene.

l'important est de bien déteter les silenes (i.e. avoir un taux de fausses alarmes

relativementfaibles). Danse as, etommepour ledéteteuraudiovisueld'ativité

voale, nous proposons de ne retenir omme périodes de silene que les setions

omposées d'au moins

N

^trames ^onséutives individuellement détetées omme silene.

4.3.2 Déteteur visuel d'ativité voale sur images naturelles

Ledéteteurvisueldesilenequenousvenonsd'introduirefontionneàpartirdes

paramètres vidéo de largeuret hauteur internes du ontour labial qui sont extraits

parlesystèmedéveloppéàl'ICP[80℄quenousavonsdéjàévoquéauparagraphe3.1.

Bien qu'eae, e système n'en demeure pas moins lourd à mettre en ÷uvre : les

(a)

0 0.1

0.2 0.3

0.4 0

0.5 1 0

0.1 0.2

f t

f x

|G|

(b)

Fig. 4.5 Rétine artiielle. Figure 4.5(a) : shéma életrique équivalent de la

rétine d'après [67, 11℄. Figure 4.5(b) : réponse en fréquene spatio-temporelle de

G(z s , f t )

^(4.29)^où

α c = 2

β c = 0

τ c = 1

α h = 10

β h = 0

τ h = 1

une segmentation plus faile des lèvres. Ainsi, pour s'aranhirde et inonvénient

etserapproher d'un systèmeplus aisé à mettreen ÷uvre dans des onditionsplus

naturelles de prise de vue,nous allons maintenant introduire un nouveau déteteur

de silene reposant également sur le prinipe d'un paramètrage vidéo dynamique

mais exploitant diretement des images brutesde larégion des lèvres.

Réhaussement des ontours labiaux

Nousproposonsainsi de faireunedétetion du ontourlabialfondée sur le

fon-tionnement de la rétine humaine [67, 11, 18℄ en exploitant un modèle életrique

unidimensionnel de elle-i. Un teltraitement permet entre autres de réhausser les

ontours,d'atténuer lebruit spatio-temporel etles variationsde lumière.

Les photoréepteurs de la rétine humaine [88, 11℄ transforment l'intensité

lu-mineuse de l'image perçue en un potentiel életrique

i(k, t)

proportionnel à son logarithme(où

k

^est ^l'indie^du ^pixel^onsidéré ^à^l'instant

t

^).Ôn ôbtientênsuite^des

potentiels

b(k, t)

ên ^sortie ^des êllules ÔPL ^(outer ^plexiform ^layer) ^de ^la ^rétine.

Le shéma életrique équivalent modélisant le lien entre

i(k, t)

^et

b(k, t)

^est ^donné

à la gure 4.5(a) [67, 11℄. Il s'agit d'un ltre spatio-temporel non séparable dont

la fontion de transfert dans l'espae de Fourier pour sa partie temporelle et dans

l'espaede latransformée en

Z

^pour ^sa ^partie ^spatiale^est ^donnée ^par

G(z s , f t ) = B (z s , f t )

I(z _s , f _t )

où

B (z s , f t ) = T Z s { T F t { b(k, t) }}

^(resp.

I(z s , f t ) = T Z s { T F t { i(k, t) }}

⁾ ^est ^la

trans-formée en Z spatiale(notée

T Z s {·}

⁾^de ^la transformée de Fourier temporelle (notée

(a) Avanttraitement (b) Aprèstraitement

Fig. 4.6 Illustrationdu traitement eetué par larétine.

T F t {·}

⁾^de

b(k, t)

^(resp.

i(k, t)

^). ^On ^peut ^montrer ^[11℄ ^que

G(z _s , f _t ) = 1

1 + β c + α c ( − z _s ⁻¹ + 2 − z s ) + 2πf t τ c

× β _h + α _h ( − z _s ⁻¹ + 2 − z _s ) + 2πf _t τ _h 1 + β h + α h ( − z _s ⁻¹ + 2 − z s ) + 2πf t τ h

(4.29)

ave

α c = r c /R c

β c = r c /r f c

τ c = r c C c

α h = r h /R h

β h = r h /r f h

τ h = r h C h

Dans ette expression,

α h

^(resp.

α c

⁾ ^représente ^la ^onstante ^d'espae ^des ^ellules

h(k, t)

^(resp.

c(k, t)

^),

β h

^et

β c

représentent leurs onstantes de fuite et

τ h

^et

τ c

leurs onstantes de temps. La gure 4.5(b) montre sa réponse en fréquene

spatio-temporelle. On onstate que e ltre présente un omportement passe-bande

spa-tial pour les faibles fréquenes temporelles qui tend à devenir passe-bas quand la

fréquene temporelleaugmente. De façonduale,e ltrea un omportement

passe-bande temporel pour les faibles fréquenes spatiales qui tend à devenir passe-bas

quand la fréquene spatiale augmente. Une illustration du traitement eetué par

larétine est présentée àla gure4.6. Cettestruture de ltre permetun

implémen-tation rapide de la détetion de ontours [11, 18℄.

Déteteur visuel d'ativité voale sur images naturelles

Une fois le traitement rétinien de réhaussement des ontours labiaux eetué,

nous appliquons une transformée de Fourier bidimensionnelle à haque image

ré-sultante

r(t) ∈ R ^N ^u ^×N ^v

(où

N u

^et

N v

^sont respetivement le nombre de lignes et olonnes de l'image

r(t)

⁾ ^:

R uv (t) =

N X u −1 l=0

N X v −1 c=0

r lc (t) w lc e ^−2π

l ^u

Nl +c _Nc ^v

.

^(4.30)

où

w lc

^est ^la ^fenêtre ^de ^Hammingbidimensionnelle. Parla suite, onne garde quele arré du module

| R(t) | ²

^, ^où

R(t)

^est ^la ^matrierassemblant les termes

R uv (t)

^, ^an

Fig.4.7 Transformationlog-polaire d'après[19℄, haundes ovales orrespond au

ltre de Gaborlog-polaire entré sur la fréquene spatiale

f _i

^dans ^la^diretion

θ _j

dedéteter lesmouvementsdes lèvresauoursdutemps.Pour ela,nousproposons

d'eetuer une opération de dérivation temporelle :

∆R(t) = | R(t) | ² − | R(t − 1) | ² .

^(4.31)

Lefait de reouririiaumodule de latransformée de Fourier bidimensionnelle

per-met de s'aranhir largement des mouvements parasites de translations du visage

par rapport à la améra qui n'ont une inuene notable que dans la phase. Cette

opérationde dérivation temporelle est suivie d'un ltragede type passe-bande

spa-tial de façon à atténuer les eets du bruit et des variations de lumière. Pour ela,

nous eetuons une transformation log-polaire (f. gure 4.7) de

∆R(t)

^et ^nous ^ne

gardons, pour toutes les diretions

θ _i

^, ^que ^ertaines ^fréquenes ^spatiales

f _k

^e ^qui

nous donne

∆R ^F (t)

^. ^Cette transformation log-polaireest aluléeà l'aide de ltres de Gaborlog-polaires

G ik (f, θ)

^entrés ^à ^la^fréquene

f k

^dans ^la^diretion

θ i

^[64℄ ^:

G ik (f, θ) = 1 σ √

2π f _k

f 2

exp



  − ln

f f k

2 2σ ²



  cos

1 + cos(θ − θ _i ) 2

50

où

σ

^est ^un ^fateur ^d'éhelle.

Finalement, le paramètre vidéo dynamique

π(t)

^que ^nous ^allons ^utiliser ^pour

notre déteteur visuel d'ativité voale sur images naturelles est déni omme la

moyennesur leslignes et lesolonnes de

∆R ^F (t)

π(t) = 1

N u

1 N v

N X u −1 u=0

N X v −1 v=0

∆R ^F _uv (t).

^(4.32)

Le déteteur visuel de silene sur images naturelles lasse alors omme silene la

trame àl'instant

t

^si

π(t)

êst înférieur^à ûn ^seuil

λ

^et^omme ^non-silene ^sinon ^:

π(t)

H 1

≷ H 0

λ.

^(4.33)

Ilestégalementpossibledereouriràuneintégrationtemporelledefaçonàaméliorer

les performanes du déteteur

Π(t) =

T −1

X

n=0

α _l π(t − n) H 1

≷ H 0

Λ

^(4.34)

où ommepréédemment les

α l

^sont^les^oeients^d'un ^ltre ^passe-bas ^de ^réponse

impulsionnelleinnie du premierordre (

α l = α ^l

^).

Nousrésumonsleprinipeglobaldudéteteurvisueld'ativitévoalesurimages

naturelles dans l'algorithme 2.

Algorithme 2 Déteteur visueld'ativité voale sur image naturelle.

Pour tous les indiestemporels

t

^faire

/Réhaussement des ontours par ltrage rétinien/

Calul de

r(t)

^obtenue ^par ^le^ltrage ^(4.29)

/Calul du paramètre vidéo dynamique/

Calul de la transformée de Fourierbi-dimensionellede

r(t)

^(4.30)

Dérivation temporelle de

R(t)

^par ^(4.31)

Filtrage spatialpar transformation log-polairepour obtenir

∆R ^F (t)

Calul du paramètre dynamique instantané

π(t)

^par ^(4.32)

/Equation de déision/

Intégrer l'équationde déision par (4.34)

Finboule

4.4 Corpus

Les deux orpus présentés au hapitre 3 présentent l'intérêt d'être bien

ontr-lés et de bien représenter la rihesse audiovisuelle de la parole. Cependant, ils ne

ontiennent pasde périodes naturellesde silene pendant lesquellesleslouteursne

parlent pas. Pour ette raison, nous onsidérons dans ette partie deux nouveaux

orpusomportantdiérentslouteurs en interation. Nousavons utilisé d'unepart

un orpus enregistré à l'ICP au début de notre étude ave David Sodoyer et

Jean-Lu Shwartz (que nous appellerons orpus Grenoble) et d'autre part un orpus

que nous avons enregistré ave Andrew Aubrey et Yulia Hiks à Cardi dans le

laboratoireCenter of Digital Signal Proessing dirigé par le professeur Jonathon

Chambersdel'universitédeCardiauxPaysdeGalles(quenousappelleronsorpus

Cardi).

4.4.1 Corpus Grenoble

Ce orpus a été enregistré à l'ICP ave des moyens audiovisuels ommuns au

LIS et à l'ICP. L'enregistrement a été supervisé par David Sodoyer et Christophe

Savariaux.Lagure3.2page52montre lemontageutilisépour etenregistrement:

Nom Langue maternelle

lo.1 Cantonnais

lo.2 Cantonnais

lo.3 Mandarin

lo.4 Mandarin

lo.5 Indien

lo.6 Persan

lo.7 Gre

lo.8 Arabe

lo.9 Créole

lo.10 Russe

lo.11 Français

Tab. 4.1 Liste des louteurs ave leur langue maternelle.

les deux louteurs ont haun une miro améra xée sur un asque et foalisée

sur la région des lèvres. Celles-i sont maquillées en bleue de façon à permettre

leursegmentation parlesystème développéàl'ICP[80℄présentépréédemment.Ce

orpussera donutilisépourtesterlestehniques du paragraphe4.2portantsur les

paramètreshauteuretlargeurdu ontour labial.Lesdeuxsujets étaientplaésdans

des pièesséparées de façonàpouvoirenregistrer haun d'eux dansdes onditions

ontrlées permettant d'obtenir des signaux aoustiques propres (i.e. où seul un

louteur est présent à lafois).

Les deux louteurs, dont le français est la langue maternelle, ont été plaés

dans diverses situations de dialogue spontané : devinettes, dialoguessur des sujets

fournis, jeux interatifs, et. Ces diverses situationsregroupent des silenes plus ou

moins longs(hésitations, réexions, et)des aélérations dans laonversation,des

oupuresdeparole,et.Ceorpusreprésenteuntotald'environ43minutesdeparole

spontanée soit environ 129 000 trames audiovisuelles omprenant environ 50% de

trames de silene. L'indexation manuelle des trames, entre trames de silene et les

autres,a été réalisée par DavidSodoyer.

4.4.2 Corpus Cardi

Un deuxième orpusomprenant également des silenesdans de laparole

spon-tanée a été enregistré pour notre étude lors d'un éhange PAI Alliane ave le

la-boratoire Center of Digital Signal Proessing de l'université de Cardi aux Pays

de Galles.Ce orpusest destiné àêtre utilisépour ladétetion d'ativitévoale sur

imagesnaturellesduparagraphe4.3. Ilfaitintervenir11sujetsde languematernelle

diérente(f.tableau4.1).Lors de haque enregistrement,leslouteurs étaient

pla-és seuls dansune pièeomprenantdes amérasxes enregistrantlevisage de fae

ainsiqu'une vuede té(f.gure 4.8).Dansleadredu projetTELMA(Terminal

de téléphonie à l'usage des malentendants), lavue de té doit permettre de tester

la possibilité de faire de la détetion d'ativité voale en simulant e que pourrait

enregistrer une améra xée à une oreillettelmant la zone des lèvres du louteur

(a) Vuedefae (b) Vuedeté

Fig.4.8 Exempled'enregistrementpour troislouteurs avelavuedefaeetelle

de té.

de té. Les deux améras sont des améras rewire à 30 images par seonde,

synhrones entre elles et de résolution

480 × 680

^pixels. ^Les ^louteurs ^étaient ^assis

sur une haise devant une table sur laquelle se trouvait un éran d'ordinateur leur

donnant lesinstrutions à suivre ainsi que lestâhes à eetuer. De façonà limiter

lesmouvements de la tête les sujets avaientpour instrution de l'appuyer ontre le

murderrièreeux(etteonsigne n'ayant pastoujours étérespetéetout aulongdes

enregistrements,eux-i ne sont pas exploitablesdans leur totalité).

Pour haque sujet deux enregistrements ont été faits : le premieren langue

an-glaise et le seond dans leur langue maternelle. Chaque enregistrement omporte

deux types de tâhes dont les instrutions orrespondantes sont érites en anglais

mêmesilesujetdoitrépondredanssalanguematernelle.Lapremièretâheonsiste

àrépondreenquelquesphrasesàdesquestionsbanalestellesqueQuelest ledernier

livre que vous avez lu? ou à eetuer des opérations de alul mental omme par

exemple

111 3 − 7

× 8

^. ^Dans ^la ^seonde ^tâhe, ^le ^sujet ^voit ^insrit ^sur ^l'éran ^un

nom de ouleur (par exemple vert) érit dans une ouleur pouvant être diérente

(parexemplebleue):VERT.LesujetdoitalorsdireLemotestvert,laouleurest

bleue. Le but reherhé par es tests est simplement que lesujet ne pense plus au

faitqu'ilest enregistré de façonà e quelesattitudes etlaparole soientspontanées

etnon pas ontrlées.

Les diérenes entre e orpus etle orpus enregistré à Grenoble sont

prinipa-lementd'unepart lefaitqu'iileslèvresdes sujets ne sont pasmaquilléesen bleuet

d'autrepart quelapositionrelativede lazone des lèvres etles amérasne sontpas

xes. Cette dernière diérene est d'ailleurs à l'origine de plusieursproblèmes : les

sujets n'ayant pas néessairementgardé latêtexe, lesenregistrementsomportent

des mouvements de tête nuisibles àla détetion de l'ativité voale.

4.5 Expérimentations

Dans e paragraphe, nous présentons tout d'abord les résultats expérimentaux

de ladétetion d'ativitévoale par lemodèle audiovisuel, puis lesrésultats

expéri-mentauxde la détetion de silene purement visuelle.

4.5.1 Déteteur audiovisuel d'ativité voale

Dansunepremièreexpériene,nousprésentons lesrésultatsonernant

l'estima-tion du fateur d'amplitude (paragraphe 4.2.2). Nous onsidérons ii le orpus des

logatomes assoié au modèle audiovisuel à 12 noyaux dont les paramètres ont été

apprisparl'algorithmeEM(f.gure3.9).Pourtesterl'estimationdufateur

d'am-plitude

α(t) ˆ

^par l'algorithmeitératif (4.15a),nous séletionnonsparmileorpusdes logatomes, le logatome [a℄ qui déni ainsi le signal

s(t) = p

Dans le document La bimodalité de la parole au secours de la séparation de sources. ~ Association Francophone de la Communication Parlée (Page 101-109)

si Π(t) est inférieure à un nouveau seuil Λ et elle est lassiée omme non-silene

Π(t) H 1

≷ H 0

Λ.

α l

α

α

α

Λ

−4 −3 −2 −1 0 0

4 8 12 16

×10 4

−4 −3 −2 −1 0

0 4 8 12 16

×10 4

α = 0, 82

−4 −3 −2 −1 0

0 4 8 12 16

×10 4

α = 0, 99

α l = α l

α = 0.82

α = 0.99

Π(t)

N

0 0.1

0.2 0.3

0.4 0

0.5

1 0

0.1 0.2

f t

f x

|G|

G(z s , f t )

α c = 2

β c = 0

τ c = 1

α h = 10

β h = 0

τ h = 1

i(k, t)

k

t

b(k, t)

i(k, t)

b(k, t)

Z

G(z s , f t ) = B (z s , f t )

I(z s , f t )

B (z s , f t ) = T Z s { T F t { b(k, t) }}

I(z s , f t ) = T Z s { T F t { i(k, t) }}

T Z s {·}

T F t {·}

b(k, t)

i(k, t)

G(z s , f t ) = 1

1 + β c + α c ( − z s −1 + 2 − z s ) + 2πf t τ c

× β h + α h ( − z s −1 + 2 − z s ) + 2πf t τ h 1 + β h + α h ( − z s −1 + 2 − z s ) + 2πf t τ h

α c = r c /R c

β c = r c /r f c

τ c = r c C c

α h = r h /R h

β h = r h /r f h

τ h = r h C h

α h

α c

h(k, t)

c(k, t)

β h

β c

τ h

τ c

r(t) ∈ R N u ×N v

N u

N v

r(t)

R uv (t) =

N X u −1 l=0

N X v −1 c=0

×10 ⁴

×10 ⁴

×10 ⁴

α l = α ^l

I(z _s , f _t )

G(z _s , f _t ) = 1

1 + β c + α c ( − z _s ⁻¹ + 2 − z s ) + 2πf t τ c

× β _h + α _h ( − z _s ⁻¹ + 2 − z _s ) + 2πf _t τ _h 1 + β h + α h ( − z _s ⁻¹ + 2 − z s ) + 2πf t τ h

r(t) ∈ R ^N ^u ^×N ^v

r lc (t) w lc e ^−2π

l ^u

Nl +c _Nc ^v

| R(t) | ²

f _i

θ _j

∆R(t) = | R(t) | ² − | R(t − 1) | ² .

θ _i

f _k

∆R ^F (t)

2π f _k

2σ ²

1 + cos(θ − θ _i ) 2

∆R ^F (t)

∆R ^F _uv (t).

α _l π(t − n) H 1

α l = α ^l

∆R ^F (t)