• Aucun résultat trouvé

Architecture du système proposé pour la REF dynamique

L’approche proposée est basée essentiellement sur des probabilités a postériori. Alors,

puisque le classifieur SVM classique, utilisé dans le chapitre précédent, ne prédit que

l’étiquette de la classe sans information de probabilité, dans ce chapitre, nous utilisons le

SVM étendu qui peut estimer la probabilité [227]. Étant donnékclasses de données, pour

toute imagexde la séquence de test où x∈ {1, ...,t}avec t est le nombre d’images de la

séquence de test, nous obtenons la probabilité px jcontre leskclasses,

px j=P(y= j|x),j=1, ...,k. (4.1)

En se basant sur les probabilités estimées en appliquant SVM [227] sur chaque imagexde

la séquence de test, nous pouvons extraire un vecteur de décision correspondant à chaque

utilisé. Comme expliqué ci-dessus, cette approche a été évaluée sous différents contextes

d’expérimentation : séquences d’images de la même personne, ensemble d’images issus de

différents points de vue de la même personne ou ensemble d’images contenant différentes

personnes. Le traitement effectué pour construire l’ensemble d’apprentissage et l’ensemble

de test dépend du contexte d’expérimentation.

4.2.1 Ensemble d’apprentissage

Traitement à effectuer lors du premier contexte : une séquence d’images de la même

personne. Parmi toutes les images de chaque séquence, nous choisissons seulement les

images les plus adéquates pour former le modèle d’apprentissage. Bien évidemment, ces

images doivent bien représenter les expressions faciales. En effet, selon les créateurs de

la base CK+, seulement la dernière image de chaque séquence est codée par un expert en

utilisant le système FACS. A cet égard, nous choisissons les trois dernières images de chaque

séquence pour constituer l’ensemble d’apprentissage.

Traitement à effectuer lors du deuxième et troisième contextes : ensemble d’images

issus de différents points de vue de la même personne ou ensemble d’images contenant

différentes personnes. En ce qui concerne le deuxième contexte, le cas multi-vue, les

images sont statiques et chaque vue correspond à une image représentant le pic de

l’expres-sion. En effet, les images de différents points de vue sont utilisées pour former l’ensemble

d’apprentissage.

Le jeu de données considéré dans le troisième contexte est le même que celui utilisé dans

le chapitre précédent. Nous rappelons que ce dernier a été consacré à la REF statique, c’est

à dire que la construction des jeux de données est basée seulement sur les images apex qui

représentent le pic de l’expression.

4.2.2 Ensemble de test

Traitement à effectuer lors du premier contexte : une séquence d’images de la même

personne. Étant donnée une séquence de test avec t nombre d’images, nous définissons

V(x)comme vecteur de décision correspondant à l’imagex. Ce vecteur est composé des

sorties du SVM. Chaque valeur de ce vecteur de décision est une probabilité px jque l’image

xappartient à la jemeclasse oùx∈ {1, . . . ,t}et j∈ {1, . . . ,k},kétant le nombre de classes.

Sachant que la séquence de test utilisée commence par le segment temporel "neutre" et finit

par le segment temporel "apex", les probabilités de la classe dominante auront probablement

des valeurs croissantes du premier vecteur de décision au dernier vecteur de la séquence.

En effet, pour chaque vecteurV(x), nous cherchons la probabilité maximale et la classe j

correspondante. Ensuite, nous calculons la différence entre la valeur de cette probabilité

maximale et la moyenne des probabilités correspondant à la même classe jdes trois derniers

vecteurs de la séquence représentant le pic de l’expression. La différence est calculée comme

suit :

di f f(px) = px

t

y=t−2py j

3 , (4.2)

Nous pouvons aussi faire l’analyse en considérant la différence entre la valeur de la probabilité

maximale et le produit des probabilités correspondant à la classe jdes trois derniers vecteurs

de la séquence représentant le pic de l’expression. Cette différence s’exprime comme suit :

di f f(px) =px

t

y=t−2

py j

, (4.3)

px=max(px j); x∈ {1, ...,t}et j=1, . . . ,k.

Dans les sections 4.3.2 et 4.3.3, nous étudierons l’impact du choix du calcul de la différence

di f f(px) sur la REF. Selon la différence calculée par Eq. 4.2 (ou Eq. 4.3), une décision

doit être faite pour garder le vecteurV(x)ou l’éliminer de la séquence de test. Alors, si la

différence est inférieure à un certain seuilS(le seuil est défini expérimentalement dans les

sections 4.3.2 et 4.3.3), le vecteurV(x)est accepté. Sinon, le vecteurV(x)est rejeté. Dans le

dernier cas, nous considérons que la probabilité de la classe dominante ja considérablement

baissé dans les derniers vecteurs de décision de la séquence de test. Cela signifie que la

classe j n’est plus considérée comme dominante pour les images représentant le pic de

l’expression. Cette étape fournit une information très importante : la classe d’expression la

plus probable à laquelle appartient la séquence de test (Voir l’exemple de mise en œuvre

Figure 4.8).

Le but final est d’assigner une classe à une multi-observation (sous-ensemble d’images).

SoientEr la nouvelle séquence de test formée grâce aux vecteurs de décisionsV(x)

sélection-nés en utilisant Eq. 4.2 (ou Eq. 4.3), etLle nombre d’éléments deEr. Avant de commencer

le processus d’affectation d’une classe à la nouvelle séquence Er, nous allons regrouper

les images de cette séquence en plusieurs sous-ensembles. Chaque sous-ensemble contient

un nombreRd’observations. Le nombreR d’observations doit être inférieur ou égal àL,

sinon il faut alimenter l’ensembleEr en utilisant les vecteurs de décisions éliminés

de décisions de l’ensembleEepar ordre croissant des différences calculées par Eq. 4.2 (ou

Eq. 4.3). Puis, nous récupérons les (R−L) premiers vecteurs de décisions. Le nombreCde

sous-ensembles à considérer dans la suite du processus vaut le nombre de combinaisons deR

observations parmiL(C=CLR). L’utilisation de toutes les combinaisons possibles permet de

ne pas manquer des observations et des informations pertinentes favorisant la reconnaissance

des émotions. La figure 4.2 présente le logigramme de REF d’une séquence d’images.

Traitement à effectuer lors du deuxième et troisième contextes : ensemble d’images

issus de différents points de vue de la même personne ou ensemble d’images contenant

différentes personnes. Ce cas correspond au cas de REF statique. Il est à noter que les

images constituant l’ensemble de test sont toutes des images apex représentant différents

point de vue (même personne) ou différentes personnes (vue frontale) respectivement dans le

deuxième et le troisième contexte. Nous précisons que le but derrière le troisième contexte

d’expérimentation est de mesurer la performance de l’approche proposée lorsqu’il s’agit

de la REF avec plusieurs personnes différentes. Après l’extraction des caractéristiques des

images apex et l’obtention du vecteur de décision de chaque image en utilisant le classifieur

SVM, les images sont regroupées en sous-ensembles comme expliqué ci-dessus (sans l’étape

basée sur le vecteur de décision). Le nombreCde sous-ensembles à considérer dans la suite

du processus vaut le nombre de combinaisons deRobservations parmit(C=CtR),t étant le

nombre d’images de l’ensemble initial à tester (pour lequel on cherche à assigner une classe).

L’idée derrière l’utilisation de toutes les combinaisons possibles est de considérer toutes les

personnes/vues (selon le contexte d’expérimentation utilisé) dans le processus de REF.

Le reste du processus est le même pour les trois contextes d’expérimentation.

4.2.3 Stratégies proposées pour la REF

Étant donné un sous-ensemble d’images avec un nombreRd’observations, la matrice des

probabilités peut être définie comme suit :

Mp=

kclasses

←−−−−−−−−−→

p11 · · · p1k

..

. . .. ...

pR1 · · · pRk

x

y

Rimages (4.4)

oùkdénote le nombre d’expressions (nombre de classes) et pi j est la probabilité que laieme

Récupération des images pertinentes La génération des sous-ensembles

de test

Début

SVM

Pour chaque

V(x) dans V

sélectionner la probabilité

maximale px dans V(x)

Oui

Eq 4.2 (ou 4.3)<S

Ajouter x dans l'en

semble récupéré Er

Ajouter x dans l'en

semble éliminé Ee

Oui Non

Card(Er) < Nombre

d'observation R

Non

Générer les sous-ensembles,

les combinaisons de R

observations parmi Card(Er)

Non

Application de l'une des cinq

stratégies proposées sur

chaque Mp

Former la matrice des probabilités

Mp de chaque combinaison

Récupérer (R- Card(Er))

premiers vecteurs de décisions

Oui

Ajouter les vecteurs dans Er

Oui

Fin

Séquence V avec t

vecteurs de décision

Reconnaissance des expressions

faciales

Séquence de test avec t nombre

d'images

Trier les vecteurs de l'ensemble

Ee par ordre croissant des

différences calculées par Eq 4.2

(ou 4.3)