Architecture du système proposé pour la REF dynamique

Oui ^Non

Architecture du système proposé pour la REF dynamique

L’approche proposée est basée essentiellement sur des probabilités a postériori. Alors,

puisque le classifieur SVM classique, utilisé dans le chapitre précédent, ne prédit que

l’étiquette de la classe sans information de probabilité, dans ce chapitre, nous utilisons le

SVM étendu qui peut estimer la probabilité [227]. Étant donnékclasses de données, pour

toute imagexde la séquence de test où x∈ {1, ...,t}avec t est le nombre d’images de la

séquence de test, nous obtenons la probabilité px jcontre leskclasses,

px j=P(y= j|x),j=1, ...,k. (4.1)

En se basant sur les probabilités estimées en appliquant SVM [227] sur chaque imagexde

la séquence de test, nous pouvons extraire un vecteur de décision correspondant à chaque

utilisé. Comme expliqué ci-dessus, cette approche a été évaluée sous différents contextes

d’expérimentation : séquences d’images de la même personne, ensemble d’images issus de

différents points de vue de la même personne ou ensemble d’images contenant différentes

personnes. Le traitement effectué pour construire l’ensemble d’apprentissage et l’ensemble

de test dépend du contexte d’expérimentation.

4.2.1 Ensemble d’apprentissage

Traitement à effectuer lors du premier contexte : une séquence d’images de la même

personne. Parmi toutes les images de chaque séquence, nous choisissons seulement les

images les plus adéquates pour former le modèle d’apprentissage. Bien évidemment, ces

images doivent bien représenter les expressions faciales. En effet, selon les créateurs de

la base CK+, seulement la dernière image de chaque séquence est codée par un expert en

utilisant le système FACS. A cet égard, nous choisissons les trois dernières images de chaque

séquence pour constituer l’ensemble d’apprentissage.

Traitement à effectuer lors du deuxième et troisième contextes : ensemble d’images

issus de différents points de vue de la même personne ou ensemble d’images contenant

différentes personnes. En ce qui concerne le deuxième contexte, le cas multi-vue, les

images sont statiques et chaque vue correspond à une image représentant le pic de

l’expres-sion. En effet, les images de différents points de vue sont utilisées pour former l’ensemble

d’apprentissage.

Le jeu de données considéré dans le troisième contexte est le même que celui utilisé dans

le chapitre précédent. Nous rappelons que ce dernier a été consacré à la REF statique, c’est

à dire que la construction des jeux de données est basée seulement sur les images apex qui

représentent le pic de l’expression.

4.2.2 Ensemble de test

Traitement à effectuer lors du premier contexte : une séquence d’images de la même

personne. Étant donnée une séquence de test avec t nombre d’images, nous définissons

V(x)comme vecteur de décision correspondant à l’imagex. Ce vecteur est composé des

sorties du SVM. Chaque valeur de ce vecteur de décision est une probabilité px jque l’image

xappartient à la jemeclasse oùx∈ {1, . . . ,t}et j∈ {1, . . . ,k},kétant le nombre de classes.

Sachant que la séquence de test utilisée commence par le segment temporel "neutre" et finit

par le segment temporel "apex", les probabilités de la classe dominante auront probablement

des valeurs croissantes du premier vecteur de décision au dernier vecteur de la séquence.

En effet, pour chaque vecteurV(x), nous cherchons la probabilité maximale et la classe j∗

correspondante. Ensuite, nous calculons la différence entre la valeur de cette probabilité

maximale et la moyenne des probabilités correspondant à la même classe j∗des trois derniers

vecteurs de la séquence représentant le pic de l’expression. La différence est calculée comme

suit :

di f f(px) = px−∑

t

y=t−2py j

3 , (4.2)

Nous pouvons aussi faire l’analyse en considérant la différence entre la valeur de la probabilité

maximale et le produit des probabilités correspondant à la classe j∗des trois derniers vecteurs

de la séquence représentant le pic de l’expression. Cette différence s’exprime comme suit :

di f f(px) =px−

t

∏

y=t−2

py j

, (4.3)

où

px=max(px j); x∈ {1, ...,t}et j=1, . . . ,k.

Dans les sections 4.3.2 et 4.3.3, nous étudierons l’impact du choix du calcul de la différence

di f f(px) sur la REF. Selon la différence calculée par Eq. 4.2 (ou Eq. 4.3), une décision

doit être faite pour garder le vecteurV(x)ou l’éliminer de la séquence de test. Alors, si la

différence est inférieure à un certain seuilS(le seuil est défini expérimentalement dans les

sections 4.3.2 et 4.3.3), le vecteurV(x)est accepté. Sinon, le vecteurV(x)est rejeté. Dans le

dernier cas, nous considérons que la probabilité de la classe dominante j∗a considérablement

baissé dans les derniers vecteurs de décision de la séquence de test. Cela signifie que la

classe j∗ n’est plus considérée comme dominante pour les images représentant le pic de

l’expression. Cette étape fournit une information très importante : la classe d’expression la

plus probable à laquelle appartient la séquence de test (Voir l’exemple de mise en œuvre

Figure 4.8).

Le but final est d’assigner une classe à une multi-observation (sous-ensemble d’images).

SoientEr la nouvelle séquence de test formée grâce aux vecteurs de décisionsV(x)

sélection-nés en utilisant Eq. 4.2 (ou Eq. 4.3), etLle nombre d’éléments deEr. Avant de commencer

le processus d’affectation d’une classe à la nouvelle séquence Er, nous allons regrouper

les images de cette séquence en plusieurs sous-ensembles. Chaque sous-ensemble contient

un nombreRd’observations. Le nombreR d’observations doit être inférieur ou égal àL,

sinon il faut alimenter l’ensembleEr en utilisant les vecteurs de décisions éliminés

séquence de test, nous obtenons la probabilité p_{x j}contre leskclasses,

p_{x j}=P(y= j|x),j=1, ...,k. (4.1)

sorties du SVM. Chaque valeur de ce vecteur de décision est une probabilité p_{x j}que l’image

xappartient à la j^emeclasse oùx∈ {1, . . . ,t}et j∈ {1, . . . ,k},kétant le nombre de classes.

En effet, pour chaque vecteurV(x), nous cherchons la probabilité maximale et la classe j^∗

maximale et la moyenne des probabilités correspondant à la même classe j^∗des trois derniers

di f f(p_x) = p_x−^∑

y=t−2p_{y j}

maximale et le produit des probabilités correspondant à la classe j^∗des trois derniers vecteurs

di f f(p_x) =p_x−

p_{y j}

p_x=max(p_{x j}); x∈ {1, ...,t}et j=1, . . . ,k.

di f f(p_x) sur la REF. Selon la différence calculée par Eq. 4.2 (ou Eq. 4.3), une décision

dernier cas, nous considérons que la probabilité de la classe dominante j^∗a considérablement

classe j^∗ n’est plus considérée comme dominante pour les images représentant le pic de

SoientE_r la nouvelle séquence de test formée grâce aux vecteurs de décisionsV(x)

sélection-nés en utilisant Eq. 4.2 (ou Eq. 4.3), etLle nombre d’éléments deE_r. Avant de commencer

le processus d’affectation d’une classe à la nouvelle séquence E_r, nous allons regrouper

sinon il faut alimenter l’ensembleE_r en utilisant les vecteurs de décisions éliminés

de décisions de l’ensembleE_epar ordre croissant des différences calculées par Eq. 4.2 (ou

observations parmiL(C=C_L^R). L’utilisation de toutes les combinaisons possibles permet de

du processus vaut le nombre de combinaisons deRobservations parmit(C=C_t^R),t étant le

M_p=

p₁₁ · · · p₁_k

. . .. .._.

p_R₁ · · · p_Rk

oùkdénote le nombre d’expressions (nombre de classes) et p_{i j} est la probabilité que lai^eme

Récupération des images pertinentes ^{La génération des sous-ensembles}