Détection des émotions dans le signal acoustique

CHAPITRE 3. TRAVAUX SUR LA RECONNAISSANCE DE L’EMOTION

c c c c c c y c

Détection des émotions dans le signal acoustique

CHAPITRE 3. TRAVAUX SUR LA RECONNAISSANCE DE L’EMOTION

3.3. A PPROCHES DANS LA RECONNAISSANCE DES EMOTIONS

3.3.3. Détection des émotions dans le signal acoustique

Le deuxième composant de base et indispensable de la communication orale est le contenu

non-verbal. Celui-ci correspond à la façon dont le message a été prononcé et il porte divers types

d'informations. Si nous ne considérons que la partie verbale comme dans la section précédente,

nous pouvons manquer des aspects importants de la communication et même mal comprendre le

message. Contrairement à la reconnaissance de la parole qui a connu des avancées significatives

dans ces dernières décennies, la reconnaissance des émotions contenues dans la parole n’a fait

l’objet de recherches importantes que ces dernières années [Bosh 2000].

Dans cette partie, nous passerons en revue les principales études ainsi que leurs résultats portant

sur la reconnaissance des émotions. Celles-ci utilisent le même genre de caractéristiques que

celles qui sont les plus fréquemment utilisées dans le domaine de la reconnaissance de la parole.

Elles utilisent des techniques de classification comme les modèles de Markov cachés (HMM),

les réseaux neuronaux artificiels (NN), l’analyse discriminante linéaire (LDA), les K plus

proches voisins (KNN) et les machines à vecteurs de support (SVM).

Comme précédemment présenté, dans la littérature les techniques ou les modèles utilisés pour la

reconnaissance en général, et de l’émotion en particulier, peuvent être divisés en deux

catégories :

• les techniques « statiques » qui capturent des caractéristiques statistiques du signal

comme : les K plus proche voisins (KNN), la quantification vectorielle (VQ), le modèle

de mélange des gaussiennes (GMM) ;

• les techniques « dynamiques » qui capturent aussi des caractéristiques temporelles du

signal comme : les réseaux neuronaux (NN), les modèles de Markov cachés (HMM), la

programmation dynamique DTW (Dynamic Time Warping en anglais) etc.

Les modèles statiques peuvent utiliser ou non la fonction de densité de probabilité (pdf)

(probability density function en anglais).

Etant donné y = (y

, y

,…, y

) le vecteur contenant des caractéristiques extraites d’un échantillon

e de la collection où D est le nombre des caractéristiques.

Selon la classification de Bayes, un échantillon eest assigné à une classe Ωc* si :

* arg max

{ (

|

) (

)}

c =

P y Ω P Ω (3.1)

Où C est le nombre de classes, P(y|Ωc) est la densité de probabilité de yétant donné la classe Ωc

et P(Ωc) est la probabilité à priori de la classe Ωc (par exemple un état émotionnel). P(Ωc)

représente donc la connaissance que nous avons sur la classe d’un échantillon avant la mesure

du vecteur de cet échantillon.

Il y a plusieurs méthodes pour modéliser P(y|Ωc). Par exemple le modèle de gaussienne ou le

modèle de mélange des gaussiennes (GMM) supposent que les vecteurs y du signal d’entrée

appartenant à Ωc sont distribués selon une distribution gaussienne. L’expression (3.2) montre la

fonction gaussienne multi-variable simple :

1

( ) ( )

2

/ 2 1/ 2

( | ) ( , , )

(2 ) | det( ) |

y y

c c c D

c

e

P y g y

µ µ

µ π

− − Σ − 

 

 

Ω = Σ =

∑ (3.2)

où µ

et Σc sont respectivement le vecteur moyen et la matrice de covariance, det est le

déterminant de cette matrice.

Dans le cas où la distribution des données est inconnue, la méthode dite des fenêtres de Parzen

permet d’estimer la fonction pdf d’une variable aléatoire :

Pour chaque classe Ωc, il y a un ensemble d’échantillons associés T

= { e

; 1≤c≤C}. Étant

donnés ces échantillons, l’estimation par des fenêtres de Parzen permet d’extrapoler des données

pour d’autres valeurs P(y

) de y

. L’idée de cette méthode est : il est certain que P(y

|Ωc) ≠ 0

c c c _D

µ _π

₋ ₋ _Σ ₋ 

^où^y

^{est le vecteur des caractéristiques d’un échantillon}^e

^{ne soit pas nul. Plus on s’éloigne du}^y

^{, moins nous}

^{. Etant donnée d(}^y

^ξ