• Aucun résultat trouvé

CHAPITRE 3 REVUE DE LITTÉRATURE SUR LES SYSTÈMES DE

3.2 Travaux basés sur des classificateurs simples

3.2.1 Travaux selon le type d’unité d’analyse

Un critère que nous pouvons examiner pour la classification des systèmes de RAE est le type d'unité d'analyse utilisée dans la reconnaissance des émotions. L’unité d’analyse représente le segment de données de base extrait d’un énoncé et soumis au classificateur pour déterminer sa catégorie d’émotion. Dans les travaux réalisés à ce jour, sept types d’unités ont été expérimentés :

Énoncé : l’unité d'analyse sur laquelle est basée la plupart des travaux. Les vecteurs de traits de la totalité de l'énoncé sont extraits et soumis en une seule entrée au classificateur pour déterminer la catégorie de l'émotion. Parmi les travaux qui se sont basés sur cette unité, citons (Beritelli et al. 2006; El Ayadi et al. 2007; Grimm et Kroschel, 2005; Inanoglu et Caneel, 2005; Li et al. 2007; Lin et Wei, 2005; Pao et al. 2005; Petrushin, 2000; Seppänen et

al. 2003; Sethu et al. 2007; Vlasenko et al. 2007).

Mot : l’unité d’analyse mot a été testée et comparée avec les performances d’un système basé sur l’unité énoncé (Rotaru et Litman, 2005; Schuller et al. 2007a). D’après les résultats obtenus dans (Schuller et al. 2007a), l’unité mot est préférable à l’énoncé à condition qu’un système efficace de segmentation par mot soit disponible. L’étude réalisée dans (Rotaru et Litman, 2005) montre également une amélioration dans la prédiction en utilisant l’unité mot et ce particulièrement en présence de longs tours de parole. Rao et Koolagudi (2012) ont montré que les mots en position finale sont plus discriminants que les mots en début ou en milieu de phrase, aboutissant ainsi à une conclusion similaire à celle observée pour les syllabes.

Phonème : le phonème représente la plus petite unité de son d'une langue. Le choix de cette unité est motivé par l'hypothèse que l’état émotionnel d’un locuteur affecte les phonèmes d’un énoncé avec différentes intensités. L'énoncé est alors segmenté en phonèmes et chaque classe de phonèmes est modélisée séparément. Afin de vérifier cette hypothèse, Lee et ses collègues (Lee et al. 2004) ont réalisé deux expériences; dans la première, un classificateur

HMM (Hidden Markov Model ou modèles de Markov cachés) émotionnel générique est utilisé. Ce classificateur est entraîné en utilisant les données d'apprentissage de toutes les classes de phonèmes. Dans la deuxième expérience, des HMM par classe de phonèmes sont expérimentés. Le taux de reconnaissance obtenu avec le modèle HMM générique est de 64,77 % alors que les résultats pour les modèles HMM par classe de phonèmes sont respectivement de 72,16 %, 54,86 %, 47,43 %, 44,89 % et 55,11 % pour les classes voyelles, semi-voyelles, nasales, consonnes occlusives et fricatives. Les résultats d’une classification basée sur la combinaison des modèles des cinq classes de phonèmes atteignent 75,57 %. Ces résultats montrent d’une part que les classes des phonèmes ne véhiculent pas, dans les mêmes proportions, la même charge émotionnelle. Les voyelles sont émotionnellement plus saillantes que les autres classes. D’autre part, une classification basée sur une modélisation par classe de phonèmes offre de meilleures performances que la classification à partir d’un modèle générique. Dans (Bitouk et al. 2010), les traits à long terme Les types prosodique et spectral (MFCC) ont été modélisés séparément au niveau énoncé et phonème, donnant quatre classificateurs au total. Les phonèmes ont été regroupés en trois catégories : consonnes, voyelles accentuées (stressed vowels) et voyelles non accentuées. Les traits des trois classes de phonèmes ont été combinés pour constituer un seul vecteur de traits à l’échelle de l’énoncé. Chacun des systèmes est testé sur deux corpus de données avec les machines à vecteurs de support (Support Vector Machine, SVM) comme classificateur. Les résultats obtenus montrent que les performances du système basé sur l’information spectrale extraite à l’échelle des classes de phonèmes dépassent significativement les performances des trois autres systèmes (systèmes basés sur l’information : spectrale à l’échelle de l’énoncé, prosodique à échelle de phonèmes ou de l’énoncé) et ceci pour les deux corpus de données utilisés. La comparaison des performances à l’intérieur des trois groupes de phonèmes montrent que le classificateur basé sur l’information spectrale contenu dans la classe consonne performent significativement mieux comparée aux deux autres classes pour un des deux corpus, alors que la classes des voyelles accentuées performent légèrement mieux pour le second corpus. Dans (Koolagudi et Krothapalli, 2012), les segments de parole sont divisés en trois catégories : consonne, voyelle et région de transition comprise entre la consonne et la voyelle constituant un mot. Les performances du classificateur entrainé avec les données

extraites de la région de transition dépassent largement celles des classificateurs basés sur les segments de types voyelles ou consonnes et obtiennent des résultats comparables au classificateur entrainé avec toutes les données de parole.

Syllabe : pour la même raison ayant conduit à l’expérimentation de l’unité phonème, Schuller et ses collègues ont procédé à une segmentation de l'énoncé basée sur l’unité syllabe (Schuller et al. 2007b). Les performances du système basé sur l’unité syllabique sont inférieures à celles de l’énoncé. Dans (Rao et Koolagudi, 2012), les syllabes ont été divisées en trois groupes syllabes de début, du milieu et de fin selon leurs positions dans un mot. La comparaison des performances des systèmes basés sur chacune de ces groupes, montre que les syllabes en position finale contiennent plus d’information discriminante comparée aux autres positions.

Pseudo-syllabe : les pseudo-syllabes représentent le résultat d’une segmentation du contour de la fréquence fondamentale (F0) guidée par les points minima locaux du contour de l’énergie. Une pseudo-syllabe peut correspondre à plusieurs syllabes ou à une partie d'une syllabe. Les informations à long terme de la prosodie et des formants calculées sous forme de coefficients de Legendre ont été extraites pour chaque pseudo-syllabe et modélisées par un GMM dans (Attabi, 2009; et Dumouchel et al. 2009).

Fragment : l'autre unité d'analyse expérimentée est le fragment. L'énoncé est segmenté automatiquement en fragments, en fonction des propriétés acoustiques de l'énoncé (Schuller

et al. 2007b). Les résultats obtenus sur le corpus de données utilisé montrent que les

performances du système basé sur l'unité fragment sont meilleures que celles obtenues avec l'unité syllabe, mais restent en deçà de celles de l'énoncé.

Région voisée / non voisée : dans (Shami et Kamel, 2005), l’énoncé est divisé en une séquence de N segments voisés guidée par le contour de la fréquence fondamentale. Un vecteur de trait est extrait pour chaque région voisée. La classification au niveau de l’énoncé est réalisée en calculant la somme des probabilités a postériori calculées pour chaque région

voisée. Les vecteurs de traits, composés des valeurs statistiques de F0, l’énergie, durée et les MFCC sont modelés en utilisant les classificateurs SVM et KNN. Les performances obtenues au niveau énoncé étaient meilleures que celles obtenues au niveau des segments voisés, alors que la combinaison des traits des deux niveaux permettait d’améliorer encore plus les performances.