Combinaison en cascade - Combinaison de classificateurs

CHAPITRE 3 REVUE DE LITTÉRATURE SUR LES SYSTÈMES DE

3.3 Combinaison de classificateurs

3.3.1 Combinaison en cascade

Une combinaison en cascade est basée sur une succession de classificateurs où les sorties de chaque classificateur sont utilisées comme données d’entrée pour le classificateur suivant. L’objectif de cette architecture est la recherche de descripteurs de plus haut niveau ayant une plus grande capacité de discrimination entre les classes d’émotion. Ces traits de haut niveau sont obtenus en sortie d’un classificateur placé en amont ayant traité les descripteurs de plus bas niveau, et qui seront utilisés à leur tour par un autre classificateur subséquent. Généralement ce type d’architecture sont composées de deux à trois niveaux (classificateurs). Les deux architectures GMM- ou HMM-SVM et DNN-HMM sont deux exemples d’une telle architecture.

Dans (Dumouchel et al. 2009; Hu et al. 2007; Lefter et al. 2010), les supervecteurs sont utilisés comme traits de haut niveau afin de discriminer les émotions. Les supervecteurs sont des vecteurs obtenus après concaténation des moyennes de chaque gaussienne d’un GMM pour former un vecteur de haute dimension. Un SVM basé sur les supervecteurs offrent de meilleures performances que celles d’un GMM standard et ceci pour les deux modes d’évaluation indépendant ou dépendant du genre dans (Hu et al. 2007 et Lefter et al. 2010). L’intégration des fonctions exhaustives (sufficient statistics) du second ordre des termes de la covariance (décrivant la forme de la distribution) aux côtés des fonctions exhaustives du premier ordre (la moyenne) dans les supervecteurs a permis dans (Nwe et al. 2013) d’améliorer les performances de classification.

Dans (Chandrakala et Sekhar, 2009), un GMM est également utilisé comme modèle génératif en amont d’un classificateur de type discriminatif, un SVM en occurrence. Deux approches différentes ont été utilisées pour la classification des séries temporelles des vecteurs MFCC. Dans la première, chaque série temporelle des données d’entrainement est modélisée par un GMM. Si M est le nombre de séries de données d’entrainement, chaque énoncé est représenté par un vecteur composé de M valeurs de probabilité de vraisemblance associées aux M modèles GMM. Ces vecteurs sont soumis comme données d’entrée au SVM. Dans la deuxième approche, chaque série temporelle des données est divisée en un nombre fixe, L, de segments. Chaque segment est modélisé par un GMM. Les paramètres de chacune des gaussiennes des GMM (moyenne, covariance, pondération) d’un segment donné sont concaténés pour former un vecteur caractérisant un segment. La série temporelle est finalement modélisée par un vecteur de taille fixe composé de la concaténation des L vecteurs représentant les L segments de la série temporelle. Les vecteurs obtenus sont également modélisés par un SVM. Les résultats obtenus montrent que le système basé sur la deuxième approche où chaque segment est modélisé par une seule gaussienne avec une matrice de covariance pleine donne de meilleures performances. Par ailleurs, ces deux systèmes combinant GMM et SVM offrent des performances largement supérieures aux systèmes basés uniquement sur un seul modèle SVM ou GMM.

Dans (Ortego-Resa et al. 2009), les scores d’un système GMM-SVM (SVM entrainé avec les supervecteurs) basé sur l’information prosodique à court terme et les scores d’un second système SVM basé sur l’information prosodique à long terme sont fusionnés et entrainés avec un troisième SVM. Cette méthode de combinaison, appelée fusion de modèles d'ancrage, a permis d’améliorer significativement les performances de reconnaissance lorsque testée sur deux des trois corpus par rapport à une fusion au moyen de la règle de la

somme.

Dans (Meng et al. 2011), un système composé de trois étages a été proposé pour la classification des unités émotionnelles de type mot selon les niveaux des dimensions affectifs. Chaque étage admet comme entrées, les sorties (scores) des classificateurs de

l’étage précédent. Une combinaison de 13 classificateurs KNN (qui diffèrent dans le nombre de voisins, k) sont utilisés comme classificateurs du premier étage. En deuxième étage, un HMM discret modélisant l’information temporelle entre les différentes unités est apparié à chacun des classificateurs KNN. Les prédictions de l’ensemble des 13 classificateurs HMM sont combinées à travers un autre HMM bâti en troisième étage. Les résultats ont montré que les systèmes à trois étages modélisant l’information temporelle entre les unités d’expression affective, améliorent significativement les performances par rapport à un système à un seul étage ne tenant pas compte de cette information temporelle.

Le modèle neuro markovien profond (ou DNN-HMM, Deep Neural Network - Hidden

Markov Model) est un nouveau modèle d’architecture hybride qui a été récemment

expérimenté dans le domaine de la reconnaissance des émotions (Le et Provost, 2013; Li et

al. 2013) après avoir été testé avec succès dans le domaine de la reconnaissance de la parole.

Les réseaux de neurones profonds (DNN), sont des réseaux MLP classiques avec plusieurs couches, où l’apprentissage est généralement initialisé par un algorithme de préapprentissage. Cet ensemble de couches est capable de capturer la relation non linéaire sous-jacente entre les données. La nouveauté de cette nouvelle famille de réseaux de neurones réside dans la façon dont les couches cachées sont entrainées. L’apprentissage d’un réseau de neurones profond est réalisé en deux étapes et a été proposé dans (Bengio et al. 2007; Hinton et al. 2006). Les premières couches cachées sont entrainées de manière non supervisée en utilisant en général des machines de Boltzman restreintes (RBM, on parle alors de réseaux de croyance profonde), successivement verrouillés et empilés de l’entrée jusqu’à la dernière couche. L’estimation des poids d’une couche cachée est qualifiée de préapprentissage. La dernière couche (couche de décision) est ensuite ajoutée au réseau. Pour apprendre les paramètres de cette couche, tous les poids des couches du modèle sont déverrouillés et une rétropropagation classique est effectuée sur l’ensemble du réseau. Cette opération permet d’apprendre la fonction de décision discriminante et d’affiner les paramètres du réseau. RBM est un type de modèle graphique non orienté construit à partir d'une couche d'unités cachées stochastiques binaires et une couche d'unités visibles stochastiques avec une distribution gaussienne pour traiter les valeurs réelles des données d’entrée de la parole. Afin de rendre

un HMM plus discriminant, les mélanges de gaussiennes (GMM) des HMM sont remplacés par un réseau de neurones profond. Ainsi, le pouvoir génératif et modélisant des HMM est combiné avec la capacité discriminante d’un réseau de neurones profond (DNN). Dans (Le et Provost, 2013), 39 systèmes basés sur l’architecture DNN-HMM et qui diffèrent dans le nombre de trames à l’intérieurs des fenêtres contextuelles ainsi que le nombre d’états dans les HMM, ont été expérimentés sur le corpus FAU AIBO. Le système basé sur un seul état avec une fenêtre de 37 trames a obtenu 45.08% en termes de la moyenne non pondérée des rappels (UAR), dépassant les résultats de l’état de l’art. Dans la même étude, le meilleur résultat obtenu au moyen de la combinaison de plusieurs classificateurs DNN-HMM était de 45.60 %. Dans (Li et al. 2013), plusieurs variantes de systèmes basés sur une architecture hybride avec HMM ont été comparées. Le système DNN-HMM basé sur un pré-entrainement supervisé a obtenu de meilleures résultats comparé à un système pré-entrainé d’une manière non supervisée et a également dépassé les performances des systèmes de type shallow-NN- HMM, MLP-HMM et GMM-HMM.

Dans le document 2015 — Reconnaissance automatique des émotions spontanées à partir du signal de parole (Page 78-81)