• Aucun résultat trouvé

CHAPITRE 3 REVUE DE LITTÉRATURE SUR LES SYSTÈMES DE

3.3 Combinaison de classificateurs

3.3.3 Combinaison parallèle

La combinaison de plusieurs classificateurs, connue sous le nom de combinaison parallèle, est efficace quand le groupe de classificateurs est très diversifié et est négativement dépendants, c.-à-d., les erreurs sont commises sur des objets fortement différents (Kuncheva

et al. 2000). Contrairement au bagging ou au boosting, où la diversité est basée sur les

différentes instances d'apprentissage, la diversité peut également être obtenue en choisissant différents sous-ensembles de caractéristiques pour chaque membre du groupe des classificateurs. Afin de simplifier la présentation des travaux, nous proposons une organisation selon la motivation recherchée derrière cette stratégie de combinaison. Nous proposons d'utiliser les quatre critères déjà utilisés pour la présentation des travaux basés sur un classificateur simple.

3.3.3.1 Diversification dans les types de traits

Dans (Fu et al. 2008), quatre classificateurs HMM basés sur différents ensembles de traits (incluant information prosodique et spectrale) ont été combinés en utilisant une nouvelle variante du vote classé (ranked voting) appelée vote d’ordre pondéré (weighted order voting). Les HMM sont basés sur des modèles discrets gauche-droite. Un taux de reconnaissance de 57,8 % a été obtenu après fusion alors que celui du meilleur système HMM pris individuellement est de 40,5 %. Les expériences ont été évaluées en utilisant la base de données Beihang University Mandarin Emotion Speech, un corpus d’émotion simulée.

3.3.3.2 Diversification dans la portée temporelle de l’information acoustique

Dans (Rao et Koolagudi, 2012), la combinaison de l’information prosodique à court terme avec l’information prosodique à long terme extraites au niveau de la phrase a permis de réaliser un gain relatif de 2,52 %. Dans la même étude, la combinaison du même type d’information extraite cette fois-ci sur les échelles d’unité mot et syllabe a également amélioré les résultats de classification.

3.3.3.3 Diversification des unités d’analyse

La combinaison des traits extraits à différents niveaux (trame, syllabe et mot) permet d’améliorer les performances comparées au meilleur système n’utilisant qu’un ou deux types d’unités seulement quand appliquée à la langue chinoise (Mandarin), (Kao et Lee, 2006). Dans (Clavel et al. 2006), l’information extraite de la région voisée est combinée avec l’information de la région non-voisée au niveau des scores de décision. Les résultats obtenus montrent que l’apport des régions non-voisées n’est significatif que si les segments classés sont totalement non-voisés ce qui met en évidence le pouvoir discriminatif des régions voisées par rapport aux régions non-voisées.

3.3.3.4 Diversification des unités d’analyses et des types de descripteurs

Dans (Bitouk et al. 2010), l’information spectrale extraite au niveau du phonème et l’information prosodique extraite au niveau de l’énoncé ont été combinées en un seul vecteur de traits (fusion précoce). Les résultats obtenus montrent un gain relatif de 3 % pour le premier corpus et une baisse relative de l’ordre de 1 % pour le second corpus comparés au système basé sur l’information spectrale à l’échelle du phonème.

3.3.3.5 Diversification des modèles de classification

Dans (Pao et al. 2007) des vecteurs de traits composés des descripteurs MFCC, LPCC et LPC ont été utilisés pour construire différents modèles de classificateurs; KNN, KNN

Weighted (WKNN), Weighted Discrete KNN (W-DKNN), Weighted Average Patterns of Categorical, KNN (WCAP), et SVM. La combinaison des classificateurs en utilisant les

règles du vote majoritaire ou du maximum a permis d’améliorer le taux de classification du meilleur classificateur (W-DKNN en occurrence) de 0,9 % à 6,5 %. Chacun des classificateurs peut mieux reconnaitre certaines classes d’émotions que d’autres classificateurs.

3.3.3.6 Diversification des types et portées de traits, d’unités d’analyse et de modèles de classification

Dans (Hu et al. 2007), l’information à long-terme de la prosodie et de la qualité de la voix est combinée avec l’information spectrale (MFCC) à court terme. Le système basé sur l’information à long-terme est basé sur le classificateur SVM. L’information à court terme est modelé par un GMM pour extraire un supervecteur formé de la valeur moyenne de chaque gaussienne. Les supervecteurs sont utilisés comme entrée pour le classificateur SVM. Les performances du système basé sur l’information à court terme (82,5 %) étaient supérieures à celles du système à long terme (79,2 %). La combinaison des deux systèmes permet de réduire le taux d’erreur du meilleur système de 25,6%, 23 % et 22,9 % pour les femmes, hommes et indépendant du genre respectivement. Dans (Lefter et al. 2010), quatre classificateurs ont été combinés en utilisant la régression logistique linéaire. Il s’agit d’un SVM basé sur l’information prosodique à long terme, un deuxième classificateur UBM- GMM basé sur les traits acoustiques à court terme (Relative Spectral Perceptual Linear

Predictive, RASTA PLP), un troisième classificateur basé sur les supervecteurs modélisés

avec un SVM et enfin un quatrième classificateur connu sous le nom «dot-scoring» (qui est une approximation linéaire d’un UBM-GMM). Le taux d’erreur a été réduit à 4,2 % alors que le taux d’erreur du meilleur classificateur était de 15,5 %. Dans (Vlasenko et al. 2007), l’information spectrale (MFCC) à court terme est modélisée avec un GMM. Les probabilités de vraisemblance des énoncées obtenues avec le modèles GMM sont combinées avec les traits à long terme de type prosodique, spectral et qualité de la voix pour former un seul vecteur de traits utilisé comme vecteur d’entrée à un SVM. Les résultats obtenus montrent que la combinaison des scores du modèle GMM aux autres traits permettait d’apporter des gains relatifs de l’ordre de 8,1 % pour le corpus EMODB et 0,6 % pour le corpus SUSAS.

Dans (Dumouchel et al. 2009), les scores de trois systèmes basés sur différentes propriétés ont été testés sur le corpus FAU AIBO Emotion. Le premier système utilise l’information spectrale à court terme modélisé avec un GMM. Dans le deuxième système, l’information prosodique à l’échelle de l’unité pseudosyllabe a été modélisée à travers un modèle GMM-

UBM. Un SVM basé sur les supervecteurs a été utilisé comme troisième système. Les trois systèmes ont été combinés en utilisant la régression logistique. Les résultats obtenus après fusion a permis d’améliorer légèrement les résultats du meilleur système individuel (le premier système). Dans (Kim, Georgiou et al. 2007), l’information spectrale à court-terme modélisée avec un GMM a été combinée avec l’information prosodique à long-terme modélisée avec l’algorithme kNN. La fusion des scores des deux systèmes a aussi permis une réduction du taux d’erreur du système de détection des émotions en temps réel.