• Aucun résultat trouvé

Référence

Positive (C1) Negative(C2)

Hypothèse Positive (C1) vrai positive (T P) faux positive (F P) T P+F P Négative (C2) faux négative (F N) vrai négative (T N) F N+T N

T P+F N F P +T N

colonnes représentent le nombre d’exemples d’une classe réelle (référence) [Gi-rard et Gi[Gi-rard,1999].

Le tableau 2.4 montre une matrice de confusion d’un problème de classi-fication binaire. Cette matrice permet d’estimer les séquences de motherese correctement détectées (positifs) mais également d’affiner l’évaluation de la précision du système (faux positifs FP et faux négatifsFN).

1. T P est le nombre d’exemples positifs classés comme positifs 2. F P est le nombre d’exemples négatifs et classés comme positifs 3. T N est l’ensemble d’exemples négatifs classés comme négatifs 4. F N est l’ensemble d’exemples positifs et classés comme négatifs

Toujours à partir de la matrice de confusion (tableau 2.4), plusieurs mé-triques combinent les résultats précédents pour former l’exactitude (accuracy), la sensibilité et la spécificité :

Exactitude= T N +T P

T N +F N +F P +T P (2.40) Sensibilit´e= T P

F N +T P =T P R (2.41) Sp´ecif icit´e= T N

F P +T N = 1−F P R (2.42) L’exactitude est le nombre de prédictions justes rapportées au nombre total de prédictions, la spécificité représente le taux de classement corrects de la classeC1(motherese), tandis que la sensibilité représente le taux de classement corrects de la classe C2 (non motherese).

2.8.1.3 Graphes ROC

Pour évaluer les performances du système, nous traçons également la courbe ROC (Receiver Operating Characteristic) [Duda et al., 2000]. La courbe ROC représente le compromis entre le taux de vrais positifs (TPR) et le taux de faux positifs (FPR) dans un espaceROC.TPRetFPRcaractérisent l’espace ROC.

2.8. Expérimentations 77

1

0.75

0.5

0.25

0.25 0.5 0.75 1

C C’

A

B parfait

TPR ou sensitivité

FPR ou (1-spécificité) Bonne classification

Mauvaise classification

Fig. 2.13 – EspaceROC

Espace ROC Un espace ROC est défini par FPR (les abscisses) et TPR (les ordonnées), voir la figure 2.13. Puisque TPR est égale à sensibilité et FPR est égale à (1 - spécificité), l’espace ROC est représenté également par la sensibilité en fonction de (1 - spécificité).

La ligne diagonale divise l’espaceROC en deux zones. Les points au-dessus de la ligne diagonale indiquent des bons résultats de classification, tandis que les points au-dessous de la ligne indiquent les mauvais résultats.

Courbe ROC La courbeROC est avant tout définie pour les problèmes à deux classes (les positifs et les négatifs), elle indique la capacité d’un classifieur à placer les positifs devant les négatifs. Sa construction s’appuie donc sur les probabilités d’être positif fournies par les classifieurs. Cependant, il n’est pas nécessaire que ce soit réellement une probabilité, une valeur quelconque dite

“score" permettant d’ordonner les exemples suffit amplement. Ensuite, on fait varier la valeur du seuil de la mesure, pour chacune de ces variations on calcule la sensibilité et la spécificité du test au seuil fixé, chaque valeur du seuil est associé à un couple (sensibilité, spécificité) que l’on reporte dans l’espaceROC (cf. voir la figure 2.14).

Un classifieur avec un fort pouvoir discriminant occupera la partie supé-rieure gauche du graphique, voir la figure 2.15. Tandis qu’un classifieur avec un pouvoir discriminant moins puissant montrera une courbeROC qui

s’apla-Parole normale

Motherese négatif Seuil S positif

0 0.5 1

probabilité p

Fig. 2.14 – Détection du motherese : classes et seuil

tira vers la première diagonale du graphique. On peut utiliser la courbe pour décider quel est le seuil portant le meilleur compromis entre sensibilité et spé-cificité. Il s’agira du seuil où la courbe ROC montre un point d’inflexion (C index), voir la figure 2.15. On peut aussi comparer deux courbes ROC pour mettre en évidence quel est le test qui possède le meilleur pouvoir discrimi-nant. Ce sera le test qui aura la courbeROC la plus creuse, courbe verte dans la figure 2.15.

Aire sous courbe ROC (AUC) L’aire sous la courbeROC est également une information pertinente et est notée AUC (Area Under ROC curve). Plus AUC est proche de 1 meilleur est le système. L’AUC peut être considerée comme la somme des aires de trapèzes dans l’espace ROC et se calcule de la manière suivante :

AU C = (Y(i) +Y(i+ 1))×(X(i+ 1)−X(i))

2 (2.43)

où X sont les abscisses et Y ordonnées, i représente l’indice des points et N est le nombre des points.

2.8. Expérimentations 79

0

0 0.2 0.4 0.6 0.8 1

sensibilité

0.4 0.6 0.8 1

0.2

1- spécificité Seuil =0.2

Seuil =0.4 Seuil =0.6

C index = 0.8 C index = 0.55

Fig.2.15 – Courbe ROC

2.8.2 Résultats

2.8.2.1 Corpus d’étude

La base de données a été annotée par deux annotateurs selon la méthode décrite dans la section 2.7.1. La fidélité inter-juge entre les deux annotations est égale à Cohen’skappa=0.82. Selon le tableau2.2, cela représente un accord fort entre les annotateurs. A partir de cette annotation, nous avons sélectionné 500 segments qui sont identiquement annoté par les deux annotateurs, 250 segments motherese et 250 segments non motherese, la durée moyenne des segments est de 0.5 à 4 secondes. La durée totale des segments de parole est de 15 minutes. La figure2.16montre la distribution des segments demotherese et de non motherese.

Les exemples sont extraits sur des périodes différentes. La figure 2.17 montre la distribution de données par semestre. Ces segments sont issus de 7 dyades mère-enfant. Le nombre de locuteurs est donc de 7. De plus, les productions de parole des mères sont assez variantes car les enregistrements sont faits durant 2 ans (étude longitudinale). Cela justifie l’indépendance en locuteur. Cependant, notre application est dépendante du genre, nous traitons uniquement la voix de la mère. Les performances des classifieurs sont estimées par la méthode de 10-folds cross validation.

d<0.5 0.5<d<1 1<d<1.5 1.5<d<2 2<d<2.5 2.5<d<3 3<d<3.5 3.5<d<4 d>4 0

10 20 30 40 50 60 70 80

d:durée en seconde

Nombre d’exemples

motherese non motherese

Fig. 2.16 – Distribution de données

2.8.2.2 Descripteurs acoustiques pour la caractérisation du mothe-rese

Les différentes caractéristiques présentées ci-dessus ont été utilisées en tant que caractéristiques acoustiques du contenu émotionnel. D’abord, l’extraction de caractéristiques cepstrales ou segmentales est effectuée comme le montre la figure 2.18, la taille des trames est de 1024 échantillons (64 ms), l’entrela-cement est de 512 échantillons (32 ms). La fréquence d’échantillonnage est de 16000Hz. La dimension du codage est définie à 16. Après la phase de codage, nous obtenons une matrice de dimension 16×M, qui représente l’ensemble des caractéristiques segmentales, M étant le nombre de trames.

Pour analyser les caractéristiques supra-segmentales, il y a deux mé-thodes : l’approche turn-level et l’approche segment-based. La première mé-thode consiste à représenter le segment par un seul vecteur de caractéristique.

On représente ainsi l’évolution générale des paramètres prosodiques sur la to-talité du segment de parole. En utilisant cette méthode, nous obtenons un seul vecteur de caractéristique de dimension 6, où 6 est le nombre de statis-tiques appliquées sur les valeurs du pitch et d’énergie du segment étudié (la moyenne, la variance et l’étendue). La deuxième méthode considère unique-ment les zones voisées du signal de parole. Supposons qu’un exemple x est

2.8. Expérimentations 81

1 2 3

0 50 100 150 200 250

période en semestre

nombre d’exemples

nombre d’exemples de non−motherese nombre d’exemples de motherese nombre total d’exemples

Fig. 2.17 – Distribution de données par semestre

segmenté en plusieurs zones voisées Fx. Pour chaque partie, la caractéristique supra-segmentale est composée par les six mesures statistiques du pitch et de l’énergie suivant : la moyenne, la variance et l’étendue. Trois mesures sont utilisées pour décrire le contour du pitch, et trois pour l’énergie. Enfin, nous obtenons une matrice de dimension 6×N,N est le nombre de zones voisées.

Aussi, la dimension de la matrice dépend du nombre de zones voisées. La classification des caractéristiques supra-segmentales, basées uniquement sur les zones voisées, suit l’approcheSBA(segment based approach) proposée par Shami et Kamel [2005], voir la figure 2.19. Pour chaque segment de parole x, la probabilité à posteriori est estimée à partir des probabilités locales des N zones voisées Fx :

Psupra(Cn|x) =

N

X

i=1

Psupra(Cn|Fxi)×length(Fxi) (2.44)

où length(Fxi) représente la durée de chaque zone voisée. Ensuite, la proba-bilité globale est normalisée par la durée des zones voisées :

Psupra(Cn|x) = 1

PN

i=1length(Fxi)Psupra(Cn|x) (2.45) Les descripteurs précédents sont normalisés (moyenne nulle et écart-type unitaire) selon la formule suivante (z-normalisation) [Truong et van Leeuwen, 2007] :

x = (Fx−µ)/σ (2.46)

Fx est un vecteur caractéristique segmental ou suprasegmental, µ est la moyenne de tous les codes et σ est l’écart-type.

Fig. 2.18 – Codage MFCC de la parole

Tab. 2.5 – Processus d’optimisation du classifieur GMM avec les