• Aucun résultat trouvé

2.5 Représentation robuste multi-vues

2.5.3 Expériences

Comme pour les travaux présentés dans la partie 2.3 sur la comparaison de méthodes de représentation de documents, nous avons utilisé la tâche d’identification de la thématique prin-cipale de conversations téléphoniques humains-humains du corpus DECODA (voir partie 2.2). Cette tâche d’identification peut être vue comme une tâche de classification parmi 8 classes.

Dans le cadre de ce manuscrit, nous reportons les résultats que nous avons obtenus en compactant des espaces de thèmes au moyen de l’approche c-vecteur en faisant varier seulement l’hyper-paramètre du nombre de thèmes dans ces espaces. Le lecteur intéressé pourra se reporter aux travaux que nous avons présentés dans [Morchid et al., 2014a] pour des expériences plus complètes sur la variation des hyper-paramètres de l’approche LDA, à savoir α et β, mais également dans [Morchid et al., 2015a], qui présente de façon plus détaillée les approches et hyper-paramètres, et applique l’étude sur une autre tâche de classification (Reuters-21578). Nous avons alors proposé de faire varier ce nombre de thèmes de 5 à 504 avec un pas de 1, permettant d’obtenir 500 espaces de thèmes différents, composant alors les vues multiples des documents (ici, des conversations) qui y sont projetés. Nous avions choisi ce nombre de vues (500) en imaginant alors qu’il était assez important pour avoir une quantité suffisante de données et d’informations différentes contenues dans chacune d’entre elles, que la représentation compacte

c-vecteur pourrait capter.

Un ensemble de mots a été extrait pour chacune des 8 thématiques du corpus DECODA. Tous les mots sélectionnés sont ensuite fusionnés, en gardant les mots uniques, afin d’obtenir un

2.5. Représentation robuste multi-vues

vocabulaire V de taille 166 dans nos expériences. Comme précédemment, les espaces de thèmes ont été créés avec l’implémentation LDA Mallet [McCallum,2002].

Enfin, une thématique est associée automatiquement pour chaque conversation (i.e. le c-vecteur) du corpus de test au moyen de la distance de Mahalanobis [Morchid et al.,2015a].

Résultats

Dans un premier temps, nous avons cherché à évaluer individuellement les 500 espaces de thèmes créés en faisant varier le nombre de thèmes, comme nous le rapportons dans la figure 2.5.

Précision (%)

Nombre de thèmes Nombre de thèmes

5 70 200 300 400 505 40 60 80 100 Max = 88,6 Min = 61,1 D´eveloppement 0.002 0.19 0.4 0.6 0.8 1 40 60 80 100 Max = 91.4 Min = 77.7 Mean = 85.3

(c)Varying ↵ with the Development set

0.0002 0.02 0.04 0.06 0.08 0.094 40 60 80 100 Max = 90.3 Min = 76.0Mean = 83.0

(e)Varying with the Development set

5 49 100 200 300 400 505 40 60 80 100 Max = 83,8 Min = 61,7 Test 0.002 0.2 0.42 0.6 0.89 1 40 60 80 100 Max = 86.2 Min = 75.2 Mean = 81.6

(d)Varying ↵ with the Test set

0.00020.010.02 0.043 0.06 0.08 0.1 40 60 80 100 Max = 83.8 Min = 73.4Mean = 78.9

(f)Varying with the Test set

Figure 1: Classification accuracies (%) using various topic-based configurations (baseline TbT) on the

development and test sets from DECODA corpus. X-axis represents the varying parameter: the number

of classes q contained into the topic space (a) - (b), ↵ (c) - (d), and (e) - (f).

Steyvers, 2004) in the topic space r during the

learning process of the topic space and the

infer-ence process respectively.

2.3 C-vector space

The multi-view representation of each class in a

large number of hidden spaces may cause large

discrepancies in the accuracy of class

identi-fication when different hidden space sizes are

used. Initially introduced for speaker

recogni-tion, i-vectors (Kenny et al., 2008) have

be-come very popular in the field of speech

pro-cessing, language recognition (Mart´ınez et al.,

2011) and theme identification of automatic

tran-scriptions (Morchid et al., 2014b; Morchid et al.,

2014a). I-vector is an elegant way to reduce

di-mensions while retaining most of the relevant

in-formation not contained in the initial

representa-tion. The proposed approach derives i-vectors to

model document representation through each topic

model in a homogeneous vocabulary space. These

short segments are considered as basic

semantic-based representation units. Indeed, vector y

d

rep-resents a segment or a session of the document d.

In the following, (d, r) will indicate the

represen-tation of d in the topic space r. In our model, the

segment super-vector m

(d,r)

of d knowing a topic

space r is modeled:

m

(d,r)

= m +Tx

(d,r)

(1)

where m is the mean super-vector of the Universal

Background Model

1

(UBM) and is constructed by

1

The UBM or UBM-GMM, is a GMM that represents all

concatenating the means of all the Gaussians in the

UBM, T is the total variability matrix, and x

(d,r)

contains the coordinates of the topic-based

repre-sentation of the document in the reduced total

vari-ability space called c-vector (c for classification).

3 Experiments

The proposed c-vector representation is evaluated

in the context of the theme identification of manual

transcriptions of human-human telephone

conver-sations (RATP Paris transportation care system)

from the DECODA project (Bechet et al., 2012).

500 different topic models were elaborated for

each of the 3 LDA hyper-parameters (see

Sec-tion 2.1). A set of |V | specific words is

identi-fied for each theme. All the selected words are

then merged without repetition to compose V of

size 166. The topic spaces are made with the LDA

Mallet Java implementation

2

.

Figure 1 presents the optimal theme classification

performance obtained on the development and test

sets using various topic-based configurations with

the EFR normalization algorithm (our baseline is

labeled by TbT).

First, we can see that this baseline approach

reaches the best classification accuracies when

varying the parameter ↵ with classification

accu-racies of 91.4% and 86.2% respectively on the dev.

and test sets. Then, the variation of the

param-eter obtains the second best accuracy in terms

of theme identification with 90.3% and 83.8% on

the dev. and test sets. We can point out that these

5 70 200 300 400 505 40 60 80 100 Max = 88,6 Min = 61,1 D´eveloppement 0.002 0.19 0.4 0.6 0.8 1 40 60 80 100 Max = 91.4 Min = 77.7 Mean = 85.3

(c)Varying ↵ with the Development set

0.0002 0.02 0.04 0.06 0.08 0.094 40 60 80 100 Max = 90.3 Min = 76.0Mean = 83.0

(e)Varying with the Development set

5 49 100 200 300 400 505 40 60 80 100 Max = 83,8 Min = 61,7 Test 0.002 0.2 0.42 0.6 0.89 1 40 60 80 100 Max = 86.2 Min = 75.2 Mean = 81.6

(d)Varying ↵ with the Test set

0.00020.010.02 0.043 0.06 0.08 0.1 40 60 80 100 Max = 83.8 Min = 73.4Mean = 78.9

(f)Varying with the Test set

Figure 1: Classification accuracies (%) using various topic-based configurations (baseline TbT) on the

development and test sets from DECODA corpus. X-axis represents the varying parameter: the number

of classes q contained into the topic space (a) - (b), ↵ (c) - (d), and (e) - (f).

Steyvers, 2004) in the topic space r during the

learning process of the topic space and the

infer-ence process respectively.

2.3 C-vector space

The multi-view representation of each class in a

large number of hidden spaces may cause large

discrepancies in the accuracy of class

identi-fication when different hidden space sizes are

used. Initially introduced for speaker

recogni-tion, i-vectors (Kenny et al., 2008) have

be-come very popular in the field of speech

pro-cessing, language recognition (Mart´ınez et al.,

2011) and theme identification of automatic

tran-scriptions (Morchid et al., 2014b; Morchid et al.,

2014a). I-vector is an elegant way to reduce

di-mensions while retaining most of the relevant

in-formation not contained in the initial

representa-tion. The proposed approach derives i-vectors to

model document representation through each topic

model in a homogeneous vocabulary space. These

short segments are considered as basic

semantic-based representation units. Indeed, vector y

d

rep-resents a segment or a session of the document d.

In the following, (d, r) will indicate the

represen-tation of d in the topic space r. In our model, the

segment super-vector m

(d,r)

of d knowing a topic

space r is modeled:

m

(d,r)

= m +Tx

(d,r)

(1)

where m is the mean super-vector of the Universal

Background Model

1

(UBM) and is constructed by

1

The UBM or UBM-GMM, is a GMM that represents all

the possible observations.

concatenating the means of all the Gaussians in the

UBM, T is the total variability matrix, and x

(d,r)

contains the coordinates of the topic-based

repre-sentation of the document in the reduced total

vari-ability space called c-vector (c for classification).

3 Experiments

The proposed c-vector representation is evaluated

in the context of the theme identification of manual

transcriptions of human-human telephone

conver-sations (RATP Paris transportation care system)

from the DECODA project (Bechet et al., 2012).

500 different topic models were elaborated for

each of the 3 LDA hyper-parameters (see

Sec-tion 2.1). A set of |V | specific words is

identi-fied for each theme. All the selected words are

then merged without repetition to compose V of

size 166. The topic spaces are made with the LDA

Mallet Java implementation

2

.

Figure 1 presents the optimal theme classification

performance obtained on the development and test

sets using various topic-based configurations with

the EFR normalization algorithm (our baseline is

labeled by TbT).

First, we can see that this baseline approach

reaches the best classification accuracies when

varying the parameter ↵ with classification

accu-racies of 91.4% and 86.2% respectively on the dev.

and test sets. Then, the variation of the

param-eter obtains the second best accuracy in terms

of theme identification with 90.3% and 83.8% on

the dev. and test sets. We can point out that these

2

http://mallet.cs.umass.edu/

Figure 2.5 – Précisions (%) sur la tâche de classification en thématiques de conversations sur les corpus de développement et de test en faisant varier le nombre de thèmes de l’approche LDA. Les performances maximales (Max) et minimales (Min) sont fournies.

Comme nous l’avions vu dans la partie 2.4.2, les représentations obtenues au moyen de l’approche LDA ont tendance à donner des performances très fluctuantes sur notre tâche de classification lorsque l’on change, même un peu, les hyper-paramètres des espaces (des résultats identiques ont été obtenus en faisant varier les paramètres α et β [Morchid et al., 2015a]). De même, l’écart entre la performance maximale et minimale qu’il est possible d’obtenir apparaît très grand (sur le corpus de développement, cette différence est de 27,5 points de précision, sur le test, 22,1 points). Ces résultats ont ainsi justifié l’idée de l’approche c-vecteur proposée, de par la difficulté de trouver les hyper-paramètres optimaux pour un espace de thèmes.

Le tableau 2.3 présente les précisions obtenues sur les corpus de développement et de test avec l’approche c-vecteur en faisant varier la taille des c-vecteurs mais également la taille des gaussiennes du GMM-UBM. Nous avons alors pu observer un gain entre l’approche classique avec un seul espace de thèmes (figure 2.5) et les performances reportées avec l’approche c-vecteur dans le tableau 2.3. Ainsi, dans le corpus de développement, la performance maximale passe de 88,6 % à 92 %, et, si l’on se reporte aux performances maximales possibles dans le test, nous passons d’une précision de 83,8 % à 89,3 %. Nous avons également pu observer une variabilité

moindre au niveau des résultats en faisant varier les paramètres des c-vecteurs : l’écart entre la performance minimale et maximale atteint, avec les c-vecteurs, 7,4 points sur le développement (contre 27,5 points précédemment) et 3,7 points sur le test (contre 22,1 points). L’approche

c-vecteur a donc clairement montré son avantage, profitant des informations provenant de vues

multiples, en comparaison avec l’utilisation d’une vue simple sur laquelle les hyper-paramètres ont été optimisés. Outre un gain en performance, l’instabilité au niveau des résultats en faisant varier les hyper-paramètres n’est plus observée (ou tout du moins plus aussi fortement).

Taille Développement Test

des Nombre de gaussiennes du GMM-UBM

c-vecteurs 64 128 256 512 64 128 256 512 60 89,7 89,7 90,3 90,3 88,0 89,6 88,4 88,0 80 87,4 89,7 89,1 90,3 87,5 89,0 89,3 87,8 100 84,6 89,1 92,0 89,7 88,0 91,7 89,3 87,5 120 86,3 86,9 89,1 90,9 87,8 88,7 86,2 89,3 140 85,1 86,3 89,1 88,6 85,6 86,5 86,2 87,8

Tableau 2.3 – Précisions (%) sur la tâche de classification en thématiques de conversations sur les corpus de développement et de test en faisant varier la taille des c-vecteurs et le nombre de gaussiennes du GMM-UBM.

2.6 Conclusion

Dans le cadre de ce chapitre, nous nous sommes intéressés à la robustesse de la représentation des documents, en nous concentrant sur une représentation par espaces de thèmes au moyen de l’approche LDA. Dans la première partie, nous avons alors comparé cette représentation avec une approche classique de représentation de documents, qui se focalise simplement au niveau du contenu textuel (ici, les mots) avec l’approche TF-IDF. Cette comparaison a été réalisée sur la tâche d’identification de la thématique principale de conversations entre humains issues du corpus DECODA. Plusieurs difficultés avaient été identifiées avant l’étude, et ont motivé le choix des espaces de thèmes : l’utilisation de transcriptions automatiques très bruitées (i.e. de nombreuses erreurs de transcription couplées à des conversations dans un registre de langue non standard au niveau linguistique) ainsi que la possible présence de thématiques secondaires multiples. Comme attendu, les performances obtenues au moyen de l’approche LDA, en projetant le document dans un espace de dimension de plus haut niveau, surpassent clairement celles atteintes avec l’approche TF-IDF [Morchid et al.,2014e,d]. Cette étude préliminaire a permis d’identifier une des limites des approches par espace de thèmes, à savoir le choix des hyper-paramètres des modèles.

représen-2.6. Conclusion

tation i-vecteur en reconnaissance automatique du locuteur. L’idée des c-vecteurs est d’utiliser de très nombreux espaces de thèmes pour un même document en faisant varier les hyper-paramètres, permettant d’obtenir de multiples vues de celui-ci. Au final, un seul vecteur de caractéristiques du document est obtenu en compactant ces différentes vues, l’objectif étant de tirer profit de l’in-formation pertinente de chaque vue (et donc d’enlever la variabilité nuisible inhérente à chacune d’entre elles). Les résultats atteints ont montré l’intérêt de cette approche, rendant la représen-tation plus robuste aux variations des hyper-paramètres, tout en améliorant les performances de classification [Morchid et al.,2014a,2015a].

Ces différentes études concluent cette première partie sur la robustesse de la représentation de mots et de documents dans le cadre de documents écrits et parlés (transcriptions automa-tiques). Il semble assez clair que, lorsque les documents apparaissent très bruités, des approches projetant les mots dans des espaces de plus haut niveau, que ce soit par exemple au travers d’ap-proches par plongement de mots ou d’espaces de thèmes, permettent d’avoir des représentations plus robustes. Dans les travaux de ce chapitre, se focalisant sur l’utilisation de transcriptions automatiques ayant de très nombreuses erreurs de reconnaissance, nous avons néanmoins pu ob-server des performances de classification très élevées, oscillant entre 80 et 90 % de précision alors même que les taux d’erreur-mot (WER) globaux pouvaient atteindre les 50 %. Clairement, il semble qu’il y ait un décalage entre la métrique du WER, qui est censée refléter la qualité d’une transcription automatique, et les performances que l’on peut obtenir en utilisant ces transcrip-tions en entrée d’autres tâches. Nous présentons alors, tout d’abord dans le chapitre 3, l’étude que nous avons faite entre taux d’erreur-mot et performance de classification automatique. Puis, nous nous intéressons aux travaux que nous avons menés sur la détection et caractérisation d’erreurs de transcription ciblées dans le chapitre 4. Nous terminons enfin cette seconde partie par les travaux entrepris sur l’évaluation des systèmes de transcription et le besoin de dépasser cette métrique du WER pour rendre compte de la qualité des transcriptions (chapitre 5).

Deuxième partie

Performance et évaluation en

traitement du langage

Chapitre 3

E

RREURS DE TRANSCRIPTION ET IMPACT

SUR LES PERFORMANCES DE

CLASSIFICATION

Sommaire

3.1 Introduction . . . . 61 3.2 Le taux d’erreur-mot (WER) . . . . 63

3.2.1 Formule . . . . 63 3.2.2 Avantages et limites . . . . 63

3.3 Protocole expérimental . . . . 64 3.4 Étude sur les mots pertinents . . . . 65

3.4.1 Extraction des mots pertinents . . . . 65 3.4.2 Analyse . . . . 66

3.5 Sélection de mots pour l’apprentissage de modèles . . . . 67

3.5.1 Qualité des modèles . . . . 68 3.5.2 Performance de classification . . . . 69

3.6 Conclusion . . . . 70

3.1 Introduction

Nous avons pu constater, dans les premiers chapitres de ce manuscrit regroupés au sein de la partie I, que le traitement de documents textuels n’est une tâche ni simple, ni résolue. Les erreurs orthographiques, grammaticales et/ou linguistiques sont autant de problèmes qui rendent l’exploitation automatique des textes difficile. Lorsque l’on doit traiter des transcriptions automatiques issues de documents parlés, ces problèmes apparaissent d’autant plus fortement que le langage oral revêt des spécificités qui lui sont propres, en particulier sur de la parole dite spontanée [Dufour, 2008] : disfluences dans le discours (pauses, troncations, répétitions, hésitations...), agrammaticalité, état émotionnel du locuteur... Face à ces problèmes, en plus des erreurs commises par les locuteurs eux-mêmes, les systèmes de reconnaissance automatique

de la parole (RAP) peuvent avoir des difficultés à traiter correctement certaines portions de parole, ce qui a pour effet de produire également des erreurs de transcription. Or, de nombreuses applications s’appuient, en entrée, sur ces transcriptions automatiques pour réaliser une tâche (indexation automatique, extraction d’information, classification de documents...). En partant du principe que des erreurs réalisées par les humains ou par les systèmes de RAP seront toujours présentes dans les transcriptions automatiques, nous avons montré, dans les chapitres précédents, que ces erreurs sur les mots constituent alors un bruit qu’il convient de maîtriser et de compenser, en proposant des approches de plus haut niveau dépassant l’utilisation directe du contenu textuel.

De façon assez classique, il semble assez naturel d’imaginer qu’en améliorant la qualité de la transcription automatique, les performances des systèmes les utilisant devraient également augmenter. Les systèmes de RAP s’appuient globalement sur la métrique du taux d’erreur-mot (WER) pour rendre compte de leur performance : plus ce taux est bas, plus le système de RAP est considéré comme performant. La plupart des systèmes de transcription sont ainsi améliorés en fonction de cette métrique. Améliorer la transcription automatique, comme nous le voyons dans le chapitre qui suit (chapitre 4), est relativement coûteux, puisqu’elle peut nécessiter la mise en place d’approches spécifiques et/ou de collecter de nouvelles données potentiellement annotées manuellement. Dans le cadre de la thèse de Mohamed Morchid, dont nous avons pré-senté certains de ses travaux sur la gestion de transcriptions très bruitées (voir chapitre 2), nous avons alors remarqué que les performances de classification étaient finalement assez élevées, avec des précisions maximales dépassant les 85 %, compte tenu des WER très élevés des transcrip-tions automatiques utilisées, se trouvant autour des 50 %. Ce constat est également valable pour l’approche classique TF-IDF, qui, bien qu’utilisant directement les mots, permet d’atteindre des performances avoisinant les 80 % de précision.

Ce constat entre le WER et les performances de classification est au coeur du travail de ce chapitre. Nous avons ainsi étudié le lien entre le WER sur les mots identifiés comme représentatifs et non-représentatifs par les deux approches de représentation des documents étudiées dans le chapitre 2, et les performances de classification automatique sur la tâche de détection de thématiques [Morchid et al.,2016b]. Nous avons choisi d’organiser ce chapitre en détaillant tout d’abord la métrique du taux d’erreur-mot, que nous avons déjà évoquée précédemment, mais dont nous n’avons jamais réellement discuté de sa pertinence (partie 3.2). Cela sera l’occasion d’évoquer ce que nous estimons comme avantages et faiblesses de la métrique. Le protocole expérimental est ensuite succinctement décrit dans la partie 3.3 puisqu’il s’appuie sur celui développé dans le chapitre 2. Enfin, nous proposons deux études dans cette partie, à savoir une première étude sur le lien entre le WER et le choix des mots représentatifs par les méthodes de représentation des mots (partie 3.4), et une seconde sur l’impact du choix des mots dans la construction des espaces de représentation dans la partie 3.5.