• Aucun résultat trouvé

3.5 Sélection de mots pour l’apprentissage de modèles

3.5.2 Performance de classification

La figure 3.5 présente les performances, en termes de précision (%), obtenues sur la tâche de classification de thématiques des conversations du corpus de test de DECODA au moyen de différentes représentations par espaces de thèmes (60, 80 et 100 classes) entraînées en uti-lisant les n mots pertinents. Les mots pertinents sont ici sélectionnés selon leur WER. Nous pouvons tout d’abord remarquer que la précision augmente avec une sélection de mots jusqu’à un WER d’environ 40 %. Ensuite, ces précisions stagnent et atteignent une précision maximale de 84,2 % pour l’espace contenant 80 thèmes. Nous pouvons également souligner qu’un espace de thèmes avec un petit nombre de thèmes (60) est plus robuste au WER que les espaces avec un grand nombre de classes (80 ou 100). En comparant les figures 3.4 et 3.5, nous avons alors pu observer que la qualité estimée des modèles n’a pas le même point de fonctionnement que sur notre tâche applicative : comme nous l’avons supposé, nos espaces de thèmes ont besoin d’avoir suffisamment de mots, même fortement bruités (i.e. mal transcrits) pour obtenir les meilleures performances. Notons enfin que, lorsque le WER devient trop important (> 60 %), les résul-tats apparaissent plutôt instables, peu importe le nombre de thèmes utilisés pour construire les espaces de représentation.

Part II, Chapitre 3 – Erreurs de transcription et impact sur les performances de classification

Thus, one can select a set of words to compose the vocabulary of words with a WER up to 25%, but the goal is a

theme identification task. This task requires enough words to compose the vocabulary in order to robustly represent

each theme contained in the transcriptions. For this reason, a trade-o↵ between a low WER and a sufficient number

of words in the vocabulary should be found.

10 20 30 40 50 60 70 80 90 100 30 40 50 60 70 80 90 Max = 84.2 (80 classes)

w : Word Error Rate (%)

Accurac

y

(%)

60 classes 80 classes 100 classes

Figure 13: Word Error Rate of the n most discriminative words using a LDA approach.

Curves presented in Figure 13 show the theme identification accuracy with topic spaces having di↵erent numbers

of classes (60, 80 and 100). The first remark is that the accuracy moves up until a WER of roughly 40%. Then,

these accuracies stagnate and reach a maximum accuracy of 84.2% with a gain of 0.9 point (see Table 3) for the topic

space containing 80 classes. We can also point out that a topic space with small number of classes (60) is more robust

to WER variation than topic spaces with large number of classes (80 or 100). Indeed, one can see in the WER gap

between 60% and 100% that the curve representing the accuracy of a topic space of 100 classes is quite unstable.

7. Conclusions

In this paper, we resumed an architecture to identify conversation themes using two di↵erent dialogue

represen-tations and two di↵erent classification methods. We showed that the proposed topic-based representation using a

LDA-based method outperforms the classification results obtained by the classical TF-IDF-Gini approach. The

clas-sification accuracy reaches 86.6% on manual transcriptions and 81.4% on automatic transcriptions with a respective

gain of 6.9 and 7.9 points.

The second part of the work focused on choosing the best classification method. We highlighted that the intuitions

about the Gaussianity of the theme classes and the equality of the class covariances discussed in this paper are e↵ective.

Thus, the topic representation using a Gaussian classifier method outperforms the classification results obtained by

the classical SVM approach. The accuracy reaches 87.4% on manual transcriptions and 83.3% on highly imperfect

automatic transcriptions with a first respective gain of 0.8 and 1.9 points.

We also discussed the possible link between classification performance and transcription accuracy. The proposed

analysis showed that the best classification results are obtained on configurations which extract the discriminative

words having a lower Word Error Rate (WER).

Overall, the section 6.3 point out that the WER is inextricably related to the topic model quality and therefore,

to the theme identification accuracies. The analyse in section 6.3.3 demonstrates that a trade-o↵ between WER and

number of words has to be found. These two remarks are underlined in Figure 13 where a choice of a vocabulary of

words with a WER 50% is a good trade-o↵ between enough vocabulary size to describe each theme and a set of

robust (to automatic transcriptions) set of words. we therefore observe a better accuracy in the theme identification

14

w : taux d’erreur mot (WER)

Précision (%)

Max = 84,2 % (80 classes)

Figure 3.5 – Précision de classification (%) sur le corpus de test DECODA au moyen de différentes représentations par espaces de thèmes (60, 80 et 100 classes) entraînées en utilisant les n mots pertinents sélectionnés selon leur taux d’erreur-mot (WER).

3.6 Conclusion

Au sein de ce chapitre, nous avons proposé, durant la thèse de M. Morchid, une étude cherchant le lien entre qualité de représentation des documents et taux d’erreur-mot des trans-criptions automatiques [Morchid et al.,2016b]. Nous sommes partis du constat que, bien que les transcriptions étaient fortement bruitées (WER supérieurs à 50 %), les performances de classi-fication sur la tâche de détection de la thématique de conversations apparaissaient très bonnes. Cela ne pouvait pas être simplement dû aux représentations de plus haut niveau proposées, telles que l’approche par espaces de thèmes (LDA), puisque même l’approche classique TF-IDF dépassait les 80 % de précision, comme nous l’avions observé dans le chapitre 2.

La première étude a consisté à analyser les taux d’erreur des mots pertinents utilisés dans deux représentations de documents (TF-IDF et LDA). Nous avons ainsi observé que les mots considérés comme les plus pertinents étaient ceux ayant un WER plus faible, comparativement aux mots les moins représentatifs (i.e. les mots ayant le score de pertinence le plus bas dans le vocabulaire choisi), et ce, peu importe l’approche de représentation des mots. Nous avons également pu voir que l’approche LDA avait tendance à choisir comme représentatifs les mots ayant des WER plus bas que ceux choisis par l’approche TF-IDF.

Dans la seconde partie de ce travail, nous avons cherché à étudier le lien entre qualité des représentations par espaces de thèmes et WER des mots utilisés pour les estimer. Nous nous sommes aperçus que les mots ayant les WER les plus faibles permettaient d’obtenir des modèles

3.6. Conclusion

LDA de meilleure qualité en termes de perplexité et log-vraisemblance. Nous avons enfin vérifié cette observation sur notre tâche de classification, et, même si le point de fonctionnement entre qualité des modèles et performance de classification diffère, il semble qu’un lien existe entre WER et performance sur une tâche appliquée.

Au final, même si nous avons pu voir l’influence entre WER et performance des modèles utilisant des transcriptions automatiques, il semble que le taux d’erreur-mot global ne soit pas un indicateur fiable sur la qualité des transcriptions. Une étude plus fine au niveau des mots semble indispensable (ici, les mots considérés comme pertinents par les méthodes de représentation) pour mieux rendre compte de la qualité des transcriptions automatiques. Le chapitre suivant est au coeur de ce problème d’erreurs de transcription et d’évaluation, où nous décrivons un travail réalisé sur la catégorisation et détection de régions d’erreurs spécifiques dans les transcriptions automatiques.

C

ARACTÉRISATION ET DÉTECTION

D

ERREURS DANS LES SYSTÈMES DE

TRANSCRIPTION

Sommaire

4.1 Introduction . . . . 72 4.2 Détection des régions d’erreurs . . . . 73

4.2.1 Erreurs isolées vs. régions d’erreurs . . . . 73 4.2.2 Corpus d’émissions télévisées . . . . 74 4.2.3 Étiquetage de séquences . . . . 76 4.2.4 Classification binaire . . . . 76

4.3 Caractérisation des régions d’erreurs . . . . 77

4.3.1 Contexte . . . . 77 4.3.2 Définition des classes d’erreurs . . . . 78 4.3.3 Approches . . . . 78 4.3.4 Évaluation globale . . . . 79 4.3.5 Résultats obtenus . . . . 80

4.4 Conclusion . . . . 80

4.1 Introduction

Les systèmes de reconnaissance automatique de la parole (RAP) font inévitablement des erreurs. Comme nous avons pu le voir dans les chapitres 2 et 3 principalement, même s’il est possible de compenser ces erreurs de transcription, elles peuvent néanmoins avoir un impact né-gatif sur les systèmes les utilisant en entrée pour réaliser une tâche (par exemple, classification de documents, extraction d’information, reconnaissance de noms de personne...). De plus, cer-taines applications utilisent directement les sorties des systèmes de RAP, comme cela est le cas pour le sous-titrage automatique. Il est donc nécessaire de fournir une transcription contenant le