• Aucun résultat trouvé

4.3 Caractérisation des régions d’erreurs

4.3.5 Résultats obtenus

Les meilleurs résultats ont été obtenus au moyen de l’approche par Fusion [Dufour et al., 2012b]. Cette solution consistait à combiner toutes les propositions en fusionnant les régions d’erreurs au moyen de l’opérateur OU. A titre d’information, le SER obtenu par la méthode

Fusion est de 81,6 % contre 86,7 % pour Base. Le tableau 4.2 résume les résultats obtenus sur

les tâches de détection des régions d’erreurs et de leur caractérisation (catégorisation), soit pour chacune des tâches, soit de façon combinée avec le SER. Nous avons clairement pu apprécier la difficulté de la tâche au travers de ces résultats. Mais nous avons pu nous confronter aux difficultés concernant l’évaluation de tâches de TAL, en adoptant une métrique existante sur un problème aux caractéristiques similaires.

Détection Caractérisation Global

Rappel Précision % classif. correcte SER

42,2 57,0 78,4 81,6

Tableau 4.2 – Performance en détection seule (Détection), catégorisation seule (Catégorisation), catégorisation et détection combinées (Global) de régions d’erreurs avec la méthode Fusion sur les données JT_test.

4.4 Conclusion

Dans ce chapitre, nous avons proposé des solutions pour détecter et caractériser automati-quement les erreurs faites par les systèmes de reconnaissance automatique de la parole (RAP). L’originalité de ces travaux se trouve à la fois dans la manière de considérer les erreurs, ici au travers du concept de régions d’erreurs (i.e. ensemble d’erreurs apparaissant consécutivement), mais également dans l’idée de les caractériser non pas d’un point de vue système mais plutôt au niveau de la nature de l’erreur (nom de personne, homophone...). Cela nous a conduit à réaliser

4.4. Conclusion

une étude qualitative sur les erreurs de transcription qui a conforté l’idée de ne pas traiter une erreur de manière isolée mais en groupe, puisque les système de RAP doivent traiter des sé-quences : les erreurs ont tendance à se répercuter aux autres mots dans un même segment. Nous avons également montré, au travers de 4 classes que nous avons choisi d’étudier, que selon la nature de l’erreur, l’impact sur les mots alentours n’est pas le même. Par exemple, les erreurs sur les noms propres ont tendance à faire apparaître des régions d’erreurs plus grandes, au contraire d’erreurs liées à l’homophonie. Ces travaux sont issus de mon post-doctorat à Orange Labs et ont naturellement pris leur place dans le cadre du Projet ANR PERCOL, dans lequel j’ai pu continuer à travailler dès mon recrutement en tant que maître de conférences au LIA, puisque le LIA et Orange Labs faisaient tous deux partie du même consortium (voir partie 9.1.2).

Nous avons alors tout d’abord proposé plusieurs approches pour la segmentation en régions d’erreurs, incluant l’utilisation des mesures de confiance, un automate à deux états, et une approche s’appuyant sur les CRF. La classification de ces régions d’erreurs selon une des classes définies (Nom de personne, Autre nom propre, Homophone, Autre) a pu se faire au moyen d’un classifieur SVM, ou avec une approche intégrant la segmentation et l’attribution d’une classe dans le même processus (CRF Intégré).

Outre ces propositions, nous avons surtout réfléchi à la façon d’évaluer cette double tâche, qui combine à la fois un problème de segmentation (détection des régions) et de classification (attribution d’une classe). Nous avons proposé d’appliquer la mesure SER, qui a montré son efficacité en détection d’entités nommées, présentant finalement une problématique d’évaluation très proche. Au cours de ces chapitres, nous avons pu nous apercevoir que l’évaluation est au coeur des réflexions que j’ai pu mener ces dernières années. Le chapitre suivant continue sur la problématique des erreurs de transcription et de leur évaluation, que nous considérons ici du point de vue de leur correction d’une part, et de la manière de rendre compte de la performance des systèmes d’autre part.

C

ORRECTION DES ERREURS ET

ÉVALUATION DES SYSTÈMES DE

TRANSCRIPTION

Sommaire

5.1 Introduction . . . . 82 5.2 Correction a posteriori des erreurs . . . . 84

5.2.1 Approche générale . . . . 84 5.2.2 Correction par correspondance phonétique . . . . 85 5.2.3 Corpus REPERE . . . . 87 5.2.4 Impact de la correction d’erreurs . . . . 87

5.3 Correction des erreurs par adaptation des modèles . . . . 89

5.3.1 Contexte . . . . 89 5.3.2 Corpus PASTEL . . . . 90 5.3.3 Adaptation du modèle de langage . . . . 91 5.3.4 Évaluation de la transcription automatique . . . . 92 5.3.5 Évaluation sur la tâche d’indexation de documents . . . . 94

5.4 Conclusion . . . . 94

5.1 Introduction

Comme nous avons pu le constater dans les différents chapitres de ce manuscrit, l’évaluation joue un rôle prédominant puisqu’elle permet de rendre compte de la performance d’un système, et souvent de le justifier. Ces métriques sont forcément imparfaites : elles ne peuvent prendre en considération tous les aspects d’une tâche et des applications qui en découlent. Elles sont alors souvent sujettes à discussion et à critique dans les différentes communautés scientifiques. Cela est particulièrement vrai lors d’apparition de nouvelles tâches, où aucun consensus n’a pu avoir lieu, ce que nous développerons dans les chapitres de la partie III lorsque nous parlerons de nos travaux menés dans un contexte interdisciplinaire. Les métriques historiques ne sont

5.1. Introduction

cependant pas exemptes de toute critique, d’autant plus que ce choix revêt un enjeu hautement stratégique : les systèmes de TAL étant de plus en plus industrialisés, cela devient également un enjeu financier à la fois pour les entreprises, mais également pour les laboratoires de recherche dont les financements peuvent dépendre de la qualité de leur système au niveau international.

En TAL, les mesures faisant généralement consensus sont celles qui sont les plus faciles à ap-pliquer largement et qui ne nécessitent pas d’intervention humaine supplémentaire, autre qu’une annotation de référence, pour évaluer un nouveau système. La métrique du taux d’erreur-mot (WER), à laquelle il est impossible d’échapper lors d’évaluation en reconnaissance automatique de la parole (RAP), suit clairement cette idée (voir notre discussion dans la partie 3.2).

Indépendamment de la métrique considérée, l’objectif clairement identifié des systèmes au-tomatiques est que ceux-ci ne fassent aucune erreur. Les travaux en correction d’erreurs des systèmes de RAP suivent généralement deux approches :

— Améliorer le système lui-même, en proposant de nouvelles architectures et/ou d’améliorer la robustesse des modèles, avec par exemple des adaptations au domaine linguistique ou aux conditions acoustiques (conditions d’enregistrement, bruits...).

— Corriger a posteriori les erreurs des transcriptions.

Bien entendu, malgré l’objectif affiché du zéro erreur, nous ne pouvons prétendre y arriver actuellement en RAP, malgré des avancées certaines, en particulier avec l’avénement des archi-tectures neuronales. Il nous a donc semblé important de joindre ici les travaux que nous avons pu réaliser à la fois sur la correction des erreurs des systèmes de RAP et des réflexions autour de l’évaluation, en particulier devant la multitude de cadres applicatifs utilisant les transcriptions automatiques, comme nous avons pu le montrer dans les chapitres précédents.

Dans ce chapitre, nous présentons tout d’abord, dans la partie 5.2, les travaux sur la correc-tion d’erreurs spécifiques [Dufour et al.,2012c] dans le cadre applicatif du projet ANR PERCOL pour la détection de noms de personne. Ceci est également une problématique que j’ai pu dé-velopper durant ma thèse sur la détection et correction d’erreurs liées à l’homophonie [Dufour and Estève,2008]. Il reste que la correction de ces erreurs spécifiques, peu nombreuses au regard d’une transcription globale, a un impact faible sur le WER. Ces erreurs sont donc souvent peu étudiées, alors même que leur intérêt applicatif peut être important. Nous présentons ensuite, dans la partie 5.3, des travaux auxquels j’ai pu participer pendant la thèse de Salima Mdhaf-far, dirigée par Yannick Estève, sur l’adaptation des modèles de langage, qui a proposé des métriques originales pour rendre compte des performances de systèmes de RAP dans un cadre applicatif [Mdhaffar et al.,2019]. Ce chapitre couvre finalement les deux stratégies de correction possible des erreurs, soit a posteriori, soit au niveau du système directement.

5.2 Correction a posteriori des erreurs