Le système de transcription utilisé au cours de nos expérimentations a été
initia-lement développé par l'Irisa et l'ENST pour la campagne Ester. Son vocabulaire
contient 64 000mots ; de manière à lui assurer une bonne couverture lexicale, la casse
est ignorée et les mots composés
3se limitent aux plus courants comme états-unis .
Suivant les principes exposés à la section 1.1, le fonctionnement du système de RAP
se décompose en plusieurs étapes (Fig. 3.2). Le signal sonore à analyser est tout d'abord
segmenté automatiquement de façon à détecter les zones contenant de la parole. Une
subdivision supplémentaire en tours de parole est réalisée au moyen d'un système de
reconnaissance du locuteur. Le ux audio est nalement partitionné en groupes de soue
en détectant automatiquement les pauses silencieuses selon la variation de l'énergie. An
d'éviter des dicultés liées à des erreurs de segmentation, le partitionnement en groupes
de soue que nous avons utilisé est celui réalisé manuellement lors de l'annotation du
corpus Ester. Ce mode de découpage n'introduit toutefois pas un biais important
quant à la qualité des résultats produits puisqu'il demeure basé essentiellement sur des
informations acoustiques et est beaucoup plus proche d'une segmentation automatique
en groupes de soue que d'une segmentation linguistique s'appuyant sur les signes de
ponctuations annotés.
Chaque groupe de soue est analysé séparément par un système à trois passes. Une
première passe, utilisant un MA assez simple non contextuel
4et un ML trigrammes de
mots, vise à produire des graphes de mots de taille conséquente. Ces graphes sont ensuite
réévalués dans une seconde passe par un MA plus complexe dépendant du contexte
5et
un ML quadigrammes de mots. Une dernière passe, basée sur la transcription obtenue
à l'issue de l'étape précédente et la partition en locuteurs, utilise des MA adaptés selon
chaque locuteur suivant la méthode MLLR (Maximum Likelihood Linear Regression).
Cette technique vise à transformer linéairement les gaussiennes du MA en les adaptant à
3
Mots contenant des - ou ' .
4Modélisant des phones de manière isolée.
5Modélisant des triphones.
de petit volumes de données propres à chaque locuteur [Leggetter et Woodland, 1995]. Le
ML utilisé dans la dernière passe est le même que celui utilisé dans la précédente. Ce ML
quadrigrammes, de même que le ML trigrammes de la première passe, sont estimés en
interpolant les probabilités calculées sur 350 M de mots du journal Le Monde avec celles
déterminées sur les 1 M de mots de l'extrait du corpus Ester destiné à l'apprentissage
(Tab. 3.1).
Ce sont les graphes de mots produits par la troisième passe que nous utilisons au
cours de nos expérimentations. Ces graphes permettent notamment de produire les
listes desN meilleures hypothèses en extrayant les chemins qui obtiennent les meilleurs
scores (cf. équation (1.11) page 16) et en ne retenant que des hypothèses qui dièrent
d'au moins un mot. Nous avons recouru à deux valeurs diérentes deN au cours de nos
expériences. Les listes correspondant àN = 100ont été obtenues en limitant les graphes
de mots produits à la première passe aux1000meilleurs chemins ; celles correspondant
à N = 1000 ont été construites sans restriction sur la taille de ces graphes.
Le système de RAP employé étant décrit, nous présentons dans la partie suivante de
ce mémoire nos travaux sur l'utilisation des POS en RAP, en débutant par un chapitre
consacré plus particulièrement à l'étiquetage de transcriptions.
Informations morpho-syntaxiques et
reconnaissance de la parole
Étiquetage morpho-syntaxique
de l'oral
L
es étiquettes POS présentent deux intérêts pour la RAP. Elles constituent d'une
part une information a priori intéressante pour corriger des erreurs de
transcrip-tion puisque par rapport aux ML opérant uniquement sur des mots, elles
ap-portent des connaissances explicites sur les catégories grammaticales présentes dans un
groupe de soue, ce qui permet d'introduire des contraintes simples sur la syntaxe. De
plus, si elles sont accompagnées d'informations sur le genre et le nombre, elles peuvent
jouer un rôle important dans la prise en compte des accords. D'autre part, trouver les
étiquettes POS associées à chaque mot d'une transcription est une étape nécessaire à
de nombreux traitements. La construction d'un index à partir de documents sonores
pour ne citer qu'un exemple peut ainsi être réalisée en ne conservant que les noms
communs.
Les premiers pas de l'utilisation des POS en reconnaissance de la parole (cf.
sec-tion 2.2.3.1) remontent aux années 80 et au début des années 90 [Jelinek, 1990 ; Maltese
et Mancini, 1992] ; cette prise en compte est alors intervenue au moyen des modèles N
-classes. Cette méthode, consistant à réaliser une interpolation linéaire avec des ML
N-grammes de mots, n'apporte généralement pas de gain au niveau de la perplexité
et du WER [Weintraub et al., 1996], ce qui fait que l'on privilégie plutôt des classes
basées sur des critères statistiques [Niesler et al., 1998]. Heeman [1999] propose un
nou-veau mode d'intégration des POS en utilisant un ML trigrammes de paires mots/POS
plutôt que de mots et en redénissant le problème de la RAP comme une recherche
de la meilleure séquence conjointe de mots et de POS. Cette technique conduit à une
baisse signicative du WER mais augmente fortement le nombre d'entrées du ML, ce
qui requiert de très nombreuses données d'apprentissage et repose lourdement sur des
techniques de lissage. Les travaux s'intéressant spéciquement aux caractéristiques sur
le genre et le nombre restent en revanche peu nombreux. Lavecchia et al. [2006]
pré-sentent toutefois un modèle à base de cache utilisant cette connaissance en observant
sur le français une amélioration de la qualité de la transcription.
Dans ce mémoire, nous envisageons les POS en RAP avec une approche diérente
puisque nous cherchons dans un premier temps à étiqueter les hypothèses de mots
pro-duites par leur classe grammaticale, avant d'employer cette connaissance pour améliorer
la RAP. Nous introduisons en outre explicitement des informations sur le genre et le
nombre, tout en prenant en compte l'ordre des séquences de POS trouvées, à la
dié-rence des modèles recourant à des mémoires caches. Une autre originalité réside dans
notre mode intégration des POS qui se fait au niveau du calcul des probabilités associées
à un groupe de soue et non à un mot en particulier. Enn, contrairement à la plupart
des études que nous avons pu trouver à ce sujet, nous testons notre méthode avec un
ML quadigrammes appris sur un corpus de grande taille, et donc a priori déjà assez
performant pour modéliser le langage.
La première partie de notre travail a consisté à déterminer la proportion d'erreurs
de transcription corrigeables par la connaissance des POS. Notre objectif était alors de
savoir si cette information présentait un intérêt pour améliorer la qualité des résultats
produits par un système de RAP. La réponse à cette question étant positive, nous avons
dans une deuxième partie étudié le comportement des étiqueteurs morpho-syntaxiques
sur une transcription. Ces outils ont fait l'objet de nombreuses recherches dans le cadre
d'annotation automatique de corpus et il en existe actuellement plusieurs versions
opé-rationnelles sur des textes de la langue écrite. Toutefois, ils ont été très peu étudiés sur
des documents oraux, et notamment sur des transcriptions produites par des systèmes
de RAP, alors que les spécicités de la langue parlée et les erreurs de transcription sont
sujettes à complexier l'étiquetage automatique. Nous avons donc mené diérentes
éva-luations destinées à montrer l'aptitude des étiqueteurs à traiter des documents oraux, en
prévision d'une utilisation des POS en post-traitement d'un système de transcription.
Avant de voir spéciquement dans le chapitre 5 notre emploi des POS dans un
système de RAP, ce chapitre décrit comment obtenir un étiquetage automatique d'une
transcription. Nous établissons tout d'abord une typologie des erreurs de transcription,
en mettant en exergue celles qui sont a priori détectables par des informations
morpho-syntaxiques. Ayant été amené à développer notre propre étiqueteur pour avoir plus
de exibilité sur la prise en compte des POS obtenues dans le système de RAP, nous
donnons les principes de l'étiquetage catégoriel, puis faisons une description de notre
outil. Nous concluons le chapitre par une évaluation des étiqueteurs que nous avons
testés sur l'oral.
4.1 Typologie des erreurs de transcription
An d'évaluer l'apport potentiel des POS pour la transcription, nous avons étudié
en détail un court extrait des transcriptions automatiques produites par le système
Irene, en cherchant à connaître la part des erreurs corrigeables par cette seule
connais-sance. Cet extrait, constitué de 6 500 mots issus du corpus de développement, soit 563
groupes de soue, correspond à un peu plus de 30 minutes d'une émission d'information
diusée sur France Inter. Le WER sur cet extrait est de 17,8%. Parmi les erreurs de
reconnaissance que nous y avons constatées manuellement, trois groupes principaux se
détachent.
Certaines erreurs correspondent à un dérapage du système, généralement dû
soit à une mauvaise acoustique, soit à une mauvaise reconnaissance d'entités nommées,
notamment des noms de personnes (Fig. 4.2, deux premiers exemples). Deux extraits
ayant un bruit de fond gênant pour la compréhension et représentant 19 groupes de
soue, soit moins de deux minutes au total, sont ainsi tout de même responsables de
15,3 % des mots mal reconnus. Les erreurs sur la reconnaissance des entités nommées et
de certains termes techniques, tel que psycho-oncologie , représentent quant à elles
11,3% du nombre d'erreurs de transcription. Il est à noter que l'extrait étudié a été
diusé la même semaine que certaines émissions dont fait partie le corpus
d'apprentis-sage d'Ester et à partir duquel a été construit le dictionnaire de prononciation. Il est
certain que la part de ce type d'erreurs aurait augmenté si le document à transcrire était
produit dans un temps plus lointain, avec des sujets d'actualité qui se seraient depuis
renouvelés. Une autre conguration où le système de RAP produit consécutivement de
nombreuses erreurs concerne les groupes de soue très courts ; la récupération d'une
mauvaise reconnaissance acoustique par le ML est alors rendue dicile du fait de la
taille limitée du contexte. An d'illustrer l'inuence de la longueur du groupe de soue
sur le nombre d'erreurs, nous donnons sur la gure 4.1 la mesure du WER calculée en
fonction de cette variable, sur un corpus étendu représentant 4 heures d'émission
d'in-formation. Ce graphique montre une augmentation signicative du nombre d'erreurs
lorsque les groupes de soue sont constitués d'au plus 5 mots. Sur l'échantillon analysé
manuellement de 6 500 mots, les groupes de soue de cette taille représentent toutefois
une part assez faible (4,4 % des mots et 5,2% des erreurs) des mots mal transcrits.
L'en-semble de ces erreurs se produisant en rafales L'en-semblent en tout cas hors d'atteinte
de la correction susceptible d'être apportée par les POS.
Le deuxième groupe que nous avons identié correspond à des hypothèses de groupes
de soue transcrites avec des agrammaticalités (Fig. 4.2, troisième exemple). Ces
der-nières sont notamment engendrées par des mots grammaticaux courts, notamment les
auxiliaires a , ont et est , les prépositions dans , en , de et à ,
les conjonctions et , ou et que , ainsi que les déterminants les , des ,
ces et ses . Ces mots absents ou présents de manière inopinée dans les hypothèses
de transcriptions sont particulièrement fréquentes puisque plus d'un groupe de soue
sur cinq contient une erreur sur ce type de mots. Outre ces fautes, on retrouve
égale-ment des mots mal reconnus dus à des confusions sur le temps et le mode des verbes,
le présent et l'indicatif étant souvent privilégiés ; ce type d'erreurs représente 2,4 % de
l'ensemble de celles observées sur le corpus étudié. Une autre explication de la présence
d'hypothèses agrammaticales est directement lié au mode de segmentation qui n'est
pas assez linguistique. Ainsi avons-nous remarqué que les groupes de soue débutant
par des verbes étaient souvent sujets à des erreurs de transcription (Fig. 4.2, quatrième
exemple). Nous avons enn pu identier une dernière source de production d'hypothèses
non grammaticales, à savoir la présence de répétitions et de reprises dans le ux de
pa-role. Ces erreurs constituent une part relative de 2,6 %, chire qui serait bien entendu
plus important si l'extrait étudié contenait davantage de parole spontanée. Parmi toutes
15 20 25 30 35 40 45 50 55 60 65 0 5 10 15 20 25 30 WER(%)
taille des groupes de souffle WER(%) moyen
Fig. 4.1:Évolution du WER (%) en fonction de la taille des groupes de soue exprimée en nombre
de mots de la référence. Les barres verticales ont été produites en divisant le corpus en échantillons
contenant des groupes de soue de même taille. Les valeurs données sur ce graphique sont établies
sur un ensemble d'émissions de 4 heures, dont est extrait le corpus étudié de 6 500 mots et sur
lequel est observé un WER égal à 21,7 %. Les groupes de soue d'une taille supérieure à 30 mots
ont été écartés car ils étaient très peu nombreux (0,2 % de l'ensemble des groupes de soue)
les agrammaticalités observées, certaines semblent corrigeables puisque l'étiquetage des
groupes de soue peut conduire à des séquences de POS aberrantes, comme l'apparition
de trois prépositions consécutives. Ce critère est néanmoins à prendre avec précaution,
à cause des répétitions présentes dans la langue parlée. En outre, les POS ne peuvent
prétendre à elles seules corriger des erreurs sur la syntaxe.
Le troisième groupe est formé d'erreurs très vraisemblablement corrigeables grâce
aux POS, à savoir les fautes d'accord en genre et en nombre et les confusions entre
innitif et participe passé. Ces erreurs sont particulièrement nombreuses puisqu'elles
représentent 11,7 % des erreurs. Parmi elles, certaines nécessitent une résolution
d'ana-phores (2,9 % du nombre total des mots mal reconnus, Fig. 4.2, cinquième exemple),
le référant étant dans un autre groupe de soue ; d'autres (1,3 %, Fig. 4.2, sixième
exemple) correspondent à des accords avec une entité qui est absente du groupe de
soue contenant le verbe. Notons que ces erreurs sont inaccessibles en analysant
isolé-ment chaque groupe de soue. Parmi les fautes d'accord, on retrouve de plus des choix
tout à fait valables eectués par le système de RAP mais pourtant considérés comme
erronés (1,0 %, Fig. 4.2, septième exemple). Ceci est expliqué par le fait que dans
cer-taines congurations, plusieurs accords sont possibles alors qu'il n'y en a qu'une seule
qui est proposée dans la transcription de référence
1. Nous avons nalement dénombré 76
erreurs (6,5 % des mots mal reconnus) rectiables sans avoir à examiner de dépendances
entre des groupes de soue consécutifs (Fig. 4.2, huitième exemple), dont 5 (0,4 %) se
1
Il faudrait indiquer plusieurs transcriptions de référence pour évaluer très précisément le WER.
Les cas de gures où ceci s'avère nécessaire restent cependant rare.
1 - Entités nommées mal transcrites
REF: il y avait ********* ÉGALEMENT BARZAN AL TIKRITI en fait les
principaux ET également TAREK AZIZ PAR exemple
HYP: il y avait TELLEMENT BAS LA PARTIE CRITIQUE en fait les
principaux ** également ***** ARRÊTÉS HISTOIRE exemple
2 - Groupe de soue court mal transcrit
REF: DE L' AMENDE
HYP: ** TELLEMENT MÊME
3 - Hypothèse agrammaticale
REF: bush ** SAIT donc QU' il faudra coopérer
HYP: bush S' EST donc ** il faudra coopérer
4 - Erreur sur un groupe de soue débutant par un verbe
REF: ** FAIT aussi pâle figure ou presque
HYP: C' EST aussi pâle figure ou presque
5 - Accord nécessitant une résolution d'anaphore
REF: ILS POURRAIENT être ANNONCÉS début juin
HYP: IL POURRAIT être ANNONCÉ début juin
6 - Accord avec un sujet absent du groupe de soue
REF: FERMENT nos usines
HYP: FERME nos usines
7 - Accord acceptable détectée comme une erreur
REF: l' ensemble des personnes qui APPARTENAIENT au au parti baath
HYP: l' ensemble des personnes qui APPARTENAIT au au parti baath
8 - Accord interne au groupe de soue
REF: c' est un monstre injuste envers sa soeur si DÉVOUÉE
HYP: c' est un monstre injuste envers sa soeur si DÉVOUÉ
9 - Confusion entre des quasi-homophones
REF: c' est la pathologie de L' INCERTITUDE
HYP: c' est la pathologie de LA CERTITUDE
Fig. 4.2:Exemples d'erreurs dans les groupes de soue
produisent sur des mots pour lesquels la exion correcte est absente du dictionnaire du
système de RAP. Les erreurs corrigeables sans augmenter la taille du vocabulaire et en
se restreignant à une analyse indépendante de chaque groupe de soue représente donc
6,1 % des mots mal reconnus et les corriger représenterait une baisse absolue de 1,1 %
du WER.
Au travers de l'exposé des principales erreurs de décodage, nous avons distingué
trois principales catégories. La classication est arbitraire, les erreurs d'accord
pou-vant être par exemple considérées comme des agrammaticalités, de même que les
hypo-thèses contenant de nombreux mots mal reconnus. Elle n'inclut pas toutes les erreurs,
la correction de certaines nécessitant par exemple des connaissances d'ordre sémantique
ou contextuelle (confusion entre l' incertitude et la certitude , Fig. 4.2, dernier
exemple). D'une manière générale, l'essentiel des erreurs de transcription se produisent
sur des mots monosyllabiques, notamment les mots grammaticaux, ou sur l'emploi d'un
quasi-homophone à la place d'un autre, comme c'est un ordre , au lieu de la séquence
réellement prononcée c'est un ogre . Malgré les dicultés que pose la réalisation d'une
telle classication des erreurs, il apparaît toutefois qu'un nombre signicatif de mots
mal reconnus est lié à une mauvaise prise en compte des phénomènes d'accord, ce qui
positionne les POS comme une source d'information susceptible d'être intéressante pour
améliorer la qualité de la transcription. La particularité du corpus étudié qui explique
le nombre assez élevé de fautes d'accord est qu'il est de langue française ; il est probable
que pour d'autres langues possédant moins de exions homophones comme l'anglais les
observations auraient diéré. Une étude a montré à ce sujet que 23 % des mots d'un
extrait du corpus du Wall Street Journal possédaient au moins un homophone, alors
que ce chire s'élevait à 75 % sur un extrait du corpus Le Monde [Gauvain et al., 1994].
L'analyse des erreurs de transcription ayant établi l'intérêt des POS, l'étape suivante
de notre travail a consisté à examiner si nous pouvions obtenir un étiquetage able de
transcriptions automatiques.
Dans le document
Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole
(Page 70-81)