2.3 À quel niveau du processus de transcription ?
2.3.2 Connaissances linguistiques au sein du modèle de langage
Le ML est alors généralement constitué d'un modèleN-grammes, auquel on adjoint des
informations supplémentaires selon diérents schémas.
Une première solution consiste à construire un nouveau ML plus linguistique que
l'on utilise en remplacement d'un modèleN-grammes. Ceci est notamment réalisé dans
des systèmes de RAP à langage restreint où une grammaire non contextuelle peut être
jugée susamment informative pour que l'on n'utilise pas de ML N-grammes [Sene,
1992]. Parfois, le modèle linguistique inclut aussi déjà des connaissances lexicales sur
les probabilités de séquences de mots [Heeman, 1999 ; Wang et Harper, 2002].
Une deuxième possibilité est de continuer à employer un ML N-grammes mais en
modiant ses probabilités à l'aide d'informations plus précises sur un domaine. Ces
connaissances peuvent être obtenues à l'aide d'un corpus d'adaptation [Chen et al.,
2003] ou bien d'une grammaire non contextuelle probabiliste [Stolcke et Segal, 1994 ;
Jurafsky et al., 1995].
Une dernière solution consiste à combiner plusieurs modèles, apportant chacun des
connaissances, pour constituer un seul ML. Cette combinaison peut se faire au moyen
de l'interpolation linéaire ou du repli, dont les principes ont déjà été exposés (cf.
sec-tion 1.2.1). Dans le cas de l'interpolasec-tion linéaire, technique la plus utilisée du fait
de sa simplicité, la combinaison de M modèles diérents associés aux distributions de
probabilité P
kavec k= 1. . . M s'eectue de la manière suivante :
P(w
i|w
i−1 1) =
MX
k=1λ
kP
k(w
i|w
i−1 1) (2.8)
où P
Mk=1
= 1. En ce qui concerne le repli, le calcul pour combinerM modèles, avecM
xé ici à 2 pour simplier l'équation, s'écrit [Niesler et Woodland, 1996a] :
P(w
i|w
1i−1) =
½
P
1(w
i|w
i−1 1) siw
i∈Φ
1(w
i−1 1)
α(w
i−1 1)×P
2(w
i|w
i−1 1) sinon (2.9)
où Φ
1(w
1i−1) représente l'ensemble des mots dans le contexte w
i−1 1pour lequel le 1
ermodèle est à utiliser en priorité, et α est un coecient de normalisation. L'intérêt de
cette méthode est d'utiliser d'abord les modèles les plus perfectionnés quand on dispose
de susamment d'informations dans le contexte courant. Une autre possibilité pour
combiner des modèles est d'utiliser des modèles exponentiels, appelés encore à entropie
maximale [Rosenfeld, 1996 ; Goodman, 2001]. La plupart des ML sont déterminés en
recherchant la distribution de probabilité P qui maximise la probabilité d'observation
d'un corpus représentatif du langage à modéliser. Les modèles exponentiels quant à eux
se basent sur un critère de maximisation de l'entropie, en recherchant parmi toutes les
distributionsP celle qui vérie :
ˆ
P = arg max
où H est la fonction d'entropie. De manière à modéliser les dépendances entre
l'histo-riquew
i−1 1et le mot à prédirew
i, l'ensemblePest réduit par des fonctions de contraintes
f
kretournant typiquement 0 ou 1. Celles-ci permettent de représenter des modèlesN
-grammes ou d'autres types de ML ; dans le cas d'une fonction pour le tri-grammes
w
aw
bw
c, on aura ainsi :f
wawbwc(w
1i) =
½
1 si w
i−2=w
a, w
i−1=w
betw
i=w
c0 sinon (2.11)
Les modèles satisfaisant le critère du maximum entropie sont dit exponentiels car il peut
être montré que leur calculs de probabilités peut être mis sous la forme (cf. le tutoriel
dans [Ratnaparkhi, 1997]) :
P(w
i|w
i−1 1) = exp(
P
kλ
kf
k(w
i 1))
Z(w
i−1 1) (2.12)
où Z est une fonction de normalisation et les λ
kdes coecients obtenus par un
algo-rithme d'apprentissage. Grâce aux fonctions de contraintes, les modèles exponentiels
permettent d'intégrer plusieurs sources d'information de manière élégante, comme des
connaissances syntaxiques ou thématiques [Wu et Khudanpur, 1999]. Leur temps
d'ap-prentissage est cependant extrêmement long et ils se révèlent assez lents lors de leur
utilisation. En outre, hormis avec les modèles à amorces, il semble qu'ils n'aient pas
encore permis de réduire la perplexité de manière signicative [Goodman, 2001].
2.4 Bilan
Ce chapitre a proposé une synthèse des travaux menés pour introduire des
connais-sances linguistiques dans le but d'améliorer la transcription. Les deux domaines les plus
étudiés sont la syntaxe et l'adaptation des ML. Certaines techniques ont permis une
baisse signicative du WER ; on peut ainsi citer les ML factorisés pour le cas particulier
des langues morphologiquement riches, les analyseurs syntaxiques dans des domaines
limités ou sur de la parole lue, l'analyse sémantique latente ou l'utilisation de corpus
d'adaptation. Toutefois, malgré des progrès récents, peu de connaissances linguistiques
sont encore prises en compte dans les systèmes de RAP. Parmi les raisons qui expliquent
cet état de fait, le recours à de nouvelles informations améliore souvent assez peu la
qua-lité de la transcription par rapport aux ML N-grammes, tout en requérant davantage
de calculs. En outre, les particularités des transcriptions produites automatiquement,
notamment la exibilité de la langue parlée, la segmentation en groupes de soue ou
encore les erreurs de reconnaissance, viennent compliquer la conception de méthodes
automatiques d'acquisition des connaissances linguistiques. De plus, les techniques
em-ployées ont souvent les défauts d'augmenter considérablement le temps de décodage du
signal acoustique et de ne pas toujours bien s'intégrer dans le cadre statistique des
dé-codeurs de la parole actuels, ce qui fait qu'elles sont utilisées principalement au niveau
de la dernière passe du processus de transcription.
Les ML N-grammes, malgré leur indéniable ecacité, restent des modèles assez
frustres quant aux connaissances manipulées et des informations linguistiques semblent
pertinentes pour rectier certaines erreurs de transcription. Dans nos travaux, nous
avons choisi de nous focaliser sur les informations morpho-syntaxiques et sur
l'adapta-tion thématique. Les raisons de ce choix sont dues aux types d'erreur de transcripl'adapta-tion
que nous avons repérées de la part de notre système de RAP utilisant un ML 4-grammes
(cf. section 3.2). Nous avons tout d'abord constaté un nombre signicatif d'erreurs
d'ac-cord, y compris pour des mots consécutifs. Les POS, en introduisant explicitement des
informations sur le genre et le nombre, sont adaptées pour corriger des problèmes de ce
type. Même si elles ne sont pas à même de détecter aussi nement les relations entre
mots distants, elles peuvent être obtenues avec des méthodes plus robustes aux
pertur-bations de la langue orale. Nous nous intéressons au chapitre 4 à la manière dont une
transcription peut être étiquetée par les POS, ce qui a été peu étudié jusqu'à présent.
Nous présentons ensuite au chapitre 5 un nouveau mode de calcul des probabilités
in-tégrant les informations linguistiques extraites. Le second type de connaissances que
nous étudions concerne les thèmes traités par un document. Certaines formules sont
spéciques au sujet abordé ; la suite de mots le soleil contesté cet après-midi peut
ainsi dicilement apparaître dans d'autres contextes que celui de la météo. Le ML que
nous employons, construit sur un large corpus très général, gagnerait probablement à
être adapté sur des données plus spécialisées. Les chapitres 6, 7 et 8 présentent notre
travail exploratoire pour adapter thématiquement le système de transcription. Avant de
décrire plus précisément nos travaux, nous exposons dans le chapitre qui suit le cadre
expérimental des diérents tests menés au cours de notre thèse.
Cadre expérimental
A
vant de présenter en détail nos contributions, nous exposons le dispositif
em-ployé au cours de nos diverses expérimentations. Par souci de clarté et de
ma-nière à ne pas disperser les informations que nous pourrions donner à ce sujet,
nous avons en eet préféré consacrer un court chapitre à la description des éléments
participant aux travaux développés dans la suite de ce mémoire. Nous y présentons tout
d'abord le type des documents étudiés, avant de donner les principales caractéristiques
du système de RAP que nous utilisons.
3.1 Le corpus Ester
Le corpus employé au cours de nos expérimentations est le corpus Ester. Il a été
constitué dans le cadre d'une campagne d'évaluation dédiée à la transcription enrichie
et à l'indexation de journaux radiophoniques de langue française [Gravier et al., 2004],
et comporte des émissions d'information diusées par diérentes chaînes de radio entre
1998 et 2004. Il correspond essentiellement à de la parole préparée dans la mesure où
les principaux intervenants sont des journalistes présentant des titres, des brèves ou des
reportages. On trouve toutefois de courts passages de parole spontanée où des personnes
sont interrogées pour intervenir sur des points de l'actualité. Certaines émissions peuvent
aussi comporter des interviews d'une dizaine de minutes accordées à des personnalités.
Sur l'ensemble du corpus Ester, 100 heures sont transcrites manuellement et
accompagnées d'annotations sur la présence de musique, de bruits ou encore
d'évé-nements comme les chevauchements de la parole prononcée par plusieurs locuteurs
(Fig. 3.1). Chaque émission d'information est généralement subdivisée en entités
jour-nalistiques telles que les titres , le journal , la météo , le point sur le trac
routier . . . Toutefois, cette segmentation est très hétérogène puisque certaines
émis-sions sont peu subdivisées, tandis que d'autres contiennent un découpage très précis
en associant ainsi une entité à chaque point abordé dans le journal comme politique
internationale - Irak : recherche des objets d'art . Les émissions sont de surcroît
seg-mentées manuellement en groupes de soue, en précisant à chaque fois l'identité du
locuteur. Ce mode de découpage est normalement eectué en fonction de la durée des
Le gouvernement américain va présenter, [i] euh, au conseil de sécurité de l' !ONU,
[i] un projet d(e) résolution, [mic] un texte qui permettrait, [i] la levée d(e) l'embargo
Noëlle ^^Véli.
où [i] marque une inspiration, !ONU représente un acronyme, d(e) indique
une absence de prononciation du e , [mic] témoigne de la présence d'un bruit
de micro et ^^Véli précise que le mot est inconnu par le transcripteur.
Fig. 3.1: Extrait du corpus Ester transcrit selon les conventions de Transcriber
source apprentissage développement
France Inter 19h40 8h 2h
France Info - 8h 2h
RFI
111h 8h 2h
RTM
2- 18h 2h
total 30h40 42h 8h
période 1998-2000 2003 2003
Tab. 3.1: Répartition du corpus Ester utilisé
pauses silencieuses. Néanmoins, il semble que certains annotateurs aient également pris
en considération des informations d'ordre syntaxique en assimilant par exemple une
proposition relative à un groupe de soue ; cette décision conduit à des unités près
de deux fois plus courtes qu'habituellement, peu de groupes de soue dépassant une
taille de dix mots. Conjointement à cette segmentation acoustique, une annotation plus
linguistique est proposée en découpant le ux de parole en phrases et en indiquant des
signes de ponctuation.
Parmi ces 100 heures d'émissions, seules celles étiquetées dans le corpus comme
relevant de l'apprentissage et du développement (Tab. 3.1) ont été utilisées dans nos
travaux, ce qui représente au total 1M de mots. La fraction du corpus Ester destinée
à l'apprentissage a permis de construire le MA et le ML du système de RAP employé ;
celle dédiée au développement a quant à elle été divisée en deux parts d'une durée de 4
heures chacune. L'une permet de régler des paramètres, notamment la pondération du
ML par rapport au MA et la pénalité d'insertion de mot (cf. section 1.1.5), tandis que
l'autre sert pour les tests du système de RAP (Tab. 3.2).
1
Radio France internationale.
2Radio télévision marocaine.
développement test
France Inter - 18/04/03 - 7h-8h France Inter - 18/04/03 - 8h-9h
France Info - 18/04/03 - 12h-13h France Info - 18/04/03 - 17h-18h
RFI - 08/05/03 - 14h-15h RFI - 09/05/03 - 14h-15h
RTM - 17/07/03 - 7h-7h15 RTM - 17/07/03 - 13h-13h20
RTM - 17/07/03 - 23h-23h15 RTM - 17/07/03 - 20h-20h20
RTM - 19/07/03 - 7h-7h15 RTM - 19/07/03 - 13h-13h20
RTM - 19/07/03 - 20h-20h15 RTM - 19/07/03 - 23h-23h10
45 565 mots 47 230 mots
Tab. 3.2: Détail des émissions utilisées comme corpus de développement et de test
Dans le document
Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole
(Page 64-70)