• Aucun résultat trouvé

Connaissances linguistiques au sein du modèle de langage

2.3 À quel niveau du processus de transcription ?

2.3.2 Connaissances linguistiques au sein du modèle de langage

Le ML est alors généralement constitué d'un modèleN-grammes, auquel on adjoint des

informations supplémentaires selon diérents schémas.

Une première solution consiste à construire un nouveau ML plus linguistique que

l'on utilise en remplacement d'un modèleN-grammes. Ceci est notamment réalisé dans

des systèmes de RAP à langage restreint où une grammaire non contextuelle peut être

jugée susamment informative pour que l'on n'utilise pas de ML N-grammes [Sene,

1992]. Parfois, le modèle linguistique inclut aussi déjà des connaissances lexicales sur

les probabilités de séquences de mots [Heeman, 1999 ; Wang et Harper, 2002].

Une deuxième possibilité est de continuer à employer un ML N-grammes mais en

modiant ses probabilités à l'aide d'informations plus précises sur un domaine. Ces

connaissances peuvent être obtenues à l'aide d'un corpus d'adaptation [Chen et al.,

2003] ou bien d'une grammaire non contextuelle probabiliste [Stolcke et Segal, 1994 ;

Jurafsky et al., 1995].

Une dernière solution consiste à combiner plusieurs modèles, apportant chacun des

connaissances, pour constituer un seul ML. Cette combinaison peut se faire au moyen

de l'interpolation linéaire ou du repli, dont les principes ont déjà été exposés (cf.

sec-tion 1.2.1). Dans le cas de l'interpolasec-tion linéaire, technique la plus utilisée du fait

de sa simplicité, la combinaison de M modèles diérents associés aux distributions de

probabilité P

k

avec k= 1. . . M s'eectue de la manière suivante :

P(w

i

|w

i−1 1

) =

M

X

k=1

λ

k

P

k

(w

i

|w

i−1 1

) (2.8)

P

M

k=1

= 1. En ce qui concerne le repli, le calcul pour combinerM modèles, avecM

xé ici à 2 pour simplier l'équation, s'écrit [Niesler et Woodland, 1996a] :

P(w

i

|w

1i−1

) =

½

P

1

(w

i

|w

i−1 1

) siw

i

Φ

1

(w

i−1 1

)

α(w

i−1 1

)×P

2

(w

i

|w

i−1 1

) sinon (2.9)

où Φ

1

(w

1i−1

) représente l'ensemble des mots dans le contexte w

i−1 1

pour lequel le 1

er

modèle est à utiliser en priorité, et α est un coecient de normalisation. L'intérêt de

cette méthode est d'utiliser d'abord les modèles les plus perfectionnés quand on dispose

de susamment d'informations dans le contexte courant. Une autre possibilité pour

combiner des modèles est d'utiliser des modèles exponentiels, appelés encore à entropie

maximale [Rosenfeld, 1996 ; Goodman, 2001]. La plupart des ML sont déterminés en

recherchant la distribution de probabilité P qui maximise la probabilité d'observation

d'un corpus représentatif du langage à modéliser. Les modèles exponentiels quant à eux

se basent sur un critère de maximisation de l'entropie, en recherchant parmi toutes les

distributionsP celle qui vérie :

ˆ

P = arg max

H est la fonction d'entropie. De manière à modéliser les dépendances entre

l'histo-riquew

i−1 1

et le mot à prédirew

i, l'ensemble

Pest réduit par des fonctions de contraintes

f

k

retournant typiquement 0 ou 1. Celles-ci permettent de représenter des modèlesN

-grammes ou d'autres types de ML ; dans le cas d'une fonction pour le tri-grammes

w

a

w

b

w

c, on aura ainsi :

f

wawbwc

(w

1i

) =

½

1 si w

i−2

=w

a

, w

i−1

=w

b

etw

i

=w

c

0 sinon (2.11)

Les modèles satisfaisant le critère du maximum entropie sont dit exponentiels car il peut

être montré que leur calculs de probabilités peut être mis sous la forme (cf. le tutoriel

dans [Ratnaparkhi, 1997]) :

P(w

i

|w

i−1 1

) = exp(

P

k

λ

k

f

k

(w

i 1

))

Z(w

i−1 1

) (2.12)

Z est une fonction de normalisation et les λ

k

des coecients obtenus par un

algo-rithme d'apprentissage. Grâce aux fonctions de contraintes, les modèles exponentiels

permettent d'intégrer plusieurs sources d'information de manière élégante, comme des

connaissances syntaxiques ou thématiques [Wu et Khudanpur, 1999]. Leur temps

d'ap-prentissage est cependant extrêmement long et ils se révèlent assez lents lors de leur

utilisation. En outre, hormis avec les modèles à amorces, il semble qu'ils n'aient pas

encore permis de réduire la perplexité de manière signicative [Goodman, 2001].

2.4 Bilan

Ce chapitre a proposé une synthèse des travaux menés pour introduire des

connais-sances linguistiques dans le but d'améliorer la transcription. Les deux domaines les plus

étudiés sont la syntaxe et l'adaptation des ML. Certaines techniques ont permis une

baisse signicative du WER ; on peut ainsi citer les ML factorisés pour le cas particulier

des langues morphologiquement riches, les analyseurs syntaxiques dans des domaines

limités ou sur de la parole lue, l'analyse sémantique latente ou l'utilisation de corpus

d'adaptation. Toutefois, malgré des progrès récents, peu de connaissances linguistiques

sont encore prises en compte dans les systèmes de RAP. Parmi les raisons qui expliquent

cet état de fait, le recours à de nouvelles informations améliore souvent assez peu la

qua-lité de la transcription par rapport aux ML N-grammes, tout en requérant davantage

de calculs. En outre, les particularités des transcriptions produites automatiquement,

notamment la exibilité de la langue parlée, la segmentation en groupes de soue ou

encore les erreurs de reconnaissance, viennent compliquer la conception de méthodes

automatiques d'acquisition des connaissances linguistiques. De plus, les techniques

em-ployées ont souvent les défauts d'augmenter considérablement le temps de décodage du

signal acoustique et de ne pas toujours bien s'intégrer dans le cadre statistique des

dé-codeurs de la parole actuels, ce qui fait qu'elles sont utilisées principalement au niveau

de la dernière passe du processus de transcription.

Les ML N-grammes, malgré leur indéniable ecacité, restent des modèles assez

frustres quant aux connaissances manipulées et des informations linguistiques semblent

pertinentes pour rectier certaines erreurs de transcription. Dans nos travaux, nous

avons choisi de nous focaliser sur les informations morpho-syntaxiques et sur

l'adapta-tion thématique. Les raisons de ce choix sont dues aux types d'erreur de transcripl'adapta-tion

que nous avons repérées de la part de notre système de RAP utilisant un ML 4-grammes

(cf. section 3.2). Nous avons tout d'abord constaté un nombre signicatif d'erreurs

d'ac-cord, y compris pour des mots consécutifs. Les POS, en introduisant explicitement des

informations sur le genre et le nombre, sont adaptées pour corriger des problèmes de ce

type. Même si elles ne sont pas à même de détecter aussi nement les relations entre

mots distants, elles peuvent être obtenues avec des méthodes plus robustes aux

pertur-bations de la langue orale. Nous nous intéressons au chapitre 4 à la manière dont une

transcription peut être étiquetée par les POS, ce qui a été peu étudié jusqu'à présent.

Nous présentons ensuite au chapitre 5 un nouveau mode de calcul des probabilités

in-tégrant les informations linguistiques extraites. Le second type de connaissances que

nous étudions concerne les thèmes traités par un document. Certaines formules sont

spéciques au sujet abordé ; la suite de mots le soleil contesté cet après-midi peut

ainsi dicilement apparaître dans d'autres contextes que celui de la météo. Le ML que

nous employons, construit sur un large corpus très général, gagnerait probablement à

être adapté sur des données plus spécialisées. Les chapitres 6, 7 et 8 présentent notre

travail exploratoire pour adapter thématiquement le système de transcription. Avant de

décrire plus précisément nos travaux, nous exposons dans le chapitre qui suit le cadre

expérimental des diérents tests menés au cours de notre thèse.

Cadre expérimental

A

vant de présenter en détail nos contributions, nous exposons le dispositif

em-ployé au cours de nos diverses expérimentations. Par souci de clarté et de

ma-nière à ne pas disperser les informations que nous pourrions donner à ce sujet,

nous avons en eet préféré consacrer un court chapitre à la description des éléments

participant aux travaux développés dans la suite de ce mémoire. Nous y présentons tout

d'abord le type des documents étudiés, avant de donner les principales caractéristiques

du système de RAP que nous utilisons.

3.1 Le corpus Ester

Le corpus employé au cours de nos expérimentations est le corpus Ester. Il a été

constitué dans le cadre d'une campagne d'évaluation dédiée à la transcription enrichie

et à l'indexation de journaux radiophoniques de langue française [Gravier et al., 2004],

et comporte des émissions d'information diusées par diérentes chaînes de radio entre

1998 et 2004. Il correspond essentiellement à de la parole préparée dans la mesure où

les principaux intervenants sont des journalistes présentant des titres, des brèves ou des

reportages. On trouve toutefois de courts passages de parole spontanée où des personnes

sont interrogées pour intervenir sur des points de l'actualité. Certaines émissions peuvent

aussi comporter des interviews d'une dizaine de minutes accordées à des personnalités.

Sur l'ensemble du corpus Ester, 100 heures sont transcrites manuellement et

accompagnées d'annotations sur la présence de musique, de bruits ou encore

d'évé-nements comme les chevauchements de la parole prononcée par plusieurs locuteurs

(Fig. 3.1). Chaque émission d'information est généralement subdivisée en entités

jour-nalistiques telles que les titres , le journal , la météo , le point sur le trac

routier . . . Toutefois, cette segmentation est très hétérogène puisque certaines

émis-sions sont peu subdivisées, tandis que d'autres contiennent un découpage très précis

en associant ainsi une entité à chaque point abordé dans le journal comme politique

internationale - Irak : recherche des objets d'art . Les émissions sont de surcroît

seg-mentées manuellement en groupes de soue, en précisant à chaque fois l'identité du

locuteur. Ce mode de découpage est normalement eectué en fonction de la durée des

Le gouvernement américain va présenter, [i] euh, au conseil de sécurité de l' !ONU,

[i] un projet d(e) résolution, [mic] un texte qui permettrait, [i] la levée d(e) l'embargo

Noëlle ^^Véli.

où [i] marque une inspiration, !ONU représente un acronyme, d(e) indique

une absence de prononciation du e , [mic] témoigne de la présence d'un bruit

de micro et ^^Véli précise que le mot est inconnu par le transcripteur.

Fig. 3.1: Extrait du corpus Ester transcrit selon les conventions de Transcriber

source apprentissage développement

France Inter 19h40 8h 2h

France Info - 8h 2h

RFI

1

11h 8h 2h

RTM

2

- 18h 2h

total 30h40 42h 8h

période 1998-2000 2003 2003

Tab. 3.1: Répartition du corpus Ester utilisé

pauses silencieuses. Néanmoins, il semble que certains annotateurs aient également pris

en considération des informations d'ordre syntaxique en assimilant par exemple une

proposition relative à un groupe de soue ; cette décision conduit à des unités près

de deux fois plus courtes qu'habituellement, peu de groupes de soue dépassant une

taille de dix mots. Conjointement à cette segmentation acoustique, une annotation plus

linguistique est proposée en découpant le ux de parole en phrases et en indiquant des

signes de ponctuation.

Parmi ces 100 heures d'émissions, seules celles étiquetées dans le corpus comme

relevant de l'apprentissage et du développement (Tab. 3.1) ont été utilisées dans nos

travaux, ce qui représente au total 1M de mots. La fraction du corpus Ester destinée

à l'apprentissage a permis de construire le MA et le ML du système de RAP employé ;

celle dédiée au développement a quant à elle été divisée en deux parts d'une durée de 4

heures chacune. L'une permet de régler des paramètres, notamment la pondération du

ML par rapport au MA et la pénalité d'insertion de mot (cf. section 1.1.5), tandis que

l'autre sert pour les tests du système de RAP (Tab. 3.2).

1

Radio France internationale.

2

Radio télévision marocaine.

développement test

France Inter - 18/04/03 - 7h-8h France Inter - 18/04/03 - 8h-9h

France Info - 18/04/03 - 12h-13h France Info - 18/04/03 - 17h-18h

RFI - 08/05/03 - 14h-15h RFI - 09/05/03 - 14h-15h

RTM - 17/07/03 - 7h-7h15 RTM - 17/07/03 - 13h-13h20

RTM - 17/07/03 - 23h-23h15 RTM - 17/07/03 - 20h-20h20

RTM - 19/07/03 - 7h-7h15 RTM - 19/07/03 - 13h-13h20

RTM - 19/07/03 - 20h-20h15 RTM - 19/07/03 - 23h-23h10

45 565 mots 47 230 mots

Tab. 3.2: Détail des émissions utilisées comme corpus de développement et de test