Connaissances linguistiques au sein du modèle de langage

2.3 À quel niveau du processus de transcription ?

i, l'ensemble

c, on aura ainsi :

_w_a_w_b_w_c

A

Connaissances linguistiques au sein du modèle de langage

2.3 À quel niveau du processus de transcription ?

2.3.2 Connaissances linguistiques au sein du modèle de langage

Le ML est alors généralement constitué d'un modèleN-grammes, auquel on adjoint des

informations supplémentaires selon diérents schémas.

Une première solution consiste à construire un nouveau ML plus linguistique que

l'on utilise en remplacement d'un modèleN-grammes. Ceci est notamment réalisé dans

des systèmes de RAP à langage restreint où une grammaire non contextuelle peut être

jugée susamment informative pour que l'on n'utilise pas de ML N-grammes [Sene,

1992]. Parfois, le modèle linguistique inclut aussi déjà des connaissances lexicales sur

les probabilités de séquences de mots [Heeman, 1999 ; Wang et Harper, 2002].

Une deuxième possibilité est de continuer à employer un ML N-grammes mais en

modiant ses probabilités à l'aide d'informations plus précises sur un domaine. Ces

connaissances peuvent être obtenues à l'aide d'un corpus d'adaptation [Chen et al.,

2003] ou bien d'une grammaire non contextuelle probabiliste [Stolcke et Segal, 1994 ;

Jurafsky et al., 1995].

Une dernière solution consiste à combiner plusieurs modèles, apportant chacun des

connaissances, pour constituer un seul ML. Cette combinaison peut se faire au moyen

de l'interpolation linéaire ou du repli, dont les principes ont déjà été exposés (cf.

sec-tion 1.2.1). Dans le cas de l'interpolasec-tion linéaire, technique la plus utilisée du fait

de sa simplicité, la combinaison de M modèles diérents associés aux distributions de

probabilité P

avec k= 1. . . M s'eectue de la manière suivante :

P(w

|w

) =

X

λ

P

(w

|w

) (2.8)

où P

= 1. En ce qui concerne le repli, le calcul pour combinerM modèles, avecM

xé ici à 2 pour simplier l'équation, s'écrit [Niesler et Woodland, 1996a] :

P(w

|w

) =

½

P

(w

|w

) siw

∈Φ

(w

)

α(w

)×P

(w

|w

) sinon (2.9)

où Φ

(w

) représente l'ensemble des mots dans le contexte w

pour lequel le 1

modèle est à utiliser en priorité, et α est un coecient de normalisation. L'intérêt de

cette méthode est d'utiliser d'abord les modèles les plus perfectionnés quand on dispose

de susamment d'informations dans le contexte courant. Une autre possibilité pour

combiner des modèles est d'utiliser des modèles exponentiels, appelés encore à entropie

maximale [Rosenfeld, 1996 ; Goodman, 2001]. La plupart des ML sont déterminés en

recherchant la distribution de probabilité P qui maximise la probabilité d'observation

d'un corpus représentatif du langage à modéliser. Les modèles exponentiels quant à eux

se basent sur un critère de maximisation de l'entropie, en recherchant parmi toutes les

distributionsP celle qui vérie :

ˆ

P = arg max

où H est la fonction d'entropie. De manière à modéliser les dépendances entre

l'histo-riquew

et le mot à prédirew

Pest réduit par des fonctions de contraintes

f

retournant typiquement 0 ou 1. Celles-ci permettent de représenter des modèlesN

-grammes ou d'autres types de ML ; dans le cas d'une fonction pour le tri-grammes

w

w

w

f

(w

) =

½

où ^P

) sinon ^(2.9)

0 sinon ^(2.11)

) = ^exp(