Modèle de langage - Contexte de travail 9

Partie I Contexte de travail 9

1.3 Modèle de langage

phonétisations possibles d’une transcription. Ensuite, il choisit la phonétisation la plus probable en fonction des scores de vraisemblance calculés par les premiers modèles acoustiques sur le signal de parole.

Pour avoir un grand nombre de paramètres et ainsi obtenir des modèles basés sur des HMMs robustes et des systèmes indépendants du locuteur, on utilise de grands corpora de données contenant les énoncés de plusieurs locuteurs. En s’appuyant sur des données provenant de plusieurs locuteurs, les variabilités inter-locuteurs sont mieux modélisées. Le système obtiendra ainsi un taux d’erreur sur les mots plus performant pour un locuteur test n’intervenant pas dans le corpus d’apprentissage que si le système était dépendant du locuteur.

1.3 Modèle de langage

Le modèle de langage a pour objectif de capturer les contraintes du langage naturel afin de guider le décodage acoustique. Il permet notamment de résoudre les ambiguités données par les nombreux homonymes que contient la langue française. Comme nous l’avons déjà noté, les modèles de langage probabilistes ont pour objet d’attribuer une probabilité à une séquence de mots. De manière générale, la probabilité de la séquence de motsW₁^ks’exprime :

P(W₁^k) =P(w₁)

Le modèle de langage est estimé sur de grands corpora de textes pour avoir un maximum de couverture lexicale. Des données telles que des textes de journaux, de dépêches électroniques ou de transcriptions de documents audio sont utilisées. Les transcriptions enrichies compor-tant des annotations comme les hésitations ou encore les bruits de respirations sont favorisées, permettant ainsi une plus grande malléabilité du modèle de langage.

1.3.1 Modèles n-grammes

Le modèle de type n-gramme est le modèle probabiliste le plus généralement utilisé. Pour ce genre de modèle, l’historique d’un mot est représenté par lesn−1mots qui le précèdent.

Dans la pratique, la valeur den dépasse rarement 3: on parle de modèletrigramme (uni-grammepourn= 1,bigrammepourn= 2).

Même si ce genre de modèle semble particulièrement réducteur en ne prenant en compte que des contraintes lexicales courtes, il contient suffisamment d’informations pour guider effi-cacement un système de RAP. Enfin, une qualité fondamentale des modèles n-grammes est la couverture totale des phrases pouvant être exprimées dans un langage. Ceci est intéressant pour le traitement de la parole spontanée : l’utilisation de modèles probabilistes de type n-gramme permet de modéliser certains aspects du langage oral spontané incorrects d’un point de vue grammatical : un modèle de langage à base de règles de grammaires formelles serait plus faci-lement mis en défaut dans ce type de situation. Bien entendu, il est évident que ces phénomènes typiques de la parole spontanée doivent être observés dans le corpus d’apprentissage pour être modélisés par le modèle n-gramme. En contrepartie, la précision des modèles n-gramme est limitée puisque ce type de modèle ne rejette aucune phrase, y compris celles n’appartenant pas au langage visé. Cependant, les scores affectés à ces phrases sont souvent pénalisés par rapport au score des phrases plus correctes car elles sont composées de séquences de mots peu fréquentes (voire inexistantes) dans le corpus d’apprentissage du modèle de langage, alors qu’il est plus probable de rencontrer les séquences de mots d’une phrase valide.

1.3.2 Estimation des probabilités

L’apprentissage d’un modèle de langage n-gramme consiste à estimer un ensemble de pro-babilités à partir d’un corpus d’apprentissage. Ce corpus d’apprentissage peut être composé de textes mais également de données orales transcrites (voir figure 1.4). Ces données permettront l’estimation des probabilités desn-grammesrencontrés. La probabilité d’un mot étant donné le passé dépend desn−1étiquettes précédentes d’où la transformation de l’équation 1.3 en :

P(W₁^k) =

i=1

P(w_i|wi−1, ..., wi−n+1) (1.4)

Il existe plusieurs méthodes pour procéder à l’estimation des paramètres du modèle de langage [Federico 1998]. La plus commune est l’estimation par maximum de vraisemblance, dont le nom indique que la distribution des probabilités du modèle de langage obtenue est celle qui maximise la vraisemblance du corpus d’apprentissage :

P_{M V}(w_i|h_i) = n(h_i, w_i)

n(h_i (1.5)

oùn(x)indique la fréquence de x.

1.3. Modèle de langage

FIG. 1.4 – Apprentissage du modèle de langage

1.3.3 Lissage

C’est donc à partir de la valeur des fréquences d’apparition des n-grammes dans les données d’apprentissage que sont estimés les paramètres d’un modèle de langage. Malheureusement, la quantité de données est en général insuffisante et certains n-grammes n’apparaissent que peu de fois dans le corpus d’apprentissage. Il peut même arriver que certains mots du lexique soient absents du corpus d’apprentissage lorsque la construction de ce lexique n’impose pas cette présence.

Les techniques de lissage tentent de compenser cette carence : elles peuvent être vues comme une sorte de généralisation qui permet d’attribuer une probabilité non nulle à un événe-ment non vu dans le corpus d’apprentissage. Les principales techniques de lissage sont décrites dans [Chen 1996] où est également présentée une discussion sur leurs performances respectives.

Il existe deux grands types de lissage : le repli (ou back-off) et l’ interpolation linéaire. Le repli est un mécanisme qui permet à un modèle de langage de type n-gramme d’utiliser une probabilité issue d’un ordre inférieur (n−1,n−2, ...) lorsqu’aucune probabilité n’est disponible à l’ordren pour un mot et un historique donné. Pour chaque repli vers un ordre inférieur, la taille de l’historique est diminué et les chances d’obtenir une probabilité estimée sur le corpus d’apprentissage augmente. En contrepartie, un coefficient de repli est habituellement associé

à cette probabilité qui modifie la valeur finale de la probabilité proposée par le modèle pour le mot et l’historique donné. Pour l’interpolation linéaire, la probabilité du n-gramme est une combinaison linéaire des modèles d’ordre0àn. Chaque méthode de lissage peut être envisagée en versionback-off ou en versioninterpolation linéaire.

Dans le document Mesures de confiance en traitement automatique de la parole et applications. ~ Association Francophone de la Communication Parlée (Page 35-38)