• Aucun résultat trouvé

12.3 Cinq nouveaux modèles probabilistes du sujet

12.3.1 PLSA LM basée sur le contexte

Dans cette section, nous proposons un nouveau modèle de langue à base du contexte pour la reconnaissance vocale nommée l’analyse probabiliste sémantique latente à base du con- texte (CPLSA). Dans ce modèle, le sujet est conditionné sur le cadre de l’historique im-

12.3 Cinq nouveaux modèles probabilistes du sujet 141

médiat et le document dans le modèle PLSA original [33]. Ce permet le calcul de toutes les probabilités de bi-grammes possibles du l’historique du contexte vu à l’aide du mod- èle. Il calcule correctement la probabilité du sujet d’un document invisible pour chaque historique du contexte présent, dans le document. Nous comparons notre approche avec un autre récemment proposé, nommée le modèle bi-gramme non lissée PLSA (UBPLSA) [7] où seules les probabilités bi-grammes observées sont calculées, ce qui provoque le calcul de probabilité du sujet incorrect pour l’historique présente du contexte du document non vu. Le modèle de CPLSA proposé nécessite beaucoup moins de temps du calcul et d’espace mémoire que pour le modèle bi-gramme non lissée PLSA [43]. Dans le modèle de CPLSA, les probabilités de mots pour les sujets sont calculées par la somme des événements des bi- grammes dans tous les documents. Toutefois, dans différents documents les mots peuvent apparaître pour décrire les différents sujets. Pour résoudre ce problème, nous introduisons également un Modèle CPLSA à base du documents (DCPLSA) [50]. Ce modèle est simi- laire au modèle de CPLSA sauf que la probabilité du mot est conditionnée à la fois au sujet et au document. Cependant, il nécessite une plus grande taille de mémoire et du temps du calcul que le modèle de CPLSA.

Données et paramètres

Nous avons choisi au hasard 500 documents du corpus ’87-89 WSJ [71] pour l’entrainement de la UBPLSA, la CPLSA et les modèles DCPLSA. Le nombre total de mots dans les doc- uments est de 224,995. Nous avons utilisé 5K de vocabulaire fermé de ponctuation non ver- balisé à partir de laquelle nous avons éliminé la liste de mots éliminatoires de MIT [3] et les mots peu fréquents qui se produisent qu’une seule fois dans les documents d’apprentissage. Après ces éliminations, le nombre total de mots du vocabulaire est de 2628 mots. Nous ne pouvions pas envisager plus de documents d’entrainement en raison du coût de calcul plus élevé et besoin énorme en termes de mémoire pour le modèle de UBPLSA [7] et les modèles DCPLSA. Pour la même raison, nous entrainons seulement les modèles bi-gramme UBPLSA, CPLSA et DCPLSA. De plus, nous avons utilisé le même nombre de documents pour les modèles PLSA et CPLSA pour une vraie comparaison. Pour capturer la régularité lexicale locale, les modèles du sujet sont interpolés avec un modèle trigramme back-o f f d’arrière plan. Le modèle trigramme de d’arrière plan est entrainé à partir du corpus le 87-89 WSJ en utilisant la version de back-o f f de lissage de la Witten-Bell; 5K de vocab- ulaire fermé de ponctuation non verbalisé et les seuils de 1 et 3 sont respectivement in- corporés sur les comptes de bi-grammes et de tri-gramme. Les coefficients de pondération d’interpolation sont calculés en optimisant sur la lieu de départ des données. Les expéri-

ences sont évaluées sur l’ensemble d’évaluation, qui est un total de 330 énoncés d’essai des données de référence de Novembre 1992 (ARPA CSR) pour les vocabulaires de 5K mots [71, 101].

Résultats expérimentaux

Nous avons testé les approches LM ci-dessus pour différentes tailles de sujets. Nous avons effectué les expériences cinq fois, et les résultats sont moyennés. Les résultats en termes de la perplexité et du WER sont respectivement présentés par le tableau 12.14 et par la graphique figure 12.5.

Table 12.14 Résultats de la perplexité des modèles sujets

Language Model 20 Topics 40 Topics

Background (B) 69.0 69.0

B+PLSA 62.0 61.9

B+UBPLSA 59.0 58.7

B+CPLSA 57.5 55.8

B+DCPLSA 55.5 53.8

Nous avons effectué le test t apparié sur les résultats de la perplexité des modèles ci- dessus avec un un niveau de signification de 0,01. Les valeurs de p pour différentes tailles du sujet sont décrites dans le tableau 12.15.

Table 12.15 p-valeurs obtenues à partir de la t test apparié sur les résultats de la perplexité

Language Model 20 Sujets 40 Sujets B+UBPLSA and B+CPLSA 6.0E-11 2.8E-14 B+CPLSA and B+DCPLSA 6.5E-12 3.1E-13

D’après le tableau 12.15, on peut noter que toutes les valeurs de p sont inférieures à la limite de signification de 0,01. Par conséquent, les améliorations de la perplexité du modèle DCPLSA proposé sur le modèle CPLSA [43] sont statistiquement significatifs. En outre, le modèle de CPLSA [43] est statistiquement meilleur que le modèle de UBPLSA [7].

Nous avons également effectué un test t apparié sur les résultats du WER pour les mod- èles interpolés avec un niveau de signification de 0,01. Les valeurs p du test sont représen- tées dans le tableau 12.16.

12.3 Cinq nouveaux modèles probabilistes du sujet 143 Topic 20 Topic 40 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 4 4 3.5 3.5 3.3 3.4 3.2 3.2 3 2.9

Background (B) B+PLSA B+UBPLSA B+CPLSA B+DCPLSA

Fig. 12.5 Résultats tels que mesurés par le WER (%) des modèles de langue Table 12.16 p-valeurs obtenues à partir de la t test apparié sur les résultats WER

Language Model 20 Sujets 40 Sujets B+UBPLSA and B+CPLSA 4.7E-06 9.3E-06 B+CPLSA and B+DCPLSA 6.9E-06 1.5E-07

D’après le tableau 12.16, nous pouvons voir que les valeurs de p sont inférieures à la limite de signification de 0,01. Par conséquent, les améliorations en terme du WER du modèle proposé DCPLSA sont statistiquement significatives.

Documents relatifs