• Aucun résultat trouvé

Adaptation LM à base de LDA en utilisant la Sémantique latente

12.2 Adaptation LM en utilisant LDA

12.2.1 Adaptation LM à base de LDA en utilisant la Sémantique latente

tente marginale (LSM)

Dans cette section, nous présentons les approches non supervisées d’adaptation du modèle de langue (LM) utilisant l’Allocation latente de Dirichlet (LDA) et LSM. La LSM est la distribution de probabilité unigramme sur les mots qui sont calculés en utilisant des mod-

èles unigramme LDA adaptés. Le modèle LDA est utilisé pour extraire des informations dépendantes du sujet à partir d’un corpus d’apprentissage de manière non supervisée. Le modèle LDA fournit une matrice du document-sujet qui décrit le nombre de mots attribués à des sujets pour les documents. Une méthode du regroupement à décision stricte utilise la matrice document-sujet du modèle LDA pour former des sujets. Un modèle adapté est créé en utilisant une combinaison pondérée des modèles n-grammes du sujet. L’interpolation du modèle d’arrière-plan et le modèle adapté donne une nouvelle amélioration. Nous modi- fions les modèles ci-dessus à l’aide de la LSM. La LSM est utilisée pour former un nouveau modèle adapté. Il utilise une approche d’adaptation, à base de l’information minimale dis- criminante (MDI), appelée l’échelle unigramme, qui minimise la distance entre le nouveau modèle adapté et l’autre modèle [49].

Les données et paramètres

Le corpus ’87-89 WSJ est utilisé pour entrainer le modèle de base de tri-gramme et les modèles tri-gramme du sujet. Les modèles sont entrainés en utilisant la version back-o f f de lissage de Witten-Bell. Les modèles de langage sont à vocabulaire fermée, c’est à dire, les modèles sont générés en utilisant les comptes de n-grammes sans tenir compte des n- grammes avec des mots inconnus. Pour réduire le coût du calcul, nous avons intégré les seuils 1 et 3 respectivement sur les comptes de bi-grammes et de tri-grammes. Le LDA et les modèles de langage sont entrainés en utilisant le WSJ 20K de vocabulaire fermée à ponctuation non-verbalisée. Nous définissons respectivement α et β pour l’analyse de LDA 50/K et 0,01 [37, 53]. Les poids d’interpolation φ et λ sont calculés selon la compute- best-mix programme de la boîte à outils de SRILM. Ils sont optimisés sur l’ensemble du développement du test. Les sémantiques latentes marginales (LSM) sont créés par une transcription automatique. La transcription automatique est le résultat de reconnaissance obtenu après une première passe de décodage des données d’évaluation. Les résultats des expériences sont rapportés sur l’ensemble du test.

Adaptation LM non supervisée en utilisant la pondération N-gram

Les perplexités sur les ensembles du test de Novembre 1993 et Novembre 1992 pour les différentes tailles de corpus sont respectivement décrites dans les tableaux 12.1 and 12.2.

Les résultats tels que mesurés par le WER des expériences sur les différents ensem- bles du test pour les différentes tailles de corpus sont respectivement rapportés dans les tableaux 12.3 et 12.4.

12.2 Adaptation LM en utilisant LDA 133 Table 12.1 Résultats tels que mesurés par la perplexité des modèles de langage trigramme utilisant la pondération n-gramme sur les Caractéristiques de test Novembre 1993

Language Model Topic 25 Topic 50 Topic 75 ’87 ’87-89 ’87 ’87-89 ’87 ’87-89 Background (B) 101.7 88.9 101.7 88.9 101.7 88.9 Adapted (A) Model 98.8 87.9 105.3 91.7 107.5 89.6 B+A Model 82.1 73.5 81.5 73.0 81.2 73.4

Table 12.2 Résultats tels que mesurés par la perplexité des modèles de langage tri-gramme utilisant la pondération n-gramme sur les données de test Novembre 1992

Language Model Topic 25 Topic 50 Topic 75 ’87 ’87-89 ’87 ’87-89 ’87 ’87-89 Background (B) 85.4 71.0 85.4 71.0 85.4 71.0 Adapted (A) Model 89.4 78.3 95.6 82.1 100.4 78.8 B+A Model 72.2 62.1 71.6 61.6 71.5 61.9

Table 12.3 Résultats WER (%) des modèles de langage à l’aide de pondération tri-gramme sur les données de test Novembre 1993

Language Model Topic 25 Topic 50 Topic 75 ’87 ’87-89 ’87 ’87-89 ’87 ’87-89 Background (B) 9.2 8.3 9.2 8.3 9.2 8.3 Adapted (A) Model 8.4 7.4 8.4 7.7 8.3 7.9

B+A Model 7.6 7.2 7.8 7.3 7.6 7.5

Table 12.4 Résultats tels que mesurés par le WER (%) des modèles de langage à l’aide de pondération tri-gramme sur les données de test Novembre 1992

Language Model Topic 25 Topic 50 Topic 75 ’87 ’87-89 ’87 ’87-89 ’87 ’87-89 Background (B) 4.8 4.6 4.8 4.6 4.8 4.6 Adapted (A) Model 5.3 4.5 5.6 4.7 5.5 4.3

Nouveau modèle adapté à l’aide de la LSM

Les résultats tels que mesurés par la perplexité des expériences utilisant les ensembles du test Novembre 1993 et Novembre 1992 pour les différentes tailles de corpus sont respec- tivement rapportés dans les tableaux 12.5 and 12.6.

Table 12.5 Résultats tels que mesurés par la perplexité sur les données du test Novembre 1993 à l’aide de modèles de langage tri-gramme obtenus en utilisant la LSM

Language Model Topic 25 Topic 50 Topic 75

’87 ’87-89 ’87 ’87-89 ’87 ’87-89 Background (B) 101.7 88.9 101.7 88.9 101.7 88.9 Adaptation of (B) model 98.8 85.9 97.8 85.7 97.2 84.8 Adaptation of A model 97.9 86.7 103.5 89.9 105.1 87.0 Adaptation of (B+A) model 80.7 72.0 79.3 71.0 78.5 70.8

Table 12.6 Résultats tels que mesurés par la perplexité sur les données du test Novembre 1992, utilisant des modèles de langage tri-gramme obtenus en utilisant la LSM

Language Model Topic 25 Topic 50 Topic 75

’87 ’87-89 ’87 ’87-89 ’87 ’87-89 Background (B) 85.4 71.0 85.4 71.0 85.4 71.0 Adaptation of (B) model 84.2 70.2 83.9 69.9 83.6 69.7 Adaptation of A model 88.5 78.2 94.0 81.4 98.3 77.3 Adaptation of (B+A) model 71.4 61.6 70.4 60.8 70.1 60.7

Les résultats tels que mesurés par le WER des expériences sur les différents ensembles du test pour les différentes tailles de corpus sont rapportés dans les tableaux 12.7 and 12.8.

Signification statistique et analyse des erreurs

L’amélioration significative du WER est réalisée en utilisant un test de paire assortie où les mots mal reconnus dans chaque énoncé du test sont comptés. Les valeurs p de l’unigramme proposé du modèle (B + A) sont respectivement mesurées par rapport au modèle d’arrière- plan, l’unigramme du modèle d’arrière-plan [96], l’unigramme du modèle adapté [42] et l’interpolation du modèle d’arrière-plan et les modèles adaptés [40]. Pour l’ensemble du test Novembre 1993 utilisant la taille du sujet 25 et le corpus ’87-89, les valeurs de p sont

12.2 Adaptation LM en utilisant LDA 135 Table 12.7 Résultats tels que mesurés par le WER (%) sur les données du test Novembre 1993 à l’aide des modèles de langage tri-gramme obtenus en utilisant LSM.

Language Model Topic 25 Topic 50 Topic 75

’87 ’87-89 ’87 ’87-89 ’87 ’87-89

Background (B) 9.2 8.3 9.2 8.3 9.2 8.3

Adaptation of (B) model 9.2 8.0 9.0 8.0 9.1 8.1 Adaptation of A model 8.4 7.5 8.5 7.7 8.6 7.9 Adaptation of (B+A) model 7.6 6.9 7.7 7.2 7.6 7.2

Table 12.8 Résultats tels que mesurés par le WER (%) sur les données du test Novembre 1992, utilisant des modèles de langage tri-gramme obtenus en utilisant LSM.

Language Model Topic 25 Topic 50 Topic 75

’87 ’87-89 ’87 ’87-89 ’87 ’87-89

Background (B) 4.8 4.6 4.8 4.6 4.8 4.6

Adaptation of (B) model 4.8 4.6 4.8 4.7 4.9 4.6 Adaptation of A model 5.3 4.5 5.6 4.6 5.6 4.4 Adaptation of (B+A) model 4.2 3.8 4.2 3.8 4.1 3.7

4,0E-9, 0,00081, 7,4E-8, et 0,00175. Pour l’ensemble de test Novembre 1992, utilisant des tailles du sujet 75 et le corpus ’87-89, les valeurs de p sont 4,9E-6, 0,0071, 8,3E-7, et 0,00989. À un niveau de signification de 0,01, l’approche proposée est nettement meilleure que les autres modèles.

Les tableaux 12.9 et 12.10 sont utilisés pour présenter les résultats de l’ASR pour la suppression (D), la substitution (S), et l’insertion (I) des erreurs, ainsi que l’exactitude (Corr) et la précision (Acc) des modèles trigrammes de langage. En observant ces tableaux, nous pouvons noter que l’unigramme proposé du modèle B + A réduit tous les types d’erreurs et améliore l’exactitude et la précision relative à l’arrière-plan et à d’autres modèles [40, 42, 96]. L’utilisation de l’approche proposée, la suppression et les erreurs d’insertion ne changent pas beaucoup par rapport à l’arrière-plan et à d’autres modèles. Par conséquent, les erreurs de substitution jouent un rôle important pour améliorer la performance, à savoir, plusieurs mots peuvent être reconnus avec précision en utilisant la méthode proposée à l’arrière-plan et à d’autres modèles. Nous pouvons également noter que l’amélioration du modèle A peut aider à réduire les erreurs existantes dans l’approche actuelle.

Table 12.9 Résultats tels que mesurés par l’ASR pour les erreurs de la suppression (D), la substitution (S), et l’insertion (I), et aussi pour l’exactitude (Corr) et la précision (Acc), des modèles de langage tri-gramme obtenus en utilisant l’ensemble du test Novembre 1993 avec la taille du sujet 25 et le corpus 87-89.

Language Model D S I Corr Acc

Background (B) 0.010 0.064 0.009 0.926 0.917

Adaptation of B model using LSM 0.010 0.061 0.008 0.929 0.920 Adaptation of A model using LSM 0.010 0.058 0.006 0.931 0.925

B+A model 0.010 0.055 0.007 0.935 0.928

Adaptation of B+A model using LSM 0.009 0.054 0.006 0.937 0.931

Table 12.10 Résultats tels que mesurés par l’ASR pour les erreurs de la suppression (D), la substitution (S), et l’insertion (I), et aussi pour l’exactitude (Corr) et la précision (Acc), des modèles de langage tri-gramme obtenus en utilisant l’ensemble du test Novembre 1992 avec la taille du sujet 75 et le corpus 87-89.

Language Model D S I Corr Acc

Background (B) 0.003 0.033 0.010 0.965 0.954

Adaptation of B model using LSM 0.003 0.033 0.010 0.964 0.954 Adaptation of A model using LSM 0.003 0.030 0.011 0.967 0.956

B+A model 0.002 0.027 0.009 0.970 0.961

Adaptation of B+A model using LSM 0.002 0.026 0.009 0.973 0.963

Documents relatifs