Spécialisation de l'unigram rescaling - Utilisation de termes simples

6.3 Utilisation de termes simples

6.3.2 Spécialisation de l'unigram rescaling

Travaillant à partir de termes simples, nous avons voulu expérimenter diérentes straté-gies d'adaptation en reprenant le cadre de l'unigram rescaling. Ces stratéstraté-gies s'appuient sur deux hypothèses que nous souhaitons vérier. D'une part, nous pensons qu'une adaptation thématique ne doit pas s'appuyer sur tous les mots du vocabulaire du système mais seule-ment sur les termes du thème. D'autre part, nous estimons que certains mots partagent un même rôle sémantique au sein d'un thème et que, par conséquent, des n-grammes contenant ces mots devraient voir leur probabilité être adaptée dans de mêmes proportions.

6.3.2.1 Restriction à l’ensemble des termes simples

Pour ne pas procéder à une adaptation de toutes les probabilités n-grammes, nous proposons d'aménager la méthode d'unigram rescaling en regroupant uniquement au sein de

29Suite à des réexions postérieures aux travaux que nous présentons ici, nous montrons dans l'annexeD que ces terminologies peuvent être améliorées par le choix d'une autre variante du score tf-idf que celle utilisée ici et par l'utilisation de relations paradigmatiques.

FIGURE6.3Inuence du nombre de termes considérés pour l'unigram rescaling sur le WER et la perplexité.

mêmes caractéristiques les n-grammes terminant par un même terme simple. Ceci s'exprime par l'ensemble de contraintes suivant :

hf_w_ˆ, P_Ai=Pa[ ˆw], ∀wˆ∈Tn , (6.19) où Tn est une terminologie de n mots apprise à partir d'un corpus thématique et Pa est une distribution unigramme estimée sur ce même corpus. Ce système conduit à un facteur de mise à l'échelle suivant pour un terme t:

α(ht) =α(t) = P_a[t]

P_B[t] . (6.20)

Pour le reste des n-grammes ne terminant pas par un terme simple, il peut être démontré à partir de la formule (6.8) que cet ensemble de contraintes conduit à leur attribuer un facteur de mise à l'échelle égal à 1 (cf. l'annexe A.3), c'est-à-dire que les probabilités de ces n-grammes sont directement reportées à partir de la distribution du modèle généraliste, à un coecient de normalisation près.

Nous avons comparé l'utilisation de terminologies de diérentes tailles par rapport à la prise en compte du vocabulaire entier pour l'adaptation de notre modèle généraliste. La gure 6.3montre l'impact de ces deux stratégies sur notre ensemble de développement en terme de WER et de perplexité. Il apparaît que, quelque soit leur taille, l'utilisation de terminologies conduit à peu près aux mêmes gains sur le WER et sur la perplexité que l'adaptation fondée sur le vocabulaire complet. Il semblerait qu'une taille de 5000 termes soit susante puisqu'il s'agit de la valeur aboutissant aux meilleurs gains sur le WER.

Ces premiers résultats tendent à montrer que seuls les termes liés au thème contribuent ecacement à l'adaptation thématique.

Une deuxième série d'expériences a été menée en ne considérant cette fois que des terminologies de500termes (T500), ce qui constitue un cas extrême puisque cela représente moins de1 %du vocabulaire, et de5000termes (T₅₀₀₀), valeur optimale pour le WER. Ces expériences ont consisté à mesurer l'eet de l'adaptation MDI lorsque celle-ci incorpore ou exclut les mots de nos terminologies au sein de l'ensemble des caractéristiques servant à l'adaptation MDI. Les résultats en terme de perplexité, WER et LER de ces expériences sont présentés et comparés à ceux obtenus via une interpolation linéaire par la table 6.5.

Utilisation de termes simples

Perplexité WER LER

Sans adaptation 96,9 22,1 19,4

Interpolation linéaire (λ= 0,8) 80,1 (−17 %) 21,4(−0,7) 18,6(−0,8) Adaptation MDI

fondée sur

V 75,5 (−20 %) 21,3(−0,8) 18,3(−1,1) T500 76,7 (−19 %) 21,3(−0,8) 18,5(−0,9) T5000 75,5 (−20 %) 21,2(−0,9) 18,4(−1,0) V T500 94,8(−2 %) 21,9(−0,2) 19,3(−0,1) V T5000 95,4(−2 %) 22,0(−0,1) 19,4(0,0)

TABLE6.5 Perplexité, WER et LER mesurés sur l'ensemble de développement sans adap-tation et avec diérentes méthodes d'adapadap-tation. Entre parenthèses, les variations relatives moyennes de la perplexité et les variations absolues moyennes des taux d'erreur.

Outre les meilleurs résultats de l'adaptation MDI par rapport à l'interpolation linéaire, ces résultats montrent clairement que l'adaptation n'a pas d'eet lorsque les termes simples sont exclus de l'adaptation thématique (cas V T500 et V T5000) , ce qui conrme notre hypothèse de travail.

6.3.2.2 Regroupement de termes simples

Notre seconde hypothèse pour rendre plus ecace une adaptation thématique est que certains mots partagent un même rôle sémantique dans le langage utilisé au sein d'un thème.

Au delà du choix des termes à utiliser pour l'adaptation MDI, cette hypothèse implique de s'intéresser aux choix des fonctions caractéristiques utilisées pour regrouper les n-grammes du modèle initial. Au lieu de regrouper les n-grammes en fonction de leur dernier mot, comme cela se fait dans la technique d'unigram rescaling, nous proposons trois nouvelles fonctions caractéristiques : une première fondée sur des lemmes :

f_`(hw) =

(1 si`est le lemme de w,

0 sinon , (6.21)

une seconde qui, pour chaque termewˆ, rassemble tous les n-grammes dont le dernier mot partage une relation paradigmatique³⁰ avec wˆ :

f_{R( ˆ}_w)(hw) =

(1 siw partage une relation paradigmatique avecw,ˆ

0 sinon , (6.22)

et une dernière qui regroupe tous les mots d'une terminologieT donnée au sein d'une même caractéristique :

f_T(hw) =

(1 siw appartient àT,

0 sinon . (6.23)

La fonction caractéristique f_` se justie par l'idée selon laquelle l'information exionnelle n'est pas importante pour juger de l'importance d'un mot au sein d'un thème, c'est-à-dire que diérentes exions d'un même terme partagent la même importance. Si cette idée peut se discuter dans certains cas, les termes ^liberté et ^libertés ne réferrant pas forcément le

30Ces relations sont issues d'un apprentissage automatique.

Perplexité WER LER

Sans adaptation 96,9 22,1 19,4

T500

Pas de regroupement (fwˆ) 76,7(−19%) 21,3 (−0,8) 18,5(−0,9) Regroupement par lemme (f_`) 77,0(−19%) 21,4 (−0,7) 18,7(−0,7) Regroupement paradigmatique (f_{R( ˆ}_w)) 91,6 (−5%) 21,8 (−0,3) 19,1(−0,3) Tous regroupés (fT) 89,2 (−7%) 21,7 (−0,4) 19,1(−0,3) T5000

Pas de regroupement (f_w_ˆ) 75,5(−20%) 21,2 (−0,9) 18,4(−1,0) Regroupement par lemme (f`) 74,2(−20%) 21,4 (−0,7) 18,6(−0,8) Regroupement paradigmatique (f_{R( ˆ}_w)) 90,0 (−6%) 21,8 (−0,3) 19,0(−0,4) Tous regroupés (fT) 94,0 (−3%) 21,9 (−0,2) 19,3(−0,1) TABLE6.6Perplexité, WER et LER mesurés sur l'ensemble de développement pour dié-rentes fonctions caractéristiques pour des terminologies de500et5000termes.

même concept dans l'absolu, elle est globalement défendable, d'autant plus quand on se place dans un domaine donné. La fonctionf_{R( ˆ}_w)se fonde sur le fait que l'existence du lien paradigmatique entre deux mots signie que ces deux mots apparaissent dans des contextes lexicaux similaires. À partir du moment où ^bicyclette est un terme, cette fonction vise, par exemple, à adapter dans les mêmes proportions les n-grammes monte à bicyclette, monte à vélo, vend des vélo ou encore arrête de pédaler. La fonctionf_T est, quant

à elle, plus catégorique puisqu'elle repose sur l'hypothèse selon laquelle tous les mots d'une terminologie participent de la même manière à l'évocation d'un thème.

La table6.6présente les résultats obtenus en termes de perplexité, WER et LER à partir de ces diérentes fonctions caractéristiques et les comparent à ceux obtenus avec la fonction caractéristique classiquef_w_ˆ. Il apparaît que le regroupement de tous les termes simples au sein d'une même caractéristique (fonctionf_T) produit des gains nettement plus faibles que ceux reportés pour les autres fonctions. Ces résultats sont d'ailleurs d'autant moins bons que le nombre de termes considérés augmente. Nous expliquons ces résultats par le fait que notre hypothèse sur l'importance équivalente de tous les termes au sein d'un thème est probablement trop grossière. Un constat similaire peut être fait en terme de résultats pour l'utilisation de relations paradigmatiques. Nous pensons toutefois que l'hypothèse sur laquelle s'appuie cette idée reste bonne. Nous attribuons plutôt ces résultats en demi-teintes à la qualité médiocre de nos relations paradigmatiques utilisées dans ces expériences, ce qui tend à réduire la spécicité de chaque caractéristique et conduit à adapter un peu tous les n-grammes du modèle de langue dans des proportions relativement similaires. Il serait intéressant de réitérer ces expériences avec des relations de meilleure qualité. De son côté, la stratégie de regroupement en lemmes produit des résultats quasi similaires à ceux obtenus avec la fonction habituellef_w_ˆ. Plus précisément, les gains en perplexité sont identiques alors que les WER et LER retournés sont légèrement moins bons. À la lumière de ces résultats, nous avons choisi d'écarter les fonctions caractéristiquesf_T etf_{R( ˆ}_w) pour nos expériences sur le corpus de test.

Dans le document Adaptation thématique non supervisée d'un système de reconnaissance automatique de la parole ~ Association Francophone de la Communication Parlée (Page 103-106)