• Aucun résultat trouvé

n-gramme et n/m-multigramme

N/A
N/A
Protected

Academic year: 2022

Partager "n-gramme et n/m-multigramme"

Copied!
22
0
0

Texte intégral

(1)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

Evaluation des Mod` ´ eles de Langage n-gramme et n/m-multigramme

P. Alain, O. Bo¨effard

Institut de Recherche en Informatique et Syst`emes Al´eatoires (IRISA) groupe Cordial

09 juin 2005

(2)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

Introduction

I M´ethodologie de construction :

I eterministe

I probabiliste

I Mod`eles de langage (sous forme d’arbre) :

I n-gramme `a horizon fixe

I n-gramme `a horizon variable

I n/m-multigramme

I M´ethodologie d’´evaluation : perplexit´e

I Comparaison `a nombre de param`etre, et taux hors vocabulaire constant.

I Complexit´e spatiale.

I Complexit´e temporelle.

(3)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

Pr´ esentation des mod` eles

I S´equence de mots W =w1,w2,· · ·,wN.

I Estimation de la perplexit´e

PP = 2H avec H = −1

N log2(P(W))

I Probabilit´e conjointeP(W) peut se d´evelopper en :

P(W) = p(w1

N

Y

i=2

p(wi|w1,· · ·wi−1)

(4)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

Mod` ele n-gramme ` a horizon fixe

Apprentissage :

I Tˆete `a 1 mot.

I Historique `a (n−1) mots.

D´ecodage :

I Sin-gramme absent dans l’apprentissage, r´eduit au (n−1) puis multipli´e par le coefficient de backoff.

I On prend la probabilit´e correspondant au chemin le plus long dans l’arbre du mod`ele.

I On stocke lesp(wi|wi−(j),· · ·wi−1),1≤j ≤n−1 dans le mod`ele.

p(wi|w1,· · ·wi−1) = p(wi|wi−(n−1),· · ·wi−1)

(5)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

Mod` ele n-gramme ` a horizon variable

Apprentissage :

I Tˆete `a 1 mot.

I Historique de 1 `a (n−1)mots.

D´ecodage :

I Si 2-gramme absent dans l’apprentissage, la tˆete est consid´er´ee comme non pr´edictible.

I On recherche la probabilit´e maximum.

I Par rapport aux n-grammes `a horizon fixe, la complexit´e temporelle est plus forte due `a la variation de l’horizon.

I La complexit´e spatiale est la mˆeme, on ne garde pas plus de probabilit´es.

p(wi|w1,· · ·wi−1) = max

1≤j≤n−1p(wi|wi−j,· · ·wi−1)

(6)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

Mod` ele n/m-multigramme

w_1 w_2 w_3 w_4 ---

w_1 , w_2 | w_3 w_2 | w_3 w_1 , w_2 | w_3, w_4 [w_1 , w_2] | [w_3, w_4]

Apprentissage :

I Tˆete `a 1 `a m mots.

I Historique de 1 `a m×(n−1)mots.

(7)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

Mod` ele n/m-multigramme

D´ecodage :

I Si 2-gramme absent dans l’apprentissage, la tˆete est consid´er´ee comme non pr´edictible.

I On recherche la probabilit´e maximum.

I Complexit´e temporelle due `a l’horizon (beaucoup plus long horizon par rapport aun-gramme `a horizon variable), et sur la tˆete.

I Complexit´e spatiale importante due au nombre de fragments de mots.

I Recherche du meilleur chemin dans la phrase selon l’algorithme de Dijkstra (garantie de la d´ecoupe optimale pour le calcul de la perplexit´e).

p(wi|w1,· · ·wi−1) =

1≤j≤m×(n−1)max max

0≤k≤m−1p([wi,· · ·wi+k]|wi−j,· · ·wi−1)

(8)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

M´ ethodologie exp´ erimentale

w_1 w_2 w_3 w_4 --- w_1 , w_2 | w_3 , w_4 w_1 , w_2 | w_3

w_2 , w_3 | w_4 w_2 | w_3 , w_4

I Contrainte sur la longueur des mod`eles.

I Modifications de la chaˆıne HTK.

I Corpus utilis´e.

I R´eduction du nombre de param`etre des mod`eles.

(9)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

M´ ethodologie exp´ erimentale : Longueur des mod` eles

Pour limiter la complexit´e spatiale, et comparer des mod`eles de taille ´equivalente : limitation `a une somme maximum la longueur tˆete+historique pour le mod`ele de multigramme.

Ici on compare un 3-gramme avec un 2/2-multigramme somme `a 3.

p([w3w4]|[w1w2]) = c(w1,w2,w3,w4) c(w1,w2) p(w4|w1,w2,w3) = c(w1,w2,w3,w4)

c(w1,w2,w3) p([w3w4]|[w2]) = c(w2,w3,w4)

c(w2)

p(w3|w1,w2)×p(w4|w2,w3) = c(w1,w2,w3)×c(w2,w3,w4) c(w1,w2)×c(w2,w3)

(10)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

M´ ethodologie exp´ erimentale : HTK

Utilisation de la chaˆıne htk :

I Extraction des n-uplets et accumulation des statistiques.

I Lissage des statistiques (Katz).

I Construction du mod`ele de langage (arbre).

I D´ecodage de la perplexit´e pour lesn-gramme fixe (et gestion des mots hors vocabulaires).

Modification apport´ees :

I Lors du test, it´erations suppl´ementaires pour les n-gramme `a horizon variable.

I Lors de l’apprentissage, it´erations pour les

multigrammes (prendre en compte les probabilit´es des multigrammes).

I Lors du test, it´erations suppl´ementaires pour l’algorithme de Dijkstra.

(11)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

M´ ethodologie exp´ erimentale : Corpus

I Corpus le monde 1997 : articles parus dans le journal

”Le Monde” pendant l’ann´ee 1997.

I Corpus normalis´e sur la casse et la ponctuation.

I Environ 1 million de phrases : 70% pour l’apprentissage et 30% pour le test.

<s>LES T´eMOIGNAGES MANQUENT QUI PERMETTRAIENT D ´eTAYER L HYPOTH`eSE</s>

<s>MANIOC ´ePINARDS ET L´eGUMES DIVERS POUSSENT EN VILLE HORS DES PARCELLES ET

DES JARDINS</s>

(12)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

M´ ethodologie exp´ erimentale : Contrˆ ole du nombre de param` etres

I Mˆeme nombre de param`etres pour les mod`eles n-gramme fixe et variable ; utilisation diff´erente des param`etres (gestion du ph´enom`ene de backoff).

I N´ecessit´e d’un nombre de param`etres constant pour la comparaison des mod`eles.

I Baisse du nombre de param`etres pour les multigrammes vers celui des deux autres mod`eles.

I Pour faire baisser celui des multigrammes :

I moins de fragments reconnus,

I seuils d’apparition plus ´elev´es (cutoff).

(13)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

R´ esultats exp´ erimentaux

I Vocabulaire de 30 000 mots.

I Vocabulaires de 3 000 mots et 60 000 mots.

I M´ethodes de r´eduction du nombre de param`etres.

(14)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

R´ esultats exp´ erimentaux : vocabulaire de 30 000 mots

I Vocabulaire de base de 30 000 mots.

I Baisse du nombre de fragments construits sur le vocabulaire reconnus par le mod`ele de langage pour diminuer le nombre de param`etres.

(15)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

R´ esultats exp´ erimentaux : vocabulaire de 30 000 I Vocabulaire de base mots

de 30 000 mots.

I Baisse du nombre de fragments

construits sur le vocabulaire

reconnus par le mod` ele de langage pour diminuer le nombre de

param` etres.

14/ 18

(16)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

R´ esultats exp´ erimentaux : vocabulaire de 3 000

et 60 000 mots

(17)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

R´ esultats exp´ erimentaux : vocabulaire de 3 000

et 60 000 mots

(18)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

R´ esultats exp´ erimentaux : vocabulaire de 3 000

et 60 000 mots

(19)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

R´ esultats exp´ erimentaux : R´ eduction du nombre de param` etres

La perplexit´e est meilleure si on augmente

le cutoff plutˆot que de diminuer le nombre de fragments reconnus.

(20)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

R´ esultats exp´ erimentaux : R´ eduction du nombre de param` etres

La perplexit´ e est

meilleure si on augmente le cutoff plutˆ ot que de diminuer le nombre de

fragments reconnus.

(21)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

Travaux compl´ ementaires

I Am´eliorer la perplexit´e en choisissant mieux les fragments ajout´es.

I Un fragment donne une meilleure perplexit´e que les 3-grammes correspondants si un certain 2-gramme est meilleur qu’un certain 3-gramme.

I Le mod`ele den-gramme variable n’est meilleur que parceque construit pour faire baisser la perplexit´e.

I Utiliser une autre mesure que la perplexit´e.

I Comparer les mod`eles sur une statistique des rangs de pr´ediction.

(22)

´Evaluation de Mod`eles de

Langage IRISA–Cordial

Introduction Pr´esentation des mod`eles ethodologie exp´erimentale esultats exp´erimentaux Travaux compl´ementaires Conclusion

Conclusion

I Hypoth`eses : Le mod`ele de multigrammes semble ˆetre bon car

I on utilise un max sur les probabilit´es,

I on ´evite des multiplications de probabilit´es (pr´ediction de plusieurs mots).

I Les exp´eriences ont tendance `a rejeter ces hypoth`eses.

I La perplexit´e n’est pas am´elior´ee avec un mod`ele de bi-multigrammes.

I Complexit´e temporelle importante due `a l’algorithme de Dijkstra.

I Effet sur la perplexit´e de la taille du vocabulaire reconnu.

Références

Documents relatifs

En r ´ealit ´e le m ´ecanisme est plus complexe, c’est une r ´eaction d’autocatalyse dans laquelle interviennent plusieurs r ´eactions avec des vitesses de diff ´erents ordres

A l’aide de l’exercice 1, construire l’estimateur sans biais de variance

(2003) apply the same model to unemployment rate estimation for the Canadian Labour Force Survey using shorter time series data and do not consider seasonal adjustments.. In this

hi´ erarchique R´ eponse Normale Introduit les Mod` eles de Markov Latents en SAE Enquˆ ete LFS: donn´ ees trimestrielles 2004-2014.. Meilleure Pr´ ediction Empirique SAE avec donn´

Th´ eor` eme quantile : besoin d’un terme suppl´

On veut utiliser un mod`ele d’Ising (avec la convention, potentiel de valeur 0 quand les deux sites voisins sont de mˆeme classe et β quand les deux sites voisins sont dans des

Dans le cas o` u le nombre total de politiques stationnaires est fini (e.g., si X et U le sont), on peut remplacer “&gt; ” par “&gt; 0” et l’algorithme s’arrˆ ete toujours

Nous voudrions pouvoir utiliser plusieurs fois un m ˆeme g ´en ´erateur au sein d’un programme, mais en d ´ebutant avec des semences diff ´erentes afin de produire des suites