Exemple de représentation d’un modèle varigramme, sous forme d’arbre

Comme chaque nœud représente un contexte, des nœuds proches et associés à des proba-bilités conditionnelles similaires sont ainsi fusionnés. Dans le cas de modèlesn-grammes clas-siques, l’arbre aurait une profondeur fixe égale àn−1. L’avantage des modèles varigrammes est ainsi la diminution du nombre de paramètres, tout en gardant des performances similaires.

Il existe d’autres modèles de langage dans lesquels l’historique est modifié afin que sa lon-gueur puisse être augmentée. Nous pouvons citer les modèles permugrammes [STHKN95] dans lesquels les historiques considérés correspondent à une permutation des mots du contexte courant ou encore les modèles multigrammes [DB95] dans lesquels l’historique est considéré comme une suite de groupes de mots. La plupart de ces approches n’ont cependant permis d’ob-tenir que peu d’améliorations par rapport aux modèlesn-grammes. De plus, ils augmentent la taille du modèle de langage résultant puisqu’ils sont souvent combinés avec un modèle n -gramme.

2.4.7.2 Modèles à base de cache

Un scripteur qui écrit un mot est susceptible de l’écrire de nouveau, dans un futur proche. Cette observation est la base des modèles à base de cache [KM90]. Ces modèles prennent en compte un historique allant de plusieurs dizaines à plusieurs centaines de mots. Les probabilités

P(wi|Φ(hi))sont alors évaluées à partir des fréquences d’apparition des mots, non plus dans le corpus d’apprentissage mais dans le cache. Toutefois, les modèles à base de cache sont généralement combinés avec des modèles n-grammes, dont les probabilités sont calculées à partir d’un corpus d’apprentissage :

P(w_i|Φ(h_i)) =λ P(w_i|wⁱ_i₋⁻_n¹₊₁) + (1−λ)P_Cache(w_i|wⁱ_i⁻₋¹_K₊₁) (2.45) avec K la longueur du cache, telle que K n. Il existe plusieurs stratégies pour traiter les mots du cache afin de calculerP_Cache(w_i|wⁱ_i₋⁻_K¹₊₁).

Dans un modèle à base de cache régulier [KM90], la probabilité d’un mot est proportionnelle à son nombre d’occurrences dans le cache de longueur fixeK et est définie par l’équation :

P_CacheReg(wi|w_iⁱ⁻₋¹_K₊₁) = ¹ K i−1 X j=i−K+1 δ(wj, wi) (2.46) avecδ(w_j, w_i) = 1siw_j =w_i, 0 sinon.

Dans un modèle à base de cache à oubli exponentiel [Cla99] (en anglais, history decay), la position du mot dans le cache est prise en compte : plus un mot est loin dans le cache, moins il est susceptible d’être écrit de nouveau. Ainsi, la contribution d’un motwi décroît de manière exponentielle avec l’augmentation de la distance entre ce motw_jet le mot courantw_i, l’équation 2.46 devenant : P_CacheExp(wi|w_iⁱ₋⁻_K¹₊₁) =β 1 K i−1 X j=i−K+1 δ(wj, wi) × exp(−α(i−j)) (2.47)

avecαle poids d’oubli etβune constante de normalisation définie de façon à obtenir : X

wi∈V

P_CacheExp(w_i|wⁱ_i⁻₋¹_K₊₁) = 1. (2.48) Bien que les modèles à base de cache permettent de diminuer considérablement la perplexité, le taux d’erreur des systèmes de reconnaissance de parole utilisés dans [KM90, Cla99] ne dimi-nue que très peu. Ce problème vient essentiellement de la présence d’erreurs de reconnaissance parmi les mots du cache. En effet, le système de reconnaissance à tendance à répéter les erreurs présentes dans le cache. Par exemple, si le scripteur a écrit « efface tous les souvenirs » et que le système a reconnu « efface tous les sourires » alors, si le scripteur écrit « mes souvenirs sont

loin », le système reconnaîtra plutôt « mes sourires sont loin », comme la probabilité de sou-rires est plus élevée que celle de souvenirs. L’utilisation d’un modèle à base de cache, dans un

système de reconnaissance, doit ainsi s’accompagner d’un mécanisme de correction des erreurs par l’utilisateur, afin que les performances du système puissent être améliorées [Goo01].

2.4.7.3 Modèles à entropie maximale

Les modèles à entropie maximale [DD72] ont récemment été utilisés pour modéliser le langage [Ros94, BPP96]. Ces modèles permettent d’incorporer différentes sources d’informa-tions (n-grammes, n-classes, n-grammes distants. . .), en exprimant celles-ci sous forme de contraintes. Ces contraintes sont représentées par des fonctions caractéristiques qui sont appli-quées à un motwi et à son historiquewⁱ₁⁻¹. Une fonction de caractéristique fc retourne1si la contraintecqu’elle exprime est vérifiée par le motw_i et son historiquew₁ⁱ⁻¹,0sinon. Par exemple, si la fonctionf_c correspond au trigramme « le miroir casse », cela s’exprime par :

f_{le miroir casse}(w₁ⁱ) =

1 siw_i₋₂ =leetw_i₋₁ =miroiretw_i=casse

La probabilité d’un mot w_i est alors définie à partir des fonctions caractéristiques f_c par l’équation suivante : P_MaxEnt(w_i|wⁱ₁⁻¹) = ^exp( P c λ_cf_c(wⁱ₁)) z(wi 1) ^(2.50)

avecλ_c des paramètres réels obtenus par un algorithme d’apprentissage comme l’algorithme

GIS (Generalized Iterative Scaling) [DD72, BPP96] ; ces paramètres fixent le poids de chaque

fonction caractéristique.z(wⁱ₁)est une constante de normalisation, calculée afin d’obtenir : X

P_MaxEnt(w_i|w₁ⁱ⁻¹) = 1. (2.51) Ces modèles permettent ainsi de combiner différents types d’informations de manière élé-gante. En effet, le modèle combiné est appris directement, au lieu d’être obtenu par combinai-son de modèles appris séparément. Néanmoins, l’inconvénient majeur de ce type de modèle est le temps de calcul élevé, aussi bien lors de son apprentissage que lors de son utilisation, le nombre de fonctions caractéristiques pouvant atteindre plusieurs millions. De plus, ces modèles n’ont pas encore permis d’obtenir de réduction significative de la perplexité [Goo01].

2.4.7.4 Modèles à base de réseaux de neurones

Il peut être intéressant de pouvoir exprimer une similarité entre mots. En effet, si la phrase

« les fantômes dansent entre les arbres » est présente dans le corpus d’apprentissage, il devrait

être possible de généraliser la phrase « des lutins courent dans la forêt » en lui donnant une probabilité voisine, en s’appuyant sur le fait que fantômes et lutins ont des rôles grammaticaux et sémantiques similaires (il en est de même pour arbres et forêt ainsi que pour dansent et

courent ou encore les et des). L’approche basée sur des réseaux de neurones [BDVJ03] permet

d’exprimer une similarité entre mots. Dans cette approche, chacun des mots du vocabulaire est représenté par un vecteur de mcaractéristiques, avecm |V|(m = 30, dans [BDVJ03]). Deux mots ayant des rôles syntaxiques et sémantiques similaires auront ainsi des vecteurs de caractéristiques proches.

La probabilité P(w_i|wⁱ_i⁻₋¹_n₊₁) est représentée par une fonction f(w_i, . . . , w_i₋_n₊₁). Cette fonction se décompose en deux parties et est illustrée par la figure 2.2.

Une matrice Cde dimension|V| ×mpermet tout d’abord d’obtenir le vecteur de carac-téristiques de taille m, pour chacun des |V| mots du vocabulaire. Ensuite, le réseau de neu-rones prend en entrée m×(n−1)valeurs, correspondant aux vecteurs de caractéristiques

(C(w_i₋_n₊₁), . . . , C(w_i₋₁)) des mots de l’historique w_iⁱ⁻₋_n¹₊₁. La couche de sortie comporte

|V|neurones, soit un pour chaque mot du vocabulaire. Ainsi, pour un historiquew_iⁱ⁻₋_n¹₊₁donné, laj^esortie correspond à la probabilitéP(wij|w_iⁱ⁻₋¹_n₊₁),wij étant lej^emot du vocabulaire. Le réseau de neurones comporte également une ou plusieurs couches cachées ainsi que d’éven-tuelles connexions directes des neurones de la couche d’entrée vers ceux de la couche de sortie. La projection des mots dans le nouvel espace de représentation, c’est-à-dire leurs vecteurs de caractéristiques (représentés par la matriceC), ainsi que les poids du réseau de neurones sont appris de manière simultanée.

... ... ... ... ... ... ... ... sortiej:P(wij|wⁱ_i₋⁻_n¹₊₁) couche de sortie couche(s) cachée(s) couche d’entrée matriceC C(wi−n+1) C(wi−n+2) C(wi−1) w_i₋_n₊₁ w_i₋_n₊₂ w_i₋₁

Dans le document Intégration de connaissances linguistiques pour la reconnaissance de textes manuscrits en-ligne (Page 55-58)