Opérations spécifiques - Un exemple détaillé d’analyseur morphologique

4.3 Un exemple d´etaill´e d’analyseur morphologique

5.1.2 Op´erations sp´ecifiques

5.1.2.1 D´eterminisation et minimisation

Dans le cas simple des automates d’états finis (sans pondération), il est connu qu’un automate non-déterministe est toujours déterminisable : il existe au moins un automate non-déterministe qui lui est exac-tement équivalent, et l’on dispose d’algorithmes efficaces pour construire cet automate déterministe. Le cas des transducteurs est plus complexe, car un transducteur est déterminisable si l’on considère l’automate sous-jacent, mais peut rester ambigu si la relation qu’il reconnaˆıt l’est.

On dit d’un transducteur qu’il est fonctionnel, ou non-ambigu, si une chaˆıne du langage supérieur ne peut être mise en relation qu’avec une unique chaˆıne du langage inférieur. Dans le cas contraire, le transducteur est ambigu. Un transducteur peut être globalement non-ambigu tout en admettant toujours une forme d’ambigu¨ıté locale si l’automate obtenu par projection supérieure n’est lui-même pas déterministe.

Un transducteur est dit séquentiel s’il n’admet aucune ambigu¨ıté locale, c’est-à-dire si l’automate obtenu par projection supérieure est déterministe. L’avantage d’un transducteur séquentiel est, comme pour les automates déterministes, que l’application du transducteur à une chaˆıne se fait en un temps linéaire (proportionnel à la longueur de la chaˆıne), car il n’y a pas de retour arrière (voir section 5.1.2.3).

5.1 Le calcul d’états finis pondéré 95

Un algorithme de déterminisation de WFST découle simplement de l’algorithme classique fondé sur les sous-ensembles dans le cas des automates d’états finis classiques [Aho et al., 1986]. La seule modification majeure réside dans le calcul du poids des transitions et des poids résiduels pour chaque transition de l’automate non-déterministe [Mohri, 1997]. Cette modification a cependant un impact déterminant, car l’algorithme peut continuer indéfiniment pour certains types de transducteurs. Ainsi, tous les transducteurs d’états finis pondérés ne sont pas déterminisables. [Mohri, 1997] donne un critère de déterminisabilité pour les transducteurs non-ambigus ; mais certains transducteurs ambigus peuvent également être déterminisés.

La minimisation du nombre d’états d’un transducteur ne pose pas de problème particulier ; Sumo emploie l’algorithme de Brzozowsky, qui repose sur l’égalité suivante, où « Rev » dénote le renversement du transducteur, et « Det » sa déterminisation.

M in(T ) = Rev(Det(Rev(Det(T ))))

De cette égalité, il découle qu’un transducteur d’états finis pondéré est minimisable si et seulement si il est déterminisable. L’algorithme lui-même est alors trivial puisque les opérations de renversement et de déterminisation sont connues.

5.1.2.2 Composition et produit cart´esien

La composition de deux transducteurs est une opération fondamentale du calcul à états finis. Soient deux transducteurs T1 défini sur les alphabets Σ et Ψ , et T2 défini sur les alphabets Ψ et Ω ; alors la composition de ces deux transducteurs donne un nouveau transducteur T défini sur les alphabets Σ et Ω , mettant en relation directement le langage supérieur de T1 et le langage inférieur de T2 . Par composition, une séquence de transducteurs peut se réduire à un unique transducteur effectuant toutes les mises en relation en une seule étape. Un inconvénient est que, dans certains cas, le résultat de la composition peut être beaucoup plus gros que les deux transducteurs composés.

La composition de deux transducteurs est une opération rationnelle classique, mais dans le cas de transducteurs pondérés, les epsilon-transitions sont source d’ennuis, créant des chemins inutiles et surtout menant à des poids incorrects. [Mohri et al., 2000] propose un algorithme de composition pour des transducteurs ne comportant aucune epsilon-transition. Pour que cet algorithme soit utilisable pour n’importe quel transducteur, y compris ceux comprenant des epsilon-transitions, le symbole % est remplacé par deux symboles spéciaux, %u et %l représentant un % du côté supérieur ou inférieur d’une transition. Un filtre de composition est alors introduit pour effectuer la conversion de ces symboles spéciaux entre les deux transducteurs. La figure 5.1 montre une version légèrement modifiée de ce filtre. 0/0 !/0 <0_l:0_u>/0 2/0 0_l/0 1/0 0_u/0 !/0 0_l/0 3 0_u/0 !/0 0_u/0 _{0_l/0}

Fig. 5.1 – Filtre de composition

L’utilisation de ce filtre nécessite un prétraitement des opérandes : 1. suppression des epsilon-transitions dans les deux transducteurs ;

96 Syntaxe et s´emantique formelle de Sumo

2. remplacement de toutes les occurrences de % du côté inférieur du transducteur supérieur par le symbole spécial %l;

3. ajout d’une transition étiquetée par %u depuis chaque état du transducteur supérieur vers lui-même ;

4. remplacement de toutes les occurrences de % du côté supérieur du transducteur inférieur par le symboles spécial %u;

5. ajout d’une transition étiquetée par %l depuis chaque état du transducteur inférieur vers lui-même.

Dans l’exemple de Mohri et al., on compose le transducteur reconnaissant la relation a b:% c:% d avec la relation a:d % :e d:a. La figure 5.2 montre les deux transducteurs après l’étape de prétraitement, prêts à être composés via le filtre de composition.

0 0_l 1 a:d 0_l 2 0_u:e 0_l 3 d:a 0_l 0 0_u 1 a 0_u 2 b:0_l 0_u 3 c:0_l 0_u 4 d 0_u

Fig. 5.2 – Pr´etraitement des automates avant la composition

La composition s’effectue en deux étapes : premièrement, composition du transducteur supérieur avec le filtre, puis composition du résultat avec l’automate inférieur. Le résultat doit ensuite être post-traité en supprimant toute occurrence des symboles spéciaux introduits durant le prétraitement. Un algorithme de composition avec filtre. Sumo utilise un algorithme générique de compo-sition, utilisé pour quatre opérations : la composition elle-même, la composition itérative (décrite plus bas), le produit cartésien, et l’intersection. Il s’agit d’un algorithme de composition ignorant les epsilon-transitions et mettant en jeu un filtre. La composition s’opère en deux étapes : premièrement, le transducteur supérieur est composé avec le filtre ; deuxièmement, le résultat est composé avec le transducteur inférieur.

L’algorithme prend bien sûr en compte les poids des transitions : lorsque trois transitions sont com-posées, le poids de la nouvelle transition est le « produit » du poids des trois transitions, et de même, le poids des nouveaux états initiaux et finals créés est le « produit » des poids des états composés. Il est intéressant de noter que cet algorithme est tout aussi utilisable avec des transducteurs non-pondérés, car le filtre permet d’éviter la création de chemins tels que a:%% :b pour obtenir directement a:b.

L’intersection de deux automates est exactement la composition de ces deux automates.

L’implémentation de cet algorithme est présentée chapitre 7. Pour deux transducteurs donnés T1 et T2 et un filtre Tf , un nouveau transducteur R est créé. Les états de R correspondent à des triplets d’états de chaque automate ; on maintient une queue Q pour le parcours de tous les états en l’initialisant avec les états initiaux de R qui sont les états initiaux des trois automates. De même, un état « composite » est final si les trois états auquel il correspond le sont.

On note e ≈ f la correspondance de deux arcs. Deux arcs se correspondent si l’étiquette inférieure de l’un correspond à l’étiquette supérieure de l’autre. Notons que si l’une des étiquettes est ⊥ , la cor-respondance est toujours vraie. Le deuxième test de corcor-respondance, ligne 13, est légèrement différent : si l’étiquette inférieure de ef est ⊥ , alors il faut en réalité tester e1≈ e2 .

5.1 Le calcul d’états finis pondéré 97

Enfin, ligne 21, on crée un nouvel arc entre q et q#; son poids est le produit des poids des trois arcs, et son étiquette est construite à partir de celles des trois arcs : l’étiquette supérieure est l’étiquette supérieure de e1 , et l’étiquette inférieure est l’étiquette inférieure de e2.

Le produit cartésien. Le produit cartésien de deux automates est également proche de la composi-tion, et peut même être réalisé, comme l’interseccomposi-tion, avec cet algorithme général. La seule différence est que l’on utilise un nouveau filtre (figure 5.3) et un nouveau symbole particulier, %x.

0/0 !/0 _1/0 .:0_x/0 2/0 0_x:./0 .:0_x/0 0_x:./0

Fig. 5.3 – Filtre pour le produit cart´esien

La figure 5.4 montre le prétraitement de deux automates reconnaissant les langages a*b et cd*, afin de réaliser le produit cartésien ab* : c*d. L’automate supérieur est transformé en transducteur dont toutes les transitions ont un %lau niveau inférieur ; de la même manière, l’automate inférieur est transformé en transducteur dont toutes les transitions ont un %uau niveau supérieur. Le filtre permet donc d’effectuer la relation entre n’importe quel couple de transitions. On remarquera également qu’une transition étiquetée par %xest ajoutée à chaque état final, afin de pouvoir apparier des chaˆınes de longueur différente. 0 â:0_l 1 b:0_l 0_x 0 0_u:c 1 0_u:d 0_x

Fig. 5.4 – Pr´etraitement des automates avant le produit cart´esien

La figure 5.5 montre le résultat du produit cartésien, une fois le transducteur « nettoyé ». La composition itérative et l’équivalence des transducteurs. La composition itérative est une opération qui sort un peu du cadre habituel des états finis, car comme son nom l’indique, c’est une opération qui s’applique itérativement jusqu’à atteindre un point fixe. Soit deux transducteurs T1 et T2; les deux transducteurs sont composés, puis le résultat est de nouveau composé avec T2 , puis le résultat est de nouveau composé avec T2 et ainsi de suite tant que deux compositions successives donnent un résultat différent. Si les deux dernières opérations donnent deux transducteurs équivalents, alors c’est le résultat final de l’opération.

Nous n’avons pas trouvé dans la littérature d’algorithme permettant de déterminer l’équivalence de deux transducteurs pondérés. Nous avons résolu ce problème en définissant l’équivalence entre états de transducteurs pondérés. Deux états sont équivalents s’ils sont origine des mêmes chemins, avec le

98 Syntaxe et s´emantique formelle de Sumo

0 1 a:c/0 2/0 a:d/0 b:c/0 ^b:d/0 3 0:c/0 _4/0 0:d/0 b:0/0 0:c/0 0:d/0

Fig. 5.5 – Produit cart´esien de ab* et c*d

même poids, à un poids résiduel près (deux chemins peuvent avoir le même poids sans pour autant que les arcs eux-mêmes aient tous le même poids). L’algorithme utilisé est présenté chapitre 7. 5.1.2.3 Application d’un transducteur à une chaˆıne et poids d’un chemin

L’application d’un transducteur d’états finis pondéré à une chaˆıne se fait dans les deux directions : lookup pour l’application au niveau inférieur, donnant les correspondants au niveau supérieur, et inversement pour lookdown. Cette opération produit zéro, une ou plusieurs chaˆınes.

Si le transducteur est pondéré, on produit alors chaque chaˆıne une seule fois, avec son meilleur poids (par exemple le minimum dans le demi-anneau tropical). Mais, en général, on ne veut obtenir que la meilleure chaˆıne. C’est pourquoi on utilise alors une technique de programmation dynamique à la Viterbi. Ainsi, l’application d’un transducteur pondéré est en général plus rapide que celle du même transducteur non pondéré, car les calculs sur les poids sont beaucoup plus rapides que l’examen combinatoire de toutes les chaˆınes possibles.

Dans le document Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues (Page 107-111)